تسارع مجموعات الذكاء الاصطناعي إلى إعادة تصميم اختبار النماذج وإنشاء معايير جديدة
تسارع مجموعات التكنولوجيا إلى إعادة تصميم كيفية اختبار وتقييم نماذج الذكاء الاصطناعي الخاصة بها، حيث تتجاوز التكنولوجيا سريعة التقدم المعايير الحالية.
أعلنت شركات OpenAI وMicrosoft وMeta وAnthropic مؤخرًا عن خطط لبناء عملاء ذكاء اصطناعي يمكنهم تنفيذ المهام للبشر بشكل مستقل نيابة عنهم. وللقيام بذلك بفعالية، يجب أن تكون الأنظمة قادرة على تنفيذ إجراءات متزايدة التعقيد، باستخدام المنطق والتخطيط.
تجري الشركات “تقييمات” لنماذج الذكاء الاصطناعي من قبل فرق من الموظفين والباحثين الخارجيين. وهي عبارة عن اختبارات موحدة، تُعرف باسم المعايير المرجعية، تعمل على تقييم قدرات النماذج وأداء أنظمة المجموعات المختلفة أو الإصدارات الأقدم.
ومع ذلك، فإن التطورات الأخيرة في تكنولوجيا الذكاء الاصطناعي تعني أن العديد من أحدث النماذج تمكنت من الاقتراب من دقة 90 في المائة أو أكثر في الاختبارات الحالية، مما يسلط الضوء على الحاجة إلى معايير جديدة.
“وتيرة الصناعة سريعة للغاية. لقد بدأنا الآن في تشبع قدرتنا على قياس بعض هذه الأنظمة [and as an industry] لقد أصبح تقييمه أكثر صعوبة [them]قال أحمد الدحلة، قائد الذكاء الاصطناعي التوليدي في ميتا.
للتعامل مع هذه المشكلة، قامت العديد من مجموعات التكنولوجيا، بما في ذلك Meta وOpenAI وMicrosoft، بإنشاء معايير واختبارات داخلية خاصة بها للذكاء. لكن هذا أثار مخاوف داخل الصناعة بشأن القدرة على مقارنة التكنولوجيا في غياب الاختبارات العامة.
“تتيح لنا العديد من هذه المعايير معرفة مدى بعدنا عن أتمتة المهام والوظائف. وقال دان هندريكس، المدير التنفيذي لمركز سلامة الذكاء الاصطناعي ومستشار شركة Elon Musk’s xAI: “من دون نشرها، سيكون من الصعب على الشركات والمجتمع الأوسع معرفة ذلك”.
تستخدم المعايير العامة الحالية – Hellaswag وMMLU – أسئلة متعددة الخيارات لتقييم الحس السليم والمعرفة عبر مواضيع مختلفة. ومع ذلك، يرى الباحثون أن هذه الطريقة أصبحت الآن زائدة عن الحاجة وأن النماذج تحتاج إلى مشاكل أكثر تعقيدًا.
قال مارك تشين، نائب الرئيس الأول للأبحاث في OpenAI: “لقد وصلنا إلى عصر لم تعد فيه الكثير من الاختبارات المكتوبة بواسطة الإنسان كافية كمقياس جيد لمدى قدرة النماذج”. “وهذا يخلق تحديًا جديدًا بالنسبة لنا كعالم بحثي.”
تم تحديث أحد المعايير العامة، SWE-bench Verified، في أغسطس لتقييم الأنظمة الذاتية بشكل أفضل بناءً على تعليقات الشركات، بما في ذلك OpenAI.
يستخدم مشاكل برمجية واقعية مصدرها منصة المطورين GitHub ويتضمن تزويد وكيل الذكاء الاصطناعي بمستودع الأكواد ومشكلة هندسية، ويطلب منهم إصلاحها. تتطلب المهام المنطق لإكمالها.
وفقًا لهذا المقياس، يحل أحدث نموذج من OpenAI، وهو معاينة GPT-4o، 41.4 في المائة من المشكلات، بينما يحصل Claude 3.5 Sonnet من Anthropic على 49 في المائة.
“إنه أكثر تحديا بكثير [with agentic systems] قال جاريد كابلان، كبير مسؤولي العلوم في Anthropic: «إنك تحتاج إلى ربط هذه الأنظمة بالكثير من الأدوات الإضافية».
وأضاف: “عليك بشكل أساسي إنشاء بيئة رملية كاملة لهم للعب فيها. الأمر ليس بهذه البساطة مجرد تقديم مطالبة، ورؤية ماهية الإكمال ثم تقييم ذلك”.
هناك عامل مهم آخر عند إجراء اختبارات أكثر تقدمًا وهو التأكد من إبقاء الأسئلة المرجعية خارج المجال العام، من أجل ضمان عدم قيام النماذج “بالغش” بشكل فعال من خلال توليد الإجابات من بيانات التدريب بدلاً من حل المشكلة.
تعد القدرة على التفكير والتخطيط أمرًا بالغ الأهمية لإطلاق العنان لإمكانات وكلاء الذكاء الاصطناعي الذين يمكنهم تنفيذ المهام عبر خطوات وتطبيقات متعددة، وتصحيح أنفسهم.
قال إيسي كامار، نائب الرئيس ومدير مختبر حدود الذكاء الاصطناعي في أبحاث مايكروسوفت: “إننا نكتشف طرقًا جديدة لقياس هذه الأنظمة وبالطبع أحد هذه الطرق هو التفكير، وهو مجال مهم”.
ونتيجة لذلك، تعمل ميكروسوفت على معيارها الداخلي الخاص، والذي يتضمن مشاكل لم تظهر من قبل في التدريب لتقييم ما إذا كانت نماذج الذكاء الاصطناعي لديها قادرة على التفكير كما يفعل الإنسان.
تساءل البعض، بما في ذلك باحثون من شركة Apple، عما إذا كانت نماذج اللغات الكبيرة الحالية “تستدل” أو “تطابق الأنماط” تمامًا مع أقرب البيانات المماثلة التي شوهدت في تدريباتهم.
“في المجالات الأضيق [that] قال روشير بوري، كبير العلماء في شركة آي بي إم للأبحاث: “إن الشركات التي تهتم بالأمر، تتصرف بحكمة”. “[The debate is around] هذا المفهوم الأوسع للاستدلال على المستوى البشري، والذي من شأنه أن يضعه تقريبًا في سياق الذكاء العام الاصطناعي. هل يعقلون حقًا أم أنهم يرددون؟”
يقيس OpenAI التفكير بشكل أساسي من خلال التقييمات التي تغطي الرياضيات وموضوعات العلوم والتكنولوجيا والهندسة والرياضيات ومهام البرمجة.
“الاستدلال هو مصطلح عظيم جدا. كل شخص يعرفه بشكل مختلف وله تفسيره الخاص. . . هذه الحدود غامضة للغاية [and] قال تشين من OpenAI: “نحن نحاول ألا نتورط كثيرًا في هذا التمييز نفسه، ولكننا ننظر إلى ما إذا كان يقود المنفعة أو الأداء أو القدرات”.
كما أدت الحاجة إلى معايير جديدة إلى جهود المنظمات الخارجية.
في شهر سبتمبر، أعلنت شركة Scale AI وشركة Hendrycks الناشئة عن مشروع يسمى “الاختبار الأخير للإنسانية”، والذي يجمع أسئلة معقدة من خبراء من مختلف التخصصات، والتي تتطلب إكمالها تفكيرًا مجردًا.
مثال آخر هو FrontierMath، وهو معيار جديد تم إصداره هذا الأسبوع، أنشأه علماء رياضيات خبراء. واستنادًا إلى هذا الاختبار، تستطيع النماذج الأكثر تقدمًا الإجابة على أقل من 2 بالمائة من الأسئلة.
ومع ذلك، بدون اتفاق صريح على قياس هذه القدرات، يحذر الخبراء من أنه قد يكون من الصعب على الشركات تقييم منافسيها أو على الشركات والمستهلكين فهم السوق.
“لا توجد طريقة واضحة للقول بأن هذا النموذج أفضل بالتأكيد من هذا النموذج” [because] وقال ميتا الدحل: “عندما يصبح المقياس هدفًا، فإنه يتوقف عن أن يكون مقياسًا جيدًا”، ويتم تدريب النماذج لاجتياز المعايير المحددة.
“إنه شيء نعمل، كصناعة بأكملها، على تحقيقه.”
تقارير إضافية من هانا ميرفي في سان فرانسيسكو
اكتشاف المزيد من موقع تجاربنا
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.