تم تحديث GPT-4O بشكل خاطئ: ما يكشفه Openai’s Post-Mortem عن Sycophanty AI | أخبار التكنولوجيا

كان المقصود من تحديث GPT-4O من Openai تحسين “الشخصية الافتراضية” لأحد نماذج الذكاء الاصطناعى وراء ChatGPT بحيث شعرت تفاعلات المستخدمين مع chatbot أكثر بديهية وفعالية في مختلف المهام. كانت المشكلة هي أنها ، بدلاً من ذلك ، أدت إلى تقديم ردود على الاستجابات التي كانت “شديدة الإغراء أو مقبولة – غالبًا ما توصف بأنها sycophantic”.
بعد خمسة أيام من الانتهاء من التحديث ، أعلن Openai في 29 أبريل أنها كانت تراجع التعديلات على نموذج الذكاء الاصطناعى وسط عدد متزايد من شكاوى المستخدم على وسائل التواصل الاجتماعي.
وقالت شركة AI المدعومة من Microsoft في منشور مدونة: “تؤثر شخصية Chatgpt الافتراضية بعمق على الطريقة التي تجرب بها وتثق بها. يمكن أن تكون التفاعلات السيكوفنية غير مريحة ، ومثيرة للقلق ، وتسبب ضائقة. لقد بصرنا ونعمل على الحصول عليها بشكل صحيح”.
إن الطريقة التي يستخدم بها Openai ملاحظات المستخدم لتدريب النموذج مضللة وسوف تؤدي حتماً إلى المزيد من المشكلات مثل هذه.
إن التثبيت الخاضع للإشراف (SFT) على الاستجابات “المثالية” هو ببساطة تعليم النموذج عن طريق التقليد ، وهو أمر جيد بقدر ما يذهب. لكن هذا لا يكفي … pic.twitter.com/ootb4gub55– Emmett Shear (ester) 2 مايو 2025
أشار العديد من المستخدمين إلى أن الإصدار المحدث من GPT-4O كان يستجيب لاستعلامات المستخدمين مع الإطراء غير المبرر ودعم الأفكار الإشكالية. أثار الخبراء مخاوف من أن التشجيع الذي لا ينفص عن طراز AI على هذه الأفكار يمكن أن يؤدي إلى ضرر فعلي من قِبل المستخدمين إلى الاعتقاد عن طريق الخطأ.
لقد فاتنا العلامة مع تحديث GPT-4O الأسبوع الماضي.
ما حدث ، ما تعلمناه ، وبعض الأشياء التي سنفعلها بشكل مختلف في المستقبل:
– سام التمان (sama) 2 مايو 2025
بعد سحب التحديث ، نشر Openai منشورتان مدونة بعد الوفاة بالتفصيل كيفية تقييم سلوك نموذج الذكاء الاصطناعي وما الخطأ الذي حدث على وجه التحديد في GPT-4O.
كيف تعمل
قال Openai إنه يبدأ في تشكيل سلوك نموذج الذكاء الاصطناعى بناءً على مبادئ معينة موضحة في مستند مواصفات النموذج. يحاول “تعليم” النموذج كيفية تطبيق هذه المبادئ “من خلال دمج إشارات المستخدم مثل الإبهام / الإبهام على ردود chatgpt.”
وقالت الشركة: “لقد صممنا شخصية تشاتغبت الافتراضية لتعكس مهمتنا وأن نكون مفيدة وداعمة ومحترمة للقيم والخبرة المختلفة. ومع ذلك ، يمكن أن يكون لكل من هذه الصفات المرغوبة مثل محاولة أن تكون مفيدة أو داعمة آثار جانبية غير مقصودة”.
تستمر القصة أسفل هذا الإعلان
وأضاف أن شخصية افتراضية واحدة لا يمكنها التقاط تفضيل كل مستخدم. لدى Openai أكثر من 500 مليون مستخدم ChatGpt أسبوعيًا ، وفقًا للشركة. في منشور مدونة إضافي تم نشره يوم الجمعة ، 2 مايو ، كشفت Openai عن المزيد من التفاصيل حول كيفية تدريب نماذج الذكاء الاصطناعى الحالية وتحديثها مع الإصدارات الأحدث.
“منذ إطلاق GPT-4O في ChatGPT في شهر مايو الماضي ، أصدرنا خمسة تحديثات رئيسية تركز على التغييرات في الشخصية والمساعدة. كل تحديث يتضمن تدريبًا جديدًا ، وغالبًا ما يتم اختبار العديد من التعديلات الطفيفة على عملية التدريب النمطية بشكل مستقل ثم يتم دمجها في نموذج محدث واحد يتم تقييمه بعد ذلك للإطلاق”.
وقالت كذلك: “بالنسبة إلى نماذج ما بعد التدريب ، فإننا نأخذ نموذجًا أساسيًا مدربًا مسبقًا ، ونقوم بالضبط الخاضع للإشراف على مجموعة واسعة من الاستجابات المثالية التي كتبها البشر أو النماذج الحالية ، ثم ندير التعلم التعزيز مع إشارات المكافآت من مجموعة متنوعة من المصادر”.
وأضاف Openai: “أثناء التعلم التعزيز ، نقدم نموذج اللغة بمطالبة ونطلب من ذلك كتابة الردود. ثم نقوم بتقييم ردها وفقًا لإشارات المكافآت ، ونقوم بتحديث نموذج اللغة لجعله أكثر عرضة لإنتاج استجابات عالية التصنيف وأقل عرضة لإنتاج استجابات منخفضة التصنيف”.
تستمر القصة أسفل هذا الإعلان
ما الخطأ
“لقد ركزنا كثيرًا على ردود الفعل على المدى القصير ، ولم نفسر تمامًا كيف تتطور تفاعلات المستخدمين مع ChatGPT مع مرور الوقت. ونتيجة لذلك ، انتفخ GPT-4O نحو الاستجابات التي كانت داعمة بشكل مفرط ولكنها مخادعة” ، قال Openai.
في آخر مدونة ، كشفت الشركة أيضًا أن مجموعة صغيرة من اختبار الخبراء أثارت مخاوف بشأن تحديث النموذج قبل إصدارها.
“على الرغم من أننا أجرينا مناقشات حول المخاطر المتعلقة بالقياس في GPT-4O لفترة من الوقت ، إلا أن sycophancy لم يتم وضع علامة عليها بشكل صريح كجزء من اختبار التدريب العملي الداخلي ، حيث كان بعض اختبار الخبراء لدينا أكثر قلقًا بشأن التغيير في نغمة النموذج وأسلوبه.
على الرغم من ذلك ، قالت Openai إنها قررت المتابعة مع تحديث النموذج بسبب الإشارات الإيجابية من المستخدمين الذين جربوا الإصدار المحدث من GPT-4O.
تستمر القصة أسفل هذا الإعلان
“لسوء الحظ ، كانت هذه هي الدعوة الخاطئة. نحن نبني هذه النماذج لمستخدمينا ، وبينما تعتبر ملاحظات المستخدم أمرًا بالغ الأهمية لقراراتنا ، فإن مسؤوليتنا في نهاية المطاف في تفسير تلك التعليقات بشكل صحيح” ، أضافت.
اقترح Openai أيضًا أن إشارات المكافآت المستخدمة خلال مرحلة ما بعد التدريب لها تأثير كبير على سلوك نموذج الذكاء الاصطناعي. وقالت: “إن وجود إشارات مكافأة أفضل وأكثر شمولاً ينتج نماذج أفضل لـ ChatGpt ، لذلك نحن دائمًا نجرب إشارات جديدة ، لكن كل واحدة لها مراوغاتها”.
وفقًا لـ Openai ، أدت مجموعة من إشارات المكافآت الجديدة والأقدم إلى المشكلات في تحديث النموذج. “… كان لدينا تحسينات مرشح لدمج ملاحظات المستخدمين والذاكرة والبيانات الجذابة بشكل أفضل ، من بين أمور أخرى. تقييمنا المبكر هو أن كل من هذه التغييرات ، التي بدت مفيدة بشكل فردي ، ربما تكون قد لعبت دورًا في وضع المقاييس على sycophancy عند الجمع ،”.
ماذا بعد
أدرج Openai ستة مؤشرات حول كيفية تجنب سلوك النموذج غير المرغوب فيه في المستقبل.
تستمر القصة أسفل هذا الإعلان
“سنقوم بتعديل عملية مراجعة السلامة الخاصة بنا للنظر رسميًا في مشكلات السلوك – مثل الهلوسة والخداع والموثوقية والشخصية – مثل المخاوف المتوقفة. حتى لو لم تكن هذه القضايا قابلة للقياس الكمي تمامًا اليوم ، فإننا نلتزم بحظر عمليات الإطلاق بناءً على قياسات الوكيل أو الإشارات النوعية ، حتى عندما تبدو المقاييس مثل اختبار A/B تبدو جيدة”.
وأضاف: “نعتقد أيضًا أن المستخدمين يجب أن يكون لديهم مزيد من التحكم في كيفية تصرف ChatGpt ، ودرجة أنه آمن وممكن ، إجراء تعديلات إذا لم يتفقوا مع السلوك الافتراضي”.
اكتشاف المزيد من موقع تجاربنا
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.