صحة و جمال

الذكاء الاصطناعى تزداد قوة ، لكن الهلوسة تزداد سوءًا | أخبار التكنولوجيا


في الشهر الماضي ، قام روبوت الذكاء الاصطناعي الذي يتولى الدعم الفني لـ Cursor ، وهو أداة حديثة لمبرمجي الكمبيوتر ، بتنبيه العديد من العملاء حول تغيير سياسة الشركة. وقال إنه لم يعد يُسمح لهم باستخدام المؤشر على أكثر من جهاز كمبيوتر واحد فقط.

في منشورات غاضبة إلى لوحات رسائل الإنترنت ، اشتكى العملاء. ألغى البعض حسابات المؤشر الخاصة بهم. وأصبح البعض أكثر غضبًا عندما أدركوا ما حدث: لقد أعلن روبوت الذكاء الاصطناعي عن تغيير في السياسة لم يكن موجودًا.

تستمر القصة أسفل هذا الإعلان

وكتب الرئيس التنفيذي للشركة والمؤسس المشارك ، مايكل ترويل ، في منشور رديت: “ليس لدينا مثل هذه السياسة. أنت بالطبع حرة في استخدام المؤشر على آلات متعددة”. “لسوء الحظ ، هذه استجابة غير صحيحة من روبوت دعم من الذكاء الاصطناعي.”

بعد مرور أكثر من عامين على وصول ChatGPT ، يستخدم شركات التكنولوجيا وعمال المكاتب والمستهلكين العاديين روبوتات منظمة العفو الدولية لمجموعة واسعة من المهام بشكل متزايد. ولكن لا يزال هناك أي وسيلة لضمان أن هذه الأنظمة تنتج معلومات دقيقة.

أحدث وأقوى التقنيات-ما يسمى أنظمة التفكير من الشركات بما في ذلك Openai و Google و Deepseek الصينية-تولد المزيد من الأخطاء ، وليس أقل. مع تحسن مهاراتهم في الرياضيات بشكل ملحوظ ، أصبح التعامل مع الحقائق أكثر هشاشة. ليس من الواضح تماما السبب.

تعتمد روبوتات AI اليوم على أنظمة رياضية معقدة تتعلم مهاراتها من خلال تحليل كميات هائلة من البيانات الرقمية. إنهم لا – ولا يمكنهم – يقررون ما هو صحيح وما هو خاطئ. في بعض الأحيان ، يصنعون الأشياء فقط ، وهي ظاهرة تسمي بعض الباحثين من الذكاء الاصطناعي الهلوسة. في اختبار واحد ، كانت معدلات الهلوسة لأنظمة الذكاء الاصطناعى الأحدث تصل إلى 79 ٪.

تستمر القصة أسفل هذا الإعلان

تستخدم هذه الأنظمة الاحتمالات الرياضية لتخمين أفضل استجابة ، وليس مجموعة صارمة من القواعد المحددة من قبل المهندسين البشر. لذلك يرتكبون عددًا معينًا من الأخطاء. وقال عمر عواد الله ، الرئيس التنفيذي لشركة Vectara ، وهي شركة ناشئة تقوم ببناء أدوات AI للشركات ، ومدير تنفيذي سابق في Google: “على الرغم من جهودنا ، فإنهم دائمًا ما يهلون”. “هذا لن يختفي أبدًا.”

لعدة سنوات ، أثارت هذه الظاهرة مخاوف بشأن موثوقية هذه الأنظمة. على الرغم من أنها مفيدة في بعض المواقف – مثل كتابة أوراق مصطلح ، وتلخيص المستندات المكتبية وإنشاء رمز الكمبيوتر – يمكن أن تسبب أخطائهم مشاكل.

تقوم الروبوتات المرتبطة بمحركات البحث مثل Google و Bing في بعض الأحيان إلى نتائج بحث خاطئة بشكل مثير للضحك. إذا طلبت منهم ماراثون جيد على الساحل الغربي ، فقد يقترحون سباقًا في فيلادلفيا. إذا أخبركم عدد الأسر في إلينوي ، فقد يستشهدون بمصدر لا يتضمن تلك المعلومات.

قد لا تكون هذه الهلوسة مشكلة كبيرة لكثير من الناس ، لكنها مشكلة خطيرة لأي شخص يستخدم التكنولوجيا مع وثائق المحكمة أو المعلومات الطبية أو بيانات الأعمال الحساسة.

تستمر القصة أسفل هذا الإعلان

وقال براتيك فيرما ، المؤسس المشارك والرئيس التنفيذي لشركة Okahu ، وهي شركة تساعد الشركات على التنقل في مشكلة الهلوسة: “تقضي الكثير من الوقت في محاولة لمعرفة الاستجابات التي هي واقعية وأيها ليست كذلك”. “عدم التعامل مع هذه الأخطاء بشكل أساسي يزيل قيمة أنظمة الذكاء الاصطناعى ، والتي من المفترض أن تتم أتمتة المهام لك.”

لم يستجب مؤشر وترويل لطلبات التعليق.

لأكثر من عامين ، قامت شركات مثل Openai و Google بتحسين أنظمة الذكاء الاصطناعى بشكل مطرد وقلل من تواتر هذه الأخطاء. ولكن مع استخدام أنظمة التفكير الجديدة ، ترتفع الأخطاء. يهلل أحدث نظام Openai Systems بمعدل أعلى من النظام السابق للشركة ، وفقًا للاختبارات الخاصة بالشركة.

وجدت الشركة أن O3 – نظامها الأقوى – هلوس 33 ٪ من الوقت عند إجراء اختبار PRISONQA القياسي ، والذي يتضمن الإجابة على أسئلة حول الأرقام العامة. هذا أكثر من ضعف معدل الهلوسة لنظام التفكير السابق في Openai ، يسمى O1. مُلوسة O4-MINI الجديدة بمعدل أعلى: 48 ٪.

تستمر القصة أسفل هذا الإعلان

عند إجراء اختبار آخر يسمى SimpleQA ، والذي يسأل أسئلة عامة أكثر ، كانت معدلات الهلوسة لـ O3 و O4-MINI 51 ٪ و 79 ٪. النظام السابق ، O1 ، هلوسة 44 ٪ من الوقت.

في ورقة توضح بالتفصيل الاختبارات ، قال Openai إن هناك حاجة إلى مزيد من البحث لفهم سبب هذه النتائج. نظرًا لأن أنظمة الذكاء الاصطناعى تتعلم من بيانات أكثر مما يمكن للناس أن يلفوا رؤوسهم ، فإن التكنولوجيا تكافح لتحديد سبب تصرفهم بالطرق التي يقومون بها.

وقال المتحدث باسم الشركة غابي رايلا: “إن الهلوسة ليست بطبيعتها أكثر انتشارًا في نماذج التفكير ، على الرغم من أننا نعمل بنشاط على تقليل معدلات الهلوسة المرتفعة التي رأيناها في O3 و O4-Mini”. “سنواصل أبحاثنا حول الهلوسة في جميع النماذج لتحسين الدقة والموثوقية.”

هانانه هاجشييرزي ، أستاذ بجامعة واشنطن وباحث في معهد ألين للذكاء الاصطناعي ، هو جزء من فريق ابتكر مؤخرًا طريقة لتتبع سلوك النظام إلى الأجزاء الفردية من البيانات التي تم تدريبها عليها. ولكن نظرًا لأن الأنظمة تتعلم من الكثير من البيانات – ولأنها يمكن أن تنشئ أي شيء تقريبًا – لا يمكن لهذه الأداة الجديدة شرح كل شيء. قالت: “ما زلنا لا نعرف كيف تعمل هذه النماذج بالضبط”.

تستمر القصة أسفل هذا الإعلان

تشير اختبارات الشركات والباحثين المستقلين إلى أن معدلات الهلوسة ترتفع أيضًا لنماذج التفكير من شركات مثل Google و Deepseek.

منذ أواخر عام 2023 ، قامت شركة Awadallah ، Vectara ، بتتبع عدد المرات التي تنطلق فيها Chatbots من الحقيقة. تطلب الشركة من هذه الأنظمة القيام بمهمة مباشرة تم التحقق منها بسهولة: تلخيص مقالات إخبارية محددة. حتى ذلك الحين ، تخترع chatbots باستمرار المعلومات.

قدرت الأبحاث الأصلية لـ Vectara أنه في هذه الحالة ، قامت Chatbots بتكوين معلومات ما لا يقل عن 3 ٪ من الوقت وأحيانًا تصل إلى 27 ٪.

في العام والنصف منذ ذلك الحين ، دفعت شركات مثل Openai و Google هذه الأرقام إلى نطاق 1 ٪ أو 2 ٪. آخرون ، مثل San Francisco Startup Anthropic ، تحوم حوالي 4 ٪. لكن معدلات الهلوسة في هذا الاختبار ارتفعت مع أنظمة التفكير. نظام التفكير Deepseek ، R1 ، هلوس 14.3 ٪ من الوقت. ارتفع Openai’s O3 إلى 6.8 ٪.

تستمر القصة أسفل هذا الإعلان

(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد Openai وشريكها ، Microsoft ، متهمينهم بانتهاك حقوق الطبع والنشر فيما يتعلق بمحتوى الأخبار المتعلق بأنظمة الذكاء الاصطناعي. نفى Openai و Microsoft هذه المطالبات.)

لسنوات ، اعتمدت شركات مثل Openai على مفهوم بسيط: كلما زادت بيانات الإنترنت التي أطعمتها في أنظمة الذكاء الاصطناعي الخاصة بهم ، كان أداء تلك الأنظمة أفضل. لكنهم استخدموا كل النص الإنجليزي على الإنترنت ، مما يعني أنهم يحتاجون إلى طريقة جديدة لتحسين محطات الدردشة الخاصة بهم.

لذا فإن هذه الشركات تميل بشكل كبير على تقنية يسميها العلماء تعلم التعزيز. مع هذه العملية ، يمكن للنظام تعلم السلوك من خلال التجربة والخطأ. إنه يعمل بشكل جيد في مجالات معينة ، مثل الرياضيات وبرمجة الكمبيوتر. لكنها تقصر في مناطق أخرى.

وقالت لورا بيريز-بيلتراشيني ، الباحثة في جامعة إدنبرة وهي من بين فريق يدرس عن كثب مشكلة الهلوس: “الطريقة التي يتم بها تدريب هذه الأنظمة ، ستبدأ في التركيز على مهمة واحدة-ويبدأون في نسيان الآخرين”.

تستمر القصة أسفل هذا الإعلان

مسألة أخرى هي أن نماذج التفكير مصممة لقضاء الوقت “التفكير” من خلال مشاكل معقدة قبل الاستقرار على إجابة. أثناء محاولتهم معالجة مشكلة خطوة بخطوة ، يتعرضون لخطر الهلوس في كل خطوة. يمكن أن تتجمع الأخطاء لأنها تقضي المزيد من الوقت في التفكير.

تكشف أحدث الروبوتات عن كل خطوة للمستخدمين ، مما يعني أن المستخدمين قد يرون كل خطأ أيضًا. لقد وجد الباحثون أيضًا أنه في كثير من الحالات ، فإن الخطوات التي يعرضها الروبوت لا علاقة لها بالإجابة التي تقدمها في النهاية.

وقال آريو براديتيا جيما ، باحث منظمة العفو الدولية بجامعة إدنبرة وزميله في الأنثروبور: “ما يقوله النظام أنه يعتقد أنه ليس بالضرورة ما يفكر فيه”.

ظهرت هذه المقالة في الأصل في صحيفة نيويورك تايمز.




اكتشاف المزيد من موقع تجاربنا

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع تجاربنا

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading