تجارب المال والأعمال

شركة Anthropic الناشئة للذكاء الاصطناعي متهمة بجمع البيانات “الفاضحة”


افتح ملخص المحرر مجانًا

اتُهمت شركة Anthropic الناشئة في مجال الذكاء الاصطناعي بسحب البيانات من مواقع الويب لتدريب أنظمتها، مما قد يؤدي إلى انتهاك شروط خدمة الناشرين في هذه العملية، وفقًا للمتضررين.

يعتمد مطورو الذكاء الاصطناعي على استيعاب كميات هائلة من البيانات المستمدة من مجموعة واسعة من المصادر لإنشاء نماذج لغوية كبيرة، وهي التقنية التي تقف وراء روبوتات الدردشة مثل ChatGPT من OpenAI ومنافس Anthropic، Claude.

تأسست Anthropic على يد مجموعة من الباحثين السابقين في OpenAI على وعد بتطوير أنظمة ذكاء اصطناعي “مسؤولة”.

ومع ذلك، اتهم مات باري، الرئيس التنفيذي لموقع Freelancer.com، الشركة التي يقع مقرها في سان فرانسيسكو بأنها “الأكثر عدوانية على الإطلاق” في بوابته الخاصة بالعاملين المستقلين، والتي تحظى بملايين الزيارات اليومية.

وقد ردد ناشرو الويب الآخرون مخاوف باري من أن شركة Anthropic تعج بمواقعهم وتتجاهل تعليماتهم بالتوقف عن جمع المحتوى الخاص بهم لتدريب نماذجها.

استقبل موقع Freelancer.com 3.5 مليون زيارة من “زاحف” الويب المرتبط بالإنسان في غضون أربع ساعات، وفقًا للبيانات التي تمت مشاركتها مع صحيفة فايننشال تايمز. وقال باري إن هذا يجعل حجم Anthropic “ربما حوالي خمسة أضعاف حجم زاحف الذكاء الاصطناعي رقم اثنين”.

وأضاف أن الزيارات من برنامجه الآلي استمرت في الزيادة حتى بعد أن حاول موقع Freelancer.com رفض طلبات الوصول الخاصة به، باستخدام بروتوكولات الويب القياسية لتوجيه برامج الزحف. بعد ذلك، قرر باري حظر حركة المرور من عناوين الإنترنت الخاصة بشركة Anthropic تمامًا.

وقال باري: “كان علينا حظرهم لأنهم لا يلتزمون بقواعد الإنترنت”. “هذا تجريف فاضح [which] يجعل الموقع أبطأ بالنسبة لكل من يعمل عليه ويؤثر في النهاية على إيراداتنا.”

وقالت أنثروبيك إنها تحقق في القضية وأنها تحترم طلبات الناشرين وتهدف إلى عدم “التطفل أو التخريب”.

يعد استخراج البيانات المتاحة للجمهور عبر الويب أمرًا قانونيًا بشكل عام. لكن هذه الممارسة مثيرة للجدل ويمكن أن تنتهك شروط خدمة مواقع الويب ويمكن أن تكون مكلفة لمضيفي المواقع.

وقال كايل وينز، الرئيس التنفيذي لموقع iFixit.com، إن موقع الإصلاحات الإلكترونية الخاص به تلقى مليون زيارة من الروبوتات البشرية في غضون 24 ساعة. “لدينا الكثير من الإنذارات [for high traffic]، يستيقظ الناس في الساعة الثالثة صباحًا. وقال: “لقد أطلق هذا كل إنذار لدينا”.

وقال وينز إن شروط خدمة iFixit تحظر استخدام بياناتها للتعلم الآلي. “رسالتي الأولى إلى Anthropic هي: إذا كنت تستخدم هذا لتدريب نموذجك، فهذا غير قانوني. ثانيًا: هذا ليس سلوكًا مهذبًا على الإنترنت. إن الزحف هو أمر من آداب السلوك.”

تستخدم مواقع الويب بروتوكولًا يُعرف باسم “robots.txt” لمحاولة إبعاد برامج الزحف وبرامج الروبوت الأخرى عن أجزاء من مواقعها. ومع ذلك، فهو يعتمد على الامتثال الطوعي.

قال Anthropic: “نحن نحترم ملف robots.txt، وقد احترم الزاحف الخاص بنا تلك الإشارة عندما قام iFixit بتنفيذها”. وقالت الشركة أيضًا إن برامج الزحف الخاصة بها تحترم “تقنيات مكافحة التحايل” مثل اختبار CAPTCHA، وأن “الزحف الخاص بنا لا ينبغي أن يكون تطفليًا أو تخريبيًا. نحن نهدف إلى الحد الأدنى من التعطيل من خلال التفكير في مدى سرعة الزحف إلى نفس النطاقات.

إن تجريف البيانات ليس ممارسة جديدة، لكنه تزايد بشكل كبير في العامين الماضيين نتيجة لسباق التسلح في مجال الذكاء الاصطناعي. وقد فرض ذلك تكاليف جديدة على مواقع الويب.

كتب إريك هولشر، المؤسس المشارك لموقع استضافة المستندات Read the Docs، في منشور بالمدونة يوم الخميس: “لقد كلفتنا برامج زحف الذكاء الاصطناعي مبلغًا كبيرًا من المال في رسوم النطاق الترددي، وتسببت في قضاء قدر كبير من الوقت في التعامل مع إساءة الاستخدام”. . وأضاف: “تتصرف برامج زحف الذكاء الاصطناعي بطريقة لا تحترم المواقع التي تزحف إليها، وهذا سيؤدي إلى رد فعل عنيف ضد برامج زحف الذكاء الاصطناعي بشكل عام”.

أنشأت شركة Anthropic بعضًا من روبوتات الدردشة الأكثر تقدمًا في العالم – تنافس ChatGPT التابع لشركة OpenAI – والتي يمكنها الاستجابة لمجموعة من المطالبات باللغة الطبيعية، بينما تضع نفسها كجهة فاعلة أكثر أخلاقية من بعض المنافسين. الغرض المعلن لشركة Anthropic هو “التطوير والصيانة المسؤولة للذكاء الاصطناعي المتقدم لصالح البشرية على المدى الطويل”.

في حين تتنافس شركات الذكاء الاصطناعي الرائدة لإنشاء نماذج أكثر قدرة وبراعة، فإنها تتعمق أكثر في الزوايا غير المستغلة من الويب، أو الشراكة مع الناشرين أو إنشاء بيانات تدريب تركيبية.

أبرمت OpenAI عددًا من الصفقات في الأشهر الأخيرة مع الناشرين ومقدمي المحتوى بما في ذلك Reddit وThe Atlantic وThe Financial Times. لم تعلن الأنثروبيك علنًا عن شراكات مماثلة.

قال باري: “لقد قامت محركات البحث دائمًا بالكثير من عمليات الاستخلاص، لكنها ارتفعت إلى مستوى كامل من خلال تدريب الذكاء الاصطناعي التوليدي”.

وقال وينز إن مهمة iFixit “هي نشر المعلومات، لتشجيع الناس على إصلاح معلوماتهم الخاصة”. “نحن لا نعارض استخدام المحتوى الخاص بنا لتدريب العارضات، بل نريد فقط أن نكون جزءًا من المحادثة.”

وأضاف: “أنا لست من المدافعين عن هذا الموضوع، أنا فقط أحاول الاحتفاظ بموقع على الإنترنت”.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى