أطلقت شركة ميتا روبوتات برمجية تجمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي الخاصة بها والمنتجات ذات الصلة، ولكنها مزودة بقدرات تجعل من الصعب على أصحاب المواقع الإلكترونية منعها من جمع المحتوى الخاص بهم.
وصرحت شركة ميتا بأن الروبوت الجديد Meta-ExternalAgent مصمم "لاستخدامات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى بشكل مباشر"، وهناك روبوت آخر هو Meta-ExternalFetcher، مرتبط بعروض الشركة للمساعدات الذكية ويجمع الروابط لدعم وظائف محددة للمنتجات.
ظهرت هذه الروبوتات لأول مرة في يوليو الماضي، وفقاً لما أظهرته صفحات ميتا المؤرشفة التي حللتها شركة "Originality.ai"، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي، حسب ما نقله موقع Business Insider.
وفي إطار السباق لبناء أقوى نماذج الذكاء الاصطناعي، تتنافس الشركات الناشئة وعمالقة التكنولوجيا من أجل الحصول على بيانات تدريب عالية الجودة، وأحد الأساليب الأساسية لتحقيق ذلك هو إرسال الروبوتات البرمجية إلى مواقع الويب لجمع المحتوى عبر تقنية "حصد البيانات Scraping"، والتي تستخدمها العديد من الشركات، بما في ذلك جوجل وOpenAI وAnthropic، لتدريب نماذجها الذكية.
الذكاء الاصطناعي يقوض النظام
إذا كان أصحاب المحتوى يرغبون في منع هذه الروبوتات من جمع المحتوى المنشور على صفحات مواقعهم الإلكترونية، فإنهم يعتمدون على قاعدة قديمة تُعرف بملف "robots.txt"، والذي تكتب فيه المواقع مجموعة من الأوامر والإرشادات التي توضح ما هو مسموح ومحظور على تلك الروبوتات القيام به، ويُعتبر هذا الملف جزءاً أساسياً من القواعد غير الرسمية التي تدعم بنية الويب منذ أواخر التسعينيات.
ومع ذلك، فقد تسببت الحاجة الماسة لبيانات تدريب الذكاء الاصطناعي في تقويض هذا النظام، ففي يونيو الماضي تبين أن OpenAI وAnthropic تتجاهلان القواعد المذكورة داخل ملف "robots.txt" المتواجدة داخل مواقع الويب.
ويبدو أن ميتا تتبع نهجاً مشابهاً، إذ حذرت الشركة من أن روبوتها الجديد Meta-ExternalFetcher قد "يتجاوز قواعد ملف robots.txt"، إضافة إلى أنه روبوتها Meta-ExternalAgent ينجز وظيفتين مختلفتين، إحداهما جمع بيانات تدريب الذكاء الاصطناعي، والأخرى فهرسة المحتوى على مواقع الويب مما يعقد عملية حظره.
فقد يرغب أصحاب المواقع في منع ميتا من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، لكنهم في الوقت نفسه قد يرحبون بفهرسة مواقعهم لزيادة عدد زوارها، وبالتالي لجوء ميتا لدمج الوظيفتين في روبوت واحد يجعل من الصعب حظره.
وفق تقرير "Originality.ai" فإن 1.5% فقط من المواقع الكبرى تمنع الروبوت Meta-ExternalAgent الجديد.
تدريب نماذج الذكاء الاصطناعي
على النقيض من ذلك، فإن الروبوت الأقدم لشركة ميتا "FacebookBot"، الذي يجمع البيانات منذ سنوات لتدريب نماذج اللغة الكبيرة وتقنيات التعرف على الصوت، تم منعه من قبل حوالي 10% من المواقع الكبرى بما في ذلك منصة إكس وياهوو، حسبما أفادت "Originality.ai".
أما الروبوت الجديد الآخر Meta-ExternalFetcher، فيتم منعه من قبل أقل من 1% من المواقع الكبرى.
صرح جون يلهام، الرئيس التنفيذي لشركة "Originality.ai"، بأن "الشركات يجب أن توفر القدرة للمواقع على منع استخدام بياناتها في التدريب دون تقليل ظهور محتواها في منتجاتها".
وأشار جيلهام إلى أن ميتا لا تحترم القرارات السابقة لأصحاب المواقع الذين قاموا بمنع الروبوتات الأقدم، فعلى سبيل المثال، إذا قام موقع بحظر "FacebookBot" لمنع استخدام بياناته في تدريب "نماذج اللغة لتقنية التعرف على الصوت"، فمن المرجح أن يرغب أيضاً في حظر Meta-ExternalAgent لمنع استخدام بياناته في "تدريب نماذج الذكاء الاصطناعي"، وبالتالي كان بديهياً أن يتم تطبيق الحظر تلقائياً.
وعلق متحدث باسم ميتا على هذه الانتقادات، موضحاً أن الشركة تحاول "تسهيل الأمر على الناشرين لتحديد تفضيلاتهم".
وأضاف في رسالة عبر البريد الإلكتروني إلى Business Insider: "نحن مثل الشركات الأخرى ندرب نماذج الذكاء الاصطناعي التوليدي الخاصة بنا على المحتوى المتاح بشكل عام على الإنترنت، وندرك أن بعض الناشرين وأصحاب المواقع يرغبون في الحصول على خيارات عندما يتعلق الأمر بمواقعهم والذكاء الاصطناعي التوليدي".
كما أضاف المتحدث أن ميتا لديها عدة روبوتات لجمع البيانات من الإنترنت، لتجنب "تجميع جميع الاستخدامات تحت وكيل واحد مما يوفر مزيداً من المرونة للناشرين على الويب".