“ميتا” تطلق روبوتات لجمع البيانات من الإنترنت بطرق يصعب منعها

أطلقت شركة “ميتا”، روبوتات برمجية تجمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي الخاصة بها والمنتجات ذات الصلة، ولكنها مزودة بقدرات تجعل من الصعب على أصحاب المواقع الإلكترونية منعها من جمع المحتوى الخاص بهم.

وصرحت شركة ميتا بأن الروبوت الجديد Meta-External Agent مصمم “لاستخدامات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى بشكل مباشر”، وهناك روبوت آخر هو Meta-ExternalFetcher، مرتبط بعروض الشركة للمساعدات الذكية ويجمع الروابط لدعم وظائف محددة للمنتجات.

وظهرت هذه الروبوتات لأول مرة في يوليو الماضي، وفقاً لما أظهرته صفحات ميتا المؤرشفة التي حللتها شركة “Originality.ai”، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي، حسب ما نقله موقع Business Insider.

وفي إطار السباق لبناء أقوى نماذج الذكاء الاصطناعي، تتنافس الشركات الناشئة وعمالقة التكنولوجيا من أجل الحصول على بيانات تدريب عالية الجودة، وأحد الأساليب الأساسية لتحقيق ذلك هو إرسال الروبوتات البرمجية إلى مواقع الويب لجمع المحتوى عبر تقنية “حصد البيانات Scraping”، والتي تستخدمها العديد من الشركات، بما في ذلك جوجل وOpenAI وAnthropic، لتدريب نماذجها الذكية.

وفيما إذا كان أصحاب المحتوى يرغبون في منع هذه الروبوتات من جمع المحتوى المنشور على صفحات مواقعهم الإلكترونية، فإنهم يعتمدون على قاعدة قديمة تُعرف بملف “robots.txt”، والذي تكتب فيه المواقع مجموعة من الأوامر والإرشادات التي توضح ما هو مسموح ومحظور على تلك الروبوتات القيام به، ويُعتبر هذا الملف جزءاً أساسياً من القواعد غير الرسمية التي تدعم بنية الويب منذ أواخر التسعينيات.

ومع ذلك، فقد تسببت الحاجة الماسة لبيانات تدريب الذكاء الاصطناعي في تقويض هذا النظام، ففي يونيو الماضي تبين أن OpenAI وAnthropic تتجاهلان القواعد المذكورة داخل ملف “robots.txt” المتواجدة داخل مواقع الويب.

ويبدو أن ميتا تتبع نهجاً مشابهاً، إذ حذرت الشركة من أن روبوتها الجديد Meta-External Fetcher قد “يتجاوز قواعد ملف robots.txt”، إضافة إلى أنه روبوتها Meta-External Agent ينجز وظيفتين مختلفتين، إحداهما جمع بيانات تدريب الذكاء الاصطناعي، والأخرى فهرسة المحتوى على مواقع الويب مما يعقد عملية حظره.

فقد يرغب أصحاب المواقع في منع ميتا من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، لكنهم في الوقت نفسه قد يرحبون بفهرسة مواقعهم لزيادة عدد زوارها، وبالتالي لجوء ميتا لدمج الوظيفتين في روبوت واحد يجعل من الصعب حظره.

وفق تقرير “Originality.ai” فإن 1.5% فقط من المواقع الكبرى تمنع الروبوت Meta-ExternalAgent الجديد.

وعلى النقيض من ذلك، فإن الروبوت الأقدم لشركة ميتا “Facebook Bot”، الذي يجمع البيانات منذ سنوات لتدريب نماذج اللغة الكبيرة وتقنيات التعرف على الصوت، تم منعه من قبل حوالي 10% من المواقع الكبرى بما في ذلك منصة إكس وياهوو، حسبما أفادت “Originality.ai”.

أما الروبوت الجديد الآخر Meta-External Fetcher، فيتم منعه من قبل أقل من 1% من المواقع الكبرى.

وصرح جون يلهام، الرئيس التنفيذي لشركة “Originality.ai”، بأن “الشركات يجب أن توفر القدرة للمواقع على منع استخدام بياناتها في التدريب دون تقليل ظهور محتواها في منتجاتها”.

وابتكرت دراسة أجراها باحثون في جامعة ماساتشوستس، نموذجاً لبرمجة الروبوتات، يسمح بتشكيل “فرق عمل”، والانتظار طواعية لزملائها في الفريق حتى إتمام المهام.

وأشار جيلهام إلى أن ميتا لا تحترم القرارات السابقة لأصحاب المواقع الذين قاموا بمنع الروبوتات الأقدم، فعلى سبيل المثال، إذا قام موقع بحظر “Facebook Bot” لمنع استخدام بياناته في تدريب “نماذج اللغة لتقنية التعرف على الصوت”، فمن المرجح أن يرغب أيضاً في حظر Meta-External Agent لمنع استخدام بياناته في “تدريب نماذج الذكاء الاصطناعي”، وبالتالي كان بديهياً أن يتم تطبيق الحظر تلقائياً.

وعلق متحدث باسم ميتا على هذه الانتقادات، موضحاً أن الشركة تحاول “تسهيل الأمر على الناشرين لتحديد تفضيلاتهم”.

وأضاف في رسالة عبر البريد الإلكتروني إلى Business Insider: “نحن مثل الشركات الأخرى ندرب نماذج الذكاء الاصطناعي التوليدي الخاصة بنا على المحتوى المتاح بشكل عام على الإنترنت، وندرك أن بعض الناشرين وأصحاب المواقع يرغبون في الحصول على خيارات عندما يتعلق الأمر بمواقعهم والذكاء الاصطناعي التوليدي”.

كما أضاف المتحدث أن ميتا لديها عدة روبوتات لجمع البيانات من الإنترنت، لتجنب “تجميع جميع الاستخدامات تحت وكيل واحد مما يوفر مزيداً من المرونة للناشرين على الويب”.

مقالات ذات صلة

Leave a Comment