مجموعة مكافحة القرصنة تأخذ مجموعة بيانات تدريب الذكاء الاصطناعي Books3 ′ غير متصل بالإنترنت
من ابرزها تم طرد مستودعات الكتب المقرصنة المستخدمة لتدريب الذكاء الاصطناعي ، Books3 ، من العش عبر الإنترنت الذي كانت تجثم فيه منذ ما يقرب من ثلاث سنوات. كان أصحاب الحقوق في حالة حرب مع القراصنة عبر الإنترنت منذ عقود ، ولكن الذكاء الاصطناعي يشبه تسرب النفط إلى مياه قانون حقوق النشر. الاثنان ببساطة لا يختلطان ، والأبخرة المتصاعدة من السطح تحتاج فقط إلى شرارة لإشعال النار في مفهوم حقوق الملكية الفكرية بالكامل.
كما ذكرت لأول مرة من قبل TorrentFreak، ال مستودع القراصنة الكبير العين أزال مجموعة بيانات Books3 بعد أن أرسلت مجموعة Rights Alliance الدنماركية لمكافحة القرصنة إلى الموقع عملية إزالة وفقًا لقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية. تحاول الآن الوصول إلى مجموعة البيانات هذه يعطي ملف 404 خطأ. لا يزال The Eye يستضيف بيانات تدريب أخرى للذكاء الاصطناعي ، لكن الجزء المخصص للكتب قد اختفى.
وقالت منظمة Rights Alliance لـ Gizmodo إنها أرسلت طلب إزالة إلى The Eye ، وأزال الموقع المحتوى الشهر الماضي. قالت المجموعة إن مجموعة بيانات Books3 تحتوي على حوالي 150 عنوانًا نشرتها الشركات الأعضاء فيها. تواصلت منظمة Rights Alliance أيضًا مع موقع استضافة نموذج AI Hugging Face (الذي استضاف بطاقة بيانات ورابط لتنزيل Books3) بالإضافة إلى EleutherAI. وجهت المنظمتان مجموعة مكافحة القرصنة نحو العين.
أصدرت مجموعة البحث غير الربحية EleutherAI في الأصل Books3 كجزء من مجموعة التدريب على الذكاء الاصطناعي The Pile ، وهي عبارة عن مجموعة مفتوحة المصدر تبلغ 800 جيجا بايت من بيانات التدريب تضم 22 مجموعة بيانات أخرى مصممة خصيصًا لتدريب النماذج اللغوية. وقالت رايتس جروب إن المنظمة “نفت مسؤوليتها” عن Books3. تواصلت Gizmodo مع شركة EleutherAI للتعليق ، لكننا لم نتلق ردًا.
العين تدعي ذلك يتوافق بانتظام مع جميع طلبات قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية ، على الرغم من أن مجموعة البيانات هذه تم تحميلها في الأصل بواسطة مطور الذكاء الاصطناعي ومؤيد الذكاء الاصطناعي البارز مفتوح المصدر شون بريسر في عام 2020. كان هدفه المعلن في ذلك الوقت هو فتح مجال تطوير الذكاء الاصطناعي بما يتجاوز شركات مثل أوبن إيه آي ، التي دربت نماذج اللغة في مستودعات “Books1” و “Books2” التي لا تزال غير معروفة. احتوى مستودع Books3 على 196،640 كتابًا بتنسيق عادي.
عبر Twitter DM ، وصف Presser الهجوم على Books3 بأنه مهزلة للذكاء الاصطناعي مفتوح المصدر. بينما تفلت الشركات الكبرى الأخرى والشركات الناشئة الممولة من VC من تضمين البيانات المحمية بحقوق الطبع والنشر في بيانات التدريب الخاصة بهم ، تحتاج المشاريع الشعبية إلى شيء للمنافسة – وهذا ما كان Books3 من أجله.
قال بريسر: “الطريقة الوحيدة لتكرار نماذج مثل ChatGPT هي إنشاء مجموعات بيانات مثل Books3”. “وتقوم كل شركة هادفة للربح بهذا سرًا ، دون الإفراج عن مجموعات البيانات للجمهور … بدون Books3 ، نعيش في عالم لا يستطيع فيه أحد ، باستثناء OpenAI والشركات الأخرى التي تبلغ قيمتها مليارات الدولارات ، الوصول إلى هذه الكتب – مما يعني أنه لا يمكنك اصنع ChatGPT الخاص بك. لا احد يستطيع. فقط مليار دولار سيكون لدى الشركات الموارد اللازمة للقيام بذلك “.
لطالما حاربت مجموعات صناعة الإعلام القرصنة ، توقع القليلون أن تكون الجبهة التالية لحرب حقوق النشر التي لا تنتهي أبدًا هي الذكاء الاصطناعي. في مقابلة هاتفية مع Gizmodo ، قالت ماريا فريدنسلوند ، الرئيس التنفيذي لمنظمة Rights Alliance ، إن المنظمة تعمل بنشاط لإزالة النسخ الأخرى من Books3. لكن هذه مجرد البداية ، وأصبح لدى مجموعات مكافحة القرصنة الآن هدف جديد للتركيز عليه مقارنة باللاعبين المعتادين لخدمات مشاركة الملفات والمكتبات المقرصنة.
“نحن قلقون للغاية. قال فريدنسلوند: “إنه تطور هائل حقًا في التكنولوجيا وكيفية استخدام المحتوى”. “بطريقة ما ، نراها كما كانت قبل 10 سنوات عندما ناقشنا مشاركة الملفات ، وكانت الحكومات خائفة جدًا من تنظيم الإنترنت لأنه ، في نظرهم ، كان كل شيء يجب أن يكون مجانيًا. واتضح أن حق المؤلف بحاجة أيضًا إلى التنظيم على الإنترنت وكذلك في أي جانب آخر “.
ليس الأمر وكأنه لا توجد نسخ أخرى من Books3 مستضافة على الإنترنت. بعد إزالة الكتب الأسبوع الماضي ، نشر بريسر رابطين جديدين لتنزيل Books3 على ملفه الشخصي على Twitter. قالت Rights Group إنها ستستمر في متابعة المواقع التي تستضيف مجموعة البيانات ، ولكن كما يخبرك أي ملح قديم لقرصنة الإنترنت ، بمجرد أن يصبح الملف متاحًا ومتاحًا ، فلن يختفي أبدًا.
تستخدم Meta أيضًا Books3 لنماذج الذكاء الاصطناعي الخاصة بها
ممثل هزلي كانت سارة سيلفرمان مجرد واحدة من عدة مؤلفين وقعوا على دعوى قضائية جماعية ضد ميتا، مدعيا أن الشركة سرقت كتبهم من أجل تدريب LlaMA AI. ال دعوى قضائية يذكر أن Meta استخدمت مستودع Books3 لتدريب الذكاء الاصطناعي الخاص بها ، لكنها أضافت أن Meta لم تذكر الأعمال الموجودة في تلك الجيجابايت من البيانات.
في ذلك ورق ابيض وصف باحثو Meta نموذج لغة LlaMA الأصلي ، ووصفوا Books3 بأنها “مجموعة بيانات متاحة للجمهور لتدريب نماذج اللغة الكبيرة.” أشارت Meta إلى أن مجموعة البيانات هذه قادمة من كومة.
تتطلب نماذج الذكاء الاصطناعي المتنامية قدرًا هائلاً من المعلومات ، وعلى مدى ما يقرب من عقد من الزمان ، اعتمد تطوير التكنولوجيا عليها باستخدام نص محمي. تم تدريب الإصدارات السابقة من نموذج لغة OpenAI منذ عامين أو ثلاثة أعوام فقط على مجموعات بيانات مثل BookCorpus، والتي تحتوي على الآلاف من قصاصات نصوص كتابية من مواقع مثل Smashwords. كانت مجموعة البيانات هذه مجرد بضعة غيغابايت من البيانات ، ولكن وجد الباحثون أنها تضمنت أعمالًا محمية بحقوق الطبع والنشر ، أو تتطلب الدفع للوصول إليها.
استخدم نموذج GPT-3 الخاص بـ OpenAI مجموعة تدريب Books2 لتدريب الذكاء الاصطناعي الخاص بها. يشكل كل من Books1 و Books2 ما يقرب من 15٪ من بيانات تدريب GPT-3 ، على الرغم من وجود القليل من المعلومات الدقيقة أو عدم وجودها على الإطلاق. تكهن البعض بأن بيانات Books2 قد تم حذفها من Libgen ، وهي مكتبة قرصنة مفتوحة المصدر تسمى أيضًا Library Genesis. هناك حتى أقل من المعلومات حول ما هو وارد في GPT-4 45 تيرابايت من بيانات التدريب.
أصبحت شركات التكنولوجيا الكبيرة غير مهتمة بشكل متزايد بمشاركة هذه البيانات ، مع العلم أنه كلما فعلت ذلك ، زاد عدد الأشخاص الآخرين الذين يمكنهم بناء نماذج ذكاء اصطناعي مماثلة ، أو تشابكهم في دعاوى قضائية. ثم مرة أخرى ، فإن تكاليف تدريب هذه النماذج الضخمة مذهلة ، خاصة بالنسبة للنماذج الأكبر حجمًا.
ولكن بينما كشفت OpenAI عن القليل من بيانات التدريب الخاصة بها على مر السنين ، فإننا نعرف بالضبط ما ذهب إلى مستودع Books3. تم اشتقاق مجموعة البيانات من نسخة من ملف مكتبة ببليوتيك. Bibliotik هي ما يسمى بـ “مكتبة الظل” المشابهة لمصادر أخرى مهينة بالصناعة مثل Libgen ، مكتبة ض، و Sci-Hub. كان على بريسر أن يبني نصوصًا تمكنت من تحويل ملفات PDF والصور إلى ملفات txt قابلة للاستخدام ، وهي مهمة تتطلب عمالة مكثفة.
قال بريسر: “كان هدفي أن أصنعه حتى يتمكن أي شخص من (إنشاء هذه النماذج). لقد شعرت بأهمية كبيرة أن نتمكن أنت وأنا من إنشاء ChatGPT الخاصة بنا إذا أردنا ذلك”. “ما لم يكن المؤلفون يعتزمون بطريقة ما إزالة ChatGPT دون اتصال بالإنترنت ، أو مقاضاتهم من الوجود ، فمن الأهمية بمكان أن نتمكن أنا وأنت من إنشاء ChatGPTs الخاصة بنا ، لنفس السبب كان من الأهمية بمكان أن يتمكن أي شخص من إنشاء موقع الويب الخاص به مرة أخرى في التسعينيات. “
قال Fredenslund إن مجموعتهم كانت تتطلع إلى “الوصول” إلى Meta بشأن استخدام هذا المحتوى المحمي بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي الخاص بها. في حين أنه من غير المرجح أن تعيد شركة Meta التقنية العملاقة تدريب نموذج الذكاء الاصطناعي بالكامل لإرضاء أصحاب حقوق النشر ، إلا أن هناك القليل من اللوائح التنظيمية العالمية التي تفرض الشفافية على نماذج الذكاء الاصطناعي. بينما ال يعمل الاتحاد الأوروبي حاليًا على قانون الذكاء الاصطناعي من شأنها إجبار الشركات على الحصول على بعض الشفافية النموذجية ، قال فريدنسلوند إن مطوري الذكاء الاصطناعي بحاجة إلى إجبارهم على مشاركة تفاصيل بيانات التدريب الخاصة بهم ، بما في ذلك الأعمال الدقيقة التي تم استخدامها لإنشاء نماذج الذكاء الاصطناعي الخاصة بهم.
وقالت: “نأمل أن يتغير هذا الموقف تجاه استخدام المحتوى غير القانوني ، وأنهم لن يفعلوا ذلك في المستقبل”. “نريد أن نكون قادرين على التحكم فعليًا في حقوق الطبع والنشر في هذا الجانب ، ثم نحتاج في الواقع إلى معرفة ما يتم تدريب النماذج عليه.”
كما لوحظ في الماضي تعليقات المنتدى، عمل Presser بنشاط مع EleutherAI لإضافة مجموعة بيانات Books3 إلى The Pile. استخدمت EleutherAI The Pile وغيرها من البيانات لـ صياغة نماذج الذكاء الاصطناعي الخاصة بها، بما في ذلك واحد يسمى GPT-J كان من المفترض في الأصل التنافس مع OpenAI’s GPT-3.
ذهب Meta إلى حد الادعاء بأن نموذج LlaMA-65B الأصلي لم يعمل جيدًا مثل بعض النماذج الأخرى الأكبر مثل PaLM-540B لأنها “استخدمت كمية محدودة من الكتب والأوراق الأكاديمية” في بيانات ما قبل التدريب . تم تنسيق LlaMA الأصلي أيضًا على C4 ، وهو إصدار من الزحف المشترك الذي كان عبارة عن مجموعة بيانات كبيرة من كميات ضخمة من بيانات الإنترنت. وجد الباحثون أن مجموعة تدريب C4 تضمنت كميات كبيرة من الأعمال المنشورة ، بما في ذلك مواقع الدعاية واليمين المتطرف. قال هؤلاء الباحثون لـ واشنطن بوست ظهر رمز حقوق النشر أكثر من 200 مليون مرة في مجموعة تدريب C4.
منذ ذلك الحين ، صرخت Meta بشدة بشأن ما يدخل في نماذجها اللغوية. في الشهر الماضي ، أصدرت Meta ملف نموذج لغة أحدث وأكبر يسمى LlaMA 2. هذه المرة ، عملت Meta مع Microsoft لإضافة 40٪ بيانات أكثر من طرازها السابق ، على الرغم من وجودها في ورق ابيض كانت الشركة أكثر ترددًا في تحديد البيانات التي تم تدريب أحدث LM عليها. كانت الإشارة الوحيدة لبيانات التدريب الخاصة بها هي أنها “مزيج جديد من البيانات المتاحة للجمهور على الإنترنت”. مع تزايد الاحتكاك بين الذكاء الاصطناعي وحقوق الطبع والنشر ، تقل احتمالية مشاركة الشركات لما هو موجود بالضبط في مستنقع بيانات التدريب على الذكاء الاصطناعي.