تقول Google إنها ستكشط مواقع الويب للذكاء الاصطناعي ما لم يتم إجبارها على عدم القيام بذلك


تتوق Google إلى كل هذا المحتوى الذي تنتجه ثروة من الناشرين الرقميين الذين يقومون بإنشاء نصوص ومقاطع فيديو وصور بشكل يومي. للتعامل مع مشكلات حقوق النشر الثابتة في قلب تدريب الذكاء الاصطناعي ، تقترح Google أن جميع تلك الشركات التي لا ترغب في التهام محتواها ستحتاج إلى “إلغاء الاشتراك” لضمان عدم ابتلاع برنامج Google المفتوح لكل ما لديهم من غضب. بيانات.

عرض عملاق التكنولوجيا هذه الصفقة الخام على الحكومة الأسترالية ردًا على البلاد الاقتراح الأخير لحظر تطبيقات الذكاء الاصطناعي “عالية الخطورة” ، بما في ذلك إنشاء التزييف العميق والمعلومات المضللة والتمييز. كما ذكرت لأول مرة من قبل الحارس، شارك Google أنه يجب أن يكون لدى الناشرين القدرة على قول لا لما إذا كان قد تم نسخ المحتوى الخاص بهم لغرض تدريب الذكاء الاصطناعي.

أصدرت Google ملف روبوت الدردشة بارد في الأرض أسفل الظهر في مايو ، ومنذ ذلك الحين ، تحاول الشركة إغراء البلاد للسماح لها بكشط المزيد من البيانات. كتب جوجل بالفعل إلى الحكومة الأسترالية أكثر تخفيف قوانين حقوق النشر للسماح بمزيد من التدريب على الذكاء الاصطناعي. أصبح الآن منفتحًا بشأن إنشاء إنترنت صديق للذكاء الاصطناعي يسمح بالتخلص افتراضيًا. سيجبر الاقتراح الناشرين الكبار والصغار على حد سواء على تثقيف أنفسهم بشأن إلغاء الاشتراك وتثبيته على مواقعهم الخاصة بدلاً من تحميل المسؤولية على Google.

لم تذكر الشركة صراحة كيف ستعمل وظيفة إلغاء الاشتراك هذه ، ولم تستجب Google على الفور لطلب Gizmodo للتعليق. في يوليو مشاركة مدونة، دعت Google إلى “معايير وبروتوكولات” جديدة حول كيفية مشاركة ناشري الويب في الإنترنت. أشارت الشركة إلى معيار robots.txt البالغ من العمر 30 عامًا والذي طوره المجتمع ، وهو بروتوكول يشير إلى برامج زحف الويب والروبوتات إلى أجزاء الموقع التي يُسمح لهم بزيارتها.

بالطبع ، لا يعمل بروتوكول robots.txt هذا إلا مع برامج الروبوت اللطيفة التي توافق على الامتثال طوعًا. إنه لا يمنع أي شركة تقرر عدم الانصياع للمعيار. بالإضافة إلى ذلك ، لا تستعيد أي بيانات تم كشطها بالفعل دون موافقة الناشرين. تمتلك Google العديد من نماذج اللغات الكبيرة ، بما في ذلك أعلن مؤخرًا عن PaLM 2. روبوت الدردشة Bard من Google كان في الأصل بناءً على LaMDA LLM و لاحظ الباحثون أن 50٪ من محتواها يأتي من المنتديات العامة بينما يتم كشط جزء كبير منه من ويكيبيديا ومواقع أخرى.

ليس الناشرون فقط هم الذين تتطلع Google إلى التخلص منهم ، إنها شبكة الإنترنت بأكملها على نطاق واسع. حديثاً، قامت Google بتحديث سياسة الخصوصية الخاصة بها للسماح للشركة صراحة باستخدام كل ما تنشره عبر الإنترنت لاستخدامه في تطوير أدوات الذكاء الاصطناعي الخاصة بها. بعد فترة وجيزة من ظهور Gizmodo لأول مرة في تغيير السياسة ، تعرضت Google لدعوى جماعية الادعاء بأن الشركة كشطت مواد محمية بحقوق الطبع والنشر دون موافقة.

كان منشئ ChatGPT OpenAI اصطدمت بدعوى قضائية مشابهة جدًا بسبب انتهاكها المزعوم لحقوق الطبع والنشر. بشكل أساسي ، قامت هذه الشركات بالفعل بكشط كميات هائلة من الإنترنت لتدريب نماذجها. تعتمد الكثير من البيانات بالفعل على إدخالات Wikipedia ومنشورات Reddit ، ولكن هذه النماذج تستخدم أيضًا المقالات والكتب والنصوص الأخرى عبر الإنترنت. فقط ضع في اعتبارك أن نموذج اللغة GPT-4 تم تدريبه على 45 تيرابايت من البيانات ، لذلك هناك الكثير من المواد المنشورة مقفلة بالداخل. أوبن إيه آي لديها تصاميمها الخاصة بشأن التنظيم الملائم للصناعة، ودعت إلى وكالة فيدرالية جديدة بالكامل تهدف إلى الإشراف على التكنولوجيا. جوجل ، من ناحية أخرى ، لديها ضغط ضد هذا الاقتراح.

لن يتم ترجمة فكرة إلغاء الاشتراك في Google إلى أستراليا فقط ، بالطبع. كانت الشركة محاولة التودد إلى أكبر المؤسسات الإخبارية مثل The New York Times و The Washington Post باستخدام أدوات ذكاء اصطناعي جديدة، كل ذلك أثناء محاولتهم استنتاج A-OK إذا قاموا بكشط كل تلك المقالات المنشورة لاستخدامها في تدريب الذكاء الاصطناعي الخاص بهم.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى