جامعة ميشيغان تبيع بيانات الطلاب لشركات الذكاء الاصطناعي
هل تريد شراء بعض بيانات الطلاب للذكاء الاصطناعي الخاص بك؟ يمكن لجامعة ميشيغان المساعدة. ويبدو أن ممثلي المدرسة أو شركائها يرسلون بريدًا إلكترونيًا باردًا إلى العاملين في مجال التكنولوجيا في Google وغيرها من الشركات، ويقدمون بيانات عن طلاب جامعة ميشيغان لتدريب نماذج لغوية كبيرة. تتضمن البيانات تسجيلات للمحاضرات، ومناقشات الطلاب، وساعات العمل، بالإضافة إلى المقالات التي كتبها كبار السن وطلاب الدراسات العليا، وكلها متاحة مقابل رسوم ترخيص زهيدة. من غير الواضح ما إذا كان الطلاب قد أعطوا موافقتهم.
ظهرت القصة إلى النور في منشور على موقع X/Twitter بواسطة أحد الموظفين في Google Deepmind، مركز أبحاث الذكاء الاصطناعي التابع للشركة. قالت سوزان تشانغ، المهندسة في DeepMind، إنها تلقت رسالة مدعومة من LinkedIn تروج للمعلومات، وتقدم عينة مجانية من بيانات جامعة ميشيغان لإثبات قيمتها.
جاء في رسالة المبيعات: “إنني أتواصل معك لأنه، استنادًا إلى ملفك الشخصي، ربما تعمل مع نماذج اللغات الكبيرة (LLM) أو معالجة اللغة الطبيعية”. “أردت أن أخبرك أن جامعة ميشيغان تقوم بترخيص بيانات الكلام الأكاديمي وأوراق الطلاب التي يمكن أن تكون مفيدة جدًا للتدريب أو ضبط ماجستير إدارة الأعمال.”
تقدم الرسالة بيانات من 85 ساعة من المحاضرات وأقسام المناقشة والمقابلات مقابل 15,595 دولارًا أمريكيًا، ومجموعة ثانية من 829 ورقة بحثية كتبها طلاب جامعة ميشيغان عبر مختلف التخصصات مقابل 12,595 دولارًا أمريكيًا، أو حزمة خصم لكلا مجموعتي البيانات بمبلغ 25,000 دولار أمريكي.
قال تشانغ لموقع Gizmodo في رسالة على موقع X: “أعتقد أن الأمر يستحق متابعة الجامعات التي تبيع بيانات الطلاب وما هي الشروط”. لن يحصل منشئو المحتوى على سنت واحد، في حين أن البائع الذي يقوم بتخزين البيانات سيحصل على جميع الأرباح).”
يبدو أن الجامعة تعمل مع منظمة تدعى Catalyst Research Alliance، والتي تدعي أيضًا أنها شريكة مع جامعة ولاية كارولينا الشمالية. ال يقدم موقع الويب عينة من مجموعة البيانات، والذي يأتي مع مقال بعنوان “أوجه القصور الديمقراطية في الاتحاد الأوروبي”، وما يبدو أنه تسجيل لقسم مناقشة الفصل.
ولم يستجب Catalyst Research Alliance وجامعة ولاية كارولينا الشمالية على الفور لطلبات التعليق. وقال ممثل جامعة ميشيغان إنهم يعدون بيانًا. سنقوم بتحديث هذه المقالة عندما نسمع الرد.
يتطلب تدريب نماذج لغوية كبيرة، مثل البرنامج الذي يدير برامج الدردشة الآلية، مثل ChatGPT وBard، مجموعات بيانات ضخمة ومُصنفة بوضوح عبر مواضيع وتخصصات مختلفة. على الرغم من أن مجموعة بيانات جامعة ميشيغان صغيرة، إلا أن المحتوى المنظم جيدًا حول مجموعة ضيقة من الموضوعات يمكن أن يكون مفيدًا لضبط نماذج معينة، وخاصة الأدوات المصممة لأغراض محددة تتعلق بالأوساط الأكاديمية، أو الاتصالات الرسمية، أو لتدريب المزيد من أنظمة الذكاء الاصطناعي العامة لتحسين قدراتها. الأداء في المجالات الفردية للخبرة الموضوعية.
اكتشاف المزيد من موقع دبليو 6 دبليو
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.