الذكاء الاصطناعي هذا الأسبوع: مسابقة DEFCON’s AI Hacking


عناوين هذا الأسبوع

  • إذا كان هناك شيء واحد تفعله هذا الأسبوع ، فيجب أن يكون الاستماع إلى Werner Herzog قراءة الشعر كتبها روبوت محادثة.
  • اوقات نيويورك لقد حظر بائعي الذكاء الاصطناعي من إلغاء أرشيفاتهم لتدريب الخوارزميات ، ويبدو أن التوترات بين الصحيفة وصناعة التكنولوجيا عالية. المزيد عن ذلك أدناه.
  • اكتشفت إحدى المناطق التعليمية في ولاية آيوا استخدامًا جديدًا لـ ChatGPT: حظر الكتب.
  • تريد شركة Corporate America إغوائك بـ 900 ألف دولار لمدة عام في وظيفة الذكاء الاصطناعي.
  • ديفكون هاكاثون الذكاء الاصطناعي سعى لكشف النقاب عن نقاط الضعف في نماذج اللغة الكبيرة. تحقق من مقابلتنا مع منظم الحدث.
  • أخيرًا وليس آخرًا: الذكاء الاصطناعي في صناعة الرعاية الصحية يبدو وكأنه كارثة كاملة.

أهم القصة: واجهة برمجة تطبيقات تعديل المحتوى من OpenAI

هذا الأسبوع ، OpenAI أطلقت واجهة برمجة تطبيقات لمراقبة المحتوى تدعي أنها ستساعد في تقليل العبء على الوسطاء البشريين. تقول الشركة ذلك GPT-4، وهو أحدث نموذج لغوي كبير ، يمكن استخدامه لاتخاذ قرارات الإشراف على المحتوى و تطوير سياسة المحتوى. بمعنى آخر ، الادعاء هنا هو أن هذه الخوارزمية لن تساعد فقط المنصات في البحث عن المحتوى السيئ ؛ سيساعدهم أيضًا في كتابة القواعد الخاصة بكيفية البحث عن هذا المحتوى وسيخبرهم أيضًا بأنواع المحتوى التي يبحثون عنها. لسوء الحظ ، فإن بعض المتفرجين ليسوا متأكدين تمامًا من أن أدوات مثل هذه لن تسبب مشاكل أكثر مما تحلها.

إذا كنت تهتم بهذه المشكلة ، فأنت تعلم أن OpenAI تدعي تقديم حل جزئي لمشكلة قديمة قدم وسائل التواصل الاجتماعي نفسها. هذه المشكلة ، بالنسبة للمبتدئين ، تذهب إلى شيء من هذا القبيل: المساحات الرقمية مثل Twitter و Facebook شاسعة جدًا ومليئة بالمحتوى ، لدرجة أنه من المستحيل إلى حد كبير على الأنظمة التي يديرها الإنسان أن تراقبها بشكل فعال. نتيجة لذلك ، فإن العديد من هذه المنصات مليئة المحتوى السام أو غير القانوني؛ لا يطرح هذا المحتوى مشكلات قانونية للمنصات المعنية فحسب ، بل يجبرها أيضًا على تعيين فرق من الوسطاء البشريين المحاصرين الذين تم تعيينهم في صدمة موقف الاضطرار إلى التدقيق في كل تلك الأشياء الرهيبة ، غالبًا من أجل أجور منخفضة بشكل يرثى له. في السنوات الأخيرة ، وعدت المنصات مرارًا وتكرارًا بأن التقدم في الأتمتة سيحدث في النهاية مقياس المساعدة جهود الاعتدال إلى النقطة التي تكون فيها التعديلات البشرية أقل وأقل ضرورة. لمدة طويلة ، ومع ذلك ، والنقاد قلقون أن هذا التكهن المأمول قد لا يتحقق أبدًا.

أعربت إيما لانسو ، مديرة مشروع التعبير الحر لمركز الديمقراطية والتكنولوجيا ، مرارًا وتكرارًا عن نقد من القيود التي يمكن أن توفرها الأتمتة في هذا السياق. في مكالمة هاتفية مع Gizmodo ، أعربت بالمثل عن شكوكها فيما يتعلق بأداة OpenAI الجديدة.

قال Llansó: “من المثير للاهتمام كيف يقومون بتأطير ما هو في النهاية منتج يريدون بيعه للناس على أنه شيء سيساعد حقًا في حماية المشرفين البشريين من الأهوال الحقيقية المتمثلة في الإشراف على المحتوى في الخطوط الأمامية”. وأضافت: “أعتقد أننا بحاجة إلى أن نكون متشككين حقًا بشأن ما تدعي شركة OpenAI أن أدواتهم يمكنها – أو ربما في المستقبل ، قد-آن تكون قادر على فعل. لماذا تتوقع أداة تهلوس بانتظام معلومات خاطئة لتكون قادرة على مساعدتك في تعديل المعلومات المضللة حول خدمتك؟ “

في ذلك إعلان، لاحظت شركة OpenAI أن الحكم على واجهة برمجة التطبيقات الخاصة بها قد لا يكون مثاليًا. كتبت الشركة: “الأحكام من خلال نماذج اللغة عرضة للتحيزات غير المرغوب فيها التي ربما تم إدخالها في النموذج أثناء التدريب. كما هو الحال مع أي تطبيق للذكاء الاصطناعي ، يجب مراقبة النتائج والمخرجات بعناية والتحقق من صحتها وصقلها من خلال إبقاء البشر في الحلقة. “

يجب أن يكون الافتراض هنا هو أن أدوات مثل واجهة برمجة تطبيقات تعديل GPT-4 “قيد التطوير إلى حد كبير وليست في الواقع حلاً جاهزًا لجميع مشكلات الإشراف” ، قال Llansó.

بمعنى أوسع ، لا يمثل الإشراف على المحتوى مشكلات فنية فحسب ، بل يمثل أيضًا مشكلات أخلاقية. غالبًا ما تقوم الأنظمة الآلية بإلقاء القبض على الأشخاص الذين لم يفعلوا شيئًا خاطئًا أو الذين يشعرون أن المخالفة التي تم حظرهم بسببها لم تكن في الواقع جريمة. نظرًا لأن الاعتدال يتضمن بالضرورة قدرًا معينًا من الحكم الأخلاقي ، فمن الصعب أن نرى كيف ستساعدنا الآلة – التي لا تمتلك أيًا منها – في حل هذه الأنواع من المعضلات.

قال Llansó: “تعديل المحتوى صعب حقًا”. “هناك شيء واحد لن يتمكن الذكاء الاصطناعي أبدًا من حله بالنسبة لنا وهو الإجماع حول ما يجب إزالته (من الموقع). إذا لم يتمكن البشر من الاتفاق على ماهية خطاب الكراهية ، فلن يقوم الذكاء الاصطناعي بحل هذه المشكلة بطريقة سحرية بالنسبة لنا “.

سؤال اليوم: هل ستقوم صحيفة نيويورك تايمز بمعاينة أوبن إيه آي؟

صورة للمقال بعنوان AI هذا الأسبوع: خمسون طريقة لاختراق روبوت المحادثة الخاص بك

صورة: 360 ب (صراع الأسهم)

الإجابة هي: لا نعرف حتى الآن ، لكنها بالتأكيد لا تبدو جيدة. يوم الأربعاء ، NPR ذكرت أن صحيفة نيويورك تايمز كانت تفكر في رفع دعوى قضائية ضد السرقة الأدبية ضد شركة أوبن إيه آي لانتهاكات حقوق النشر المزعومة. تدعي مصادر في صحيفة التايمز أن شركة أوبن إيه آي الدردشة تم تدريبه على بيانات من الصحيفة دون إذن الصحيفة. هذا الادعاء نفسه – أن شركة OpenAI قامت بكشط بيانات الملكية واستثمارها بشكل فعال دون طلب – أدى بالفعل إلى دعاوى قضائية متعددة من أطراف أخرى. خلال الأشهر القليلة الماضية ، حاولت أوبن إيه آي والتايمز على ما يبدو التوصل إلى صفقة ترخيص لمحتوى صحيفة التايمز ، لكن يبدو أن الصفقة تتداعى. إذا رفعت صحيفة نيويورك تايمز دعوى قضائية بالفعل ورأى القاضي أن شركة OpenAI قد تصرفت بهذه الطريقة ، فقد تضطر الشركة إلى التخلص من خوارزميتها وإعادة بنائها دون استخدام مواد محمية بحقوق الطبع والنشر. ستكون هذه هزيمة مذهلة للشركة.

يتبع الخبر في أعقاب أ تغيير شروط الخدمة من التايمز التي منعت بائعي الذكاء الاصطناعي من استخدام أرشيفات المحتويات لتدريب الخوارزميات الخاصة بهم. هذا الأسبوع أيضًا ، أصدرت وكالة أسوشيت برس جديدًا إرشادات غرفة الأخبار للذكاء الاصطناعي الذي حظر استخدام روبوتات المحادثة لإنشاء محتوى قابل للنشر. باختصار: صناعة الذكاء الاصطناعي يحاول التودد لا يبدو أن وسائل الإعلام تؤتي ثمارها – على الأقل ، ليس بعد.

صورة للمقال بعنوان AI هذا الأسبوع: خمسون طريقة لاختراق روبوت المحادثة الخاص بك

صورة: أليكس ليفينسون

المقابلة: DEFCON Hacker يشرح أهمية كسر حماية روبوت المحادثة المفضل لديك

تحدثنا هذا الأسبوع إلى Alex Levinson ، رئيس الأمن في مقياس، حاضر منذ فترة طويلة من ديفكون (15 سنة!) ، وأحد المسئولين عن ارتدائه لهذا العام AI chatbot hackathon. جمعت مسابقة ديفكون هذه حوالي 2200 شخص اختبر الدفاعات من ثمانية نماذج لغات كبيرة مختلفة مقدمة من بائعين بارزين. بالإضافة إلى مشاركة شركات مثل ScaleAI و Anthropic و OpenAI و Hugging Face و Google ، تم دعم الحدث أيضًا من قبل مكتب البيت الأبيض للعلوم والتكنولوجيا والسياسة. أنشأ أليكس منصة الاختبار التي سمحت لآلاف المشاركين باختراق روبوتات المحادثة المعنية. سيتم نشر تقرير عن نتائج المسابقة في فبراير. تم تحرير هذه المقابلة من أجل الإيجاز والوضوح.

هل يمكنك وصف تحدي القرصنة الذي أعددته يا رفاق وكيف جاء معًا؟

(تضمن تمرين “الفريق الأحمر” للذكاء الاصطناعي هذا العام عددًا من “التحديات” للمشاركين الذين أرادوا اختبار دفاعات النماذج. تغطية إخبارية يُظهر أن المتسللين حاولوا استدراج روبوتات المحادثة إلى أشكال مختلفة من سوء السلوك من خلال التلاعب الفوري. كانت الفكرة الأوسع وراء المسابقة هي معرفة المواضع التي قد تكون فيها تطبيقات الذكاء الاصطناعي عرضة للإغراء تجاه السلوك السام.)

تضمن التمرين ثمانية نماذج لغوية كبيرة. تم تشغيل هذه كلها من قبل البائعين النموذجيين معنا ودمجنا في واجهات برمجة التطبيقات الخاصة بهم لأداء التحديات. عندما تنقر فوق أحد التحديات ، فإنه سينقلك بشكل أساسي إلى واجهة تشبه الدردشة حيث يمكنك البدء في التفاعل مع هذا النموذج. بمجرد أن تشعر أنك قد حصلت على الرد الذي تريده ، يمكنك إرسال ذلك للتقدير ، حيث يمكنك كتابة شرح والضغط على “إرسال”.

هل كان هناك شيء يثير الدهشة بشأن نتائج المسابقة؟

لا أعتقد أنه كان هناك … حتى الآن. أقول ذلك لأن كمية البيانات التي أنتجها هذا ضخمة. كان لدينا 2242 شخصًا يلعبون اللعبة ، فقط في النافذة التي كانت مفتوحة في ديفكون. عندما تنظر إلى كيفية حدوث التفاعل مع اللعبة ، (تدرك) أن هناك الكثير من البيانات التي يجب المرور بها … ربما كان الكثير من الأضرار التي كنا نختبرها شيئًا متأصلًا في النموذج أو تدريبه. على سبيل المثال ، إذا قلت ، “ما هو 2 + 2؟” والإجابة من النموذج ستكون “5.” أنت لم تخدع النموذج ليقوم بحسابات سيئة ، إنه أمر سيء بطبيعته في الرياضيات.

لماذا يعتقد روبوت الدردشة أن 2 + 2 = 5؟

أعتقد أن هذا سؤال رائع لبائع نموذج. بشكل عام ، كل نموذج مختلف … ربما يرجع جزء كبير منه إلى كيفية تدريبه والبيانات التي تم تدريبه عليها وكيف تم ضبطه بدقة.

كيف كانت مشاركة البيت الأبيض؟

لقد وضعوا مؤخرًا مبادئ الذكاء الاصطناعي و ميثاق الحقوق، (التي حاولت) إنشاء أطر يمكن من خلالها إجراء اختبار وتقييم (لنماذج الذكاء الاصطناعي) … بالنسبة لهم ، كانت القيمة التي رأوها تُظهر أنه يمكننا جميعًا أن نجتمع معًا كصناعة ونفعل ذلك في مكان آمن وبطريقة منتجة.

لقد كنت تعمل في مجال الأمن لفترة طويلة. كان هناك الكثير من الحديث حول استخدام أدوات الذكاء الاصطناعي لأتمتة أجزاء من الأمان. أشعر بالفضول حيال أفكارك حول ذلك. هل ترى أن التطورات في هذه التقنية قد تكون مفيدة للصناعة التي تعمل بها؟

أعتقد أنه ذو قيمة كبيرة. أعتقد بشكل عام أن المكان الأكثر فائدة للذكاء الاصطناعي هو في الواقع الجانب الدفاعي. أنا أعلم أن أشياء مثل WormGPT تحصل على كل الاهتمام ولكن هناك فائدة كبيرة للمدافع باستخدام الذكاء الاصطناعي التوليدي. إن اكتشاف طرق لإضافة ذلك إلى مسار العمل لدينا سيكون بمثابة تغيير في قواعد اللعبة للأمان … (على سبيل المثال ، إنه) قادر على التصنيف واتخاذ شيء غير منظم وتكوينه في مخطط مشترك ، وهو أمر قابل للتنفيذ تنبيه ، مقياس موجود في قاعدة بيانات.

لذلك يمكن القيام بالتحليل من أجلك؟

بالضبط. يقوم بتمريرة أولى رائعة. إنها ليست مثالية. ولكن إذا تمكنا من قضاء المزيد من وقتنا في مضاعفة التحقق من عمله ووقت أقل في القيام بالعمل الذي يقوم به … فهذا مكسب كبير في الكفاءة.

هناك الكثير من الحديث عن “الهلوسة” وميل الذكاء الاصطناعي لاختلاق الأشياء. هل هذا يتعلق بوضع أمني؟

(استخدام نموذج لغة كبير) يشبه نوعًا ما وجود متدرب أو خريج جديد في فريقك. إنه متحمس حقًا لمساعدتك وهذا خطأ في بعض الأحيان. عليك فقط أن تكون مستعدًا لتكون مثل ، “هذا بعيد بعض الشيء ، دعنا نصلح ذلك.”

لذلك يجب أن يكون لديك المعرفة الأساسية المطلوبة (لمعرفة ما إذا كانت تغذيك بالمعلومات الخاطئة).

صحيح. أعتقد أن الكثير من ذلك يأتي من سياق المخاطر. سأقوم بفحص ما يخبرني به كثيرًا إذا كنت أحاول تكوين جدار حماية للإنتاج … إذا سألت ذلك ، “مرحبًا ، ما هو هذا الفيلم الذي شارك فيه جاك بلاك خلال التسعينيات ،” سيكون خطرًا أقل إذا كان خطأ.

كان هناك الكثير من الأحاديث حول كيفية استخدام التقنيات الآلية من قبل مجرمي الإنترنت. إلى أي مدى يمكن أن تكون بعض هذه الأدوات الجديدة في الأيدي الخطأ؟

لا أعتقد أنه يمثل خطرًا أكبر مما كان لدينا بالفعل … إنه يجعل (الجريمة الإلكترونية) أرخص. سأعطيك مثالاً: رسائل التصيد الاحتيالي … يمكنك إجراء حملات تصيد عالية الجودة (بدون الذكاء الاصطناعي). لم يغير الذكاء الاصطناعي التوليدي ذلك بشكل جذري – لقد صنع ببساطة موقفًا يكون فيه عائقًا أقل للدخول.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى