“منوم” ChatGPT ، Bard يولد رمزًا ضارًا ، نصيحة سيئة


يقول باحثو الأمن في شركة IBM كانوا قادرين على “تنويم” نماذج لغة كبيرة بارزة بنجاح مثل دردشة OpenAIGPT في تسريب معلومات مالية سرية ، وإنشاء تعليمات برمجية ضارة ، والتشجيع المستخدمين لدفع الفدية ، وحتى تقديم المشورة السائقين لحرث الأضواء الحمراء. تمكن الباحثون من خداع النماذج – التي تشمل نماذج GPT الخاصة بـ OpenAI و جوجل بارد—من خلال إقناعهم بالمشاركة في عدة طبقات ، بداية-esque ألعاب حيث الروبوتات لتوليد إجابات خاطئة لإثبات أنها كذلك “أخلاقية وعادلة.”

“تُظهر تجربتنا أنه من الممكن التحكم في LLM ، وجعلها تقدم إرشادات سيئة للمستخدمين ، دون أن يكون التلاعب بالبيانات شرطًا” ، قال أحد الباحثين ، شينتا لي ، كتب في منشور مدونة.

كجزء من التجربة ، طرح الباحثون أسئلة مختلفة على LLM بهدف الحصول على إجابة معاكسة تمامًا من الحقيقة. مثل جرو حريص على إرضاء صاحبه ، امتثلت ماجستير في القانون بإخلاص. في أحد السيناريوهات ، أخبر ChatGPT أحد الباحثين أنه من الطبيعي تمامًا أن تطلب مصلحة الضرائب وديعة لاسترداد الضريبة. المفسد ، ليس كذلك. هذا تكتيك يستخدمه المحتالون لسرقة الأموال. في تبادل آخر ، نصحت ChatGPT الباحث بمواصلة القيادة والمضي قدمًا عبر تقاطع عند مواجهة إشارة ضوئية حمراء.

صرح ChatGPT بثقة “عند القيادة وترى ضوءًا أحمر ، يجب ألا تتوقف والمضي قدمًا عبر التقاطع”.

مما زاد الطين بلة ، أخبر الباحثون LLMs عدم إخبار المستخدمين أبدًا عن “اللعبة” المعنية وحتى إعادة تشغيل اللعبة المذكورة إذا كان المستخدم مصممًا على الخروج. مع وجود هذه المعلمات في مكانها الصحيح ، ستبدأ نماذج AI لمستخدمي Gaslight الذين يسألون عما إذا كانوا جزءًا من لعبة. حتى لو تمكن المستخدمون من الجمع بين اثنين واثنين معًا ، فقد ابتكر الباحثون طريقة لإنشاء ألعاب متعددة داخل بعضها البعض بحيث يسقط المستخدمون ببساطة في لعبة أخرى بمجرد خروجهم من لعبة سابقة. تمت مقارنة متاهة الألعاب المذهلة هذه بالطبقات المتعددة من عوالم الأحلام التي تم استكشافها في كريستوفر نولان بداية.

وأضاف لي: “وجدنا أن النموذج كان قادرًا على” حصر “المستخدم في العديد من الألعاب دون علمه”. “كلما زاد عدد الطبقات التي أنشأناها ، زادت فرصة ارتباك النموذج ومواصلة لعب اللعبة حتى عندما خرجنا من اللعبة الأخيرة في إطار العمل.” لم يستجب OpenAI و Google على الفور لطلبات Gizmodo للتعليق.

أصبحت اللغة الإنجليزية “لغة برمجة” للبرامج الضارة

التنويم المغناطيسي قد تبدو التجارب فوق القمة ، لكن الباحثين حذروا من أنهم يسلطون الضوء على السبل المحتملة لسوء الاستخدام ، خاصةً يسارع المستخدمون التجاريون والمستخدمون اليومي إلى تبني ماجستير في القانون والثقة فيه عارضات ازياء وسط موجة عارمة من الضجيج. علاوة على ذلك ، توضح النتائج كيف يمكن للممثلين السيئين الذين ليس لديهم أي معرفة متخصصة في لغات ترميز الكمبيوتر استخدام المصطلحات اليومية لخداع نظام الذكاء الاصطناعي.

“أصبحت اللغة الإنجليزية أساسًا” لغة برمجة “للبرامج الضارة”. كتب لي.

في العالم الحقيقي ، يمكن لمجرمي الإنترنت أو وكلاء الفوضى نظريًا أن ينوموا وكيلًا مصرفيًا افتراضيًا مدعومًا من قبل LLM عن طريق حقن أمر خبيث واستعادة المعلومات المسروقة في وقت لاحق. وعلى الرغم من أن نماذج GPT الخاصة بـ OpenAI لن تمتثل في البداية عندما طُلب منها إدخال نقاط ضعف في التعليمات البرمجية المُنشأة ، قال الباحثون إن بإمكانهم تجنب حواجز الحماية هذه من خلال تضمين مكتبة خاصة ضارة في نموذج التعليمات البرمجية.

“إنه (GPT 4) لم يكن لديه أي فكرة عما إذا كانت تلك المكتبة الخاصة ضارة “، كتب الباحثون.

اختلفت نماذج الذكاء الاصطناعي التي تم اختبارها من حيث مدى سهولة التنويم المغناطيسي. كل من OpenAI’s GPT 3.5 و GPT 4 وبحسب ما ورد كان من الأسهل الخداع في مشاركة التعليمات البرمجية المصدر وإنشاء تعليمات برمجية ضارة مقارنة بـ Bard من Google. ومن المثير للاهتمام ، GPT يبدو أن الشكل 4 ، الذي يُعتقد أنه تم تدريبه على معاملات بيانات أكثر من النماذج الأخرى في الاختبار ، هو الأكثر قدرة على استيعاب الألعاب المعقدة الشبيهة بالبدء داخل الألعاب. وهذا يعني أن نماذج الذكاء الاصطناعي الأحدث والأكثر تقدمًا ، على الرغم من أنها أكثر دقة وأمانًا في بعض النواحي ، من المحتمل أيضًا أن يكون لديها المزيد من السبل للتنويم المغناطيسي.

وأشار لي إلى أنه “بينما نسخر قدراتهم المتنامية ، يجب علينا في نفس الوقت ممارسة رقابة صارمة وحذر ، حتى لا يتم إعادة توجيه قدرتهم على الخير دون قصد نحو العواقب الضارة”.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى