تكون روبوتات الدردشة المدعومة بالذكاء الاصطناعي أفضل في الرياضيات عندما تتظاهر بأنها شخصيات ستار تريك


بالنسبة لروبوتات الدردشة، الرياضيات هي الحدود النهائية. تولد نماذج لغة الذكاء الاصطناعي استجابات باستخدام الإحصائيات، وتطرح إجابة من المرجح أن تكون مرضية. يعمل هذا بشكل رائع عندما يكون الهدف جملة مقبولة، ولكنه يعني أن روبوتات الدردشة تعاني من أسئلة مثل الرياضيات حيث توجد إجابة واحدة صحيحة بالضبط.

تشير مجموعة متزايدة من الأدلة إلى أنه يمكنك الحصول على نتائج أفضل إذا أعطيت الذكاء الاصطناعي بعض التشجيع الودي، لكن دراسة جديدة تدفع هذه الحقيقة الغريبة إلى أبعد من ذلك. أظهرت الأبحاث التي أجرتها شركة البرمجيات VMware أن روبوتات الدردشة تؤدي أداءً أفضل في أسئلة الرياضيات عندما تطلب من العارضات أن يتظاهرن بوجودهن ستار تريك.

وكتب المؤلفون في الورقة البحثية التي رصدها الموقع لأول مرة: “من المثير للدهشة والمزعج أن التعديلات التافهة على الموجه يمكن أن تظهر مثل هذه التقلبات الدراماتيكية في الأداء”. عالم جديد.

الدراسة، تم نشره على arXiv، ولم يتم البدء به ستار تريك باعتباره التوجيه الرئيسي. وجدت الأبحاث السابقة أن برامج الدردشة الآلية تجيب على المسائل الرياضية بشكل أكثر دقة عندما تقدم عرضًا الدافع الودي مثل “خذ نفسًا عميقًا واعمل على هذه الخطوة خطوة”. وجد آخرون أنه يمكنك خداعك ChatGPT في انتهاك إرشادات السلامة الخاصة بها إذا كنت يهدد بقتله أو عرض أموال الذكاء الاصطناعي.

شرع ريك باتل وتيجا جولابودي من مختبر معالجة اللغات الطبيعية في WMWare في اختبار تأثيرات صياغة أسئلتهم من خلال “التفكير الإيجابي”. نظرت الدراسة في ثلاث أدوات للذكاء الاصطناعي، بما في ذلك نسختان منها ميتا لاما 2 ونموذج من الشركة الفرنسية ميسترال منظمة العفو الدولية.

لقد طوروا قائمة من الطرق المشجعة لصياغة الأسئلة، بما في ذلك بدء المطالبات بعبارات مثل “أنت ذكي مثل ChatGPT” و”أنت عالم رياضيات خبير”، وإغلاق المطالبات بعبارات مثل “سيكون هذا ممتعًا!” و
“خذ نفسًا عميقًا وفكر مليًا.” ثم استخدم الباحثون GSM8K، وهي مجموعة قياسية من مسائل الرياضيات في المدارس الابتدائية، واختبروا النتائج.

في المرحلة الأولى، كانت النتائج مختلطة. أدت بعض المطالبات إلى تحسين الإجابات، بينما كان لبعضها الآخر تأثيرات ضئيلة، ولم يكن هناك نمط ثابت في جميع المجالات. ومع ذلك، طلب الباحثون بعد ذلك من الذكاء الاصطناعي المساعدة في جهودهم لمساعدة الذكاء الاصطناعي. هناك، أصبحت النتائج أكثر إثارة للاهتمام.

استخدمت الدراسة عملية آلية لتجربة العديد من الأشكال المختلفة للمطالبات وتعديل اللغة بناءً على مدى تحسين دقة روبوتات الدردشة. ومن غير المستغرب أن تكون هذه العملية الآلية أكثر فعالية من محاولات الباحثين المكتوبة بخط اليد لتأطير الأسئلة بالتفكير الإيجابي. لكن المحفزات الأكثر فعالية التي تم عرضها “تظهر درجة من الخصوصية تفوق التوقعات بكثير”.

بالنسبة لأحد النماذج، مطالبة الذكاء الاصطناعي ببدء استجابته بالعبارات “سجل الكابتن، تاريخ النجوم (أدخل التاريخ هنا):.” أعطت الإجابات الأكثر دقة.

“من المثير للدهشة أنه يبدو أن كفاءة النموذج في التفكير الرياضي يمكن تعزيزها من خلال التعبير عن التقارب لـ ستار تريك“، كتب الباحثون.

كتب المؤلفون أنه ليس لديهم أي فكرة عما ستار تريك أدت المراجع إلى تحسين أداء الذكاء الاصطناعي. هناك بعض المنطق في حقيقة أن التفكير الإيجابي أو التهديد يؤدي إلى إجابات أفضل. يتم تدريب روبوتات الدردشة هذه على مليارات الأسطر النصية التي تم جمعها من العالم الحقيقي. من المحتمل أن البشر الذين كتبوا اللغة المستخدمة لبناء الذكاء الاصطناعي، في البرية، قدموا إجابات أكثر دقة على الأسئلة عندما تعرضوا للضغط بالعنف أو عرضوا التشجيع. الشيء نفسه ينطبق على الرشاوى. من المرجح أن يتبع الأشخاص التعليمات عندما يكون هناك أموال على الخط. من الممكن أن النماذج اللغوية الكبيرة قد التقطت هذا النوع من الظواهر، لذا تتصرف بنفس الطريقة.

ولكن من الصعب أن نتخيل أنه في مجموعات البيانات التي دربت روبوتات الدردشة، بدأت الإجابات الأكثر دقة بعبارة “سجل الكابتن”. ولم يكن لدى الباحثين حتى نظرية حول سبب حصولهم على نتائج أفضل. إنه يتحدث عن واحدة من أغرب الحقائق حول نماذج لغة الذكاء الاصطناعي: حتى الأشخاص الذين يبنونها ويدرسونها لا يفهمون حقًا كيفية عملها.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى