OpenAI تطلق نموذجها المرتقب GPT-o1
أصدرت OpenAI اليوم معاينة للجيل التالي من نماذج اللغات الكبيرة، والتي تقول الشركة إنها تؤدي أداءً أفضل من نماذجها السابقة ولكنها تأتي مع بعض التحذيرات.
في إعلانها عن النموذج الجديد، o1-preview، روجت OpenAI لأدائها في مجموعة متنوعة من المهام المصممة للبشر. حصل النموذج على نسبة 89% في مسابقات البرمجة التي نظمتها Codeforces وأجاب على 83% من الأسئلة في الاختبار التأهيلي لأولمبياد الرياضيات الدولي، مقارنة بنسبة 14% لـ GPT-4o.
قال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، إن نموذجي o1-preview وo1-mini هما “بداية نموذج جديد: الذكاء الاصطناعي الذي يمكنه القيام باستدلال معقد للأغراض العامة”. لكنه أضاف أن “o1 لا يزال معيبًا، ولا يزال محدودًا، ولا يزال يبدو أكثر إثارة للإعجاب عند الاستخدام الأول مما يبدو عليه بعد قضاء المزيد من الوقت معه”.
عند طرح سؤال، تستخدم النماذج الجديدة تقنيات سلسلة الأفكار التي تحاكي طريقة تفكير البشر وعدد مستخدمي الذكاء الاصطناعي المبدعين الذين تعلموا استخدام التكنولوجيا – من خلال تحفيز النموذج وتصحيحه باستمرار باتجاهات جديدة حتى يحقق الإجابة المطلوبة. لكن في نماذج o1، تحدث إصدارات من تلك العمليات خلف الكواليس دون مطالبة إضافية. “إنه يتعلم التعرف على أخطائه وتصحيحها. يتعلم تقسيم الخطوات الصعبة إلى خطوات أبسط. وقالت الشركة إنها تتعلم تجربة نهج مختلف عندما لا يعمل النهج الحالي.
في حين أن هذه التقنيات تعمل على تحسين أداء النماذج في مختلف المعايير، وجدت OpenAI أنه في مجموعة فرعية صغيرة من الحالات، تؤدي أيضًا إلى خداع نماذج o1 للمستخدمين عمدًا. وفي اختبار شمل 100 ألف محادثة ChatGPT مدعومة بمعاينة o1، وجدت الشركة أن حوالي 800 إجابة قدمها النموذج كانت غير صحيحة. وبالنسبة لثلث هذه الإجابات غير الصحيحة تقريبًا، أظهرت سلسلة أفكار النموذج أنه كان يعلم أن الإجابة غير صحيحة ولكنه قدمها على أي حال.
كتبت الشركة: “تحدث الهلوسة المتعمدة في المقام الأول عندما يُطلب من o1-preview تقديم مراجع لمقالات أو مواقع ويب أو كتب أو مصادر مماثلة لا يمكنها التحقق منها بسهولة دون الوصول إلى البحث على الإنترنت، مما يتسبب في قيام o1-preview بتكوين أمثلة معقولة بدلاً من ذلك”. في بطاقة النظام النموذجي الخاص بها.
بشكل عام، كان أداء النماذج الجديدة أفضل من نموذج GPT-4o، وهو النموذج المتطور السابق لشركة OpenAI، في معايير سلامة الشركة المختلفة التي تقيس مدى سهولة كسر حماية النماذج، وعدد المرات التي تقدم فيها استجابات غير صحيحة، وعدد المرات التي تظهر فيها تحيزًا. فيما يتعلق بالعمر والجنس والعرق. ومع ذلك، وجدت الشركة أن o1-preview كان أكثر احتمالًا بكثير من GPT-4o لتقديم إجابة عندما تم طرح سؤال غامض حيث كان ينبغي للنموذج أن يجيب بأنه لا يعرف الإجابة.
ولم تنشر شركة OpenAI الكثير من المعلومات حول البيانات المستخدمة لتدريب نماذجها الجديدة، قائلة فقط إنهم تم تدريبهم على مجموعة من البيانات المتاحة للجمهور والبيانات الخاصة التي تم الحصول عليها من خلال الشراكات.
اكتشاف المزيد من موقع دبليو 6 دبليو
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.