ChatGPT يكتسب القدرة على “الرؤية” و”السماع” و”التحدث”
يوم الاثنين، صانع ChatGPT OpenAI أعلن لقد بدأت في طرح ميزة التعرف على الصوت والصورة في ChatGPT. في الأساس، يمكن للذكاء الاصطناعي التعرف على الصورة كما هي، والتواصل مع المستخدمين بشأنها. بالإضافة إلى ذلك، يتمتع الذكاء الاصطناعي الآن بقدرات تحويل الكلام إلى نص وتحويل النص إلى كلام. أليرة لبنانية الميزات الجديدة نكون من المفترض أن يجعل برنامج الدردشة الآلي يبدو أكثر —مهم —“شبيه بالإنسان” مما فعلته في التكرارات السابقة.
شاركت OpenAI مقطع فيديو ترويجيًا من المفترض أن يقدم للمستخدمين فكرة عنه كيف ستبدو قدرات التعرف على الصور. في ذلك، يطلب المستخدم من ChatGPT مساعدته في خفض مقعد دراجته، وهو ما يستجيب له برنامج الدردشة الآلي ببعض النصائح العامة (والواضحة للغاية، إذا كنا غير متسامحين) لخفض أي نوع من المقاعد.
قام مستخدم مقعد الدراجة لأول مرة بعد ذلك برسم دائرة حول ماسك مقعد الدراجة وطلب المزيد من المساعدة التفصيلية، ومن المفترض أن ChatGPT تعرف على نوع المزلاج وأخبر المستخدم أنه بحاجة إلى Allen مفتاح الربط. من المفترض أيضًا أن يكون النظام قادرًا على إلقاء نظرة على صورة دليل المستخدم وصندوق الأدوات لمعرفة ما إذا كان لديهم الحجم الصحيح مفتاح الربط.
على الرغم من أن التعرف على الصور ليس شيئًا جربته العديد من خدمات chatbot، إلا أننا على اطلاع دائم بأنظمة التعرف على الكلام، بالإضافة إلى تركيب الصوت. استحوذت OpenAI على الخدمات الصوتية الجديدة لروبوت الدردشة من خلال مقطع فيديو لأم تطلب من ChatGPT أن يقرأ لأطفالها قصة قبل النوم عن قنفذ معين في الغابة (كان بإمكانها القراءة من أحد كتاب مصور فعلي، ولكن أعتقد أن هذه إحدى الطرق للوالدين).
تحتوي العينات المضمنة في منشور مدونة OpenAI على إيقاع يبدو طبيعيًا، على الرغم من أنها ليست مثل حزم الصوت “Juniper” أو “Sky” أو “Breeze” التي ستنشئ أصواتًا فريدة لـ Larry the Hedgehog الصغيرة أو أي من أصدقائها في الغابة. يعتمد كل صوت على ممثل صوتي قام بترخيص أصواته للنظام، وفقًا لـ OpenAI.
إنه مشابه للتوليف الصوتي الآخر للذكاء الاصطناعي شركات مثل ElevenLabs. لقد تم سحب هذه الخدمة لكونها في البداية تستخدم للتزييف العميق والمضايقات. قالت OpenAI إن خدماتها الصوتية الأولى تم تنفيذها فقط في الدردشة الصوتية ChatGPT. وتقوم الشركة أيضًا بترخيص أنظمتها الصوتية إلى Spotify، والذي سيُعقد يوم الاثنين أعلن قدرات جديدة للترجمة الصوتية للبودكاست. يجب أن يكون النظام قادرًا على تقليد الشعبية مذيعي البودكاست أصوات تكلم بالإسبانية والفرنسية والألمانية للبدء.
وبطبيعة الحال، فإن الميزة الجديدة متاحة فقط للمستخدمين الذين يدفعون مقابل خدمة Plus أو Enterprise، ويجب أن تكون كلتا الإمكانيتين متاحتين على iOS وAndroid خلال الأسبوعين المقبلين. يجب أيضًا أن يتمتع مستخدمو إصدار الويب من ChatGPT بإمكانيات الصور في وقت قريب بما فيه الكفاية. لن يكون النظام أيضًا بالسرعة أو القدرة التي يقترحها أي من مقاطع الفيديو الترويجية هذه. سلكي تم الإبلاغ عنه بناءً على إصدار ما قبل النشر الذي استغرقه التعرف على الصوت عدة ثوانٍ للرد، وأن نظام الصور لن يحاول التعرف على الأشخاص في الصور (علينا أن ننتظر ونرى مدى نجاح النظام في حماية خصوصية الأشخاص في الصور).
في رسالة بالبريد الإلكتروني إلى Gizmodo، قال متحدث باسم OpenAI إنهم يحاولون طرح ميزات جديدة “تدريجيًا للسماح بالتحسينات وتحسين عمليات تخفيف المخاطر بمرور الوقت”، وهو أمر أكثر “أهمية” فيما يتعلق بالتعرف على الصوت والصورة.
المشكلة الأخرى في النماذج القائمة على الرؤية هي أن برنامج الدردشة الآلي لديه ساحة جديدة تمامًا حيث يمكن أن يسيء تفسير مطالبات المستخدمين أو يفشل في قياسها بدقة. ادعى OpenAI الشركة الفريق الأحمرقمنا بتعديل هذه الميزة الجديدة لمحاولة تقليل المخاطر، ولكن الأمر سيكون مسألة وقت فقط قبل أن يدفع المستخدمون الحدود الأخلاقية لروبوت الدردشة مرة أخرى.
لدى ChatGPT شاهد إنه انخفاض إجمالي المستخدمين منذ أن شهدت شعبية هائلة لأول مرة في نوفمبر 2022. جزء من المشكلة هو أن بعض المستخدمين يشعرون بأن الشركة قد شعرت بذلك أعاقت قدرات chatbot حيث كافحت OpenAI للعثور على نوع ما التوازن الأخلاقي بين تخفيف الأضرار والسماح لمستخدمي برامج الدردشة الآلية الخاصة بهم بالربح.
تواجه OpenAI أيضًا منافسة كبيرة على برنامج الدردشة الآلي الخاص بها من كبار اللاعبين في مجال التكنولوجيا مثل ميتا وكذلك الشركات الناشئة مثل أنثروبي. غوغل يقال من المقرر أن تطلق منافسها الخاص GPT-4 المسمى “Gemini”. يمكن أن تشمل أيضًا إمكانات التعرف على الصور والصوت. الأسبوع الماضي، OpenAI كشفت النقاب عن مولد الصور DALL-E 3 AI أيّ يتضمن أيضًا تكامل ChatGPT. في الواقع، إنها مجرد شركة أخرى تشرب “اللغة الطبيعية” Kool-Aidمعتقدين أن القدرة على تشغيل نظام باستخدام اللغة الطبيعية هي بطريقة ما بديل لنظام يعمل بشكل أفضل واجهة المستخدم.