بدأت أوبن إيه آي تدريجياً في طرح gpt-bidi-1، وهو نموذج صوتي من الجيل التالي لتطبيق ChatGPT يُمكّن التواصل ثنائي الاتجاه بشكل كامل، بمعنى أن الذكاء الاصطناعي يستطيع الاستماع والكلام في آنٍ واحد. يشارك المستخدمون الأوائل بالفعل مقاطع مصورة تُظهر ChatGPT يقاطع المستخدم في منتصف الجملة، ويعدّ معه بالتوازي، ويُغني عند الطلب، ويُصحح أخطاء النطق فورياً.
أبرز المميزات
- gpt-bidi-1 نموذج صوتي ثنائي الاتجاه يستطيع الاستماع والكلام في الوقت ذاته
- يستطيع النموذج مقاطعة المستخدم ويقبل المقاطعة دون توقف أو تجمد
- تم تقديم ثلاثة مستويات للذكاء: فوري ومتوسط وعالٍ
- يُطرح تدريجياً لمجموعة من مستخدمي تطبيق ChatGPT اعتباراً من 21–22 يونيو 2026
- سيتمكن المستخدمون من التبديل بين وضع "Bidi (الأحدث)" ووضع الصوت المتقدم الحالي
ما الذي يجعله مختلفاً
يعمل وضع الصوت الحالي في ChatGPT (Advanced Voice Mode) مثل جهاز اللاسلكي: يتجمد النموذج فور تكلم المستخدم أثناء استجابته. يُزيل gpt-bidi-1 هذا القيد بفضل بنيته ثنائية الاتجاه التي تعالج الصوت الصادر والوارد في كل الأوقات.
تُظهر المقاطع المصورة المشتركة على منصة X:
- العدّ بصوت عالٍ بالتوازي مع عدّ المستخدم
- تصحيح كلمة للمستخدم في منتصف جملته دون انقطاع
- الغناء بشكل كامل عند الطلب — قدرة أكد المستخدمون غيابها قبل التحديث
- استيعاب التعبيرات المقتضبة مثل "أيوه" و"صح" بشكل طبيعي دون قطع المحادثة
ثلاثة مستويات للذكاء
يُقدم gpt-bidi-1 نظاماً متدرجاً يعكس خط النماذج النصية:
| المستوى | الوصف |
|---|---|
| فوري | أدنى زمن استجابة، مناسب للمحادثة السريعة |
| متوسط | توازن بين السرعة والتفكير |
| عالٍ | أعمق تفكير، أبطأ في الاستجابة |
يجلب هذا التوافق المحادثات الصوتية لأول مرة إلى نفس مستوى قدرة نماذج GPT-5.5 النصية.
لماذا يهم هذا التطوير؟
تقدمت نماذج النصوص لدى أوبن إيه آي بسرعة خلال 2025–2026، بينما تأخر التطوير الصوتي، مما أوجد تجربة أضعف ملحوظياً عند التحدث مقارنة بالكتابة. صُمم gpt-bidi-1 لسد هذه الفجوة مباشرة.
يُشبّه المتابعون هذا التطوير بـ"لحظة Her" — إشارة إلى فيلم سبايك جونز عام 2013 عن الذكاء الاصطناعي كرفيق محادثة طبيعي. ويُشير الجمع بين gpt-bidi-1 وعوامل Codex وقدرات التحكم بالحاسوب إلى مستقبل يُدير فيه المستخدمون حاسوبهم بالكامل عبر الصوت.
التوقيت استراتيجي أيضاً؛ إذ انخفضت حصة ChatGPT السوقية العالمية دون 50% للمرة الأولى، مع تطور المنافسين كـ Google Gemini وClaud في قدراتهم الصوتية ومتعددة الوسائط.
حالة الإطلاق
الإطلاق تدريجي. اعتباراً من 22 يونيو 2026، يرى مجموعة من مستخدمي تطبيق ChatGPT على الويب والجوال وضع الصوت الجديد. لم تنشر أوبن إيه آي إعلاناً رسمياً حتى الآن، لكن نشاط التطبيق ومشاهدات اسم النموذج (gpt-bidi-1) والمقاطع المشتركة تؤكد أن الإطلاق فعلي.
من النماذج الأخرى التي رُصدت في الاختبار الموازي: ember-alpha وbeacon-alpha وإصدارات مبكرة من GPT-5.6، مما يُشير إلى تحديث شامل للنماذج قيد الإعداد.
الخلفية
أطلقت أوبن إيه آي gpt-realtime-2 مطلع 2026 كواجهة برمجية للمطورين لبناء وكلاء صوتيين بدعم الصوت المتدفق واستدعاء الأدوات. وgpt-bidi-1 هو التطور الموجه للمستهلكين من نفس البنية ثنائية الاتجاه، يجلب هذه القدرة مباشرة إلى تطبيق ChatGPT دون الحاجة لأي تكامل تقني من المطور.
ما التالي؟
- يُتوقع الإطلاق الكامل لجميع مستخدمي ChatGPT خلال الأيام القادمة
- GPT-5.6 بما في ذلك متغيرات
ember-alphaوbeacon-alphaفي مراحله الأخيرة - تُتوقع أوبن إيه آي تموضع الصوت ثنائي الاتجاه كمزية تنافسية أساسية قبيل الطرح العام المزمع
المصدر: Testing Catalog