الكتابات/news/2026/05
News8 مايو 2026·6 دقيقة

أوبن إيه آي تطلق GPT-Realtime-2 بقدرات استدلال من فئة GPT-5 لتطبيقات الصوت الفورية

كشفت أوبن إيه آي يوم 7 ماي 2026 عن ثلاثة نماذج صوتية فورية جديدة هي GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، تجلب قدرات استدلال من فئة GPT-5 ونافذة سياق 128 ألف رمز وترجمة فورية متعددة اللغات إلى واجهة Realtime API.

أطلقت شركة أوبن إيه آي يوم 7 ماي 2026 ثلاثة نماذج صوتية فورية جديدة، يتصدّرها نموذج GPT-Realtime-2 الذي يُعدّ أوّل نموذج صوتي للشركة بقدرات استدلال من فئة GPT-5. ويشمل الإصدار أيضاً نموذج GPT-Realtime-Translate للترجمة الصوتية المتعددة اللغات في الزمن الحقيقي، ونموذج GPT-Realtime-Whisper للنسخ النصي الفوري بزمن استجابة منخفض جداً، وكلها متوفّرة عبر واجهة Realtime API ومنصة Playground.

أبرز النقاط

  • GPT-Realtime-2 يضاعف نافذة السياق إلى 128 ألف رمز (مقارنة بـ32 ألفاً سابقاً)، ويدعم استدعاء الأدوات بالتوازي وضبط مستوى الاستدلال والتحكّم في نبرة الصوت
  • GPT-Realtime-Translate يتعامل مع الترجمة الفورية من أكثر من 70 لغة دخل إلى 13 لغة خرج بسرعة المتحدّث ذاتها
  • GPT-Realtime-Whisper يقوم بنسخ الصوت أثناء الكلام، ويستهدف تطبيقات التعليق المباشر ومحاضر الاجتماعات
  • التسعير يبدأ من 0.017 دولار للدقيقة لنموذج Whisper و0.034 دولار للدقيقة لنموذج Translate
  • شركة Zillow الأمريكية وDeutsche Telekom الألمانية من أوائل المستخدمين في الإنتاج

التفاصيل

يبلغ سعر GPT-Realtime-2 نحو 32 دولاراً لكل مليون رمز إدخال صوتي (و0.40 دولار للرمز المخزّن مؤقتاً) و64 دولاراً لكل مليون رمز إخراج صوتي. وفقاً لأوبن إيه آي، يُترجم ذلك إلى ما يقارب 0.30 دولار للدقيقة في محادثة اعتيادية قبل الاستفادة من التخزين المؤقت.

النموذج مصمّم خصيصاً لوكلاء الصوت في بيئات الإنتاج، فهو يتعامل مع استدعاءات الأدوات ويتعافى من التصحيحات والمقاطعات بسلاسة، ويستدلّ خلال المحادثة لا في نهايتها فقط. وأعلنت أوبن إيه آي عن تحسّن بنسبة 15.2 بالمئة على معيار Big Bench Audio مقارنة بالجيل السابق.

أمّا GPT-Realtime-Translate فيغطّي أكثر من 70 لغة دخل و13 لغة خرج، ممّا يجعله ملائماً للدعم الفنّي عبر الحدود، والتعليق المباشر، وتطبيقات تعلّم اللغات. ويُعتبر GPT-Realtime-Whisper، الخليفة المتدفّق لنموذج Whisper الأصلي، الخيار الأقل تكلفة في المجموعة بسعر يقلّ عن سنتين للدقيقة.

الأثر

يُعيد هذا الإطلاق صياغة مفهوم الذكاء الاصطناعي الصوتي من "اضغط الزر واحصل على إجابة" إلى "وكيل يستمع ويستدلّ ويتصرّف خلال المحادثة". وبالنسبة للمطوّرين، فإنّ ذلك يعني أنّ واجهة برمجية واحدة باتت قادرة على تشغيل أتمتة مراكز الاتّصال، والترجمة الفورية، ونسخ الاجتماعات؛ وهي ثلاثة أعباء كانت تتطلّب سابقاً دمج موفّرين منفصلين.

التسعير هو الخط الذي ينبغي أن يقلق المنافسين التقليديين. فالترجمة بأقل من أربعة سنتات في الدقيقة تتفوّق على خدمات الترجمة البشرية التقليدية وعلى كثير من واجهات الترجمة المتخصّصة. كما أنّ النسخ الصوتي المتدفّق بسعر 0.017 دولار للدقيقة يضع ضغطاً على الموفّرين المعروفين في سوق التعليق المباشر ومحاضر الاجتماعات.

الخلفية

تستخدم منصّة العقارات الأمريكية Zillow نموذج GPT-Realtime-2 في الإنتاج لتفاعلات جولات المنازل، وتفيد بتحسّن معدّلات نجاح المكالمات ومتانة الامتثال. وتختبر Deutsche Telekom نموذج GPT-Realtime-Translate لدعم العملاء عبر اللغات المختلفة في امتدادها الأوروبي.

أكّدت أوبن إيه آي أيضاً وجود ضمانات بمستوى المؤسسات تشمل مصنّفات أمان نشطة لتصفية المحتوى الضارّ، ودعم إقامة البيانات في الاتّحاد الأوروبي، والتزامات الخصوصية المعتادة للمؤسسات. النماذج متاحة للتجريب اليوم عبر OpenAI Playground.

ما القادم

التحوّل نحو وكلاء الذكاء الاصطناعي الصوتيين يتسارع. فبين Google Gemini 3.1 Flash Live ونموذج Voxtral من Mistral وثلاثية أوبن إيه آي الجديدة، أصبح من الواضح أنّ الجيل القادم من تطبيقات المستهلكين والمؤسسات سيكون صوتياً بطبيعته. ومن المتوقّع موجة من الوكلاء الصوتيين المتخصّصين في المبيعات والدعم وتسجيل المرضى والخدمة الميدانية، وكلّها مبنية فوق Realtime API خلال الأشهر المقبلة.

بالنسبة للناطقين بالعربية والفرنسية في منطقة الشرق الأوسط وشمال إفريقيا، فإنّ دعم أكثر من 70 لغة دخل في GPT-Realtime-Translate يفتح الباب أمام منتجات صوتية تراعي اللهجات دون عبء جمع البيانات الثقيل الذي كان يقيّد هذه الأسواق سابقاً.


المصدر: OpenAI