Thinking Machines تكشف عن ذكاء اصطناعي ثنائي الاتجاه يستمع ويتحدث في آنٍ واحد

كسرت ميرا موراتي، المديرة التقنية السابقة لشركة OpenAI، صمتها الذي دام أربعة عشر شهراً بأهم إعلان حتى الآن من شركتها الناشئة Thinking Machines Lab. كشفت الشركة عن TML-Interaction-Small، وهو نموذج ذكاء اصطناعي من نوع جديد تُسمّيه "نموذج التفاعل" — مُدرَّب من الصفر للاستماع والتحدث والتصرف في الوقت ذاته.

أبرز النقاط

TML-Interaction-Small نموذج ضخم من نوع Mixture-of-Experts بـ276 مليار معامل و12 مليار معامل نشطة
زمن استجابة 0.40 ثانية — يتفوق على GPT-realtime-1.5 (0.59 ث) وGemini-3.1-Flash-Live (0.57 ث)
يعالج الصوت والفيديو والنص في دورات صغيرة كل 200 ميلي ثانية مما يتيح محادثة كاملة ثنائية الاتجاه
تأسست الشركة في فبراير 2025 بتقييم 12 مليار دولار، وتضم الفريق المؤسِّس لـ PyTorch

نموذج جديد: من المحادثة بالأدوار إلى الوقت الفعلي

كل مساعد ذكاء اصطناعي استخدمته يعمل بالتناوب: تنتهي من الكلام، يعالج النموذج المدخلات، ثم يرد. تؤكد Thinking Machines أن هذا التصميم ليس قيداً على الذكاء بل قيداً على البنية المعمارية. نماذج التفاعل لديهم مُدرَّبة أصلاً على التزامن.

"يتحدث الناس ويستمعون ويشاهدون ويفكرون ويتعاونون في الوقت نفسه وفي الوقت الفعلي. صممنا ذكاءً اصطناعياً يعمل مع البشر بالطريقة ذاتها"، هكذا كتبت الشركة في إعلانها الرسمي.

يعالج النموذج المدخلات والمخرجات في دورات مدتها 200 ميلي ثانية — ما يُقارب سرعة الاستجابة في المحادثة البشرية — دون انتظار إشارة صريحة لنهاية الدور. يمكنه المقاطعة والتدخل والترجمة الفورية وعدّ التمارين الرياضية من الفيديو وتقديم ملاحظات سياقية غير مطلوبة.

بنية معمارية ثنائية المستوى

يعتمد TML-Interaction-Small تحت الغطاء على نظام من طبقتين:

نموذج التفاعل: خفيف الوزن، يستمع دائماً، يدير تدفق الحوار والاستجابات الفورية
النموذج الخلفي: يُنفّذ الاستدلال الثقيل واستدعاء الأدوات والبحث على الويب والتخطيط للمهام المعقدة بشكل غير متزامن — بينما تبقى طبقة التفاعل حاضرة في المحادثة

يحل هذا الفصل أحد أصعب المقايضات في الذكاء الاصطناعي الصوتي: يمكنك الحصول على السرعة أو العمق، نادراً كليهما. تسعى هذه البنية إلى تقديم الاثنين معاً من خلال الفصل بين المهام.

الأداء على المعايير القياسية

أبرز النتائج على قائمة FD-bench:

النموذج	زمن الاستجابة
TML-Interaction-Small	0.40 ث
Gemini-3.1-Flash-Live	0.57 ث
GPT-realtime-1.5	0.59 ث
GPT-realtime-2.0 (thinking)	1.63 ث

يحقق النموذج درجة جودة تفاعل 77.8 على FD-bench v1.5، ودقة 43.4% على Audio MultiChallenge. على معايير الاستدلال المنظم مثل IFEval يسجل 89.7 — تنافسياً لكن دون GPT-realtime-2.0 عند 95.2.

نشرت Thinking Machines أيضاً معايير قياسية جديدة خاصة بها، مؤكدةً أن التقييمات الحالية صُمِّمت لأنظمة التناوب ولا تعكس جودة التفاعل الفوري.

الفريق المؤسِّس

تأسست Thinking Machines Lab في فبراير 2025 بعد فترة وجيزة من مغادرة موراتي لـ OpenAI. جمعت الشركة منذ ذلك الحين فريقاً من خبراء الذكاء الاصطناعي:

ميرا موراتي (الرئيسة التنفيذية) — المديرة التقنية السابقة لـ OpenAI
Soumith Chintala (المدير التقني) — أحد مبتكري PyTorch
John Schulman — باحث سابق في OpenAI

تحظى الشركة بتمويل أولي بقيمة 2 مليار دولار بتقييم 12 مليار دولار، بمشاركة a16z من بين آخرين.

ما التالي؟

TML-Interaction-Small متاح حالياً لمجموعة محدودة من شركاء البحث. ومن المقرر إطلاق عام أوسع لاحقاً في 2026. لم تُفصح الشركة بعد عن التسعير أو تفاصيل الواجهة البرمجية.

استقطب الإعلان اهتماماً فورياً واسعاً في قطاع الذكاء الاصطناعي، إذ أشار المحللون إلى أن هذا التطور قد يُعيد تشكيل المشهد التنافسي في منتجات الذكاء الاصطناعي الصوتي — لا سيما في خدمة العملاء والرعاية الصحية عن بُعد والترجمة الفورية والمساعدة البرمجية في الوقت الفعلي.

المصدر: Thinking Machines Lab · TechCrunch