écrits/news/2026/05
News12 mai 2026·6 min

Thinking Machines dévoile une IA full-duplex qui écoute et parle simultanément

La startup Thinking Machines Lab de Mira Murati, ancienne CTO d'OpenAI, a lancé TML-Interaction-Small, un modèle de 276 milliards de paramètres conçu dès le départ pour la conversation en temps réel full-duplex, avec une latence inférieure à 0,5 seconde.

Mira Murati, ancienne directrice technique d'OpenAI, a brisé 14 mois de silence public avec l'annonce la plus significative à ce jour de sa startup Thinking Machines Lab. La société a dévoilé TML-Interaction-Small, une nouvelle classe de modèle qu'elle nomme "interaction model" — entraîné de zéro pour écouter, parler et agir en même temps.

Points clés

  • TML-Interaction-Small est un modèle Mixture-of-Experts de 276 milliards de paramètres avec 12 milliards actifs
  • Latence de prise de parole de 0,40 seconde — devant GPT-realtime-1.5 (0,59 s) et Gemini-3.1-Flash-Live (0,57 s)
  • Traitement audio, vidéo et texte en micro-tours de 200 millisecondes pour une conversation full-duplex native
  • Fondée en février 2025 avec une valorisation de 12 milliards USD, équipe comprenant le co-créateur de PyTorch

Un nouveau paradigme: du tour par tour au temps réel

Chaque assistant IA que vous avez utilisé fonctionne en alternance: vous finissez de parler, le modèle traite, puis répond. Thinking Machines soutient que cette conception n'est pas une limite de l'intelligence mais une limite d'architecture. Leurs modèles sont entraînés nativement pour la simultanéité.

"Les gens parlent, écoutent, regardent, pensent et collaborent en même temps, en temps réel. Nous avons conçu une IA qui fonctionne de la même façon avec les personnes", a écrit la société dans son annonce officielle.

Le modèle traite entrées et sorties en micro-tours de 200 millisecondes — proche de la vitesse de réponse conversationnelle humaine — sans attendre de signal explicite de fin de tour. Il peut être interrompu, peut intervenir, traduire la parole en direct, compter des répétitions d'exercices depuis une vidéo, et formuler des observations contextuelles non sollicitées.

Architecture à deux niveaux

Sous le capot, TML-Interaction-Small repose sur un système à deux couches:

  • Interaction Model: léger, toujours en écoute, gère le flux conversationnel et les réponses immédiates
  • Background Model: effectue le raisonnement lourd, les appels d'outils, les recherches web et la planification de tâches complexes de manière asynchrone — pendant que la couche d'interaction maintient la conversation active

Cette séparation résout l'un des compromis les plus difficiles de l'IA vocale: on peut avoir la vitesse ou la profondeur, rarement les deux. Cette architecture tente de livrer les deux en séparant les responsabilités.

Performances sur les benchmarks

Résultats sur le classement FD-bench:

ModèleLatence de tour
TML-Interaction-Small0,40 s
Gemini-3.1-Flash-Live0,57 s
GPT-realtime-1.50,59 s
GPT-realtime-2.0 (thinking)1,63 s

Le modèle obtient un score de qualité d'interaction FD-bench v1.5 de 77,8 et une précision Audio MultiChallenge de 43,4%. Sur les benchmarks de raisonnement structuré comme IFEval, il atteint 89,7 — compétitif mais en dessous de GPT-realtime-2.0 à 95,2.

Thinking Machines a également publié de nouveaux benchmarks, arguant que les évaluations existantes sont conçues pour les systèmes tour par tour et ne capturent pas la qualité de l'interaction en temps réel.

Une équipe de poids

Thinking Machines Lab a été fondée en février 2025, peu après le départ de Murati d'OpenAI. La société a depuis réuni une équipe de vétérans:

  • Mira Murati (CEO) — ancienne CTO, OpenAI
  • Soumith Chintala (CTO) — co-créateur de PyTorch
  • John Schulman — ancien chercheur, OpenAI

Le laboratoire est soutenu par un tour de table initial de 2 milliards USD à une valorisation de 12 milliards USD, avec la participation de a16z notamment.

Et maintenant?

TML-Interaction-Small est disponible pour un nombre limité de partenaires de recherche. Une sortie publique plus large est prévue pour la fin de 2026. La société n'a pas encore communiqué sur la tarification ni les détails d'API.

L'annonce a immédiatement attiré l'attention de toute l'industrie IA. Les analystes notent que si les affirmations sur la latence et la qualité d'interaction se confirment lors de vérifications indépendantes, cela pourrait redistribuer les cartes dans l'IA vocale — notamment pour le service client, la télémédecine, la traduction simultanée et l'assistance au développement logiciel en temps réel.


Source: Thinking Machines Lab · TechCrunch