OpenAI lance GPT-Realtime-2 avec un raisonnement de classe GPT-5 pour les apps vocales en direct

OpenAI a lancé trois nouveaux modèles vocaux temps réel le 7 mai 2026, avec en tête d'affiche GPT-Realtime-2, le premier modèle vocal de l'entreprise doté d'un raisonnement de classe GPT-5. La sortie introduit également GPT-Realtime-Translate pour la traduction multilingue en direct et GPT-Realtime-Whisper pour la transcription en flux à très faible latence, tous accessibles via la Realtime API et le Playground.

Points clés

GPT-Realtime-2 quadruple sa fenêtre de contexte à 128K tokens (contre 32K auparavant) et prend en charge les appels d'outils en parallèle, l'effort de raisonnement ajustable et la maîtrise du ton vocal
GPT-Realtime-Translate gère la traduction en direct depuis plus de 70 langues d'entrée vers 13 langues de sortie, en suivant le rythme du locuteur
GPT-Realtime-Whisper transcrit l'audio au fur et à mesure de la parole, ciblant le sous-titrage en direct et les comptes rendus de réunion
Les tarifs commencent à 0,017 dollar par minute pour Whisper et 0,034 dollar par minute pour Translate
Zillow et Deutsche Telekom font partie des premiers utilisateurs en production

Détails

GPT-Realtime-2 est tarifé à 32 dollars par million de tokens audio en entrée (avec 0,40 dollar pour les tokens en cache) et 64 dollars par million de tokens en sortie. Selon OpenAI, cela représente environ 0,30 dollar par minute pour une conversation typique avant les bénéfices du cache.

Le modèle est conçu pour les agents vocaux en production. Il gère les appels d'outils, se remet gracieusement des corrections et des interruptions, et raisonne désormais en cours de conversation plutôt qu'uniquement aux frontières des tours de parole. OpenAI annonce une amélioration de 15,2 pour cent sur le benchmark Big Bench Audio par rapport à la génération précédente.

GPT-Realtime-Translate couvre plus de 70 langues d'entrée et 13 langues de sortie, ce qui le rend pertinent pour le support client transfrontalier, le sous-titrage en direct et les usages d'apprentissage des langues. GPT-Realtime-Whisper, le successeur en flux du Whisper original, est positionné comme l'option la moins chère de la gamme, à moins de deux centimes par minute.

Impact

Cette sortie redéfinit l'IA vocale en passant du "appuyer sur un bouton, obtenir une réponse" à "un agent qui écoute, raisonne et agit en cours de conversation". Pour les développeurs, cela signifie qu'une seule surface API peut maintenant alimenter l'automatisation des centres d'appels, la traduction en direct et la transcription de réunions — trois charges de travail qui nécessitaient auparavant l'assemblage de fournisseurs distincts.

La tarification est la ligne qui devrait inquiéter les acteurs établis. Une traduction sous quatre centimes par minute concurrence directement les services d'interprétation humaine traditionnels et de nombreuses API de traduction spécialisées. La transcription en flux à 0,017 dollar par minute met la pression sur les fournisseurs reconnus du marché du sous-titrage et des comptes rendus de réunion.

Contexte

Zillow, la place de marché immobilière américaine, fait déjà tourner GPT-Realtime-2 en production pour les interactions des visites de logements, et rapporte des améliorations sur les taux de réussite des appels et la robustesse de la conformité. Deutsche Telekom teste GPT-Realtime-Translate pour le support client multilingue sur son périmètre européen.

OpenAI a également confirmé des garanties de niveau entreprise : des classificateurs de sécurité actifs pour filtrer le contenu nuisible, le support de la résidence des données dans l'Union européenne et les engagements habituels en matière de confidentialité. Les modèles sont disponibles dès aujourd'hui pour expérimentation dans OpenAI Playground.

La suite

La transition vers les agents IA voix-first s'accélère. Entre Google Gemini 3.1 Flash Live, Voxtral de Mistral et la nouvelle trilogie d'OpenAI, il devient clair que la prochaine génération d'applications grand public et entreprise sera vocale par défaut. Attendez-vous à une vague d'agents vocaux spécialisés — pour les ventes, le support, l'admission médicale et les services sur le terrain — construits au-dessus de la Realtime API dans les prochains trimestres.

Pour les arabophones et francophones de la région MENA, la prise en charge de plus de 70 langues d'entrée par GPT-Realtime-Translate ouvre aussi la porte à des produits vocaux conscients des dialectes, sans la lourde charge de collecte de données qui verrouillait auparavant ces marchés.

Source : OpenAI