OpenAI a lancé trois nouveaux modèles vocaux temps réel le 7 mai 2026, avec en tête d'affiche GPT-Realtime-2, le premier modèle vocal de l'entreprise doté d'un raisonnement de classe GPT-5. La sortie introduit également GPT-Realtime-Translate pour la traduction multilingue en direct et GPT-Realtime-Whisper pour la transcription en flux à très faible latence, tous accessibles via la Realtime API et le Playground.
Points clés
- GPT-Realtime-2 quadruple sa fenêtre de contexte à 128K tokens (contre 32K auparavant) et prend en charge les appels d'outils en parallèle, l'effort de raisonnement ajustable et la maîtrise du ton vocal
- GPT-Realtime-Translate gère la traduction en direct depuis plus de 70 langues d'entrée vers 13 langues de sortie, en suivant le rythme du locuteur
- GPT-Realtime-Whisper transcrit l'audio au fur et à mesure de la parole, ciblant le sous-titrage en direct et les comptes rendus de réunion
- Les tarifs commencent à 0,017 dollar par minute pour Whisper et 0,034 dollar par minute pour Translate
- Zillow et Deutsche Telekom font partie des premiers utilisateurs en production
Détails
GPT-Realtime-2 est tarifé à 32 dollars par million de tokens audio en entrée (avec 0,40 dollar pour les tokens en cache) et 64 dollars par million de tokens en sortie. Selon OpenAI, cela représente environ 0,30 dollar par minute pour une conversation typique avant les bénéfices du cache.
Le modèle est conçu pour les agents vocaux en production. Il gère les appels d'outils, se remet gracieusement des corrections et des interruptions, et raisonne désormais en cours de conversation plutôt qu'uniquement aux frontières des tours de parole. OpenAI annonce une amélioration de 15,2 pour cent sur le benchmark Big Bench Audio par rapport à la génération précédente.
GPT-Realtime-Translate couvre plus de 70 langues d'entrée et 13 langues de sortie, ce qui le rend pertinent pour le support client transfrontalier, le sous-titrage en direct et les usages d'apprentissage des langues. GPT-Realtime-Whisper, le successeur en flux du Whisper original, est positionné comme l'option la moins chère de la gamme, à moins de deux centimes par minute.
Impact
Cette sortie redéfinit l'IA vocale en passant du "appuyer sur un bouton, obtenir une réponse" à "un agent qui écoute, raisonne et agit en cours de conversation". Pour les développeurs, cela signifie qu'une seule surface API peut maintenant alimenter l'automatisation des centres d'appels, la traduction en direct et la transcription de réunions — trois charges de travail qui nécessitaient auparavant l'assemblage de fournisseurs distincts.
La tarification est la ligne qui devrait inquiéter les acteurs établis. Une traduction sous quatre centimes par minute concurrence directement les services d'interprétation humaine traditionnels et de nombreuses API de traduction spécialisées. La transcription en flux à 0,017 dollar par minute met la pression sur les fournisseurs reconnus du marché du sous-titrage et des comptes rendus de réunion.
Contexte
Zillow, la place de marché immobilière américaine, fait déjà tourner GPT-Realtime-2 en production pour les interactions des visites de logements, et rapporte des améliorations sur les taux de réussite des appels et la robustesse de la conformité. Deutsche Telekom teste GPT-Realtime-Translate pour le support client multilingue sur son périmètre européen.
OpenAI a également confirmé des garanties de niveau entreprise : des classificateurs de sécurité actifs pour filtrer le contenu nuisible, le support de la résidence des données dans l'Union européenne et les engagements habituels en matière de confidentialité. Les modèles sont disponibles dès aujourd'hui pour expérimentation dans OpenAI Playground.
La suite
La transition vers les agents IA voix-first s'accélère. Entre Google Gemini 3.1 Flash Live, Voxtral de Mistral et la nouvelle trilogie d'OpenAI, il devient clair que la prochaine génération d'applications grand public et entreprise sera vocale par défaut. Attendez-vous à une vague d'agents vocaux spécialisés — pour les ventes, le support, l'admission médicale et les services sur le terrain — construits au-dessus de la Realtime API dans les prochains trimestres.
Pour les arabophones et francophones de la région MENA, la prise en charge de plus de 70 langues d'entrée par GPT-Realtime-Translate ouvre aussi la porte à des produits vocaux conscients des dialectes, sans la lourde charge de collecte de données qui verrouillait auparavant ces marchés.
Source : OpenAI