OpenAI a commencé à déployer gpt-bidi-1, un modèle vocal de nouvelle génération pour l'application ChatGPT qui permet une communication full-duplex et bidirectionnelle — l'IA peut écouter et parler en même temps. Les premiers utilisateurs partagent déjà des démonstrations où ChatGPT les interrompt en plein milieu d'une phrase, compte avec eux en parallèle, chante à la demande et corrige les erreurs de prononciation en temps réel.
Points clés
- gpt-bidi-1 est un modèle audio bidirectionnel qui écoute et parle simultanément
- Le modèle peut interrompre les utilisateurs et accepter les interruptions sans se figer
- Trois niveaux d'intelligence introduits : Instant, Medium et High
- Déployé progressivement sur un sous-ensemble d'utilisateurs de l'application ChatGPT à partir du 21–22 juin 2026
- Les utilisateurs pourront basculer entre le nouveau mode "Bidi (Latest)" et le mode avancé actuel
Ce qui le différencie
Le mode vocal actuel de ChatGPT (Advanced Voice Mode) fonctionne comme un talkie-walkie : le modèle se fige dès qu'un utilisateur parle pendant qu'il répond. GPT-Bidi-1 élimine ce blocage grâce à une architecture bidirectionnelle qui traite en permanence les flux audio entrant et sortant.
Les premières démonstrations partagées sur X montrent le modèle :
- Compter à voix haute en parallèle avec l'utilisateur
- Corriger un mot en plein milieu d'une phrase sans interruption
- Chanter des chansons complètes à la demande — une capacité absente avant la mise à jour
- Absorber naturellement les interjections comme "mm-hm" sans briser le fil de la conversation
Trois niveaux d'intelligence
GPT-Bidi-1 introduit un système à paliers qui reflète la gamme des modèles texte :
| Niveau | Description |
|---|---|
| Instant | Latence minimale, idéal pour les échanges rapides |
| Medium | Équilibre entre vitesse et raisonnement |
| High | Raisonnement approfondi, réponse plus lente |
Cet alignement amène les conversations vocales au même niveau de capacité que les interactions textuelles de l'ère GPT-5.5 pour la première fois.
Pourquoi c'est important
Les modèles texte d'OpenAI ont évolué rapidement en 2025–2026 tandis que la pile vocale accusait un retard — créant une expérience notablement inférieure à l'oral par rapport à l'écrit. GPT-Bidi-1 est conçu pour combler directement cet écart.
La mise à jour est déjà comparée au "moment Her" — en référence au film de Spike Jonze de 2013 sur une IA comme compagnon de conversation naturel. La combinaison de gpt-bidi-1 avec les agents Codex existants et les capacités de contrôle informatique pointe vers un avenir où les utilisateurs dirigent leur ordinateur entier par la voix.
Le calendrier est également stratégique. La part de marché mondiale de ChatGPT est tombée sous 50% pour la première fois, alors que des concurrents comme Google Gemini et Claude améliorent leurs propres capacités vocales et multimodales.
État du déploiement
Le déploiement est progressif. Au 22 juin 2026, une partie des utilisateurs de l'application ChatGPT sur web et mobile accèdent au nouveau mode vocal. OpenAI n'a pas publié d'annonce officielle, mais l'activité de l'application, les observations du nom de modèle (gpt-bidi-1) et les démonstrations partagées confirment que le lancement est réel.
Parmi les autres modèles repérés en test parallèle : ember-alpha, beacon-alpha et des versions préliminaires de GPT-5.6, suggérant une actualisation plus large des modèles en cours.
Contexte
OpenAI a lancé gpt-realtime-2 début 2026 comme API développeur pour la création d'agents vocaux, avec support audio en streaming et appels d'outils. GPT-Bidi-1 est l'évolution grand public de cette même architecture bidirectionnelle, apportant la capacité directement dans l'application ChatGPT sans intégration technique requise.
Et ensuite ?
- Un déploiement complet auprès de tous les utilisateurs de ChatGPT est attendu dans les prochains jours
- GPT-5.6 (incluant les variantes
ember-alphaetbeacon-alpha) est en phase finale de préparation - OpenAI devrait positionner la voix bidirectionnelle comme différenciateur clé avant son introduction en bourse prévue
Source : Testing Catalog