OpenAI déploie GPT-Bidi-1 : ChatGPT passe en mode vocal bidirectionnel full-duplex

OpenAI a commencé à déployer gpt-bidi-1, un modèle vocal de nouvelle génération pour l'application ChatGPT qui permet une communication full-duplex et bidirectionnelle — l'IA peut écouter et parler en même temps. Les premiers utilisateurs partagent déjà des démonstrations où ChatGPT les interrompt en plein milieu d'une phrase, compte avec eux en parallèle, chante à la demande et corrige les erreurs de prononciation en temps réel.

Points clés

gpt-bidi-1 est un modèle audio bidirectionnel qui écoute et parle simultanément
Le modèle peut interrompre les utilisateurs et accepter les interruptions sans se figer
Trois niveaux d'intelligence introduits : Instant, Medium et High
Déployé progressivement sur un sous-ensemble d'utilisateurs de l'application ChatGPT à partir du 21–22 juin 2026
Les utilisateurs pourront basculer entre le nouveau mode "Bidi (Latest)" et le mode avancé actuel

Ce qui le différencie

Le mode vocal actuel de ChatGPT (Advanced Voice Mode) fonctionne comme un talkie-walkie : le modèle se fige dès qu'un utilisateur parle pendant qu'il répond. GPT-Bidi-1 élimine ce blocage grâce à une architecture bidirectionnelle qui traite en permanence les flux audio entrant et sortant.

Les premières démonstrations partagées sur X montrent le modèle :

Compter à voix haute en parallèle avec l'utilisateur
Corriger un mot en plein milieu d'une phrase sans interruption
Chanter des chansons complètes à la demande — une capacité absente avant la mise à jour
Absorber naturellement les interjections comme "mm-hm" sans briser le fil de la conversation

Trois niveaux d'intelligence

GPT-Bidi-1 introduit un système à paliers qui reflète la gamme des modèles texte :

Niveau	Description
Instant	Latence minimale, idéal pour les échanges rapides
Medium	Équilibre entre vitesse et raisonnement
High	Raisonnement approfondi, réponse plus lente

Cet alignement amène les conversations vocales au même niveau de capacité que les interactions textuelles de l'ère GPT-5.5 pour la première fois.

Pourquoi c'est important

Les modèles texte d'OpenAI ont évolué rapidement en 2025–2026 tandis que la pile vocale accusait un retard — créant une expérience notablement inférieure à l'oral par rapport à l'écrit. GPT-Bidi-1 est conçu pour combler directement cet écart.

La mise à jour est déjà comparée au "moment Her" — en référence au film de Spike Jonze de 2013 sur une IA comme compagnon de conversation naturel. La combinaison de gpt-bidi-1 avec les agents Codex existants et les capacités de contrôle informatique pointe vers un avenir où les utilisateurs dirigent leur ordinateur entier par la voix.

Le calendrier est également stratégique. La part de marché mondiale de ChatGPT est tombée sous 50% pour la première fois, alors que des concurrents comme Google Gemini et Claude améliorent leurs propres capacités vocales et multimodales.

État du déploiement

Le déploiement est progressif. Au 22 juin 2026, une partie des utilisateurs de l'application ChatGPT sur web et mobile accèdent au nouveau mode vocal. OpenAI n'a pas publié d'annonce officielle, mais l'activité de l'application, les observations du nom de modèle (gpt-bidi-1) et les démonstrations partagées confirment que le lancement est réel.

Parmi les autres modèles repérés en test parallèle : ember-alpha, beacon-alpha et des versions préliminaires de GPT-5.6, suggérant une actualisation plus large des modèles en cours.

Contexte

OpenAI a lancé gpt-realtime-2 début 2026 comme API développeur pour la création d'agents vocaux, avec support audio en streaming et appels d'outils. GPT-Bidi-1 est l'évolution grand public de cette même architecture bidirectionnelle, apportant la capacité directement dans l'application ChatGPT sans intégration technique requise.

Et ensuite ?

Un déploiement complet auprès de tous les utilisateurs de ChatGPT est attendu dans les prochains jours
GPT-5.6 (incluant les variantes ember-alpha et beacon-alpha) est en phase finale de préparation
OpenAI devrait positionner la voix bidirectionnelle comme différenciateur clé avant son introduction en bourse prévue

Source : Testing Catalog

Points clés

gpt-bidi-1 est un modèle audio bidirectionnel qui écoute et parle simultanément
Le modèle peut interrompre les utilisateurs et accepter les interruptions sans se figer
Trois niveaux d'intelligence introduits : Instant, Medium et High
Déployé progressivement sur un sous-ensemble d'utilisateurs de l'application ChatGPT à partir du 21–22 juin 2026
Les utilisateurs pourront basculer entre le nouveau mode "Bidi (Latest)" et le mode avancé actuel

Ce qui le différencie

Les premières démonstrations partagées sur X montrent le modèle :

Compter à voix haute en parallèle avec l'utilisateur
Corriger un mot en plein milieu d'une phrase sans interruption
Chanter des chansons complètes à la demande — une capacité absente avant la mise à jour
Absorber naturellement les interjections comme "mm-hm" sans briser le fil de la conversation

Trois niveaux d'intelligence

GPT-Bidi-1 introduit un système à paliers qui reflète la gamme des modèles texte :

Niveau	Description
Instant	Latence minimale, idéal pour les échanges rapides
Medium	Équilibre entre vitesse et raisonnement
High	Raisonnement approfondi, réponse plus lente

Cet alignement amène les conversations vocales au même niveau de capacité que les interactions textuelles de l'ère GPT-5.5 pour la première fois.

Pourquoi c'est important

État du déploiement

Parmi les autres modèles repérés en test parallèle : ember-alpha, beacon-alpha et des versions préliminaires de GPT-5.6, suggérant une actualisation plus large des modèles en cours.

Contexte

Et ensuite ?

Un déploiement complet auprès de tous les utilisateurs de ChatGPT est attendu dans les prochains jours
GPT-5.6 (incluant les variantes ember-alpha et beacon-alpha) est en phase finale de préparation
OpenAI devrait positionner la voix bidirectionnelle comme différenciateur clé avant son introduction en bourse prévue

Source : Testing Catalog