OpenAI ajoute le support WebSocket à son API Responses, réduisant la latence de 40 % pour les agents IA

OpenAI vient de lancer le support WebSocket pour son API Responses, une mise à niveau majeure de son infrastructure conçue pour réduire drastiquement la latence des agents IA qui effectuent de nombreux appels d'outils. Ce nouveau mode permet des connexions persistantes et bidirectionnelles qui éliminent la surcharge des requêtes HTTP répétées, offrant une exécution jusqu'à 40 % plus rapide pour les workflows complexes.

Points clés

Réduction de la latence jusqu'à 40 % pour les workflows impliquant plus de 20 appels d'outils
Connexions persistantes via wss://api.openai.com/v1/responses — plus besoin de renvoyer l'historique complet à chaque tour
Transmission incrémentale — seules les nouvelles données (résultats d'outils, messages utilisateur) sont envoyées à chaque tour
Optimisation de préchauffage — possibilité de pré-charger les outils et instructions avant le premier tour de génération
Compatible avec le Zero Data Retention (ZDR) et store=false pour les déploiements sensibles

Comment ça fonctionne

Au lieu du cycle classique requête-réponse HTTP, le mode WebSocket maintient une connexion ouverte entre le client et les serveurs d'OpenAI. Après l'événement initial response.create, les tours suivants s'enchaînent via previous_response_id et n'envoient que les entrées incrémentales — les nouveaux résultats d'outils ou messages utilisateur.

Le serveur conserve l'état de la réponse précédente dans un cache en mémoire local à la connexion, ce qui signifie que le contexte complet n'a pas besoin d'être retransmis à chaque fois. Cette architecture est particulièrement avantageuse pour les workflows agentiques où l'IA appelle régulièrement des outils externes.

Une fonctionnalité de préchauffage permet aux développeurs d'envoyer generate: false pour préparer les outils et les instructions, afin que le premier tour de génération démarre plus rapidement.

Pourquoi c'est important

À mesure que les agents IA deviennent plus sophistiqués, ils s'appuient de plus en plus sur des chaînes d'appels d'outils — recherche dans des bases de données, appels d'API, exécution de code, etc. Avec le modèle HTTP standard, chaque tour nécessitait de renvoyer l'intégralité de l'historique de conversation, créant un goulot d'étranglement croissant en termes de latence.

Des assistants de code comme Cursor ont déjà signalé un gain de vitesse de 30 % grâce au nouveau mode WebSocket. Pour les développeurs qui construisent des agents IA en arrière-plan ou des pipelines multi-étapes, il s'agit d'une amélioration d'infrastructure significative.

Limitations

Le mode WebSocket a une limite de connexion de 60 minutes, après laquelle les clients doivent se reconnecter. Une seule réponse peut être en cours par connexion (pas de multiplexage), et les tours échoués purgent leur état en cache pour éviter la réutilisation de données obsolètes.

Et après ?

Le mode WebSocket témoigne de la volonté d'OpenAI de soutenir des agents IA persistants et toujours actifs. Alors que l'industrie passe des interactions à prompt unique aux workflows autonomes de longue durée, une infrastructure à faible latence comme celle-ci devient essentielle.

Les développeurs peuvent commencer à utiliser le mode WebSocket dès aujourd'hui en se connectant à wss://api.openai.com/v1/responses avec une authentification par jeton Bearer.

Source : OpenAI — Documentation du mode WebSocket