OpenAI gpt-realtime : Créer des agents vocaux qui décrochent le téléphone

L'IA vocale a franchi un nouveau cap. Avec la disponibilité générale du modèle gpt-realtime d'OpenAI et une série de mises à jour orientées production, les développeurs peuvent désormais construire des agents vocaux qui répondent à de vrais appels téléphoniques, se connectent à des outils externes via des serveurs MCP et interprètent des images — le tout au sein d'une unique session de parole à parole en temps réel.

Ce guide couvre les nouveautés, leur importance et la façon de connecter votre premier agent vocal à un vrai numéro de téléphone.

Qu'est-ce que gpt-realtime ?

gpt-realtime est le modèle de parole à parole d'OpenAI conçu pour des interactions vocales bidirectionnelles à faible latence. Contrairement aux pipelines textuels classiques — où l'on transcrit l'audio, l'envoie à un LLM, puis synthétise une réponse vocale — gpt-realtime gère toute la chaîne de façon native : audio en entrée, audio en sortie, avec une latence considérablement réduite.

Le modèle est passé de la préversion à la disponibilité générale en avril 2026, apportant trois améliorations majeures :

Appels téléphoniques via SIP — connecter les agents IA directement au réseau téléphonique public
Support des serveurs MCP distants — étendre les capacités des agents avec des outils externes sans câblage manuel
Entrée image — ancrer les conversations dans un contexte visuel

Par rapport à sa préversion, gpt-realtime affiche une amélioration de 48 % dans le suivi des instructions et de 34 % dans la précision des appels d'outils. Deux nouvelles voix — Cedar et Marin — offrent une synthèse vocale plus naturelle et expressive.

Les nouvelles fonctionnalités clés

Intégration SIP avec le réseau téléphonique

Le protocole SIP (Session Initiation Protocol) est le standard qui alimente la téléphonie d'entreprise — systèmes PBX, centres d'appels, téléphones de bureau et opérateurs comme Twilio et Telnyx. La Realtime API supporte désormais SIP nativement : votre agent IA peut émettre et recevoir de vrais appels téléphoniques sur un vrai numéro.

Mise en place en quatre étapes :

Pointez votre trunk SIP vers : sip:YOUR_PROJECT_ID@sip.api.openai.com;transport=tls
Configurez un webhook sur la plateforme OpenAI sous Project → Webhooks
À l'arrivée d'un appel, OpenAI envoie un événement realtime.call.incoming à votre webhook
Acceptez l'appel et connectez-vous via WebSocket : wss://api.openai.com/v1/realtime?call_id=CALL_ID

Voici un gestionnaire webhook minimaliste en Python avec FastAPI :

from fastapi import FastAPI, Request
import httpx
 
app = FastAPI()
OPENAI_API_KEY = "sk-..."
 
@app.post("/webhook/calls")
async def handle_incoming_call(request: Request):
    event = await request.json()
 
    if event["type"] == "realtime.call.incoming":
        call_id = event["call_id"]
 
        async with httpx.AsyncClient() as client:
            await client.post(
                f"https://api.openai.com/v1/realtime/calls/{call_id}/accept",
                headers={"Authorization": f"Bearer {OPENAI_API_KEY}"},
                json={
                    "type": "realtime",
                    "model": "gpt-realtime-2",
                    "instructions": "Tu es un agent de support client utile. Sois concis et amical."
                }
            )
 
    return {"status": "ok"}

L'événement webhook contient un call_id, des en-têtes SIP (From, To, Call-ID) et un horodatage pour la vérification. Pour les charges de production nécessitant l'enregistrement des appels, le routage ou des pools de numéros DID, combiner gpt-realtime avec Twilio ou Telnyx vous donne une infrastructure téléphonique de niveau opérateur aux côtés de l'intelligence d'OpenAI.

Support des serveurs MCP distants

Le Model Context Protocol (MCP) est le standard émergent pour connecter les modèles IA aux outils externes — bases de données, CRM, API internes, etc. La Realtime API accepte désormais des URL de serveurs MCP directement dans la configuration de session :

{
  "type": "realtime",
  "model": "gpt-realtime-2",
  "instructions": "Tu es un agent de réservation pour une chaîne hôtelière.",
  "tools": [
    {
      "type": "mcp",
      "server_url": "https://your-mcp-server.example.com/sse"
    }
  ]
}

Une fois connectée, l'API gère automatiquement les appels d'outils. L'agent peut vérifier les disponibilités, créer des réservations, rechercher des dossiers et confirmer des transactions — tout cela au cours d'un appel vocal en direct, sans boucle de dispatch manuelle.

Entrée image dans les sessions en temps réel

gpt-realtime accepte désormais des images aux côtés de l'audio, ouvrant des scénarios inédits pour les agents vocaux :

Un appelant envoie la photo d'une pièce défaillante — l'agent diagnostique verbalement le problème
Un client partage une capture d'écran d'une erreur — l'agent le guide pas à pas
Un technicien terrain décrit ce qu'il voit — l'agent confirme via le flux visuel en direct

Les images sont transmises en base64 ou en URL dans le flux d'événements de session, suivant le même schéma que le support vision de l'API Chat Completions.

Cas d'usage

La combinaison SIP + MCP + entrée multimodale rend gpt-realtime concret dans de nombreux secteurs. Pour les entreprises de la région MENA et d'Afrique du Nord, trois verticales se distinguent :

Secteur	Cas d'usage	Fonctionnalités utilisées
Centres d'appels	Support entrant multilingue, prise de rendez-vous	SIP + MCP (CRM)
Santé	Accueil des patients, documentation clinique en temps réel	SIP + MCP (DPI)
Services financiers	Renseignements sur les comptes, alertes fraude	SIP + MCP (API bancaire)
Intervention terrain	Diagnostic à distance avec assistance visuelle	SIP + Entrée image
Hôtellerie	Gestion des réservations, conciergerie multilingue	SIP + MCP (système de réservation)

Les agents vocaux en arabe représentent une opportunité particulièrement forte : gpt-realtime prend en charge la parole multilingue en entrée comme en sortie, ce qui permet aux entreprises desservant des clients arabophones en Tunisie, en Arabie Saoudite et dans l'ensemble de la région MENA de déployer un seul modèle sur toute leur infrastructure de centre d'appels.

Tarification

Tarification en mai 2026 :

Type de token	Coût par million de tokens
Audio en entrée	32 $
Audio en entrée mis en cache	0,40 $
Audio en sortie	64 $

Un échange vocal typique d'une minute coûte environ 0,30 $, ce qui est compétitif avec les plateformes IA vocales spécialisées et bien moins coûteux que des agents humains à grande échelle.

Démarrage rapide : agent WebSocket uniquement

Pour les interactions vocales web sans appels téléphoniques, connectez-vous directement via WebSocket :

const WebSocket = require("ws");
 
const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      "Authorization": `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);
 
ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      instructions: "Tu es un assistant amical.",
      voice: "cedar",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16"
    }
  }));
});

Connecter un numéro de téléphone via Twilio

Créez un trunk SIP Twilio Elastic pointant vers sip:YOUR_PROJECT_ID@sip.api.openai.com;transport=tls
Associez un DID Twilio (numéro de téléphone) au trunk
Définissez l'URL de votre webhook dans les paramètres de la plateforme OpenAI
Déployez votre gestionnaire webhook et testez avec un appel entrant

OpenAI fournit des plages IP régionales pour l'autorisation des flux SIP couvrant l'Europe du Nord, le centre-sud des États-Unis, l'est des États-Unis 2 et l'ouest des États-Unis — utile pour la configuration des pare-feu chez les opérateurs téléphoniques d'entreprise.

Considérations pour la production

Latence : gpt-realtime vise des allers-retours inférieurs à 600 ms. La proximité entre votre opérateur SIP et les points de terminaison régionaux d'OpenAI a un impact direct — choisissez la région la plus proche de vos utilisateurs.

Gestion des erreurs : Implémentez une logique pour traiter gracieusement les appels rejetés ou coupés. Le point de terminaison /realtime/calls/{call_id}/reject accepte les codes de statut SIP standard, vous permettant de renvoyer un signal occupé ou de transférer vers un agent humain.

Conformité réglementaire : Pour les déploiements dans la santé (HIPAA) et les services financiers (PCI-DSS), vérifiez que votre opérateur SIP et la gestion des données de session répondent aux exigences réglementaires applicables avant le lancement.

Conclusion

gpt-realtime comble le fossé entre l'assistant IA et le système téléphonique de production. En combinant une intelligence de parole à parole à faible latence, un accès au réseau téléphonique réel via SIP, une connectivité aux outils externes via MCP et une compréhension visuelle via l'entrée image, OpenAI a assemblé une pile complète et prête pour la production pour la prochaine génération d'applications IA vocales.

La combinaison gagnante pour 2026 : gpt-realtime + un opérateur SIP de niveau carrier + vos serveurs MCP existants. Ce trio peut remplacer des pans entiers de l'infrastructure IVR héritée tout en offrant une bien meilleure expérience appelant.

Commencez par le gestionnaire webhook, connectez un numéro de test, et vous aurez un agent intelligent qui répond aux appels en moins d'une heure.