Google lance Gemini 3.1 Flash Live, son modèle vocal IA le plus avancé

Google a officiellement lancé Gemini 3.1 Flash Live, son modèle audio et vocal IA le plus performant à ce jour. Ce nouveau modèle alimente des mises à niveau majeures de Gemini Live et Search Live, offrant des interactions vocales plus rapides et plus naturelles dans plus de 200 pays.

Points clés

Traitement audio natif capable de comprendre directement la tonalité, le rythme et les nuances acoustiques sans passer par la transcription textuelle
Support de plus de 90 langues pour les conversations multimodales en temps réel
Latence réduite et moins de pauses gênantes par rapport au précédent modèle 2.5 Flash Native Audio
Mémoire conversationnelle étendue, capable de suivre le fil des discussions deux fois plus longtemps

Ce qui le rend différent

Contrairement aux systèmes vocaux traditionnels qui convertissent la parole en texte, la traitent, puis la reconvertissent en audio, Gemini 3.1 Flash Live compresse cette pile complète grâce au traitement audio natif. Le modèle traite directement les nuances acoustiques, incluant la tonalité, la vitesse et le rythme, produisant des conversations plus naturelles et réactives.

Le modèle démontre également une amélioration significative du filtrage du bruit ambiant. Que les utilisateurs parlent au milieu du bruit de la circulation ou avec une télévision allumée en arrière-plan, Flash Live maintient une reconnaissance vocale précise et fournit des réponses cohérentes.

Intégration intelligente des outils

Parmi les améliorations les plus notables figure la capacité renforcée du modèle à déclencher des outils externes pendant les conversations en direct. Cela signifie que Gemini peut désormais extraire des informations en temps réel, exécuter des actions et fournir des réponses contextuelles sans interrompre le flux de la conversation, une capacité essentielle pour la construction d'agents IA.

Le modèle montre également une meilleure conformité aux instructions système complexes, maintenant les garde-fous opérationnels même lors de tournures conversationnelles inattendues.

Disponibilité et accès

Gemini 3.1 Flash Live est désormais disponible en préversion pour les développeurs via l'API Gemini Live dans Google AI Studio. Les consommateurs peuvent découvrir les capacités vocales améliorées via Gemini Live sur Android et iOS, tandis que Search Live se déploie mondialement dans plus de 200 pays où le mode IA est disponible.

Mesures de sécurité

Tous les contenus audio générés par Gemini 3.1 Flash Live incluent un filigrane SynthID intégré directement dans le son de manière inaudible pour les utilisateurs. Ce filigrane numérique aide à identifier les contenus audio générés par l'IA et vise à réduire les risques de désinformation via le contenu vocal synthétique.

Ce que cela signifie

Le lancement de Flash Live illustre la volonté de Google de faire de la voix l'interface principale d'interaction avec l'IA. En combinant faible latence, large support linguistique et utilisation agentique des outils dans un seul modèle, Google positionne Gemini comme le socle d'une nouvelle génération d'applications IA vocales, des chatbots de service client aux outils de traduction en temps réel et aux agents autonomes.

Source : Blog Google