Google DeepMind lance Gemini 3.1 Flash TTS avec plus de 200 balises audio

Google DeepMind a lancé le 15 avril 2026 Gemini 3.1 Flash TTS, son modèle de synthèse vocale le plus expressif à ce jour, offrant aux développeurs un contrôle fin sur le style vocal, le rythme et l'émotion grâce à un nouveau système de balises audio intégrées. Le modèle est disponible en aperçu via l'API Gemini, Google AI Studio, Vertex AI, et via Google Vids pour les utilisateurs de Workspace.
Points clés
- Plus de 200 balises audio permettent aux créateurs de diriger l'interprétation avec des commandes simples comme [chuchoté], [excité] ou [crié]
- Dialogue multi-locuteurs natif pour les podcasts, les livres audio et les agents conversationnels
- Prise en charge de plus de 70 langues avec contrôle des accents régionaux, incluant l'américain "Valley" et "Southern", ainsi que le britannique "Brixton" et "RP"
- Score Elo de 1 211 sur le classement TTS d'Artificial Analysis, le plaçant dans le quadrant le plus attractif qualité-coût
- Chaque sortie audio porte un filigrane SynthID pour détecter les contenus générés par IA
Détails
L'identifiant du modèle sur l'API Gemini est gemini-3.1-flash-tts-preview et il ne produit que des sorties audio. Contrairement aux systèmes TTS précédents qui exigeaient un balisage complexe, Gemini 3.1 Flash TTS interprète les directives en langage naturel placées directement dans le texte. Les rédacteurs peuvent changer de ton en milieu de phrase, attribuer des accents régionaux et contrôler le rythme sans passer par SSML ou un balisage propriétaire.
Les scènes multi-locuteurs sont une fonctionnalité de premier plan. Les développeurs peuvent définir des voix nommées comme "Puck (Upbeat)" et "Kore (Firm)", puis scripter un dialogue que le modèle restitue avec des voix de personnages cohérentes et une alternance naturelle des tours de parole.
Impact
Pour les créateurs dans l'éducation, l'accessibilité et la production de contenu, Gemini 3.1 Flash TTS réduit la distance entre un script écrit et une piste vocale finalisée. Les premiers partenaires, dont StyleUAI, HeyGen et Invideo AI, ont salué le modèle pour la précision d'interprétation expressive qui nécessitait auparavant un acteur de voix et une session d'enregistrement.
Les entreprises clientes bénéficient également d'une traçabilité de provenance : le filigrane SynthID permet aux plateformes de détecter en aval l'audio généré par IA, une fonctionnalité que Google positionne comme garde-fou contre la désinformation et les deepfakes dans les secteurs réglementés.
Contexte
Gemini 3.1 Flash TTS s'aligne avec Gemini 3.1 Flash Live, précédemment lancé pour la voix conversationnelle en temps réel. Alors que Flash Live est optimisé pour le dialogue à faible latence, TTS se concentre sur l'audio de qualité production où les créateurs doivent itérer sur le ton, l'interprétation et la mise en scène. Les deux modèles partagent la dorsale audio de Gemini 3.1 mais ciblent des usages différents.
La suite
Google indique qu'une expansion du catalogue vocal, une couverture linguistique additionnelle et une tarification en disponibilité générale sont attendues dans les mois à venir. Les utilisateurs Workspace peuvent déjà essayer le modèle via Google Vids, tandis que les développeurs construisant des agents vocaux, des livres audio ou du contenu e-learning peuvent demander un accès en aperçu via Google AI Studio dès aujourd'hui.
Source : Blog Google
Discutez de votre projet avec nous
Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.
Trouvons les meilleures solutions pour vos besoins.