جوجل ديب مايند تطلق Gemini 3.1 Flash TTS بأكثر من 200 وسم صوتي

أطلقت جوجل ديب مايند يوم 15 أبريل 2026 نموذج Gemini 3.1 Flash TTS، وهو أكثر نماذجها تعبيراً لتحويل النص إلى كلام حتى الآن، ويمنح المطورين تحكماً دقيقاً في الأسلوب الصوتي والإيقاع والمشاعر من خلال نظام جديد من الوسوم الصوتية المضمّنة. يتوفر النموذج في مرحلة المعاينة عبر واجهة Gemini API وGoogle AI Studio وVertex AI، ومن خلال Google Vids لمستخدمي Workspace.

أبرز النقاط

أكثر من 200 وسم صوتي تسمح للمبدعين بتوجيه الأداء بأوامر بسيطة مثل [همس] أو [متحمس] أو [صراخ]
دعم أصلي للمحادثات متعددة المتحدثين للبودكاست والكتب الصوتية والوكلاء المحادثين
دعم أكثر من 70 لغة مع تحكم في اللهجات المحلية، بما في ذلك الأمريكية "Valley" و"Southern" والبريطانية "Brixton" و"RP"
تقييم Elo بلغ 1,211 على لوحة صدارة Artificial Analysis لنماذج TTS، ما يضعه في المربع الأكثر جاذبية من حيث الجودة والتكلفة
كل ملف صوتي يحمل علامة SynthID المائية لاكتشاف المحتوى المولَّد بالذكاء الاصطناعي

التفاصيل

معرّف النموذج على Gemini API هو gemini-3.1-flash-tts-preview، ومخرجاته صوتية فقط. على عكس أنظمة TTS السابقة التي كانت تتطلب ترميزاً معقداً، يفسّر Gemini 3.1 Flash TTS التوجيهات المكتوبة بلغة طبيعية داخل النص مباشرة. يستطيع الكاتب تغيير النبرة في منتصف الجملة، وتخصيص لهجات إقليمية، والتحكم في الإيقاع دون الحاجة إلى SSML أو ترميز مخصص.

المشاهد متعددة المتحدثين هي ميزة أساسية. يمكن للمطورين تعريف أصوات بأسماء مثل "Puck (متحمس)" و"Kore (حازم)"، ثم كتابة حوار متبادل يقوم النموذج بتقديمه بأصوات شخصيات متسقة وتبادل أدوار طبيعي.

التأثير

بالنسبة للمبدعين في مجالات التعليم وإمكانية الوصول وإنتاج المحتوى، يختصر Gemini 3.1 Flash TTS المسافة بين النص المكتوب والمسار الصوتي النهائي. أثنى شركاء مبكرون من بينهم StyleUAI وHeyGen وInvideo AI على النموذج لأنه يقدم لهم الأداء الدقيق والمعبّر الذي كان يتطلب في السابق ممثل صوت وجلسة تسجيل.

كما يحصل العملاء من الشركات على سجل مصدر: تتيح علامة SynthID المائية للمنصات اكتشاف الصوت المولّد بالذكاء الاصطناعي لاحقاً، وهي ميزة تقدمها جوجل كحاجز ضد التضليل والتزييف العميق في القطاعات المنظمة.

الخلفية

يأتي Gemini 3.1 Flash TTS إلى جانب Gemini 3.1 Flash Live الذي أُطلق سابقاً للتعامل مع الصوت الحواري في الوقت الحقيقي. بينما يُحسَّن Flash Live للحوار منخفض الكمون، يركز TTS على الصوت بجودة الإنتاج حيث يحتاج المبدعون إلى تكرار النبرة والأداء وإخراج المشاهد. يشترك النموذجان في العمود الفقري الصوتي لـ Gemini 3.1 لكنهما يستهدفان أحمال عمل مختلفة.

ما التالي

تقول جوجل إن توسعة كتالوج الأصوات، وتغطية لغات إضافية، وتسعير الإصدار العام متوقعة خلال الأشهر المقبلة. يستطيع مستخدمو Workspace تجربة النموذج عبر Google Vids اليوم، بينما يمكن للمطورين الذين يبنون وكلاء صوتيين أو كتباً صوتية أو محتوى تعليمياً طلب وصول المعاينة عبر Google AI Studio.

المصدر: مدونة جوجل