Mistral AI تطلق Voxtral TTS، نموذج مفتوح المصدر لتوليد الكلام ينافس ElevenLabs

أطلقت شركة Mistral AI الفرنسية الناشئة نموذج Voxtral TTS، وهو نموذج مفتوح المصدر لتحويل النص إلى كلام ينافس مباشرة كلاً من ElevenLabs وDeepgram وOpenAI في سوق الصوت بالذكاء الاصطناعي المتنامي بسرعة.

نموذج خفيف لكنه قوي

يعتمد Voxtral TTS على بنية transformer ذاتية الانحدار مع تقنية flow-matching، مبني على أساس Ministral 3B. يبلغ إجمالي معاملات النموذج 4 مليارات موزعة على ثلاثة مكونات رئيسية:

وحدة فك تشفير transformer بـ 3.4 مليار معامل
محول صوتي بتقنية flow-matching بـ 390 مليون معامل
مُرمّز صوتي عصبي بـ 300 مليون معامل مع تكميم متجهي دلالي

حجمه المدمج يعني إمكانية تشغيله على أجهزة المستهلك العادية: الحواسيب المحمولة الحديثة، وبطاقات الرسوميات متوسطة المستوى، وحتى بعض الأجهزة المحمولة المتطورة.

استنساخ الصوت في 3 ثوانٍ

أبرز قدرات Voxtral TTS هي التكيف الصوتي فائق السرعة. يكفي 3 ثوانٍ فقط من الصوت المرجعي ليلتقط النموذج شخصية المتحدث الصوتية، والتوقفات الطبيعية، والإيقاع، والتنغيم، والتعبيرات العاطفية.

كما يدعم النموذج النقل الصوتي عبر اللغات بدون تدريب مسبق، حيث يمكنه توليد كلام بلغة ما باستخدام عينة صوتية من لغة أخرى — مثل إنتاج إنجليزية بلكنة فرنسية طبيعية.

دعم 9 لغات

يدعم Voxtral TTS حالياً تسع لغات: الإنجليزية، والفرنسية، والألمانية، والإسبانية، والهولندية، والبرتغالية، والإيطالية، والهندية، والعربية. اختيار استراتيجي من Mistral يستهدف الأسواق الأوروبية وجنوب آسيا والعالم العربي.

أداء ينافس قادة السوق

وفقاً للتقييمات البشرية التي نشرتها Mistral:

طبيعية صوت أعلى مقارنة بـ ElevenLabs Flash v2.5 مع الحفاظ على زمن استجابة أولى مماثل
تكافؤ في الجودة مع ElevenLabs v3، النموذج المتميز لقائد السوق
زمن استجابة 70 مللي ثانية للمدخلات النموذجية (عينة صوتية 10 ثوانٍ و500 حرف)
معامل الوقت الحقيقي حوالي 9.7 ضعف
توليد صوتي أصلي يصل إلى دقيقتين، مع إدارة ذكية للمحتوى الأطول عبر واجهة البرمجة

مفتوح المصدر ومتاح للجميع

أوزان النموذج متاحة للتحميل على Hugging Face تحت رخصة Creative Commons BY-NC 4.0. للاستخدام التجاري، يتوفر Voxtral TTS عبر واجهة برمجة Mistral بسعر 0.016 دولار لكل 1000 حرف، وكذلك على منصتي Mistral Studio وLe Chat.

خطوة استراتيجية لـ Mistral

مع Voxtral TTS، توسّع Mistral عروضها بشكل كبير إلى ما هو أبعد من نماذج اللغة النصية. يأتي هذا الإطلاق بعد الإعلان عن Mistral Small 4 في مؤتمر GTC من Nvidia في 17 مارس، حيث تواصل الشركة الفرنسية الناشئة بناء منظومتها من النماذج متعددة الوسائط.

يشهد سوق التوليد الصوتي بالذكاء الاصطناعي نمواً متسارعاً، مدفوعاً بالطلب على وكلاء الصوت في خدمة العملاء، والمساعدين الافتراضيين، والواجهات الحوارية. من خلال تقديم نموذج مفتوح المصدر قادر على منافسة الحلول المغلقة، تضع Mistral نفسها كبديل أوروبي موثوق للشركات المهتمة بالسيادة التقنية.

المصدر: Mistral AI