جوجل تطلق Gemini 3.1 Flash Live، أقوى نموذج صوتي بالذكاء الاصطناعي حتى الآن

أطلقت جوجل رسمياً نموذج Gemini 3.1 Flash Live، وهو أقوى نموذج صوتي وسمعي بالذكاء الاصطناعي تطوره الشركة حتى الآن. يُشغّل النموذج الجديد ترقيات كبرى في كل من Gemini Live وSearch Live، مع تقديم تفاعلات صوتية أسرع وأكثر طبيعية في أكثر من 200 دولة.
أبرز المزايا
- معالجة صوتية أصلية تفهم النبرة والإيقاع والفروقات الصوتية مباشرة دون الاعتماد على النصوص المكتوبة
- دعم أكثر من 90 لغة في المحادثات الفورية متعددة الوسائط
- زمن استجابة أقل وتوقفات محرجة أقل مقارنة بنموذج 2.5 Flash Native Audio السابق
- ذاكرة محادثة ممتدة تستطيع متابعة سياق الحوار لضعف المدة السابقة
ما الذي يجعله مختلفاً؟
على عكس أنظمة الصوت التقليدية التي تحوّل الكلام إلى نص ثم تعالجه ثم تحوّله مجدداً إلى صوت، يختصر Gemini 3.1 Flash Live كل هذه المراحل من خلال المعالجة الصوتية الأصلية. يعالج النموذج الفروقات الصوتية مباشرة بما في ذلك النبرة والسرعة والإيقاع، مما ينتج محادثات أكثر طبيعية واستجابة.
كما يتميز النموذج بتحسين ملحوظ في تصفية الضوضاء الخلفية. سواء كان المستخدم يتحدث وسط ضجيج المرور أو مع تلفاز يعمل في الخلفية، يحافظ Flash Live على دقة التعرف على الكلام ويقدم إجابات متماسكة.
تكامل ذكي مع الأدوات
من أبرز التحسينات قدرة النموذج المعززة على تفعيل أدوات خارجية أثناء المحادثات الحية. هذا يعني أن Gemini يستطيع الآن جلب معلومات فورية وتنفيذ إجراءات وتقديم إجابات سياقية دون قطع تدفق المحادثة، وهي قدرة حاسمة لبناء وكلاء الذكاء الاصطناعي.
يُظهر النموذج أيضاً التزاماً أفضل بالتعليمات المعقدة، مع الحفاظ على الضوابط التشغيلية حتى أثناء المنعطفات غير المتوقعة في المحادثة.
التوفر والوصول
نموذج Gemini 3.1 Flash Live متاح الآن في نسخة معاينة للمطورين عبر واجهة Gemini Live API في Google AI Studio. يمكن للمستخدمين تجربة القدرات الصوتية المحسّنة عبر Gemini Live على أندرويد وiOS، بينما يتوسع Search Live عالمياً في أكثر من 200 دولة يتوفر فيها وضع الذكاء الاصطناعي.
تدابير السلامة
جميع المقاطع الصوتية التي ينتجها Gemini 3.1 Flash Live تتضمن علامة SynthID المائية المدمجة مباشرة في الصوت بطريقة غير مسموعة للمستخدمين. تساعد هذه العلامة الرقمية في التعرف على المحتوى الصوتي المولّد بالذكاء الاصطناعي وتهدف إلى تقليل مخاطر التضليل عبر المحتوى الصوتي الاصطناعي.
ماذا يعني هذا؟
يُشير إطلاق Flash Live إلى توجه جوجل لجعل الصوت الواجهة الرئيسية للتفاعل مع الذكاء الاصطناعي. من خلال الجمع بين زمن الاستجابة المنخفض ودعم اللغات الواسع واستخدام الأدوات الوكيلية في نموذج واحد، تُموضع جوجل Gemini كأساس لجيل جديد من تطبيقات الذكاء الاصطناعي القائمة على الصوت، من روبوتات خدمة العملاء إلى أدوات الترجمة الفورية والوكلاء المستقلين.
المصدر: مدونة جوجل
ناقش مشروعك معنا
نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.
دعنا نجد أفضل الحلول لاحتياجاتك.