جوجل تعزز Gemini 3 Flash بالرؤية الوكيلية: ذكاء اصطناعي يحقق في الصور كالبشر

أعلنت جوجل عن ميزة الرؤية الوكيلية (Agentic Vision) في نموذج Gemini 3 Flash، وهي قدرة جديدة تغيّر جذرياً طريقة معالجة النموذج للصور وفهمها. فبدلاً من تحليل الصورة في مرور واحد، أصبح Gemini 3 Flash يتعامل مع المهام البصرية من خلال حلقة تحقيق متعددة الخطوات تشبه عمل الوكيل — يخطط لمنهجيته، ويكتب وينفذ كوداً برمجياً لمعالجة الصورة، ثم يستنتج من النتائج.
كيف تعمل الرؤية الوكيلية
في جوهرها، تتبع الرؤية الوكيلية حلقة "فكّر ← نفّذ ← لاحظ":
- التخطيط: يحلل النموذج الأمر والصورة لتصميم منهج متعدد الخطوات لاستخلاص الإجابة
- التنفيذ: يولّد ويشغّل كود Python — باستخدام مكتبات مثل Matplotlib — لقص الصورة أو تكبيرها أو إضافة تعليقات توضيحية عليها أو إجراء حسابات
- التحليل: تُضاف الصور المعالجة إلى سياق النموذج، ويستنتج من الأدلة البصرية المعززة قبل توليد الإجابة النهائية
يمثل هذا تحولاً عن نماذج الرؤية التقليدية التي تحاول استخلاص المعنى من الصورة دفعة واحدة. ومن خلال تقسيم العملية إلى خطوات تحقيق منفصلة، يمكن لـ Gemini 3 Flash تكبير التفاصيل الدقيقة، ورسم مربعات إحاطة حول العناصر المهمة، وتشغيل حسابات حتمية بدلاً من التخمين.
التحسينات الرئيسية
يحقق النهج الوكيلي مكاسب قابلة للقياس:
- تحسن في الدقة بنسبة 5-10% عبر معظم معايير الرؤية مقارنة بالتحليل أحادي المرور
- عد أفضل للعناصر: أصبح النموذج قادراً على عد العناصر بشكل موثوق في المشاهد المعقدة — وهي مهمة صعبة بشكل ملحوظ لنماذج الرؤية، بما في ذلك العد الدقيق لأصابع اليد
- تقليل الهلوسات: من خلال إسناد العمليات الحسابية وتصوير البيانات إلى كود Python حتمي، ينتج النموذج استجابات ملفقة أقل في مسائل الرياضيات والبيانات المبنية على الصور
- فحص دقيق: القدرة على تكبير مناطق محددة من الصورة ووضع تعليقات توضيحية بمربعات إحاطة تعزز الاستدلال المكاني
لماذا هذا مهم
كانت الرؤية من أكثر الحدود تحدياً لنماذج اللغة الكبيرة. فبينما تحسن الاستدلال النصي بسرعة، تأخر فهم الصور — خاصة في المهام التي تتطلب دقة مكانية أو عداً أو استدلالاً بصرياً متعدد الخطوات.
تعالج الرؤية الوكيلية هذا بمنح النموذج مجموعة أدوات بدلاً من الاعتماد على شبكته العصبية وحدها. فعندما يواجه النموذج مخططاً معقداً، أو مستنداً ممسوحاً ضوئياً كثيفاً، أو صورة تحتوي على عشرات العناصر الصغيرة، يمكنه كتابة كود لتحليل المحتوى بشكل منهجي بدلاً من محاولة استيعاب كل شيء دفعة واحدة.
يحاكي هذا الأسلوب طريقة الخبراء البشريين في التحليل البصري: فطبيب الأشعة لا يلقي نظرة واحدة على صورة الأشعة السينية؛ بل يكبّر ويقارن بين المناطق ويقيس المسافات. أصبح Gemini 3 Flash يتبع الآن عملية تحقيق مماثلة.
التوفر
الرؤية الوكيلية متاحة الآن عبر:
- واجهة Gemini API
- Google AI Studio
- Vertex AI
- تطبيق Gemini (نشر تدريجي في وضع التفكير)
يمكن للمطورين الوصول إلى هذه القدرة فوراً عبر واجهة البرمجة، بينما يتم نشر التوفر للمستخدمين في تطبيق Gemini بشكل تدريجي.
ما التالي
رسمت جوجل خارطة طريق لتوسيع الرؤية الوكيلية. تشمل التحسينات المخطط لها التفعيل التلقائي لسلوكيات التكبير والتدوير، ودمج أدوات البحث على الويب والبحث العكسي عن الصور ضمن حلقة الرؤية، وتوسيع القدرة لتشمل نماذج Gemini إضافية تتجاوز Flash.
يأتي هذا الإطلاق بالتزامن مع طرح جوجل الأوسع لـ Gemini 3، والذي يتضمن النموذج الرئيسي Gemini 3 Pro، ومنصة التطوير الوكيلية Antigravity، وتحديثات على Gemini CLI — مما يشير إلى دفع جوجل القوي لجعل منظومتها للذكاء الاصطناعي الخيار الافتراضي للمطورين الذين يبنون تطبيقات مدعومة بالوكلاء.
المصدر: مدونة Google AI
ناقش مشروعك معنا
نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.
دعنا نجد أفضل الحلول لاحتياجاتك.