LocateAnything من NVIDIA: تحديد بصري لوكلاء الذكاء الاصطناعي

تتمحور معظم النقاشات حول وكلاء الذكاء الاصطناعي حول التفكير المنطقي: هل يستطيع النموذج التخطيط واستدعاء الأدوات والتعافي من الأخطاء؟ لكن هناك عنق زجاجة أكثر هدوءًا يُعطّل وكلاء العالم الحقيقي أكثر مما يفعله التخطيط السيئ، وهو الإدراك. فالوكيل الذي لا يستطيع الإجابة بثقة عن سؤال "أين يقع زر إرسال بالضبط على هذه الشاشة؟" لن ينقر عليه بشكل صحيح مهما بلغت جودة تفكيره.

هذه هي الفجوة التي صُمّم نموذج LocateAnything-3B الجديد من NVIDIA لسدّها. أُطلق كنموذج مفتوح في أواخر مايو 2026، وهو نموذج لغوي بصري مدمج بحجم 3 مليارات معامل مخصص لمهمة واحدة يؤدّيها بإتقان شديد: التحديد البصري — تحويل وصف بلغة طبيعية إلى إحداثيات بكسلية دقيقة.

ما المقصود بالتحديد البصري فعليًا

التحديد البصري هو الجسر بين اللغة والبكسل. تعطي النموذج صورة وعبارة، فيُعيد لك موقع الشيء الذي وصفته — صندوقًا محيطًا أو نقطة. "حدّد كل القطط"، "اعثر على حقل البحث"، "أين إجمالي الفاتورة؟" — كل استعلام يُنتج إحداثيات يستطيع باقي نظامك التصرف بناءً عليها.

يبدو هذا بسيطًا، لكنه الأساس لفئة كاملة من الأنظمة الوكيلة:

وكلاء الواجهات الرسومية واستخدام الحاسوب الذين ينقرون ويكتبون ويتنقلون عبر برمجيات حقيقية
الروبوتات والوكلاء المجسّدون الذين يحتاجون إلى الإشارة إلى الأشياء والإمساك بها
مسارات فهم الوثائق التي تستخرج الحقول والجداول ومناطق التخطيط
التعرّف الضوئي على الحروف وتحديد النصوص التي تجد أين يقع النص لا ما يقوله فقط
الكشف في العالم المفتوح حيث تكون الفئات غير معروفة مسبقًا

يتميّز LocateAnything-3B بكونه نموذجًا عامًا عبر كل هذه المجالات. فبدلًا من تدريب كاشف منفصل لكل مجال، يتعامل النموذج مع تحديد التعابير المرجعية والكشف متعدد الأهداف وتحديد عناصر الواجهة وكشف النصوص من نموذج واحد.

الاختراق: فك الترميز المتوازي للصناديق

الابتكار الأبرز هو فك الترميز المتوازي للصناديق (Parallel Box Decoding - PBD)، وهو يحلّ مشكلة كبحت أداء كاشفات اللغة البصرية بهدوء.

معظم النماذج اللغوية البصرية التي تُخرج إحداثيات تفعل ذلك بالطريقة نفسها التي تكتب بها النصوص: رمزًا واحدًا في كل مرة، بشكل انحداري ذاتي. ولإخراج صندوق واحد فإنها تولّد x1 ثم y1 ثم x2 ثم y2 كتسلسل. وفي مشهد مزدحم به عشرات الأشياء، يصبح فك الترميز المتسلسل بطيئًا بشكل مؤلم.

يعامل PBD الصندوق المحيط كـوحدة ذرّية بدلًا من تيار رموز. فهو يتنبأ بمجموعة الإحداثيات الكاملة لكل صندوق في خطوة متوازية واحدة، مستخدمًا مخرجات منظّمة قائمة على كتل مخصصة (صندوق، ودلالة، ونفي، ونهاية)، مع حشو المواضع غير المستخدمة برموز <null>. تبقى الهندسة متماسكة، لكن فك الترميز يصبح متوازيًا.

والفرق في السرعة هائل. فعلى معالج NVIDIA H100، يصل LocateAnything إلى 12.7 صندوقًا في الثانية في الوضع الهجين — أي أسرع بأكثر من 10 أضعاف من Qwen3-VL الانحداري النصي (1.1 صندوق/ثانية)، وأسرع بـ2.5 ضعف من Rex-Omni المُكمّم (5.0 صناديق/ثانية). وفي المشاهد الكثيفة يتراوح التسارع بين ضعفين وستة أضعاف مقارنة بالطرق الانحدارية. وبالنسبة لوكيل يحتاج إلى مسح لوحة معلومات مزدحمة عدة مرات لكل مهمة، يُشكّل هذا الإنتاج الفارق بين القابل للاستخدام وغير القابل.

الأرقام التي تهم

لن تعني السرعة الكثير دون دقة، وهنا يكسب LocateAnything الاهتمام. فقد بُني على مشفّر بصري Moon-ViT مقترن بفك ترميز لغوي Qwen2.5، ويسجّل نتائج رائدة أو شبه رائدة عبر مجالات شديدة التنوع:

تحديد الواجهات الرسومية (ScreenSpot-Pro): 60.3 متوسط F1 — وهو الأفضل في فئته، وأهم مقياس لوكلاء استخدام الحاسوب
كشف الأشياء (LVIS): زيادة 3.8 بالمئة في متوسط F1 على Rex-Omni، وقفزة كبيرة عند التحديد الدقيق (31.1 مقابل 20.7 عند IoU 0.95)
تخطيط الوثائق (M6Doc): 70.1 متوسط F1
الفهم المرجعي (HumanRef): 78.7 متوسط F1
نص المشهد (TotalText): 43.3 متوسط F1

تستحق نتيجة IoU الصارمة التوقّف عندها. فكثير من الكاشفات تبدو جيدة عند عتبات تداخل متساهلة لكنها تنحرف عندما تطلب صناديق دقيقة. والتحسّن النسبي القريب من 50 بالمئة عند IoU 0.95 يعني أن الصناديق ضيّقة بما يكفي للنقر عليها فعليًا.

يأتي هذا الاتّساع من الحجم: دُرّب النموذج على مجموعة بيانات منسّقة تضم نحو 12 مليون صورة، و138 مليون استعلام لغوي، و785 مليون صندوق محيط، تمتد عبر الكشف العام وتفاعل الواجهات والفهم المرجعي والنصوص والتخطيط والمهام النقطية.

تشغيله عمليًا

يستخدم الاستدلال واجهة transformers المألوفة من Hugging Face. يقبل النموذج صورًا بدقة تصل إلى نحو 2.5K ومحفّزات نصية تصل إلى 24 ألف رمز، ويُعيد إحداثيات منظّمة.

from transformers import AutoModel, AutoProcessor
from PIL import Image
 
model = AutoModel.from_pretrained(
    "nvidia/LocateAnything-3B",
    torch_dtype="auto",
    trust_remote_code=True,
).eval()
 
processor = AutoProcessor.from_pretrained(
    "nvidia/LocateAnything-3B",
    trust_remote_code=True,
)
 
image = Image.open("dashboard.png").convert("RGB")
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Locate the export button"},
    ],
}]
 
text = processor.py_apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
images, _ = processor.process_vision_info(messages)
inputs = processor(text=[text], images=images, return_tensors="pt").to("cuda")
 
response = model.generate(
    pixel_values=inputs["pixel_values"],
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    tokenizer=processor.tokenizer,
    max_new_tokens=2048,
    generation_mode="hybrid",
)

تحتوي المخرجات على تسميات دلالية إضافة إلى إحداثيات بصيغة منظّمة — صناديق على هيئة x1,y1,x2,y2 ونقاط على هيئة x,y. وإعداد generation_mode="hybrid" هو التوازن الموصى به بين السرعة والدقة. ومن هناك تنتقل الإحداثيات مباشرة إلى ما يتصرف على الشاشة: متحكّم نقر، أو خطوة قصّ واستخراج، أو مخطّط لذراع روبوت.

لماذا يهم هذا للمطوّرين

إذا كنت تبني منتجات وكيلة، فإن LocateAnything يملأ خانة محددة كانت مكلفة في السابق. فحتى الآن كانت الفرق تجمع حلولًا مرقّعة — نموذج للتعرّف الضوئي، وآخر للتخطيط، وكاشف YOLO هشّ للأشياء، ونموذج لغوي بصري منفصل مثقل بالمحفّزات لفهم الشاشة. ونموذج تحديد واحد سريع يطوي تلك الطبقات ويُزيل ضريبة الكمون الناتجة عن ربط عدة نماذج في كل خطوة.

وبالنسبة للفرق في منطقة الشرق الأوسط وشمال إفريقيا، فإن التداعيات العملية ملموسة. فمسارات العمل الكثيفة بالوثائق — الفواتير والعقود والنماذج الحكومية والأوراق متعددة اللغات — تعتمد على إيجاد المنطقة الصحيحة بثقة قبل استخراجها. والفرق التجارية والتشغيلية التي تختبر وكلاء استخدام الحاسوب تحتاج إلى تحديد يصمد أمام لوحات معلومات المؤسسات الحقيقية المزدحمة لا أمام العروض النظيفة. وكون النموذج يعمل محليًا على معالجك الرسومي الخاص أمر مهم لمتطلبات سيادة البيانات، حيث يكون إرسال لقطات شاشة لأنظمة داخلية إلى واجهة طرف ثالث أمرًا غير وارد.

كما أشارت NVIDIA إلى وجهة هذا التطوّر: يعمل LocateAnything كأساس إدراكي داخل نماذجها الإنتاجية الأكبر للّغة البصرية، مثل Nemotron 3 Nano Omni، موفّرًا التحديد وفهم الواجهات اللذين تحتاجهما تلك الأنظمة للعمل الوكيلي متعدد الوسائط.

القيد الذي يجب التخطيط له

قيد واحد مهم: يُطرح LocateAnything-3B بموجب رخصة NVIDIA للاستخدام غير التجاري — للأبحاث الأكاديمية وغير الربحية فقط. والنشر التجاري غير مسموح به بموجب الشروط الحالية. وهذا يجعله أداة ممتازة للنمذجة الأولية والتقييم وقياس مسار التحديد الخاص بك والأبحاث، لكن عليك أن تترقّب مسار رخصة تجارية أو نموذجًا مختلفًا قبل إدخاله في منتج مدفوع. عامله كمعاينة لوجهة التحديد البصري المفتوح، ووسيلة لقياس السقف، لا كمكوّن إنتاجي جاهز للاستخدام اليوم.

الصورة الأكبر

أمضت موجة الذكاء الاصطناعي الوكيلي عامين مهووسة بالتفكير والتخطيط وبروتوكولات الأدوات. ويُذكّرنا LocateAnything بأن طبقة الإدراك التي تقع تحت كل ذلك كانت تتحسّن بهدوء أيضًا — وأن التحديد، لا الذكاء وحده، هو ما يقرّر ما إذا كان الوكيل قادرًا فعلًا على لمس العالم المطلوب منه تشغيله. فالتحديد البصري السريع الدقيق المفتوح هو أحد القطع المفقودة التي تحوّل العروض المبهرة إلى وكلاء يعملون على الشاشات والوثائق الفوضوية التي تُدار بها الأعمال الحقيقية.