PixelRAG: نظام الاسترجاع المرئي من UC Berkeley يتجاوز محللات النصوص بدقة أعلى بـ18% وتكلفة أقل بـ10 أضعاف

قدّم باحثون من جامعة UC Berkeley وبرينستون والمعهد الفيدرالي السويسري للتقنية EPFL نظاماً جديداً للاسترجاع المعزز بالذكاء الاصطناعي يُعرف بـ PixelRAG، يقرأ صفحات الويب بالطريقة ذاتها التي يراها بها البشر — من خلال النظر إليها مباشرةً — بدلاً من تحويلها إلى نص عادي. وعبر ستة معايير قياسية وما يزيد على 30 مليون مقطع مرئي من صفحات ويكيبيديا، يحقق النظام تحسناً بنسبة 18.1% في الدقة على أنظمة الاسترجاع النصية التقليدية، مع خفض تكاليف الرموز بما يصل إلى 10 أضعاف.

أبرز النقاط

يحوّل PixelRAG صفحات الويب إلى لقطات شاشة مفصّلة ويفهرسها بصرياً بدلاً من النص المحلَّل
تحسّن في الدقة يبلغ 18.1% مقارنةً بأنظمة RAG النصية عبر ستة معايير قياسية
خفض التكاليف بـ10 أضعاف مقارنةً بأنابيب RAG التقليدية
أرخص بـ2–4 مرات من Google Search مع دقة أعلى
فهرسة مسبقة لكامل ويكيبيديا بـ8.28 مليون صفحة عبر واجهة برمجية مفتوحة على api.pixelrag.ai
مفتوح المصدر بالكامل على GitHub

المشكلة في تحليل النصوص

تعتمد أنابيب RAG التقليدية على تحويل صفحات HTML إلى نص قبل الفهرسة — وهي خطوة تُتلف المعلومات بشكل منهجي. تُسطَّح الجداول، تنهار التخطيطات البصرية، تختفي المخططات البيانية، وتضيع العلاقات المكانية بين العناصر التي تحمل معنى جوهرياً. في بيئات المؤسسات، هذا التدهور الصامت في المحتوى هو السبب الجذري الأكثر شيوعاً وراء الإجابات الخاطئة من الوكلاء الذكيين.

وحدّد فريق PixelRAG بقيادة ماتي زهاريا — المدير التنفيذي للتكنولوجيا في Databricks والمُبدع المشارك لـApache Spark — هذه المشكلة بمقياس ويكيبيديا: غالبية الإجابات الخاطئة في أنظمة RAG القياسية تعود مباشرةً إلى المعلومات المفقودة خلال تحويل HTML إلى نص.

وتكتسب هذه المشكلة أهمية خاصة في سياق اللغة العربية، إذ تعتمد الصفحات العربية على الكتابة من اليمين إلى اليسار وتخطيطات بصرية مركّبة، مما يجعلها من أكثر المحتويات عُرضةً للتشويه عند التحويل إلى نص عادي.

آلية عمل PixelRAG

يتبع PixelRAG نهجاً مختلفاً جذرياً. بدلاً من تحليل الكود البرمجي، يعمل النظام وفق الخطوات التالية:

تصيير الصفحات كلقطات شاشة باستخدام Playwright بدقة 875 بكسل
تقطيع كل صفحة إلى شرائح بارتفاع 1024 بكسل لاسترجاع دقيق ومفصّل
تضمين الشرائح باستخدام نموذج Qwen3-VL-Embedding-2B المُضبَّط دقيقاً بتقنية LoRA على بيانات لقطات الشاشة
فهرسة الشرائح في مؤشر FAISS للبحث المقارب (نحو 217 غيغابايت لكامل ويكيبيديا)
تغذية الشرائح المسترجعة مباشرةً إلى نموذج رؤية لغوي يعالج التخطيط البصري والمحتوى النصي في آنٍ واحد

يدعم النظام الاستعلام بالنص الطبيعي وكذلك بالصور — يستطيع الوكيل البحث بمخطط بياني أو لقطة شاشة أو باللغة العربية مباشرةً.

نتائج المعايير القياسية

اختُبر النظام عبر ستة معايير قياسية للاسترجاع على نطاق واسع:

تحسّن الدقة يبلغ 18.1% عن خطوط الأساس النصية
خفض تكاليف الرموز بـ10 أضعاف مقارنةً بأنابيب RAG التقليدية
أرخص بـ2–4 مرات من Google Search مع دقة أفضل

النطاق والتوفر

قام الفريق بفهرسة كامل 8.28 مليون صفحة في ويكيبيديا، مُنتِجاً مؤشر FAISS بحجم 217 غيغابايت تقريباً. وتعمل نقطة نهاية API مستضافة على api.pixelrag.ai. يستخدم النظام PyTorch 2.9.1 وTransformers 4.57.1 وcuDNN 9.20، ويدعم تحديثات الفهرس التدريجية دون الحاجة إلى إعادة فهرسة كاملة.

الأهمية لوكلاء الذكاء الاصطناعي

يعالج PixelRAG أحد أكثر فجوات الجودة استمراراً في تطوير وكلاء الذكاء الاصطناعي: الفشل الصامت في العثور على المعلومات الهيكلية بصرياً وتفسيرها. جداول مقارنة المنتجات، التقارير المالية بأعمدة مهيكلة، الصفحات متعددة اللغات بما فيها المحتوى العربي ذو التخطيط من اليمين إلى اليسار، وتوثيقات الرسوم البيانية — كلها تصل عبر PixelRAG بهيكلها سليماً.

الخلفية البحثية

البحث بعنوان "PIXELRAG: Web Screenshots Beat Text for Retrieval-Augmented Generation" من تأليف Yichuan Wang وZhifei Li وZirui Wang وPaul Teiletche وLesheng Jin، بإشراف Matei Zaharia وJoseph E. Gonzalez وSewon Min. يضم الفريق باحثين من Berkeley SkyLab وBAIR (Berkeley AI Research) ومجموعة Berkeley NLP وبرينستون وEPFL.

المصدر: VentureBeat