PixelRAG : Le RAG visuel de UC Berkeley surpasse les parseurs texte avec +18% de précision et 10× moins de coûts

Des chercheurs de UC Berkeley, Princeton et de l'EPFL ont présenté PixelRAG, un système de génération augmentée par récupération (RAG) qui lit les pages web comme le fait un être humain — en les regardant — plutôt qu'en convertissant leur HTML en texte brut. Sur six benchmarks et 30 millions de tuiles de captures d'écran couvrant l'intégralité de Wikipedia, PixelRAG affiche une amélioration de précision de 18,1% par rapport au RAG textuel traditionnel, tout en divisant les coûts de tokens par 10.

Points clés

PixelRAG transforme les pages en captures d'écran et indexe des tuiles visuelles plutôt que du texte parsé
+18,1% de précision par rapport au RAG textuel sur six benchmarks
10× moins de coûts en tokens par rapport aux pipelines RAG classiques
2 à 4× moins cher que Google Search tout en maintenant une précision supérieure
Indexation préalable des 8,28 millions de pages Wikipedia via une API publique sur api.pixelrag.ai
Entièrement open source sur GitHub

Le problème des parseurs texte

Les pipelines RAG classiques convertissent les pages HTML en texte avant de les indexer — une étape qui détruit systématiquement de l'information. Les tableaux sont aplatis, les mises en page visuelles s'effondrent, les graphiques disparaissent et les relations spatiales entre les éléments porteurs de sens s'évaporent. Dans les déploiements d'entreprise, cette dégradation silencieuse du contenu source est souvent la cause première des réponses incorrectes des agents IA.

L'équipe PixelRAG, co-dirigée par Matei Zaharia — CTO de Databricks et co-créateur d'Apache Spark — aux côtés de conseillers des laboratoires BAIR et NLP Group de Berkeley, a quantifié ce problème à l'échelle de Wikipedia : la majorité des erreurs dans les systèmes RAG standard provient directement des informations perdues lors de la conversion HTML vers texte.

Comment fonctionne PixelRAG

PixelRAG adopte une approche radicalement différente. Au lieu d'analyser le balisage HTML, le pipeline procède comme suit :

Rendu des pages en captures d'écran via Playwright à une résolution de 875 pixels
Découpe de chaque page en tuiles de 1024 pixels de hauteur pour une récupération fine et granulaire
Encodage des tuiles avec Qwen3-VL-Embedding-2B, un modèle de vision-langage affiné par LoRA sur des données de captures d'écran
Indexation des tuiles dans un index FAISS de recherche approximative des plus proches voisins (environ 217 Go pour Wikipedia)
Transmission directe des tuiles récupérées à un lecteur de modèle vision-langage qui interprète simultanément la mise en page visuelle et le contenu textuel

Les requêtes en langage naturel et les requêtes par image sont toutes deux prises en charge — un agent peut effectuer une recherche à partir d'un diagramme, d'une capture d'écran rognée ou d'une phrase en français.

Résultats sur les benchmarks

Testé sur six benchmarks de récupération à grande échelle :

+18,1% de précision par rapport aux baselines textuelles
Réduction des coûts en tokens par 10× par rapport aux pipelines RAG classiques
2 à 4× moins cher que Google Search avec une meilleure précision

Disponibilité et infrastructure

L'équipe a pré-indexé les 8,28 millions de pages Wikipedia, produisant un index FAISS d'environ 217 Go. Un endpoint API hébergé est disponible sur api.pixelrag.ai. L'ensemble du framework — modèle Qwen3-VL-Embedding-2B affiné, pipeline de rendu Playwright, indexeur FAISS et serveur de récupération — est open source sur GitHub. Le système tourne sur PyTorch 2.9.1, Transformers 4.57.1 et cuDNN 9.20, avec support des mises à jour incrémentales de l'index sans réindexation complète.

Importance pour les agents IA

Pour les développeurs qui créent des agents IA navigant ou cherchant sur le web, PixelRAG résout l'un des écarts de qualité les plus persistants : les agents qui ratent ou mal interprètent silencieusement les informations structurées visuellement dans la source. Les tableaux comparatifs de produits, les rapports financiers en colonnes structurées, les pages multilingues et la documentation riche en infographies passent tous intacts dans le pipeline PixelRAG.

Contexte de la recherche

Le papier, "PIXELRAG: Web Screenshots Beat Text for Retrieval-Augmented Generation", est signé par Yichuan Wang, Zhifei Li, Zirui Wang, Paul Teiletche et Lesheng Jin, avec la supervision de Matei Zaharia, Joseph E. Gonzalez et Sewon Min. L'équipe regroupe des chercheurs de Berkeley SkyLab, BAIR (Berkeley AI Research), du Berkeley NLP Group, de Princeton et de l'EPFL.

Source : VentureBeat