Des chercheurs de UC Berkeley, Princeton et de l'EPFL ont présenté PixelRAG, un système de génération augmentée par récupération (RAG) qui lit les pages web comme le fait un être humain — en les regardant — plutôt qu'en convertissant leur HTML en texte brut. Sur six benchmarks et 30 millions de tuiles de captures d'écran couvrant l'intégralité de Wikipedia, PixelRAG affiche une amélioration de précision de 18,1% par rapport au RAG textuel traditionnel, tout en divisant les coûts de tokens par 10.
Points clés
- PixelRAG transforme les pages en captures d'écran et indexe des tuiles visuelles plutôt que du texte parsé
- +18,1% de précision par rapport au RAG textuel sur six benchmarks
- 10× moins de coûts en tokens par rapport aux pipelines RAG classiques
- 2 à 4× moins cher que Google Search tout en maintenant une précision supérieure
- Indexation préalable des 8,28 millions de pages Wikipedia via une API publique sur
api.pixelrag.ai - Entièrement open source sur GitHub
Le problème des parseurs texte
Les pipelines RAG classiques convertissent les pages HTML en texte avant de les indexer — une étape qui détruit systématiquement de l'information. Les tableaux sont aplatis, les mises en page visuelles s'effondrent, les graphiques disparaissent et les relations spatiales entre les éléments porteurs de sens s'évaporent. Dans les déploiements d'entreprise, cette dégradation silencieuse du contenu source est souvent la cause première des réponses incorrectes des agents IA.
L'équipe PixelRAG, co-dirigée par Matei Zaharia — CTO de Databricks et co-créateur d'Apache Spark — aux côtés de conseillers des laboratoires BAIR et NLP Group de Berkeley, a quantifié ce problème à l'échelle de Wikipedia : la majorité des erreurs dans les systèmes RAG standard provient directement des informations perdues lors de la conversion HTML vers texte.
Comment fonctionne PixelRAG
PixelRAG adopte une approche radicalement différente. Au lieu d'analyser le balisage HTML, le pipeline procède comme suit :
- Rendu des pages en captures d'écran via Playwright à une résolution de 875 pixels
- Découpe de chaque page en tuiles de 1024 pixels de hauteur pour une récupération fine et granulaire
- Encodage des tuiles avec Qwen3-VL-Embedding-2B, un modèle de vision-langage affiné par LoRA sur des données de captures d'écran
- Indexation des tuiles dans un index FAISS de recherche approximative des plus proches voisins (environ 217 Go pour Wikipedia)
- Transmission directe des tuiles récupérées à un lecteur de modèle vision-langage qui interprète simultanément la mise en page visuelle et le contenu textuel
Les requêtes en langage naturel et les requêtes par image sont toutes deux prises en charge — un agent peut effectuer une recherche à partir d'un diagramme, d'une capture d'écran rognée ou d'une phrase en français.
Résultats sur les benchmarks
Testé sur six benchmarks de récupération à grande échelle :
- +18,1% de précision par rapport aux baselines textuelles
- Réduction des coûts en tokens par 10× par rapport aux pipelines RAG classiques
- 2 à 4× moins cher que Google Search avec une meilleure précision
Disponibilité et infrastructure
L'équipe a pré-indexé les 8,28 millions de pages Wikipedia, produisant un index FAISS d'environ 217 Go. Un endpoint API hébergé est disponible sur api.pixelrag.ai. L'ensemble du framework — modèle Qwen3-VL-Embedding-2B affiné, pipeline de rendu Playwright, indexeur FAISS et serveur de récupération — est open source sur GitHub. Le système tourne sur PyTorch 2.9.1, Transformers 4.57.1 et cuDNN 9.20, avec support des mises à jour incrémentales de l'index sans réindexation complète.
Importance pour les agents IA
Pour les développeurs qui créent des agents IA navigant ou cherchant sur le web, PixelRAG résout l'un des écarts de qualité les plus persistants : les agents qui ratent ou mal interprètent silencieusement les informations structurées visuellement dans la source. Les tableaux comparatifs de produits, les rapports financiers en colonnes structurées, les pages multilingues et la documentation riche en infographies passent tous intacts dans le pipeline PixelRAG.
Contexte de la recherche
Le papier, "PIXELRAG: Web Screenshots Beat Text for Retrieval-Augmented Generation", est signé par Yichuan Wang, Zhifei Li, Zirui Wang, Paul Teiletche et Lesheng Jin, avec la supervision de Matei Zaharia, Joseph E. Gonzalez et Sewon Min. L'équipe regroupe des chercheurs de Berkeley SkyLab, BAIR (Berkeley AI Research), du Berkeley NLP Group, de Princeton et de l'EPFL.
Source : VentureBeat