NVIDIA LocateAnything : ancrage visuel pour agents IA

La plupart des discussions sur les agents IA tournent autour du raisonnement : le modèle peut-il planifier, appeler des outils et se remettre de ses erreurs ? Mais il existe un goulot d'étranglement plus discret qui fait échouer davantage d'agents en conditions réelles qu'une mauvaise planification : la perception. Un agent incapable de répondre avec fiabilité à « où se trouve exactement le bouton Envoyer sur cet écran ? » ne cliquera jamais correctement, quelle que soit la qualité de son raisonnement.

C'est précisément la faille que le nouveau LocateAnything-3B de NVIDIA vient combler. Publié comme modèle ouvert fin mai 2026, il s'agit d'un modèle vision-langage compact de 3 milliards de paramètres dédié à une seule tâche, exécutée à la perfection : l'ancrage visuel — convertir une description en langage naturel en coordonnées de pixels précises.

Ce que signifie réellement l'ancrage visuel

L'ancrage visuel est le pont entre le langage et les pixels. Vous fournissez au modèle une image et une expression, et il renvoie l'emplacement — une boîte englobante ou un point — de l'élément décrit. « Localise tous les chats », « trouve le champ de recherche », « où est le total de la facture ? » Chaque requête produit des coordonnées sur lesquelles le reste de votre système peut agir.

Cela paraît simple, mais c'est le fondement de toute une catégorie de systèmes agentiques :

Les agents d'interface graphique et d'usage d'ordinateur qui cliquent, saisissent et naviguent dans de vrais logiciels
La robotique et les agents incarnés qui doivent pointer et saisir des objets
Les pipelines de compréhension de documents qui extraient champs, tableaux et zones de mise en page
L'OCR et la localisation de texte qui trouvent où se situe le texte, pas seulement ce qu'il dit
La détection en monde ouvert où les catégories ne sont pas connues à l'avance

LocateAnything-3B est généraliste sur tous ces domaines. Plutôt que d'entraîner un détecteur distinct par domaine, il gère l'ancrage d'expressions référentielles, la détection multi-objets, la localisation d'éléments d'interface et la détection de texte depuis un seul modèle.

La percée : le décodage parallèle de boîtes

L'innovation phare est le décodage parallèle de boîtes (Parallel Box Decoding, PBD), et il résout un problème qui freinait discrètement les détecteurs vision-langage.

La plupart des modèles vision-langage qui produisent des coordonnées le font comme ils écrivent du texte : un jeton à la fois, de façon autorégressive. Pour émettre une seule boîte, ils génèrent x1, puis y1, puis x2, puis y2 en séquence. Dans une scène encombrée comptant des dizaines d'objets, ce décodage sérialisé devient douloureusement lent.

Le PBD traite une boîte englobante comme une unité atomique plutôt que comme un flux de jetons. Il prédit l'ensemble complet des coordonnées de chaque boîte en une seule étape parallèle, à l'aide d'une sortie structurée par blocs dédiés (Boîte, Sémantique, Négatif et Fin), les positions inutilisées étant comblées par des jetons <null>. La géométrie reste cohérente, mais le décodage se parallélise.

L'écart de vitesse est spectaculaire. Sur un NVIDIA H100, LocateAnything atteint 12,7 boîtes par seconde en mode hybride — soit plus de 10 fois plus rapide que le Qwen3-VL autorégressif textuel (1,1 boîte/s) et 2,5 fois plus rapide que Rex-Omni quantifié (5,0 boîtes/s). Dans les scènes denses, l'accélération va de 2 à 6 fois par rapport aux méthodes autorégressives. Pour un agent qui doit balayer un tableau de bord chargé plusieurs fois par tâche, ce débit fait la différence entre l'utilisable et l'inutilisable.

Les chiffres qui comptent

La vitesse ne vaudrait rien sans la précision, et c'est là que LocateAnything force l'attention. Construit sur un encodeur visuel Moon-ViT couplé à un décodeur de langage Qwen2.5, il affiche des résultats à l'état de l'art ou proches, sur des domaines très différents :

Ancrage d'interface (ScreenSpot-Pro) : 60,3 de F1 moyen — état de l'art, et la métrique la plus importante pour les agents d'usage d'ordinateur
Détection d'objets (LVIS) : plus 3,8 pour cent de F1 moyen sur Rex-Omni, et un bond important en localisation stricte (31,1 contre 20,7 à IoU 0,95)
Mise en page de documents (M6Doc) : 70,1 de F1 moyen
Compréhension référentielle (HumanRef) : 78,7 de F1 moyen
Texte de scène (TotalText) : 43,3 de F1 moyen

Le résultat à IoU stricte mérite d'être souligné. Beaucoup de détecteurs paraissent corrects à des seuils de recouvrement souples mais dérivent dès qu'on exige des boîtes précises. Une amélioration relative proche de 50 pour cent à IoU 0,95 signifie que les boîtes sont assez serrées pour qu'on puisse réellement cliquer dessus.

Cette étendue vient de l'échelle : le modèle a été entraîné sur un jeu de données soigneusement constitué d'environ 12 millions d'images, 138 millions de requêtes en langage et 785 millions de boîtes englobantes, couvrant la détection générale, l'interaction d'interface, la compréhension référentielle, le texte, la mise en page et les tâches par points.

Le mettre en pratique

L'inférence utilise l'API transformers familière de Hugging Face. Le modèle accepte des images jusqu'à environ 2,5K de résolution et des invites de texte jusqu'à 24 000 jetons, et renvoie des coordonnées structurées.

from transformers import AutoModel, AutoProcessor
from PIL import Image
 
model = AutoModel.from_pretrained(
    "nvidia/LocateAnything-3B",
    torch_dtype="auto",
    trust_remote_code=True,
).eval()
 
processor = AutoProcessor.from_pretrained(
    "nvidia/LocateAnything-3B",
    trust_remote_code=True,
)
 
image = Image.open("dashboard.png").convert("RGB")
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Locate the export button"},
    ],
}]
 
text = processor.py_apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
images, _ = processor.process_vision_info(messages)
inputs = processor(text=[text], images=images, return_tensors="pt").to("cuda")
 
response = model.generate(
    pixel_values=inputs["pixel_values"],
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    tokenizer=processor.tokenizer,
    max_new_tokens=2048,
    generation_mode="hybrid",
)

La sortie contient des étiquettes sémantiques ainsi que des coordonnées sous forme structurée — des boîtes au format x1,y1,x2,y2 et des points au format x,y. Le réglage generation_mode="hybrid" est l'équilibre recommandé entre vitesse et précision. De là, les coordonnées alimentent directement ce qui agit sur l'écran : un contrôleur de clic, une étape de recadrage-extraction, ou un planificateur de bras robotique.

Pourquoi cela compte pour les développeurs

Si vous construisez des produits agentiques, LocateAnything comble une case précise et jusqu'ici coûteuse. Jusqu'à présent, les équipes assemblaient un patchwork — un modèle pour l'OCR, un autre pour la mise en page, un détecteur YOLO fragile pour les objets, et un modèle vision-langage distinct gourmand en invites pour comprendre l'écran. Un seul modèle d'ancrage rapide replie cette pile et supprime la taxe de latence du chaînage de plusieurs modèles à chaque étape.

Pour les équipes de la région MENA, les implications pratiques sont concrètes. Les flux de travail riches en documents — factures, contrats, formulaires administratifs, paperasse multilingue — dépendent de la capacité à trouver la bonne zone avant de l'extraire. Les équipes commerciales et opérationnelles qui testent des agents d'usage d'ordinateur ont besoin d'un ancrage qui résiste aux véritables tableaux de bord d'entreprise encombrés, et non aux démos épurées. Et le fait que le modèle s'exécute localement sur votre propre GPU compte pour les exigences de souveraineté des données, où envoyer des captures d'écran de systèmes internes à une API tierce est rédhibitoire.

NVIDIA a aussi indiqué la direction : LocateAnything sert de fondation perceptive au sein de ses modèles vision-langage de production plus larges, comme Nemotron 3 Nano Omni, fournissant l'ancrage et la compréhension d'interface dont ces systèmes ont besoin pour le travail agentique multimodal.

Le bémol à anticiper

Une contrainte importante : LocateAnything-3B est publié sous la licence NVIDIA pour usage non commercial — recherche académique et à but non lucratif uniquement. Le déploiement commercial n'est pas autorisé dans les termes actuels. Cela en fait un excellent outil pour le prototypage, l'évaluation, l'étalonnage de votre propre pipeline d'ancrage et la recherche, mais il faudra guetter une piste de licence commerciale ou un autre modèle avant de l'intégrer à un produit payant. Considérez-le comme un aperçu de la direction que prend l'ancrage ouvert, et un moyen de mesurer le plafond, plutôt qu'un composant de production prêt à l'emploi aujourd'hui.

La vue d'ensemble

La vague de l'IA agentique a passé deux ans obsédée par le raisonnement, la planification et les protocoles d'outils. LocateAnything rappelle que la couche de perception sous-jacente s'est elle aussi améliorée en silence — et que c'est l'ancrage, et pas seulement l'intelligence, qui détermine si un agent peut réellement toucher le monde qu'on lui demande de piloter. Un ancrage visuel rapide, précis et ouvert est l'une des pièces manquantes qui transforment des démos impressionnantes en agents capables d'opérer sur les écrans et documents désordonnés que font tourner les vraies entreprises.