Claude Opus 4.7 égale les logiciels de chimie spécialisés en spectroscopie RMN

Anthropic a publié un nouveau billet de recherche scientifique montrant que Claude Opus 4.7, un modèle de langage à usage général, peut égaler — et dans certains tests surpasser — les logiciels de chimie spécialisés sur les tâches de spectroscopie par résonance magnétique nucléaire (RMN). Le résultat est remarquable car Claude n'a subi aucun ajustement fin spécifique à la chimie.

Points clés

Opus 4.7 a atteint une erreur de prédiction de l'hydrogène de seulement ±0,079 ppm, bien en dessous de la tolérance industrielle de ±0,20 ppm
Erreur de prédiction du carbone : ±1,37 ppm, pratiquement à égalité avec MestReNova (±1,48 ppm)
Précision des motifs de couplage : environ 80 % dans un écart de 0,5 Hz, contre 26–35 % pour ChemDraw et MestReNova
Élucidation structurale : 100 % de réussite sur les 8 molécules simples ; 4 des 7 molécules complexes résolues lors de tous les essais

La spectroscopie RMN en quelques mots

La spectroscopie par résonance magnétique nucléaire est la principale technique analytique utilisée par les chimistes pour identifier et vérifier les structures moléculaires. Après la synthèse d'un nouveau composé, un chimiste doit faire correspondre manuellement chaque pic spectral à un atome spécifique dans la structure proposée — un processus chronophage qui représente l'un des derniers grands goulots d'étranglement manuels en chimie synthétique.

Les outils spécialisés actuels comme ChemDraw et MestReNova gèrent raisonnablement bien la prédiction directe (structure vers spectre), mais la prédiction inverse — déduire la structure d'une molécule à partir de son spectre — est presque entièrement laissée au jugement du chimiste. Claude gère désormais les deux.

Méthodologie

Le chercheur Anthropic David Kamber a évalué trois modèles Claude (Opus 4.7, Opus 4.6 et Sonnet 4.6) face à ChemDraw et MestReNova. Le benchmark utilisait 20 composés tirés de préprints ChemRxiv publiés après la coupure d'entraînement, couvrant quatre familles structurales : chloropyridazines, maléimides Boc-N-aryle, cétones spirobicycliques et méthanesulfonamides alpha-silylés. Les tests ont couvert trois solvants (DMSO-d6, CDCl3 et D2O) et les deux modes de prédiction.

Pourquoi est-ce important ?

Ces résultats remettent en question une hypothèse de longue date : que l'IA scientifique doit être affinée sur un domaine spécifique pour être utile. Les capacités multimodales de Claude permettent aux chimistes de lire les données expérimentales directement à partir des figures de journaux et des schémas dessinés à la main, sans base de données préconfigurée.

« Claude commence à aider de manière significative les chimistes dans le travail quotidien de traduction, de rappel et d'intégration qui complète leur jugement », a indiqué Anthropic dans le billet.

Opus 4.7 a surpassé à la fois ChemDraw et MestReNova sur la précision des motifs de couplage (environ 80 % contre 26–35 %) et a atteint le niveau de MestReNova sur la prédiction des déplacements chimiques du carbone.

Prochaines étapes

Anthropic prévoit d'étendre le travail à quatre autres goulots d'étranglement : la reconnaissance des structures chimiques, le raisonnement synthétique, l'explication des mécanismes de réaction et la compréhension de la littérature scientifique.

Le billet de recherche « Making Claude a Chemist » positionne Anthropic comme un acteur sérieux dans le domaine de l'IA pour la science, un espace où Google DeepMind s'est déjà imposé avec AlphaFold. Les résultats du benchmark suggèrent que les modèles d'IA généralistes comblent l'écart avec les logiciels scientifiques spécialisés plus rapidement que prévu.

Source : Making Claude a Chemist – Anthropic Research