OpenAI lance ChatGPT Images 2.0 — le premier modèle d'images qui « réfléchit » avant de dessiner

OpenAI a lancé ChatGPT Images 2.0 le 21 avril 2026, déployant son modèle d'images de nouvelle génération, gpt-image-2, sur ChatGPT, Codex et l'API. Ce lancement marque la première fois qu'un générateur d'images en production intègre une phase de raisonnement explicite — le modèle « réfléchit » à la composition, à la mise en page et à l'intention avant de produire le moindre pixel.
L'annonce sur X a généré plus de 33 000 publications en 24 heures, les développeurs saluant la capacité du modèle à restituer des petits textes et des éléments d'interface denses. OpenAI retirera DALL-E 2 et DALL-E 3 le 12 mai, tournant la page de la première génération de ses outils d'images fondés sur la diffusion.
Points clés
- Le nouveau modèle gpt-image-2 intègre un mode « thinking » à trois niveaux : bas, moyen et élevé, arbitrant entre latence et précision de mise en page
- Résolution de sortie 2K (2 000 pixels sur le côté long), soit près du double du plafond de 1 024 px de gpt-image-1
- Génère jusqu'à 8 à 10 images cohérentes en une seule requête avec continuité de personnage et d'objet
- Rendu de texte multilingue en japonais, coréen, chinois, hindi et bengali
- Retrait de DALL-E 2 et DALL-E 3 programmé pour le 12 mai 2026
Réfléchir avant de dessiner
Dans un virage qui reflète la révolution du raisonnement dans les modèles de texte, gpt-image-2 introduit une couche de planification à l'intérieur du pipeline de génération d'images. Au lieu d'envoyer directement un prompt vers une sortie de diffusion, le modèle raisonne d'abord sur ce qu'il doit dessiner — il esquisse les contraintes, choisit une composition et, lorsque cela est activé, effectue des recherches web en cours de génération pour vérifier faits et références.
« Les images sont un langage, pas une décoration », a écrit OpenAI dans son billet de lancement. L'indicateur « thinking » est disponible sur trois niveaux d'effort, donnant aux développeurs le contrôle sur la latence de raisonnement qu'ils souhaitent échanger contre une précision de mise en page.
Spécifications techniques et tarification
L'API expose un modèle tarifaire familier basé sur les tokens :
- Tokens de texte en entrée : 5 $ par million
- Tokens de texte en sortie : 10 $ par million
- Tokens d'image en entrée : 8 $ par million
- Tokens d'image en sortie : 30 $ par million
- Un rendu standard 1024×1024 de haute qualité revient à environ 0,21 $ par image
Le mode thinking entraîne des frais supplémentaires en fonction des tokens de raisonnement utilisés. Les ratios d'aspect pris en charge couvrent 1:1, 3:2, 2:3, 16:9, 9:16 ainsi que les formats ultra-larges 3:1 et 1:3.
Niveaux de disponibilité
Les utilisateurs gratuits de ChatGPT reçoivent le modèle gpt-image-2 de base. Les abonnés ChatGPT Plus, Pro et Business débloquent le mode thinking, des passes de raisonnement plus longues et la recherche web en cours de génération. Le modèle est simultanément disponible via l'environnement Codex et l'API publique, un schéma de distribution qu'OpenAI utilise de plus en plus pour pousser l'accès produit et développeur en parallèle.
Impact sur la chaîne créative
Les premières réactions des développeurs mettent en avant deux capacités qui ouvrent de nouveaux flux de travail : la typographie multilingue et la cohérence multi-images. Un développeur thaïlandais a rapporté que le modèle produisait des diapositives en thaï lisibles dès la première tentative — un mode d'échec bien connu des systèmes de diffusion précédents. D'autres ont souligné la capacité à générer un personnage et à maintenir sa cohérence visuelle sur une séquence allant jusqu'à 10 images, une fonctionnalité qui réduit le besoin de contournements de type ControlNet dans le marketing, l'e-commerce et la production de bandes dessinées.
L'équipe de Sam Altman positionne également la sortie comme une pression concurrentielle sur Midjourney, Stability et la gamme Imagen de Google, qui reposaient toutes sur la diffusion sans boucle de raisonnement explicite.
Contexte
L'outillage d'images d'OpenAI a débuté avec DALL-E en 2021 et a évolué à travers DALL-E 2, DALL-E 3 et gpt-image-1. Chaque génération a ajouté de la fidélité, mais aucune n'exposait une étape de raisonnement. Le passage au thinking intégré reproduit ce qu'OpenAI a fait avec o1 et GPT-5 côté texte : traiter le calcul au moment de l'inférence comme un levier de qualité, et pas seulement comme un coût.
Des analystes de Startup Fortune ont qualifié le lancement de « relèvement du plafond de la complexité générative, forçant les concurrents à réagir ». Darryl K. Taft de The New Stack a décrit ce moment comme celui où « OpenAI réfléchit désormais avant de dessiner ».
Et après
DALL-E 2 et DALL-E 3 étant en fin de vie dans trois semaines, les équipes utilisant les anciens points d'accès devront migrer avant le 12 mai. OpenAI a laissé entendre que les points d'édition avec entrées image et masque suivront le même schéma de raisonnement dans une future mise à jour. Attendez-vous à ce que les modalités vidéo et audio héritent de la même primitive « thinking » dans les mois à venir, complétant le basculement vers une architecture unifiée privilégiant le raisonnement sur toutes les surfaces génératives.
Discutez de votre projet avec nous
Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.
Trouvons les meilleures solutions pour vos besoins.