Ideogram a lancé Ideogram 4.0 le 3 juin 2026, un modèle de génération d'images à partir de texte de 9,3 milliards de paramètres, publié avec des poids ouverts sur Hugging Face et un code d'inférence sur GitHub. Cette sortie place l'ouverture au cœur de sa stratégie concurrentielle sur un marché des médias génératifs de plus en plus encombré, et elle arrive en tant que modèle d'image à poids ouverts le mieux classé sur le tableau DesignArena.
Points clés
- 9,3 milliards de paramètres à poids ouverts — les poids du modèle sont publiés sur Hugging Face et le code d'inférence se trouve dans le dépôt ideogram-oss/ideogram4.
- Résolution 2K native — prise en charge de toute résolution de 256 à 2048 pixels (par multiples de 16) et de rapports d'aspect jusqu'à 6:1, ce qui supprime le besoin d'une étape de mise à l'échelle distincte.
- Rendu de texte de premier ordre — il offre la meilleure typographie dans l'image de toutes les versions à poids ouverts testées, devant des modèles bien plus volumineux.
- Contrôle structuré de la mise en page — placement des éléments par boîtes englobantes, requêtes au format JSON, conditionnement de la palette via des valeurs hexadécimales et génération de texte multilingue.
- Licence dédoublée — le code est publié sous Apache 2.0, tandis que les poids sont régis par un accord de modèle non commercial d'Ideogram.
Détails
Ideogram 4.0 est proposé en deux variantes quantifiées : une version nf4 qui fonctionne sur les GPU compatibles CUDA et prend en charge Diffusers de Hugging Face, et une version fp8 compatible avec une gamme plus large de matériel. Le modèle gère toute résolution entre 256 et 2048 pixels avec un ajustement automatique du calendrier de bruit, et son script d'inférence transforme les requêtes en texte simple en JSON structuré via un modèle de langage de « requête magique » avant le début de la génération.
Cette approche structurée est au cœur de l'orientation design du modèle. Au lieu de traiter une requête comme un seul bloc de texte, Ideogram 4.0 accepte des spécifications de boîtes englobantes pour l'emplacement des éléments, des valeurs de couleurs hexadécimales pour conditionner la palette et des instructions explicites pour le texte dans l'image — autant de contrôles qui comptent pour les logos, les affiches et les maquettes de produits plutôt que pour l'illustration générique.
Sur le tableau DesignArena, Ideogram 4.0 se classe premier parmi tous les modèles à poids ouverts et neuvième au classement général de l'arène texte-vers-image, derrière uniquement des modèles fermés d'OpenAI et de Google. Avec 9,3 milliards de paramètres, il offre un meilleur rendu de texte que des versions ouvertes nettement plus volumineuses, notamment Qwen-Image à 20 milliards de paramètres, FLUX.2 dev à 32 milliards et HunyuanImage 3.0 à 80 milliards dans une configuration à mélange d'experts.
Impact
La répartition des licences mérite une lecture attentive. Publier le code d'inférence sous Apache 2.0 tout en plaçant les poids derrière un accord non commercial donne aux chercheurs, aux passionnés et aux équipes qui évaluent en environnement non productif un accès pratique réel, tout en maintenant le déploiement commercial sur une voie distincte et payante. Pour les studios et les agences, cela signifie que le modèle peut être testé localement et intégré à des prototypes avant tout engagement de licence.
Pour les développeurs, l'interface JSON structurée et l'orientation vers des sorties éditables comptent davantage que la qualité brute de l'image. Ideogram a indiqué qu'une prochaine version de 4.0 restituera les canaux alpha et les calques de texte éditables directement à partir de l'inférence — sans seconde passe ni étape de masquage — de sorte que la sortie du modèle devienne un fichier que les équipes de production peuvent transmettre directement plutôt qu'un rendu plat à nettoyer ensuite.
La tarification de l'API reste échelonnée pour ceux qui préfèrent la voie hébergée : environ 0,03 $ par image en Turbo, 0,06 $ au niveau par défaut et 0,10 $ au niveau Quality.
Contexte
Ideogram a été fondée en 2022 par d'anciens chercheurs de Google Brain, dont Mohammad Norouzi, et a levé 80 millions de dollars début 2024. La société a publié son premier modèle public en août 2023 et a bâti sa réputation initiale précisément sur le rendu de texte — un point faible de la plupart des modèles de diffusion de cette époque. La version 4.0 est la première sortie de l'entreprise à placer les poids ouverts au cœur de cette réputation, et elle est déjà distribuée sur plus d'une dizaine de plateformes partenaires, dont ComfyUI, Leonardo AI et Picsart.
Et après
La question immédiate est celle de l'adoption : les poids ouverts associés à un solide score de rendu de texte font d'Ideogram 4.0 une base attrayante pour le réglage fin et l'auto-hébergement, mais la licence non commerciale des poids maintient l'usage en production derrière un péage. La mise à jour promise des calques éditables — canaux alpha et texte vivant directement issus de l'inférence — pousserait le modèle davantage vers un outil de design plutôt qu'un générateur d'images, et c'est cette capacité que les équipes de design surveilleront ensuite.
Source : Ideogram