Google DeepMind lance Gemma 4 : une IA open source qui fonctionne sur votre smartphone

Google DeepMind vient de lancer Gemma 4, sa famille de modèles IA ouverts la plus avancée à ce jour, construite sur les recherches de Gemini 3 Pro et disponible sous la licence permissive Apache 2.0. Ce lancement marque un tournant majeur dans la démocratisation de l'IA puissante, sans dépendance au cloud ni frais par requête.
Points clés
- Quatre tailles de modèles allant de 2 milliards de paramètres pour les appareils edge à un modèle dense de 31 milliards
- Licence Apache 2.0 — entièrement ouvert pour un usage commercial gratuit
- Fonctionne hors ligne sur smartphones, ordinateurs portables, Raspberry Pi et navigateurs
- Capacités agentiques avec planification multi-étapes et utilisation autonome d'outils
- Plus de 140 langues prises en charge sur toutes les variantes
La famille de modèles
Gemma 4 se décline en quatre variantes conçues pour différents scénarios de déploiement :
- Gemma 4 E2B (2 milliards de paramètres effectifs) — fonctionne avec moins de 1,5 Go de mémoire, optimisé pour les smartphones et les appareils IoT
- Gemma 4 E4B (4 milliards de paramètres effectifs) — modèle edge amélioré avec traitement audio-visuel
- Gemma 4 26B — architecture Mixture of Experts (MoE) classée 6e au classement textuel Arena AI
- Gemma 4 31B — modèle dense classé 3e au même classement, surpassant des modèles 20 fois plus grands
Les modèles E2B et E4B peuvent traiter les entrées audio et comprendre la parole, tandis que les quatre variantes gèrent les entrées vidéo et image.
L'IA agentique en périphérie
Ce qui distingue Gemma 4, c'est son orientation vers les flux de travail agentiques — ce type de raisonnement autonome multi-étapes que les entreprises intègrent de plus en plus dans leurs opérations. Les modèles prennent en charge l'appel d'outils, l'exécution de fonctions, le décodage contraint pour les sorties structurées et des longueurs de contexte dynamiques allant jusqu'à 128 000 tokens.
Sur un Raspberry Pi 5, le modèle atteint 133 tokens par seconde en prefill et 7,6 tokens par seconde en décodage. Il peut traiter 4 000 tokens d'entrée sur 2 compétences distinctes en moins de 3 secondes, rendant les tâches agentiques en temps réel réalisables sur du matériel grand public.
Support multiplateforme
Gemma 4 fonctionne sur un éventail remarquablement large de plateformes : Android, iOS, Windows, Linux, macOS, navigateurs compatibles WebGPU, Raspberry Pi 5 et NPU Qualcomm IQ8. Google a lancé l'application AI Edge Gallery pour iOS et Android, permettant aux utilisateurs de télécharger et exécuter les modèles directement sur leurs appareils.
NVIDIA a également annoncé des optimisations pour exécuter Gemma 4 localement sur les GPU RTX, un développeur rapportant 188 tokens par seconde sur une RTX 5090 avec la variante MoE.
Pourquoi c'est important
La licence Apache 2.0 représente un changement majeur par rapport aux versions précédentes de Gemma, qui utilisaient une licence propriétaire plus restrictive. Cela place Gemma 4 en concurrence directe avec les familles Llama de Meta et Qwen d'Alibaba dans l'espace des modèles ouverts.
Les poids des modèles sont disponibles sur Hugging Face, Kaggle et Ollama, avec prise en charge de la quantification des poids en 2 bits et 4 bits pour fonctionner sur des appareils à mémoire limitée.
À surveiller
Les premiers tests de la communauté suggèrent que les versions hébergées dans le cloud fonctionnent bien, mais les modèles quantifiés localement — en particulier pour les langues autres que l'anglais — peuvent présenter des problèmes de rendu de caractères. Google devrait corriger ces problèmes dans les mises à jour suivantes.
Source : Blog des développeurs Google
Discutez de votre projet avec nous
Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.
Trouvons les meilleures solutions pour vos besoins.