Google DeepMind lance Gemma 4 : une IA open source qui fonctionne sur votre smartphone

Google DeepMind vient de lancer Gemma 4, sa famille de modèles IA ouverts la plus avancée à ce jour, construite sur les recherches de Gemini 3 Pro et disponible sous la licence permissive Apache 2.0. Ce lancement marque un tournant majeur dans la démocratisation de l'IA puissante, sans dépendance au cloud ni frais par requête.

Points clés

Quatre tailles de modèles allant de 2 milliards de paramètres pour les appareils edge à un modèle dense de 31 milliards
Licence Apache 2.0 — entièrement ouvert pour un usage commercial gratuit
Fonctionne hors ligne sur smartphones, ordinateurs portables, Raspberry Pi et navigateurs
Capacités agentiques avec planification multi-étapes et utilisation autonome d'outils
Plus de 140 langues prises en charge sur toutes les variantes

La famille de modèles

Gemma 4 se décline en quatre variantes conçues pour différents scénarios de déploiement :

Gemma 4 E2B (2 milliards de paramètres effectifs) — fonctionne avec moins de 1,5 Go de mémoire, optimisé pour les smartphones et les appareils IoT
Gemma 4 E4B (4 milliards de paramètres effectifs) — modèle edge amélioré avec traitement audio-visuel
Gemma 4 26B — architecture Mixture of Experts (MoE) classée 6e au classement textuel Arena AI
Gemma 4 31B — modèle dense classé 3e au même classement, surpassant des modèles 20 fois plus grands

Les modèles E2B et E4B peuvent traiter les entrées audio et comprendre la parole, tandis que les quatre variantes gèrent les entrées vidéo et image.

L'IA agentique en périphérie

Ce qui distingue Gemma 4, c'est son orientation vers les flux de travail agentiques — ce type de raisonnement autonome multi-étapes que les entreprises intègrent de plus en plus dans leurs opérations. Les modèles prennent en charge l'appel d'outils, l'exécution de fonctions, le décodage contraint pour les sorties structurées et des longueurs de contexte dynamiques allant jusqu'à 128 000 tokens.

Sur un Raspberry Pi 5, le modèle atteint 133 tokens par seconde en prefill et 7,6 tokens par seconde en décodage. Il peut traiter 4 000 tokens d'entrée sur 2 compétences distinctes en moins de 3 secondes, rendant les tâches agentiques en temps réel réalisables sur du matériel grand public.

Support multiplateforme

Gemma 4 fonctionne sur un éventail remarquablement large de plateformes : Android, iOS, Windows, Linux, macOS, navigateurs compatibles WebGPU, Raspberry Pi 5 et NPU Qualcomm IQ8. Google a lancé l'application AI Edge Gallery pour iOS et Android, permettant aux utilisateurs de télécharger et exécuter les modèles directement sur leurs appareils.

NVIDIA a également annoncé des optimisations pour exécuter Gemma 4 localement sur les GPU RTX, un développeur rapportant 188 tokens par seconde sur une RTX 5090 avec la variante MoE.

Pourquoi c'est important

La licence Apache 2.0 représente un changement majeur par rapport aux versions précédentes de Gemma, qui utilisaient une licence propriétaire plus restrictive. Cela place Gemma 4 en concurrence directe avec les familles Llama de Meta et Qwen d'Alibaba dans l'espace des modèles ouverts.

Les poids des modèles sont disponibles sur Hugging Face, Kaggle et Ollama, avec prise en charge de la quantification des poids en 2 bits et 4 bits pour fonctionner sur des appareils à mémoire limitée.

À surveiller

Les premiers tests de la communauté suggèrent que les versions hébergées dans le cloud fonctionnent bien, mais les modèles quantifiés localement — en particulier pour les langues autres que l'anglais — peuvent présenter des problèmes de rendu de caractères. Google devrait corriger ces problèmes dans les mises à jour suivantes.

Source : Blog des développeurs Google