Google Gemma 4 : modèles ouverts pour une IA locale

Google DeepMind vient de lancer Gemma 4, une nouvelle famille de modèles ouverts construite sur les mêmes recherches que Gemini 3. Ce qui rend ce lancement remarquable, c'est que ces modèles sont conçus pour fonctionner localement sur votre propre matériel — des smartphones aux Raspberry Pi — avec des capacités agentiques avancées et une licence Apache 2.0 entièrement permissive.

Quatre modèles pour chaque scénario

Gemma 4 est disponible en quatre tailles ciblant différents scénarios de déploiement :

E2B (2 milliards de paramètres effectifs) : pour le mobile et l'IoT, fonctionne avec moins de 1,5 Go de mémoire
E4B (4 milliards de paramètres effectifs) : pour les appareils edge avec entrée audio et visuelle native
26B MoE (Mixture of Experts) : pour les postes de travail, équilibrant performance et efficacité
31B Dense : le variant le plus puissant, classé 3e mondial parmi les modèles ouverts

Le modèle 31B occupe la troisième place sur le classement Arena AI, surpassant des modèles 20 fois plus volumineux en nombre de paramètres.

Multimodal par défaut

Les quatre modèles traitent nativement les images et la vidéo. Les variantes E2B et E4B vont plus loin avec une entrée audio native, permettant la compréhension vocale en temps réel directement sur l'appareil — sans connexion internet requise.

Les fenêtres de contexte atteignent 128 000 tokens pour les petits modèles et 256 000 tokens pour les plus grands, avec la prise en charge de plus de 140 langues.

Capacités agentiques : des agents IA sur votre appareil

La fonctionnalité phare de Gemma 4 est le concept d'Agent Skills — des workflows autonomes exécutés entièrement sur l'appareil. Ces capacités permettent :

L'appel de fonctions natif pour interagir avec des outils et APIs
Des sorties JSON structurées pour des applications de production fiables
La planification multi-étapes et l'exécution autonome d'actions
L'accès aux bases de connaissances externes comme Wikipédia
La génération de contenu interactif incluant résumés et fiches pédagogiques

Cela signifie que vous pouvez construire des agents IA qui fonctionnent entièrement sur votre matériel sans envoyer vos données dans le cloud.

Performances en périphérie

Les chiffres de performance sont impressionnants pour des modèles fonctionnant localement :

Mobile : traitement de 4 000 tokens d'entrée à travers 2 compétences distinctes en moins de 3 secondes
Raspberry Pi 5 : 133 tokens/seconde en pré-remplissage, 7,6 tokens/seconde en décodage
Plateformes : Android, iOS, Windows, Linux, macOS (Metal), WebGPU, Qualcomm IQ8 NPU

Pour le modèle 31B, une carte graphique avec 16 Go de VRAM suffit pour le faire tourner à pleine vitesse, rendant l'IA avancée accessible à tout développeur disposant d'un poste de travail moderne.

Apache 2.0 : liberté totale

Contrairement à certains modèles ouverts assortis de restrictions commerciales ou de limites d'utilisateurs actifs mensuels, Gemma 4 est distribué sous licence Apache 2.0 complète :

Aucune limite d'utilisateurs actifs mensuels
Aucune politique d'utilisation restrictive
Liberté totale pour le déploiement commercial et souverain
Libre de modifier et redistribuer

C'est un choix idéal pour les entreprises de la région MENA qui souhaitent construire des solutions d'IA locales tout en préservant la souveraineté des données.

Écosystème de frameworks

Gemma 4 est disponible immédiatement à travers un large écosystème d'outils :

Hugging Face : Transformers, TRL, Transformers.js
Inférence locale : llama.cpp, Ollama, LM Studio, MLX (Apple Silicon)
Production : vLLM, SGLang, NVIDIA NIM, Baseten
Edge : LiteRT-LM, Google AI Edge Gallery
Fine-tuning : Unsloth, Keras, MaxText

Ce que cela signifie pour les développeurs

Avec le support de plus de 140 langues, une licence entièrement ouverte et la capacité de fonctionner sur du matériel modeste, Gemma 4 ouvre de nouvelles possibilités :

Applications hors ligne avec une IA native sur appareils mobiles
Assistants de codage locaux comme alternatives aux APIs cloud coûteuses
Solutions entreprise qui gardent les données dans le réseau local
Chatbots multimodaux comprenant le texte, l'audio et les images

Conclusion

Gemma 4 n'est pas une simple mise à jour de la famille de modèles ouverts de Google — c'est un tournant dans la capacité à exécuter une IA avancée sur du matériel grand public. Avec les capacités agentiques, le support multimodal et la couverture linguistique étendue, tout développeur peut désormais construire des applications d'IA sophistiquées sans dépendre d'APIs cloud coûteuses.

Disponible dès maintenant sur Hugging Face et Google AI Studio pour les tests et le déploiement.