Vue d'ensemble
Publié le 2 avril 2026 sous Apache 2.0, Gemma 4 offre une intelligence multimodale de classe frontière à travers quatre architectures. Des modèles edge ultra-mobiles de 2B à la variante dense flagship de 31B, chaque taille traite nativement le texte, les images à résolution variable, la vidéo et l'audio.
Modèles Edge
Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur avec support audio natif et contexte de 128K.
Les variantes E2B et E4B utilisent Per-Layer Embeddings (PLE) pour maximiser l'efficacité des paramètres. Elles supportent nativement les entrées texte, image, vidéo et audio, les rendant idéales pour les applications embarquées axées sur la confidentialité.
Modèles Serveur
Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire.
Les deux modèles disposent de fenêtres de contexte de 256K, d'appel de fonctions natif et de modes de réflexion configurables. Le 31B atteint 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6, rivalisant avec des modèles plusieurs fois plus grands.
Capacités
Tous les modèles traitent nativement le texte, les images avec ratios d'aspect variables, la vidéo et l'audio. E2B et E4B incluent des encodeurs audio pour la compréhension vocale.
L'encodeur de vision utilise des positions 2D apprises et RoPE multidimensionnel, préservant les ratios d'aspect originaux. Les images peuvent être encodées selon différents budgets de tokens (70, 140, 280, 560, 1120) pour des compromis vitesse-qualité optimaux.
Architecture
Les petits modèles disposent d'un contexte de 128K, tandis que les modèles moyens supportent 256K. Les configurations RoPE duales permettent un traitement de contexte plus long.
L'alternance de couches d'attention locale à fenêtre glissante (512-1024 tokens) et globale plein contexte optimise l'utilisation de la mémoire. Le cache KV partagé réduit le calcul et la mémoire pour la génération de contexte long.
Fonctionnalités
Tous les modèles supportent des modes de réflexion configurables pour les tâches de raisonnement avancées, avec support natif des prompts système pour des conversations structurées.
Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026 et 84,3% sur GPQA Diamond. L'appel de fonctions intégré alimente des agents autonomes sans fine-tuning.
Performance
Le modèle 31B obtient 80% sur LiveCodeBench v6 et atteint 2150 ELO Codeforces. Le 26B MoE atteint 77,1% avec seulement 4B paramètres actifs.
Des améliorations notables dans les benchmarks de codage associées au support intégré d'appel de fonctions permettent des agents autonomes très capables. Le benchmark HLE montre 19,5% sans outils, 26,5% avec recherche.
Multimodal
Le modèle 31B atteint 76,9% sur MMMU Pro et 85,6% sur MATH-Vision. La distance d'édition OmniDocBench de 0,131 démontre de solides capacités OCR.
Le support de ratio d'aspect variable et les budgets de tokens d'image configurables permettent un traitement efficace des documents, diagrammes et captures d'écran. Le modèle E4B atteint 52,6% sur MMMU Pro malgré sa taille compacte.
Intégration
Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. Les checkpoints ONNX permettent le déploiement sur appareils edge.
La licence Apache 2.0 permet une utilisation commerciale responsable. Disponible sur Kaggle, Hugging Face et via Google AI Studio. Compatible avec des outils locaux comme Ollama pour des interactions privées et hors ligne.
Commencer
Découvrez gratuitement les modèles multimodaux de pointe de Google DeepMind. Aucune carte de crédit requise pour démarrer votre première conversation.
Introduction
Découvrez les quatre architectures de modèles, les capacités multimodales natives et les options de déploiement de Google DeepMind.
Performance
Les modèles Gemma 4 forment une frontière de Pareto, offrant des performances exceptionnelles par rapport à leur taille. Le modèle dense 31B se classe 3ème parmi tous les modèles ouverts sur le classement Arena AI.
Les benchmarks officiels démontrent des performances compétitives avec des modèles plusieurs fois plus grands. Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026, tandis que le 26B MoE atteint une qualité similaire avec seulement 4B paramètres actifs.


Le modèle 31B atteint 89,2% sur AIME 2026 et 85,2% sur MMLU Pro, rivalisant avec des modèles de plus de 100B paramètres.
Les performances de codage atteignent 80% sur LiveCodeBench v6 et 2150 ELO Codeforces, devançant de nombreux modèles plus grands.
Les capacités de vision incluent 76,9% sur MMMU Pro et 85,6% sur MATH-Vision, avec une solide compréhension OCR et documentaire.
Benchmarks officiels
Une évaluation complète sur les tâches de raisonnement, codage, vision, audio et contexte long démontre des capacités de classe frontière.
| Benchmark | Gemma 4 31B Flagship dense 31B | Gemma 4 26B A4B MoE (4B actifs) 26B | Gemma 4 E4B Modèle edge E4B | Gemma 4 E2B Ultra-compact E2B |
|---|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (sans outils) Raisonnement mathématique | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond Sciences niveau universitaire | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 Performance de codage | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO Programmation compétitive | 2150 | 1718 | 940 | 633 |
MMMU Pro Compréhension multimodale | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision Raisonnement mathématique visuel | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 OCR de documents (distance d'édition) | 0.131 | 0.149 | 0.181 | 0.290 |
Context Window Tokens maximum | 256K | 256K | 128K | 128K |
Audio Support Entrée audio native | Non | Non | Oui | Oui |
Tous les chiffres proviennent de la fiche modèle officielle Gemma 4 et du blog Hugging Face. Les benchmarks E2B et E4B démontrent une efficacité exceptionnelle pour leur nombre de paramètres.
Modèles Serveur
Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire, idéal pour les scénarios à haut débit.
Modèles Edge
Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur. Les encodeurs audio natifs permettent la compréhension vocale en temps réel sur l'appareil.
Architecture
Gemma 4 introduit des innovations architecturales qui maximisent l'efficacité. PLE donne à chaque couche de décodeur son propre chemin de conditionnement, tandis que le cache KV partagé réduit l'utilisation de la mémoire pendant la génération de contexte long.

Multimodal
Tous les modèles traitent nativement le texte et les images avec ratios d'aspect variables. L'encodeur de vision utilise des positions 2D apprises et peut encoder les images selon différents budgets de tokens (70-1120) pour des compromis vitesse-qualité.

Déploiement
Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. E2B et E4B s'exécutent dans les navigateurs avec transformers.js, tandis que 31B et 26B excellent sur le matériel serveur.

FAQ
Comprendre les innovations techniques de Gemma 4, des Per-Layer Embeddings au traitement multimodal.
Gemma 4 introduit le support multimodal natif (texte, image, vidéo, audio), des fenêtres de contexte étendues (128K-256K), des modes de réflexion configurables et l'appel de fonctions intégré. L'architecture utilise Per-Layer Embeddings (PLE) pour l'efficacité et un cache KV partagé pour réduire l'utilisation de la mémoire pendant la génération de contexte long.
E2B (2,3B effectifs) et E4B (4,5B effectifs) sont conçus pour les appareils edge, navigateurs et mobiles avec support audio natif. Le 26B A4B est un modèle Mixture-of-Experts activant seulement 4B paramètres par token, idéal pour les scénarios à haut débit. Le modèle dense 31B est le flagship pour des performances maximales sur les tâches de raisonnement, codage et vision.
Tous les modèles traitent nativement le texte et les images avec ratios d'aspect variables. L'encodeur de vision utilise des positions 2D apprises et peut encoder les images selon différents budgets de tokens (70-1120 tokens) pour des compromis vitesse-qualité. E2B et E4B incluent des encodeurs audio conformer de style USM pour la compréhension vocale. La vidéo est supportée dans toute la famille en traitant les images et les pistes audio.
PLE donne à chaque couche de décodeur son propre petit embedding pour chaque token, créant un chemin de conditionnement parallèle au flux résiduel principal. Cela permet à chaque couche de recevoir des informations spécifiques au token uniquement lorsque c'est pertinent, plutôt que de tout emballer dans un seul embedding initial. Cela ajoute une spécialisation significative par couche à un coût paramétrique modeste, rendant les petits modèles plus efficaces.
FAQ
Démarrer avec Gemma 4 sur différentes plateformes, du cloud aux appareils edge.
Les modèles Gemma 4 sont disponibles sur Kaggle et Hugging Face sous licence Apache 2.0. Vous pouvez les utiliser via Google AI Studio, les déployer sur Vertex AI, ou les exécuter localement avec des outils comme Ollama, llama.cpp, MLX (pour Apple Silicon), transformers et Mistral.rs. Les checkpoints ONNX permettent le déploiement sur navigateur et appareils edge.
E2B nécessite ~9,6 Go (BF16) à 3,2 Go (4-bit) de VRAM. E4B nécessite ~15 Go (BF16) à 5 Go (4-bit). Le modèle 31B nécessite ~58 Go (BF16) à 17 Go (4-bit). Le 26B MoE nécessite ~48 Go (BF16) à 16 Go (4-bit). Ce sont les poids de base uniquement ; ajoutez de la mémoire pour la fenêtre de contexte (cache KV) selon votre cas d'usage.
Oui. Les modèles E2B et E4B sont spécifiquement conçus pour le déploiement navigateur et mobile. transformers.js permet d'exécuter Gemma 4 directement dans les navigateurs avec support WebGPU. Les checkpoints ONNX fonctionnent sur divers backends matériels edge. Les modèles sont optimisés pour les appareils Pixel et les environnements de navigateur Chrome.
Gemma 4 dispose d'un support intégré d'appel de fonctions sans nécessiter de fine-tuning. Les modèles peuvent analyser les définitions d'outils, générer des appels JSON structurés et gérer l'appel de fonctions multimodal (par exemple, analyser une image et appeler une API météo). Cela alimente des agents autonomes pour des tâches comme l'exécution de code, la navigation web et la récupération de données.
FAQ
Comment Gemma 4 se compare aux autres modèles et ce qui le rend compétitif pour différents cas d'usage.
Le modèle 31B se classe 3ème sur le classement Arena AI parmi les modèles ouverts, devançant Llama 3.3 70B malgré une taille inférieure de moitié. Il atteint 89,2% sur le raisonnement mathématique AIME 2026, 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6. L'efficacité provient d'innovations architecturales comme les motifs d'attention alternés et le cache KV partagé.
Le modèle 26B A4B possède 26 milliards de paramètres au total mais n'active que 4 milliards par token pendant la génération. Tous les 26B paramètres doivent être chargés en mémoire pour un routage rapide, mais le coût d'inférence est plus proche d'un modèle 4B. Cela atteint 88,3% sur AIME 2026 et 82,6% sur MMLU Pro avec un calcul par token significativement inférieur au modèle dense 31B.
Oui. Les petits modèles supportent des fenêtres de contexte de 128K, tandis que les modèles moyens gèrent 256K tokens. L'architecture utilise des configurations RoPE duales (standard pour les couches glissantes, élagué pour les couches globales) pour permettre un contexte plus long. Le cache KV partagé réduit la consommation de mémoire pendant la génération de contexte long, rendant pratique le traitement de bases de code entières et d'articles de recherche.
Gemma 4 est entièrement supporté dans TRL (Transformer Reinforcement Learning), avec des exemples pour les réponses d'outils multimodaux et l'interaction avec l'environnement. Hugging Face fournit des guides de fine-tuning pour Vertex AI utilisant SFT. Unsloth Studio offre une expérience de fine-tuning basée sur l'interface utilisateur. Les modèles supportent les méthodes PEFT comme LoRA pour l'entraînement efficace en paramètres.