Modèles Gemma 4
Quatre modèles, une famille - de l'edge au frontier
La famille Gemma 4 couvre quatre architectures : les ultra-compacts E2B et E4B pour les appareils edge, le 26B MoE pour un déploiement serveur efficace, et le modèle phare 31B Dense. Tous partagent le support multimodal natif, la réflexion configurable et la licence Apache 2.0.
Tous les modèles
Choisissez le Gemma 4 adapté à votre cas d'usage
Chaque modèle de la famille est optimisé pour différents scénarios de déploiement. Les modèles edge incluent le support audio, tandis que les modèles serveur offrent un contexte de 256K et un raisonnement de classe frontier.
Modèles Edge
E2B & E4B : Intelligence embarquée avec audio
Modèles ultra-compacts avec 2.3B et 4.5B paramètres effectifs. Tous deux intègrent des encodeurs audio natifs, un contexte de 128K et fonctionnent sur smartphones, navigateurs et appareils IoT.
Choisissez E2B pour l'empreinte la plus réduite (3.2 Go en 4-bit). Choisissez E4B pour une meilleure qualité (5.5 Go en 4-bit). Les deux prennent en charge le texte, l'image, la vidéo et l'audio.
Modèles Serveur
26B MoE & 31B Dense : Performance frontier
Le 26B MoE n'active que 4B paramètres par token pour un serving efficace. Le 31B Dense est le modèle phare, classé 3e sur Arena AI. Les deux offrent un contexte de 256K et le Function Calling natif.
Choisissez 26B pour la production à haut débit (16 Go en 4-bit). Choisissez 31B pour la qualité maximale (17 Go en 4-bit). Les deux excellent en raisonnement, codage et tâches multimodales.
Edge - Ultra-compact
Gemma 4 E2B
2.3B paramètres effectifs. Le plus petit Gemma 4 avec support multimodal complet + audio.
35 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 3.2 Go VRAM en 4-bit.
Edge - Recommandé
Gemma 4 E4B
4.5B paramètres effectifs. Meilleur modèle edge avec un raisonnement solide et le support audio.
42 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 5.5 Go VRAM en 4-bit.
Serveur - Efficace
Gemma 4 26B A4B
25.2B au total, 3.8B actifs par token. Une qualité proche du 31B pour une fraction du calcul.
MoE avec 128 experts (8 actifs + 1 partagé). Contexte 256K. 16 Go VRAM en 4-bit.
Serveur - Modèle phare
Gemma 4 31B
30.7B paramètres dense. 3e sur Arena AI. Intelligence et fiabilité maximales.
Architecture dense, contexte 256K, 140+ langues. 17 Go VRAM en 4-bit.
Capacités partagées
Ce que chaque modèle Gemma 4 peut faire
Les quatre modèles partagent un ensemble commun de capacités qui rendent la famille Gemma 4 particulièrement polyvalente.
Multimodal natif
Tous les modèles traitent nativement le texte et les images. Les modèles edge ajoutent le support audio et vidéo. Aucun encodeur ou pipeline séparé n'est nécessaire.
Réflexion configurable
Tous les modèles prennent en charge les modes de réflexion pour un raisonnement étape par étape. Contrôlez la profondeur du raisonnement selon la complexité de la tâche.
Function Calling
Le Function Calling intégré dans toute la famille permet des workflows agentiques. Aucun fine-tuning requis pour l'utilisation d'outils.
Contexte étendu
128K tokens pour les modèles edge, 256K pour les modèles serveur. L'attention hybride maintient une utilisation mémoire raisonnable.
140+ langues
Support multilingue avec compréhension du contexte culturel sur toutes les tailles de modèle.
Licence Apache 2.0
Liberté commerciale totale. Pas de limites MAU, pas de restrictions d'utilisation. Déployez partout, modifiez librement.
Guide de sélection rapide
Quel modèle devriez-vous choisir ?
Faites correspondre vos contraintes de déploiement et vos exigences de qualité à la bonne variante Gemma 4.
Par matériel
- Smartphone / IoT / 4 Go RAM : Gemma 4 E2B
- Ordinateur portable / 8-16 Go RAM : Gemma 4 E4B
- GPU unique / 16-24 Go VRAM : Gemma 4 26B A4B
- Multi-GPU / 24 Go+ VRAM : Gemma 4 31B
Par cas d'usage
- Assistant vocal / audio : E2B ou E4B (support audio)
- IA dans le navigateur : E2B ou E4B (WebGPU)
- API à haut débit : 26B A4B (efficacité MoE)
- Qualité maximale : 31B Dense (performance frontier)
Performance
Comparaison complète des benchmarks des quatre modèles
Chaque modèle Gemma 4 fait partie d'une frontière de Pareto - chaque taille offre des performances exceptionnelles par rapport à son nombre de paramètres.
De l'ultra-compact E2B au modèle phare 31B, chaque modèle est optimisé pour son niveau de déploiement tout en partageant les mêmes innovations architecturales.


31B Dense : 3e sur Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE : Qualité proche du 31B (ELO 1441) avec seulement 4B paramètres actifs par token
E4B : 69.4% MMLU Pro, 52% LiveCodeBench - excellente performance edge avec audio
E2B : 60% MMLU Pro, 44% LiveCodeBench - une IA performante avec 3.2 Go de VRAM
Comparaison complète de la famille
Tous les modèles Gemma 4 côte à côte
Résultats complets des benchmarks en raisonnement, codage, multimodal et métriques de déploiement.
| Benchmark | 31B Dense Modèle phare 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Compact E2B |
|---|---|---|---|---|
Arena AI ELO Classement général | 1452 | 1441 | - | - |
MMLU Pro Connaissances et raisonnement | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Mathématiques | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Codage | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Sciences | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Tokens maximum | 256K | 256K | 128K | 128K |
Audio Support Audio natif | No | No | Yes | Yes |
VRAM (4-bit) Mémoire minimale | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Tous les chiffres proviennent de la fiche officielle Gemma 4. Scores Arena AI au 2 avril 2026.
Niveau Edge
E2B & E4B : L'IA qui fonctionne sur votre appareil
Les modèles edge apportent une IA multimodale complète aux smartphones, navigateurs et appareils IoT. Tous deux intègrent des encodeurs audio natifs - une capacité absente des modèles plus grands. Choisissez E2B pour l'empreinte la plus réduite, E4B pour une meilleure qualité.
- E2B : 2.3B effectifs, 3.2 Go en 4-bit, 95 tok/s sur matériel grand public
- E4B : 4.5B effectifs, 5.5 Go en 4-bit, raisonnement et codage solides
- Les deux : audio natif, contexte 128K, support navigateur WebGPU
Niveau Serveur
26B MoE & 31B Dense : Performance frontier
Les modèles serveur offrent un raisonnement, un codage et une compréhension multimodale de classe frontier. Le 26B MoE propose une qualité proche du 31B pour une fraction du calcul. Le 31B Dense est le modèle phare pour la performance maximale.
- 26B MoE : 3.8B actifs par token, ELO 1441, 88.3% AIME 2026
- 31B Dense : 30.7B entièrement actifs, ELO 1452, 89.2% AIME 2026
- Les deux : contexte 256K, Function Calling natif, 140+ langues
Architecture
Innovations partagées dans toute la famille
Tous les modèles Gemma 4 partagent les innovations architecturales clés de la recherche Google DeepMind. Les Per-Layer Embeddings, le cache KV partagé et les patterns d'attention hybrides maximisent l'efficacité à chaque échelle.
- Per-Layer Embeddings (PLE) pour un conditionnement efficace en paramètres
- Cache KV partagé pour réduire la mémoire lors de la génération en contexte long
- Attention hybride locale/globale pour un compromis optimal mémoire-qualité

Essayer maintenant
Chattez avec n'importe quel modèle Gemma 4
Essayez tous les modèles instantanément via notre interface de chat, ou téléchargez-les pour un déploiement local.
Télécharger
Obtenir les poids du modèle
Téléchargez les poids officiels de n'importe quelle variante Gemma 4.
Déployer
Déploiement en production
Déployez sur des plateformes cloud, locales ou edge.
Famille Gemma 4
Explorez chaque modèle en détail
Plongez dans chaque variante Gemma 4 avec des pages dédiées couvrant l'architecture, les benchmarks et les guides de déploiement.
Commencer
Trouvez votre modèle Gemma 4
Chattez gratuitement avec n'importe quel modèle Gemma 4, ou téléchargez les poids pour un déploiement local. Licence Apache 2.0 pour une liberté commerciale totale.