Modèles Gemma 4

Quatre modèles, une famille - de l'edge au frontier

La famille Gemma 4 couvre quatre architectures : les ultra-compacts E2B et E4B pour les appareils edge, le 26B MoE pour un déploiement serveur efficace, et le modèle phare 31B Dense. Tous partagent le support multimodal natif, la réflexion configurable et la licence Apache 2.0.

Tous les modèles

Choisissez le Gemma 4 adapté à votre cas d'usage

Chaque modèle de la famille est optimisé pour différents scénarios de déploiement. Les modèles edge incluent le support audio, tandis que les modèles serveur offrent un contexte de 256K et un raisonnement de classe frontier.

Modèles Edge

E2B & E4B : Intelligence embarquée avec audio

Modèles ultra-compacts avec 2.3B et 4.5B paramètres effectifs. Tous deux intègrent des encodeurs audio natifs, un contexte de 128K et fonctionnent sur smartphones, navigateurs et appareils IoT.

Choisissez E2B pour l'empreinte la plus réduite (3.2 Go en 4-bit). Choisissez E4B pour une meilleure qualité (5.5 Go en 4-bit). Les deux prennent en charge le texte, l'image, la vidéo et l'audio.

Modèles Serveur

26B MoE & 31B Dense : Performance frontier

Le 26B MoE n'active que 4B paramètres par token pour un serving efficace. Le 31B Dense est le modèle phare, classé 3e sur Arena AI. Les deux offrent un contexte de 256K et le Function Calling natif.

Choisissez 26B pour la production à haut débit (16 Go en 4-bit). Choisissez 31B pour la qualité maximale (17 Go en 4-bit). Les deux excellent en raisonnement, codage et tâches multimodales.

Edge - Ultra-compact

Gemma 4 E2B

2.3B paramètres effectifs. Le plus petit Gemma 4 avec support multimodal complet + audio.

35 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 3.2 Go VRAM en 4-bit.

Disponible maintenant

Edge - Recommandé

Gemma 4 E4B

4.5B paramètres effectifs. Meilleur modèle edge avec un raisonnement solide et le support audio.

42 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 5.5 Go VRAM en 4-bit.

Disponible maintenant

Serveur - Efficace

Gemma 4 26B A4B

25.2B au total, 3.8B actifs par token. Une qualité proche du 31B pour une fraction du calcul.

MoE avec 128 experts (8 actifs + 1 partagé). Contexte 256K. 16 Go VRAM en 4-bit.

Disponible maintenant

Serveur - Modèle phare

Gemma 4 31B

30.7B paramètres dense. 3e sur Arena AI. Intelligence et fiabilité maximales.

Architecture dense, contexte 256K, 140+ langues. 17 Go VRAM en 4-bit.

Disponible maintenant

Capacités partagées

Ce que chaque modèle Gemma 4 peut faire

Les quatre modèles partagent un ensemble commun de capacités qui rendent la famille Gemma 4 particulièrement polyvalente.

Multimodal natif

Tous les modèles traitent nativement le texte et les images. Les modèles edge ajoutent le support audio et vidéo. Aucun encodeur ou pipeline séparé n'est nécessaire.

Réflexion configurable

Tous les modèles prennent en charge les modes de réflexion pour un raisonnement étape par étape. Contrôlez la profondeur du raisonnement selon la complexité de la tâche.

Function Calling

Le Function Calling intégré dans toute la famille permet des workflows agentiques. Aucun fine-tuning requis pour l'utilisation d'outils.

Contexte étendu

128K tokens pour les modèles edge, 256K pour les modèles serveur. L'attention hybride maintient une utilisation mémoire raisonnable.

140+ langues

Support multilingue avec compréhension du contexte culturel sur toutes les tailles de modèle.

Licence Apache 2.0

Liberté commerciale totale. Pas de limites MAU, pas de restrictions d'utilisation. Déployez partout, modifiez librement.

Guide de sélection rapide

Quel modèle devriez-vous choisir ?

Faites correspondre vos contraintes de déploiement et vos exigences de qualité à la bonne variante Gemma 4.

Par matériel

  • Smartphone / IoT / 4 Go RAM : Gemma 4 E2B
  • Ordinateur portable / 8-16 Go RAM : Gemma 4 E4B
  • GPU unique / 16-24 Go VRAM : Gemma 4 26B A4B
  • Multi-GPU / 24 Go+ VRAM : Gemma 4 31B

Par cas d'usage

  • Assistant vocal / audio : E2B ou E4B (support audio)
  • IA dans le navigateur : E2B ou E4B (WebGPU)
  • API à haut débit : 26B A4B (efficacité MoE)
  • Qualité maximale : 31B Dense (performance frontier)

Performance

Comparaison complète des benchmarks des quatre modèles

Chaque modèle Gemma 4 fait partie d'une frontière de Pareto - chaque taille offre des performances exceptionnelles par rapport à son nombre de paramètres.

De l'ultra-compact E2B au modèle phare 31B, chaque modèle est optimisé pour son niveau de déploiement tout en partageant les mêmes innovations architecturales.

Comparaison des performances de la famille Gemma 4 sur toutes les tailles de modèle

31B Dense : 3e sur Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE : Qualité proche du 31B (ELO 1441) avec seulement 4B paramètres actifs par token

E4B : 69.4% MMLU Pro, 52% LiveCodeBench - excellente performance edge avec audio

E2B : 60% MMLU Pro, 44% LiveCodeBench - une IA performante avec 3.2 Go de VRAM

Comparaison complète de la famille

Tous les modèles Gemma 4 côte à côte

Résultats complets des benchmarks en raisonnement, codage, multimodal et métriques de déploiement.

Benchmark
31B Dense
Modèle phare
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compact
E2B
Arena AI ELO
Classement général
14521441--
MMLU Pro
Connaissances et raisonnement
85.2%82.6%69.4%60.0%
AIME 2026
Mathématiques
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Codage
80.0%77.1%52.0%44.0%
GPQA Diamond
Sciences
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodal
76.9%73.8%52.6%44.2%
Context Window
Tokens maximum
256K256K128K128K
Audio Support
Audio natif
NoNoYesYes
VRAM (4-bit)
Mémoire minimale
~17 GB~16 GB~5.5 GB~3.2 GB

Tous les chiffres proviennent de la fiche officielle Gemma 4. Scores Arena AI au 2 avril 2026.

Niveau Edge

E2B & E4B : L'IA qui fonctionne sur votre appareil

Les modèles edge apportent une IA multimodale complète aux smartphones, navigateurs et appareils IoT. Tous deux intègrent des encodeurs audio natifs - une capacité absente des modèles plus grands. Choisissez E2B pour l'empreinte la plus réduite, E4B pour une meilleure qualité.

  • E2B : 2.3B effectifs, 3.2 Go en 4-bit, 95 tok/s sur matériel grand public
  • E4B : 4.5B effectifs, 5.5 Go en 4-bit, raisonnement et codage solides
  • Les deux : audio natif, contexte 128K, support navigateur WebGPU
E2B & E4B : L'IA qui fonctionne sur votre appareil

Niveau Serveur

26B MoE & 31B Dense : Performance frontier

Les modèles serveur offrent un raisonnement, un codage et une compréhension multimodale de classe frontier. Le 26B MoE propose une qualité proche du 31B pour une fraction du calcul. Le 31B Dense est le modèle phare pour la performance maximale.

  • 26B MoE : 3.8B actifs par token, ELO 1441, 88.3% AIME 2026
  • 31B Dense : 30.7B entièrement actifs, ELO 1452, 89.2% AIME 2026
  • Les deux : contexte 256K, Function Calling natif, 140+ langues
26B MoE & 31B Dense : Performance frontier

Architecture

Innovations partagées dans toute la famille

Tous les modèles Gemma 4 partagent les innovations architecturales clés de la recherche Google DeepMind. Les Per-Layer Embeddings, le cache KV partagé et les patterns d'attention hybrides maximisent l'efficacité à chaque échelle.

  • Per-Layer Embeddings (PLE) pour un conditionnement efficace en paramètres
  • Cache KV partagé pour réduire la mémoire lors de la génération en contexte long
  • Attention hybride locale/globale pour un compromis optimal mémoire-qualité
Innovations partagées dans toute la famille

Famille Gemma 4

Explorez chaque modèle en détail

Plongez dans chaque variante Gemma 4 avec des pages dédiées couvrant l'architecture, les benchmarks et les guides de déploiement.

Gemma 4 E2B

Modèle edge ultra-compact 2.3B avec audio

Explorer

Gemma 4 E4B

Modèle edge recommandé 4.5B avec audio

Explorer

Gemma 4 26B

MoE efficace avec 4B paramètres actifs

Explorer

Gemma 4 31B

Modèle dense phare, 3e sur Arena AI

Explorer

Exécuter localement

Guide pour exécuter Gemma 4 sur votre matériel

Lire le guide

Accès API

Utiliser Gemma 4 via des API hébergées

Commencer

Commencer

Trouvez votre modèle Gemma 4

Chattez gratuitement avec n'importe quel modèle Gemma 4, ou téléchargez les poids pour un déploiement local. Licence Apache 2.0 pour une liberté commerciale totale.