Modèles Gemma 4

Quatre modèles, une famille - de l'edge au frontier

La famille Gemma 4 couvre quatre architectures : les ultra-compacts E2B et E4B pour les appareils edge, le 26B MoE pour un déploiement serveur efficace, et le modèle phare 31B Dense. Tous partagent le support multimodal natif, la réflexion configurable et la licence Apache 2.0.

Démarrer le chat Comparer les benchmarks

Tous les modèles

Choisissez le Gemma 4 adapté à votre cas d'usage

Chaque modèle de la famille est optimisé pour différents scénarios de déploiement. Les modèles edge incluent le support audio, tandis que les modèles serveur offrent un contexte de 256K et un raisonnement de classe frontier.

Modèles Edge

E2B & E4B : Intelligence embarquée avec audio

Modèles ultra-compacts avec 2.3B et 4.5B paramètres effectifs. Tous deux intègrent des encodeurs audio natifs, un contexte de 128K et fonctionnent sur smartphones, navigateurs et appareils IoT.

Choisissez E2B pour l'empreinte la plus réduite (3.2 Go en 4-bit). Choisissez E4B pour une meilleure qualité (5.5 Go en 4-bit). Les deux prennent en charge le texte, l'image, la vidéo et l'audio.

Essayer E4B gratuitement Comparer E2B vs E4B

Modèles Serveur

26B MoE & 31B Dense : Performance frontier

Le 26B MoE n'active que 4B paramètres par token pour un serving efficace. Le 31B Dense est le modèle phare, classé 3e sur Arena AI. Les deux offrent un contexte de 256K et le Function Calling natif.

Choisissez 26B pour la production à haut débit (16 Go en 4-bit). Choisissez 31B pour la qualité maximale (17 Go en 4-bit). Les deux excellent en raisonnement, codage et tâches multimodales.

Essayer 26B gratuitement Voir les benchmarks

Edge - Ultra-compact

Gemma 4 E2B

2.3B paramètres effectifs. Le plus petit Gemma 4 avec support multimodal complet + audio.

35 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 3.2 Go VRAM en 4-bit.

Disponible maintenant

En savoir plus Télécharger

Edge - Recommandé

Gemma 4 E4B

4.5B paramètres effectifs. Meilleur modèle edge avec un raisonnement solide et le support audio.

42 couches, architecture PLE, ~150M vision + ~300M encodeur audio. 5.5 Go VRAM en 4-bit.

Disponible maintenant

En savoir plus Télécharger

Serveur - Efficace

Gemma 4 26B A4B

25.2B au total, 3.8B actifs par token. Une qualité proche du 31B pour une fraction du calcul.

MoE avec 128 experts (8 actifs + 1 partagé). Contexte 256K. 16 Go VRAM en 4-bit.

Disponible maintenant

En savoir plus Télécharger

Serveur - Modèle phare

Gemma 4 31B

30.7B paramètres dense. 3e sur Arena AI. Intelligence et fiabilité maximales.

Architecture dense, contexte 256K, 140+ langues. 17 Go VRAM en 4-bit.

Disponible maintenant

En savoir plus Télécharger

Capacités partagées

Ce que chaque modèle Gemma 4 peut faire

Les quatre modèles partagent un ensemble commun de capacités qui rendent la famille Gemma 4 particulièrement polyvalente.

Multimodal natif

Tous les modèles traitent nativement le texte et les images. Les modèles edge ajoutent le support audio et vidéo. Aucun encodeur ou pipeline séparé n'est nécessaire.

Réflexion configurable

Tous les modèles prennent en charge les modes de réflexion pour un raisonnement étape par étape. Contrôlez la profondeur du raisonnement selon la complexité de la tâche.

Function Calling

Le Function Calling intégré dans toute la famille permet des workflows agentiques. Aucun fine-tuning requis pour l'utilisation d'outils.

Contexte étendu

128K tokens pour les modèles edge, 256K pour les modèles serveur. L'attention hybride maintient une utilisation mémoire raisonnable.

140+ langues

Support multilingue avec compréhension du contexte culturel sur toutes les tailles de modèle.

Licence Apache 2.0

Liberté commerciale totale. Pas de limites MAU, pas de restrictions d'utilisation. Déployez partout, modifiez librement.

Guide de sélection rapide

Quel modèle devriez-vous choisir ?

Faites correspondre vos contraintes de déploiement et vos exigences de qualité à la bonne variante Gemma 4.

Par matériel

Smartphone / IoT / 4 Go RAM : Gemma 4 E2B
Ordinateur portable / 8-16 Go RAM : Gemma 4 E4B
GPU unique / 16-24 Go VRAM : Gemma 4 26B A4B
Multi-GPU / 24 Go+ VRAM : Gemma 4 31B

Par cas d'usage

Assistant vocal / audio : E2B ou E4B (support audio)
IA dans le navigateur : E2B ou E4B (WebGPU)
API à haut débit : 26B A4B (efficacité MoE)
Qualité maximale : 31B Dense (performance frontier)

Démarrer le chat Voir tous les benchmarks

Performance

Comparaison complète des benchmarks des quatre modèles

Chaque modèle Gemma 4 fait partie d'une frontière de Pareto - chaque taille offre des performances exceptionnelles par rapport à son nombre de paramètres.

De l'ultra-compact E2B au modèle phare 31B, chaque modèle est optimisé pour son niveau de déploiement tout en partageant les mêmes innovations architecturales.

Démarrer le chat Voir la fiche modèle

Comparaison des performances de la famille Gemma 4 sur toutes les tailles de modèle

31B Dense : 3e sur Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE : Qualité proche du 31B (ELO 1441) avec seulement 4B paramètres actifs par token

E4B : 69.4% MMLU Pro, 52% LiveCodeBench - excellente performance edge avec audio

E2B : 60% MMLU Pro, 44% LiveCodeBench - une IA performante avec 3.2 Go de VRAM

Comparaison complète de la famille

Tous les modèles Gemma 4 côte à côte

Résultats complets des benchmarks en raisonnement, codage, multimodal et métriques de déploiement.

Benchmark	31B Dense Modèle phare 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compact E2B
Arena AI ELO Classement général	1452	1441	-	-
MMLU Pro Connaissances et raisonnement	85.2%	82.6%	69.4%	60.0%
AIME 2026 Mathématiques	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Codage	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Sciences	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodal	76.9%	73.8%	52.6%	44.2%
Context Window Tokens maximum	256K	256K	128K	128K
Audio Support Audio natif	No	No	Yes	Yes
VRAM (4-bit) Mémoire minimale	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Tous les chiffres proviennent de la fiche officielle Gemma 4. Scores Arena AI au 2 avril 2026.

Niveau Edge

E2B & E4B : L'IA qui fonctionne sur votre appareil

Les modèles edge apportent une IA multimodale complète aux smartphones, navigateurs et appareils IoT. Tous deux intègrent des encodeurs audio natifs - une capacité absente des modèles plus grands. Choisissez E2B pour l'empreinte la plus réduite, E4B pour une meilleure qualité.

E2B : 2.3B effectifs, 3.2 Go en 4-bit, 95 tok/s sur matériel grand public
E4B : 4.5B effectifs, 5.5 Go en 4-bit, raisonnement et codage solides
Les deux : audio natif, contexte 128K, support navigateur WebGPU

Essayer E4B Comparer E2B vs E4B

E2B & E4B : L'IA qui fonctionne sur votre appareil

Niveau Serveur

26B MoE & 31B Dense : Performance frontier

Les modèles serveur offrent un raisonnement, un codage et une compréhension multimodale de classe frontier. Le 26B MoE propose une qualité proche du 31B pour une fraction du calcul. Le 31B Dense est le modèle phare pour la performance maximale.

26B MoE : 3.8B actifs par token, ELO 1441, 88.3% AIME 2026
31B Dense : 30.7B entièrement actifs, ELO 1452, 89.2% AIME 2026
Les deux : contexte 256K, Function Calling natif, 140+ langues

Essayer 26B Comparer 26B vs 31B

26B MoE & 31B Dense : Performance frontier

Architecture

Innovations partagées dans toute la famille

Tous les modèles Gemma 4 partagent les innovations architecturales clés de la recherche Google DeepMind. Les Per-Layer Embeddings, le cache KV partagé et les patterns d'attention hybrides maximisent l'efficacité à chaque échelle.

Per-Layer Embeddings (PLE) pour un conditionnement efficace en paramètres
Cache KV partagé pour réduire la mémoire lors de la génération en contexte long
Attention hybride locale/globale pour un compromis optimal mémoire-qualité

Lire les détails techniques Voir la fiche modèle

Innovations partagées dans toute la famille

Essayer maintenant

Chattez avec n'importe quel modèle Gemma 4

Essayez tous les modèles instantanément via notre interface de chat, ou téléchargez-les pour un déploiement local.

Démarrer le chat

Chattez instantanément avec les modèles Gemma 4, sans configuration

Voir la présentation

Vidéo officielle de présentation de la famille Gemma 4

Fiche modèle

Spécifications techniques complètes de toutes les variantes

Documentation

Guides d'intégration et bonnes pratiques

Télécharger

Obtenir les poids du modèle

Téléchargez les poids officiels de n'importe quelle variante Gemma 4.

Hugging Face

Tous les dépôts de modèles Gemma 4

Kaggle

Télécharger depuis Kaggle Models

Ollama

Exécuter n'importe quelle variante localement avec Ollama

Déployer

Déploiement en production

Déployez sur des plateformes cloud, locales ou edge.

Google AI Studio

Accès API hébergé à tous les modèles

Vertex AI

Déploiement entreprise sur Google Cloud

Ollama

Déploiement local pour toutes les variantes

transformers.js

Déploiement navigateur pour les modèles edge

Famille Gemma 4