Gemma 4 : Intelligence multimodale de pointe que vous pouvez exécuter partout

Vue d'ensemble

Quatre modèles, une famille : de l'edge aux performances serveur

Publié le 2 avril 2026 sous Apache 2.0, Gemma 4 offre une intelligence multimodale de classe frontière à travers quatre architectures. Des modèles edge ultra-mobiles de 2B à la variante dense flagship de 31B, chaque taille traite nativement le texte, les images à résolution variable, la vidéo et l'audio.

Modèles Edge

Gemma 4 E2B & E4B : Intelligence embarquée

Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur avec support audio natif et contexte de 128K.

Les variantes E2B et E4B utilisent Per-Layer Embeddings (PLE) pour maximiser l'efficacité des paramètres. Elles supportent nativement les entrées texte, image, vidéo et audio, les rendant idéales pour les applications embarquées axées sur la confidentialité.

Essayer E4B gratuitement En savoir plus

Modèles Serveur

Gemma 4 31B Dense & 26B MoE : Performances de pointe

Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire.

Les deux modèles disposent de fenêtres de contexte de 256K, d'appel de fonctions natif et de modes de réflexion configurables. Le 31B atteint 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6, rivalisant avec des modèles plusieurs fois plus grands.

Voir les benchmarks Voir sur Hugging Face

Capacités

Multimodal natif

Tous les modèles traitent nativement le texte, les images avec ratios d'aspect variables, la vidéo et l'audio. E2B et E4B incluent des encodeurs audio pour la compréhension vocale.

L'encodeur de vision utilise des positions 2D apprises et RoPE multidimensionnel, préservant les ratios d'aspect originaux. Les images peuvent être encodées selon différents budgets de tokens (70, 140, 280, 560, 1120) pour des compromis vitesse-qualité optimaux.

Tous les modèles

Voir des exemples

Architecture

Fenêtres de contexte étendues

Les petits modèles disposent d'un contexte de 128K, tandis que les modèles moyens supportent 256K. Les configurations RoPE duales permettent un traitement de contexte plus long.

L'alternance de couches d'attention locale à fenêtre glissante (512-1024 tokens) et globale plein contexte optimise l'utilisation de la mémoire. Le cache KV partagé réduit le calcul et la mémoire pour la génération de contexte long.

128K-256K

Fonctionnalités

Réflexion configurable

Tous les modèles supportent des modes de réflexion configurables pour les tâches de raisonnement avancées, avec support natif des prompts système pour des conversations structurées.

Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026 et 84,3% sur GPQA Diamond. L'appel de fonctions intégré alimente des agents autonomes sans fine-tuning.

Tous les modèles

Performance

Puissance de codage et agentique

Le modèle 31B obtient 80% sur LiveCodeBench v6 et atteint 2150 ELO Codeforces. Le 26B MoE atteint 77,1% avec seulement 4B paramètres actifs.

Des améliorations notables dans les benchmarks de codage associées au support intégré d'appel de fonctions permettent des agents autonomes très capables. Le benchmark HLE montre 19,5% sans outils, 26,5% avec recherche.

Optimisé

Voir les benchmarks

Multimodal

Vision et analyse de documents

Le modèle 31B atteint 76,9% sur MMMU Pro et 85,6% sur MATH-Vision. La distance d'édition OmniDocBench de 0,131 démontre de solides capacités OCR.

Le support de ratio d'aspect variable et les budgets de tokens d'image configurables permettent un traitement efficace des documents, diagrammes et captures d'écran. Le modèle E4B atteint 52,6% sur MMMU Pro malgré sa taille compacte.

Tous les modèles

Intégration

Déployer partout

Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. Les checkpoints ONNX permettent le déploiement sur appareils edge.

La licence Apache 2.0 permet une utilisation commerciale responsable. Disponible sur Kaggle, Hugging Face et via Google AI Studio. Compatible avec des outils locaux comme Ollama pour des interactions privées et hors ligne.

Open Source

Commencer

Commencez à discuter avec Gemma 4 aujourd'hui

Découvrez gratuitement les modèles multimodaux de pointe de Google DeepMind. Aucune carte de crédit requise pour démarrer votre première conversation.

Démarrer le chat gratuit Voir les tarifs

Introduction

Regarder : Introduction officielle de Gemma 4

Découvrez les quatre architectures de modèles, les capacités multimodales natives et les options de déploiement de Google DeepMind.

Performance

Performances de pointe en raisonnement, codage et vision

Les modèles Gemma 4 forment une frontière de Pareto, offrant des performances exceptionnelles par rapport à leur taille. Le modèle dense 31B se classe 3ème parmi tous les modèles ouverts sur le classement Arena AI.

Les benchmarks officiels démontrent des performances compétitives avec des modèles plusieurs fois plus grands. Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026, tandis que le 26B MoE atteint une qualité similaire avec seulement 4B paramètres actifs.

Essayer maintenant Lire les détails techniques

Comparaison des performances de Gemma 4 selon les tailles de modèles et les benchmarks

Le modèle 31B atteint 89,2% sur AIME 2026 et 85,2% sur MMLU Pro, rivalisant avec des modèles de plus de 100B paramètres.

Les performances de codage atteignent 80% sur LiveCodeBench v6 et 2150 ELO Codeforces, devançant de nombreux modèles plus grands.

Les capacités de vision incluent 76,9% sur MMMU Pro et 85,6% sur MATH-Vision, avec une solide compréhension OCR et documentaire.

Benchmarks officiels

Performances de Gemma 4 sur les tâches clés

Une évaluation complète sur les tâches de raisonnement, codage, vision, audio et contexte long démontre des capacités de classe frontière.

Benchmark	Gemma 4 31B Flagship dense 31B	Gemma 4 26B A4B MoE (4B actifs) 26B	Gemma 4 E4B Modèle edge E4B	Gemma 4 E2B Ultra-compact E2B
MMLU Pro Connaissances et raisonnement	85.2%	82.6%	69.4%	60.0%
AIME 2026 (sans outils) Raisonnement mathématique	89.2%	88.3%	42.5%	37.5%
GPQA Diamond Sciences niveau universitaire	84.3%	82.3%	58.6%	43.4%
LiveCodeBench v6 Performance de codage	80.0%	77.1%	52.0%	44.0%
Codeforces ELO Programmation compétitive	2150	1718	940	633
MMMU Pro Compréhension multimodale	76.9%	73.8%	52.6%	44.2%
MATH-Vision Raisonnement mathématique visuel	85.6%	82.4%	59.5%	52.4%
OmniDocBench 1.5 OCR de documents (distance d'édition)	0.131	0.149	0.181	0.290
Context Window Tokens maximum	256K	256K	128K	128K
Audio Support Entrée audio native	Non	Non	Oui	Oui

Tous les chiffres proviennent de la fiche modèle officielle Gemma 4 et du blog Hugging Face. Les benchmarks E2B et E4B démontrent une efficacité exceptionnelle pour leur nombre de paramètres.

Modèles Serveur

31B Dense & 26B MoE : Performances de pointe pour la production

Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire, idéal pour les scénarios à haut débit.

31B Dense : 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
26B MoE (4B actifs) : 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
Fenêtres de contexte de 256K avec configurations RoPE duales pour un traitement efficace de contexte long

Essayer le modèle 26B Voir sur Hugging Face

Modèles Edge

E2B & E4B : Intelligence embarquée avec support audio

Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur. Les encodeurs audio natifs permettent la compréhension vocale en temps réel sur l'appareil.

E2B (2,3B effectifs, 5,1B avec embeddings) : 60% MMLU Pro, 44% LiveCodeBench, contexte 128K
E4B (4,5B effectifs, 8B avec embeddings) : 69,4% MMLU Pro, 52% LiveCodeBench, contexte 128K
Per-Layer Embeddings (PLE) maximisent l'efficacité des paramètres pour le déploiement edge

Essayer dans le navigateur Démo transformers.js

Architecture

Per-Layer Embeddings et cache KV partagé

Gemma 4 introduit des innovations architecturales qui maximisent l'efficacité. PLE donne à chaque couche de décodeur son propre chemin de conditionnement, tandis que le cache KV partagé réduit l'utilisation de la mémoire pendant la génération de contexte long.

Per-Layer Embeddings ajoutent une spécialisation significative à un coût paramétrique modeste
Cache KV partagé : les N dernières couches réutilisent les états clé-valeur, éliminant les projections redondantes
Alternance d'attention locale à fenêtre glissante et globale plein contexte pour une utilisation optimale de la mémoire

Détails techniques

Comparaison des performances de l'architecture Gemma 4

Multimodal

Compréhension native des images, vidéos et audio

Le support de ratio d'aspect variable préserve les dimensions d'image originales
Budgets de tokens d'image configurables : 70, 140, 280, 560, 1120 tokens
E2B et E4B incluent des encodeurs audio conformer de style USM pour le traitement vocal

Essayer le chat multimodal Voir des exemples

Performances des benchmarks multimodaux de Gemma 4

Déploiement

Déployer partout : navigateur, local ou cloud

Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. E2B et E4B s'exécutent dans les navigateurs avec transformers.js, tandis que 31B et 26B excellent sur le matériel serveur.

Navigateur : transformers.js permet à E2B/E4B de s'exécuter dans Chrome avec accélération WebGPU
Local : Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs pour l'inférence privée
Cloud : Google AI Studio, Vertex AI, ou auto-hébergé avec vLLM et TGI

Commencer gratuitement Voir sur GitHub

Options de déploiement et performances de Gemma 4

FAQ

Architecture et capacités des modèles

Comprendre les innovations techniques de Gemma 4, des Per-Layer Embeddings au traitement multimodal.

Qu'est-ce qui différencie Gemma 4 des versions précédentes de Gemma ?

Gemma 4 introduit le support multimodal natif (texte, image, vidéo, audio), des fenêtres de contexte étendues (128K-256K), des modes de réflexion configurables et l'appel de fonctions intégré. L'architecture utilise Per-Layer Embeddings (PLE) pour l'efficacité et un cache KV partagé pour réduire l'utilisation de la mémoire pendant la génération de contexte long.

Quelles sont les quatre tailles de modèles Gemma 4 et quand utiliser chacune ?

E2B (2,3B effectifs) et E4B (4,5B effectifs) sont conçus pour les appareils edge, navigateurs et mobiles avec support audio natif. Le 26B A4B est un modèle Mixture-of-Experts activant seulement 4B paramètres par token, idéal pour les scénarios à haut débit. Le modèle dense 31B est le flagship pour des performances maximales sur les tâches de raisonnement, codage et vision.

Comment Gemma 4 gère-t-il les entrées multimodales ?

Tous les modèles traitent nativement le texte et les images avec ratios d'aspect variables. L'encodeur de vision utilise des positions 2D apprises et peut encoder les images selon différents budgets de tokens (70-1120 tokens) pour des compromis vitesse-qualité. E2B et E4B incluent des encodeurs audio conformer de style USM pour la compréhension vocale. La vidéo est supportée dans toute la famille en traitant les images et les pistes audio.

Qu'est-ce que Per-Layer Embeddings (PLE) et pourquoi est-ce important ?

PLE donne à chaque couche de décodeur son propre petit embedding pour chaque token, créant un chemin de conditionnement parallèle au flux résiduel principal. Cela permet à chaque couche de recevoir des informations spécifiques au token uniquement lorsque c'est pertinent, plutôt que de tout emballer dans un seul embedding initial. Cela ajoute une spécialisation significative par couche à un coût paramétrique modeste, rendant les petits modèles plus efficaces.

FAQ

Déploiement et intégration

Démarrer avec Gemma 4 sur différentes plateformes, du cloud aux appareils edge.

Où puis-je télécharger et exécuter les modèles Gemma 4 ?

Les modèles Gemma 4 sont disponibles sur Kaggle et Hugging Face sous licence Apache 2.0. Vous pouvez les utiliser via Google AI Studio, les déployer sur Vertex AI, ou les exécuter localement avec des outils comme Ollama, llama.cpp, MLX (pour Apple Silicon), transformers et Mistral.rs. Les checkpoints ONNX permettent le déploiement sur navigateur et appareils edge.

Quelles sont les exigences matérielles pour exécuter Gemma 4 ?

E2B nécessite ~9,6 Go (BF16) à 3,2 Go (4-bit) de VRAM. E4B nécessite ~15 Go (BF16) à 5 Go (4-bit). Le modèle 31B nécessite ~58 Go (BF16) à 17 Go (4-bit). Le 26B MoE nécessite ~48 Go (BF16) à 16 Go (4-bit). Ce sont les poids de base uniquement ; ajoutez de la mémoire pour la fenêtre de contexte (cache KV) selon votre cas d'usage.

Puis-je exécuter Gemma 4 dans le navigateur ou sur des appareils mobiles ?

Oui. Les modèles E2B et E4B sont spécifiquement conçus pour le déploiement navigateur et mobile. transformers.js permet d'exécuter Gemma 4 directement dans les navigateurs avec support WebGPU. Les checkpoints ONNX fonctionnent sur divers backends matériels edge. Les modèles sont optimisés pour les appareils Pixel et les environnements de navigateur Chrome.

Comment utiliser Gemma 4 avec l'appel de fonctions et les agents ?

Gemma 4 dispose d'un support intégré d'appel de fonctions sans nécessiter de fine-tuning. Les modèles peuvent analyser les définitions d'outils, générer des appels JSON structurés et gérer l'appel de fonctions multimodal (par exemple, analyser une image et appeler une API météo). Cela alimente des agents autonomes pour des tâches comme l'exécution de code, la navigation web et la récupération de données.

FAQ

Performances et comparaisons

Comment Gemma 4 se compare aux autres modèles et ce qui le rend compétitif pour différents cas d'usage.

Comment Gemma 4 31B se compare-t-il à des modèles plus grands comme Llama 3.3 70B ?

Le modèle 31B se classe 3ème sur le classement Arena AI parmi les modèles ouverts, devançant Llama 3.3 70B malgré une taille inférieure de moitié. Il atteint 89,2% sur le raisonnement mathématique AIME 2026, 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6. L'efficacité provient d'innovations architecturales comme les motifs d'attention alternés et le cache KV partagé.

Qu'est-ce que l'architecture Mixture-of-Experts (MoE) dans le modèle 26B ?

Le modèle 26B A4B possède 26 milliards de paramètres au total mais n'active que 4 milliards par token pendant la génération. Tous les 26B paramètres doivent être chargés en mémoire pour un routage rapide, mais le coût d'inférence est plus proche d'un modèle 4B. Cela atteint 88,3% sur AIME 2026 et 82,6% sur MMLU Pro avec un calcul par token significativement inférieur au modèle dense 31B.

Gemma 4 peut-il gérer de longs documents et un contexte étendu ?

Oui. Les petits modèles supportent des fenêtres de contexte de 128K, tandis que les modèles moyens gèrent 256K tokens. L'architecture utilise des configurations RoPE duales (standard pour les couches glissantes, élagué pour les couches globales) pour permettre un contexte plus long. Le cache KV partagé réduit la consommation de mémoire pendant la génération de contexte long, rendant pratique le traitement de bases de code entières et d'articles de recherche.

Où puis-je trouver des exemples de fine-tuning et des ressources d'entraînement ?

Gemma 4 est entièrement supporté dans TRL (Transformer Reinforcement Learning), avec des exemples pour les réponses d'outils multimodaux et l'interaction avec l'environnement. Hugging Face fournit des guides de fine-tuning pour Vertex AI utilisant SFT. Unsloth Studio offre une expérience de fine-tuning basée sur l'interface utilisateur. Les modèles supportent les méthodes PEFT comme LoRA pour l'entraînement efficace en paramètres.

Gemma 4 : Intelligence multimodale de pointe que vous pouvez exécuter partout

Quatre modèles, une famille : de l'edge aux performances serveur

Gemma 4 E2B & E4B : Intelligence embarquée

Gemma 4 31B Dense & 26B MoE : Performances de pointe

Multimodal natif

Fenêtres de contexte étendues

Réflexion configurable

Puissance de codage et agentique

Vision et analyse de documents

Déployer partout

Commencez à discuter avec Gemma 4 aujourd'hui

Regarder : Introduction officielle de Gemma 4

Gemma 4 : De l'edge au cloud

Performances de pointe en raisonnement, codage et vision

Performances de Gemma 4 sur les tâches clés

31B Dense & 26B MoE : Performances de pointe pour la production

E2B & E4B : Intelligence embarquée avec support audio

Per-Layer Embeddings et cache KV partagé

Compréhension native des images, vidéos et audio

Déployer partout : navigateur, local ou cloud

Architecture et capacités des modèles

Déploiement et intégration

Performances et comparaisons