Gemma 4 : Intelligence multimodale de pointe que vous pouvez exécuter partout

Vue d'ensemble

Quatre modèles, une famille : de l'edge aux performances serveur

Publié le 2 avril 2026 sous Apache 2.0, Gemma 4 offre une intelligence multimodale de classe frontière à travers quatre architectures. Des modèles edge ultra-mobiles de 2B à la variante dense flagship de 31B, chaque taille traite nativement le texte, les images à résolution variable, la vidéo et l'audio.

Modèles Edge

Gemma 4 E2B & E4B : Intelligence embarquée

Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur avec support audio natif et contexte de 128K.

Les variantes E2B et E4B utilisent Per-Layer Embeddings (PLE) pour maximiser l'efficacité des paramètres. Elles supportent nativement les entrées texte, image, vidéo et audio, les rendant idéales pour les applications embarquées axées sur la confidentialité.

Modèles Serveur

Gemma 4 31B Dense & 26B MoE : Performances de pointe

Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire.

Les deux modèles disposent de fenêtres de contexte de 256K, d'appel de fonctions natif et de modes de réflexion configurables. Le 31B atteint 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6, rivalisant avec des modèles plusieurs fois plus grands.

Capacités

Multimodal natif

Tous les modèles traitent nativement le texte, les images avec ratios d'aspect variables, la vidéo et l'audio. E2B et E4B incluent des encodeurs audio pour la compréhension vocale.

L'encodeur de vision utilise des positions 2D apprises et RoPE multidimensionnel, préservant les ratios d'aspect originaux. Les images peuvent être encodées selon différents budgets de tokens (70, 140, 280, 560, 1120) pour des compromis vitesse-qualité optimaux.

Tous les modèles

Architecture

Fenêtres de contexte étendues

Les petits modèles disposent d'un contexte de 128K, tandis que les modèles moyens supportent 256K. Les configurations RoPE duales permettent un traitement de contexte plus long.

L'alternance de couches d'attention locale à fenêtre glissante (512-1024 tokens) et globale plein contexte optimise l'utilisation de la mémoire. Le cache KV partagé réduit le calcul et la mémoire pour la génération de contexte long.

128K-256K

Fonctionnalités

Réflexion configurable

Tous les modèles supportent des modes de réflexion configurables pour les tâches de raisonnement avancées, avec support natif des prompts système pour des conversations structurées.

Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026 et 84,3% sur GPQA Diamond. L'appel de fonctions intégré alimente des agents autonomes sans fine-tuning.

Tous les modèles

Performance

Puissance de codage et agentique

Le modèle 31B obtient 80% sur LiveCodeBench v6 et atteint 2150 ELO Codeforces. Le 26B MoE atteint 77,1% avec seulement 4B paramètres actifs.

Des améliorations notables dans les benchmarks de codage associées au support intégré d'appel de fonctions permettent des agents autonomes très capables. Le benchmark HLE montre 19,5% sans outils, 26,5% avec recherche.

Optimisé

Multimodal

Vision et analyse de documents

Le modèle 31B atteint 76,9% sur MMMU Pro et 85,6% sur MATH-Vision. La distance d'édition OmniDocBench de 0,131 démontre de solides capacités OCR.

Le support de ratio d'aspect variable et les budgets de tokens d'image configurables permettent un traitement efficace des documents, diagrammes et captures d'écran. Le modèle E4B atteint 52,6% sur MMMU Pro malgré sa taille compacte.

Tous les modèles

Intégration

Déployer partout

Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. Les checkpoints ONNX permettent le déploiement sur appareils edge.

La licence Apache 2.0 permet une utilisation commerciale responsable. Disponible sur Kaggle, Hugging Face et via Google AI Studio. Compatible avec des outils locaux comme Ollama pour des interactions privées et hors ligne.

Open Source

Commencer

Commencez à discuter avec Gemma 4 aujourd'hui

Découvrez gratuitement les modèles multimodaux de pointe de Google DeepMind. Aucune carte de crédit requise pour démarrer votre première conversation.

Introduction

Regarder : Introduction officielle de Gemma 4

Découvrez les quatre architectures de modèles, les capacités multimodales natives et les options de déploiement de Google DeepMind.

Performance

Performances de pointe en raisonnement, codage et vision

Les modèles Gemma 4 forment une frontière de Pareto, offrant des performances exceptionnelles par rapport à leur taille. Le modèle dense 31B se classe 3ème parmi tous les modèles ouverts sur le classement Arena AI.

Les benchmarks officiels démontrent des performances compétitives avec des modèles plusieurs fois plus grands. Le modèle 31B atteint 89,2% sur le raisonnement mathématique AIME 2026, tandis que le 26B MoE atteint une qualité similaire avec seulement 4B paramètres actifs.

Comparaison des performances de Gemma 4 selon les tailles de modèles et les benchmarks

Le modèle 31B atteint 89,2% sur AIME 2026 et 85,2% sur MMLU Pro, rivalisant avec des modèles de plus de 100B paramètres.

Les performances de codage atteignent 80% sur LiveCodeBench v6 et 2150 ELO Codeforces, devançant de nombreux modèles plus grands.

Les capacités de vision incluent 76,9% sur MMMU Pro et 85,6% sur MATH-Vision, avec une solide compréhension OCR et documentaire.

Benchmarks officiels

Performances de Gemma 4 sur les tâches clés

Une évaluation complète sur les tâches de raisonnement, codage, vision, audio et contexte long démontre des capacités de classe frontière.

Benchmark
Gemma 4 31B
Flagship dense
31B
Gemma 4 26B A4B
MoE (4B actifs)
26B
Gemma 4 E4B
Modèle edge
E4B
Gemma 4 E2B
Ultra-compact
E2B
MMLU Pro
Connaissances et raisonnement
85.2%82.6%69.4%60.0%
AIME 2026 (sans outils)
Raisonnement mathématique
89.2%88.3%42.5%37.5%
GPQA Diamond
Sciences niveau universitaire
84.3%82.3%58.6%43.4%
LiveCodeBench v6
Performance de codage
80.0%77.1%52.0%44.0%
Codeforces ELO
Programmation compétitive
21501718940633
MMMU Pro
Compréhension multimodale
76.9%73.8%52.6%44.2%
MATH-Vision
Raisonnement mathématique visuel
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR de documents (distance d'édition)
0.1310.1490.1810.290
Context Window
Tokens maximum
256K256K128K128K
Audio Support
Entrée audio native
NonNonOuiOui

Tous les chiffres proviennent de la fiche modèle officielle Gemma 4 et du blog Hugging Face. Les benchmarks E2B et E4B démontrent une efficacité exceptionnelle pour leur nombre de paramètres.

Modèles Serveur

31B Dense & 26B MoE : Performances de pointe pour la production

Le modèle dense 31B se classe 3ème sur le classement Arena AI avec 89,2% sur AIME 2026. Le 26B MoE n'active que 4B paramètres par token tout en maintenant une qualité similaire, idéal pour les scénarios à haut débit.

  • 31B Dense : 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
  • 26B MoE (4B actifs) : 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
  • Fenêtres de contexte de 256K avec configurations RoPE duales pour un traitement efficace de contexte long

Modèles Edge

E2B & E4B : Intelligence embarquée avec support audio

Modèles ultra-compacts avec 2,3B et 4,5B paramètres effectifs, conçus pour Pixel, Chrome et déploiement navigateur. Les encodeurs audio natifs permettent la compréhension vocale en temps réel sur l'appareil.

  • E2B (2,3B effectifs, 5,1B avec embeddings) : 60% MMLU Pro, 44% LiveCodeBench, contexte 128K
  • E4B (4,5B effectifs, 8B avec embeddings) : 69,4% MMLU Pro, 52% LiveCodeBench, contexte 128K
  • Per-Layer Embeddings (PLE) maximisent l'efficacité des paramètres pour le déploiement edge

Architecture

Per-Layer Embeddings et cache KV partagé

Gemma 4 introduit des innovations architecturales qui maximisent l'efficacité. PLE donne à chaque couche de décodeur son propre chemin de conditionnement, tandis que le cache KV partagé réduit l'utilisation de la mémoire pendant la génération de contexte long.

  • Per-Layer Embeddings ajoutent une spécialisation significative à un coût paramétrique modeste
  • Cache KV partagé : les N dernières couches réutilisent les états clé-valeur, éliminant les projections redondantes
  • Alternance d'attention locale à fenêtre glissante et globale plein contexte pour une utilisation optimale de la mémoire
Comparaison des performances de l'architecture Gemma 4

Multimodal

Compréhension native des images, vidéos et audio

Tous les modèles traitent nativement le texte et les images avec ratios d'aspect variables. L'encodeur de vision utilise des positions 2D apprises et peut encoder les images selon différents budgets de tokens (70-1120) pour des compromis vitesse-qualité.

  • Le support de ratio d'aspect variable préserve les dimensions d'image originales
  • Budgets de tokens d'image configurables : 70, 140, 280, 560, 1120 tokens
  • E2B et E4B incluent des encodeurs audio conformer de style USM pour le traitement vocal
Performances des benchmarks multimodaux de Gemma 4

Déploiement

Déployer partout : navigateur, local ou cloud

Support dès le jour 0 pour transformers, llama.cpp, MLX, WebGPU, Mistral.rs et plus. E2B et E4B s'exécutent dans les navigateurs avec transformers.js, tandis que 31B et 26B excellent sur le matériel serveur.

  • Navigateur : transformers.js permet à E2B/E4B de s'exécuter dans Chrome avec accélération WebGPU
  • Local : Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs pour l'inférence privée
  • Cloud : Google AI Studio, Vertex AI, ou auto-hébergé avec vLLM et TGI
Options de déploiement et performances de Gemma 4

FAQ

Architecture et capacités des modèles

Comprendre les innovations techniques de Gemma 4, des Per-Layer Embeddings au traitement multimodal.

Qu'est-ce qui différencie Gemma 4 des versions précédentes de Gemma ?

Gemma 4 introduit le support multimodal natif (texte, image, vidéo, audio), des fenêtres de contexte étendues (128K-256K), des modes de réflexion configurables et l'appel de fonctions intégré. L'architecture utilise Per-Layer Embeddings (PLE) pour l'efficacité et un cache KV partagé pour réduire l'utilisation de la mémoire pendant la génération de contexte long.

Quelles sont les quatre tailles de modèles Gemma 4 et quand utiliser chacune ?

E2B (2,3B effectifs) et E4B (4,5B effectifs) sont conçus pour les appareils edge, navigateurs et mobiles avec support audio natif. Le 26B A4B est un modèle Mixture-of-Experts activant seulement 4B paramètres par token, idéal pour les scénarios à haut débit. Le modèle dense 31B est le flagship pour des performances maximales sur les tâches de raisonnement, codage et vision.

Comment Gemma 4 gère-t-il les entrées multimodales ?

Tous les modèles traitent nativement le texte et les images avec ratios d'aspect variables. L'encodeur de vision utilise des positions 2D apprises et peut encoder les images selon différents budgets de tokens (70-1120 tokens) pour des compromis vitesse-qualité. E2B et E4B incluent des encodeurs audio conformer de style USM pour la compréhension vocale. La vidéo est supportée dans toute la famille en traitant les images et les pistes audio.

Qu'est-ce que Per-Layer Embeddings (PLE) et pourquoi est-ce important ?

PLE donne à chaque couche de décodeur son propre petit embedding pour chaque token, créant un chemin de conditionnement parallèle au flux résiduel principal. Cela permet à chaque couche de recevoir des informations spécifiques au token uniquement lorsque c'est pertinent, plutôt que de tout emballer dans un seul embedding initial. Cela ajoute une spécialisation significative par couche à un coût paramétrique modeste, rendant les petits modèles plus efficaces.

FAQ

Déploiement et intégration

Démarrer avec Gemma 4 sur différentes plateformes, du cloud aux appareils edge.

Où puis-je télécharger et exécuter les modèles Gemma 4 ?

Les modèles Gemma 4 sont disponibles sur Kaggle et Hugging Face sous licence Apache 2.0. Vous pouvez les utiliser via Google AI Studio, les déployer sur Vertex AI, ou les exécuter localement avec des outils comme Ollama, llama.cpp, MLX (pour Apple Silicon), transformers et Mistral.rs. Les checkpoints ONNX permettent le déploiement sur navigateur et appareils edge.

Quelles sont les exigences matérielles pour exécuter Gemma 4 ?

E2B nécessite ~9,6 Go (BF16) à 3,2 Go (4-bit) de VRAM. E4B nécessite ~15 Go (BF16) à 5 Go (4-bit). Le modèle 31B nécessite ~58 Go (BF16) à 17 Go (4-bit). Le 26B MoE nécessite ~48 Go (BF16) à 16 Go (4-bit). Ce sont les poids de base uniquement ; ajoutez de la mémoire pour la fenêtre de contexte (cache KV) selon votre cas d'usage.

Puis-je exécuter Gemma 4 dans le navigateur ou sur des appareils mobiles ?

Oui. Les modèles E2B et E4B sont spécifiquement conçus pour le déploiement navigateur et mobile. transformers.js permet d'exécuter Gemma 4 directement dans les navigateurs avec support WebGPU. Les checkpoints ONNX fonctionnent sur divers backends matériels edge. Les modèles sont optimisés pour les appareils Pixel et les environnements de navigateur Chrome.

Comment utiliser Gemma 4 avec l'appel de fonctions et les agents ?

Gemma 4 dispose d'un support intégré d'appel de fonctions sans nécessiter de fine-tuning. Les modèles peuvent analyser les définitions d'outils, générer des appels JSON structurés et gérer l'appel de fonctions multimodal (par exemple, analyser une image et appeler une API météo). Cela alimente des agents autonomes pour des tâches comme l'exécution de code, la navigation web et la récupération de données.

FAQ

Performances et comparaisons

Comment Gemma 4 se compare aux autres modèles et ce qui le rend compétitif pour différents cas d'usage.

Comment Gemma 4 31B se compare-t-il à des modèles plus grands comme Llama 3.3 70B ?

Le modèle 31B se classe 3ème sur le classement Arena AI parmi les modèles ouverts, devançant Llama 3.3 70B malgré une taille inférieure de moitié. Il atteint 89,2% sur le raisonnement mathématique AIME 2026, 85,2% sur MMLU Pro et 80% sur LiveCodeBench v6. L'efficacité provient d'innovations architecturales comme les motifs d'attention alternés et le cache KV partagé.

Qu'est-ce que l'architecture Mixture-of-Experts (MoE) dans le modèle 26B ?

Le modèle 26B A4B possède 26 milliards de paramètres au total mais n'active que 4 milliards par token pendant la génération. Tous les 26B paramètres doivent être chargés en mémoire pour un routage rapide, mais le coût d'inférence est plus proche d'un modèle 4B. Cela atteint 88,3% sur AIME 2026 et 82,6% sur MMLU Pro avec un calcul par token significativement inférieur au modèle dense 31B.

Gemma 4 peut-il gérer de longs documents et un contexte étendu ?

Oui. Les petits modèles supportent des fenêtres de contexte de 128K, tandis que les modèles moyens gèrent 256K tokens. L'architecture utilise des configurations RoPE duales (standard pour les couches glissantes, élagué pour les couches globales) pour permettre un contexte plus long. Le cache KV partagé réduit la consommation de mémoire pendant la génération de contexte long, rendant pratique le traitement de bases de code entières et d'articles de recherche.

Où puis-je trouver des exemples de fine-tuning et des ressources d'entraînement ?

Gemma 4 est entièrement supporté dans TRL (Transformer Reinforcement Learning), avec des exemples pour les réponses d'outils multimodaux et l'interaction avec l'environnement. Hugging Face fournit des guides de fine-tuning pour Vertex AI utilisant SFT. Unsloth Studio offre une expérience de fine-tuning basée sur l'interface utilisateur. Les modèles supportent les méthodes PEFT comme LoRA pour l'entraînement efficace en paramètres.