Gemma 4 E2B
Le plus petit Gemma 4 - une intelligence multimodale complète en 2,3 milliards de paramètres
Gemma 4 E2B concentre la compréhension du texte, de l'image et de l'audio en seulement 2,3 milliards de paramètres effectifs. Avec un contexte de 128K et seulement 4 Go de RAM, il apporte de véritables capacités d'IA aux téléphones, appareils IoT et aux budgets matériels les plus serrés.
Variantes du modèle
Modèle Instruction-Tuned ultra-compact
Gemma 4 E2B utilise les Per-Layer Embeddings (PLE) pour extraire un maximum de capacités à partir d'un minimum de paramètres.
Architecture Per-Layer Embeddings
2,3 Mrd de paramètres effectifs, 5,1 Mrd au total avec les embeddings
Gemma 4 E2B utilise le PLE pour donner à chacune de ses 35 couches de décodeur son propre chemin de conditionnement. Avec un encodeur de vision d'environ 150M et un encodeur audio d'environ 300M, il traite nativement le texte, les images et l'audio avec un coût de calcul minimal.
Le point d'entrée le plus accessible vers Gemma 4. Idéal pour les téléphones, l'IoT, le Raspberry Pi et tout déploiement où la mémoire est la contrainte principale.
Instruction-Tuned
E2B Instruct
Optimisé pour l'IA conversationnelle sur appareil avec compréhension audio
Affiné pour suivre les instructions avec prise en charge multimodale native
Pré-entraîné
E2B Base
Modèle de base pour l'affinage d'applications edge ultra-compactes
Pré-entraîné sur des données multimodales variées pour une flexibilité maximale dans un format minimal
Capacités
De véritables capacités d'IA à la plus petite échelle
Gemma 4 E2B prouve qu'une IA utile ne nécessite pas de matériel massif. Audio, vision, raisonnement et programmation dans un modèle qui tient sur un téléphone.
Entrée audio native
L'encodeur audio Conformer de type USM traite la parole et les clips audio jusqu'à 30 secondes. Assistants vocaux et analyse audio sur les plus petits appareils.
Raisonnement pratique
60 % sur MMLU Pro et 37,5 % sur AIME 2026 en mathématiques. Mode de réflexion configurable pour la résolution de problèmes étape par étape sur l'appareil.
Assistance à la programmation
44 % sur LiveCodeBench v6 et 633 Codeforces ELO. Génération de code et débogage utiles même sur du matériel limité.
Fenêtre de contexte de 128K
Traitement de longs documents et conversations prolongées sur l'appareil. L'attention hybride maintient une utilisation mémoire raisonnable.
Compréhension visuelle
44,2 % sur MMMU Pro. Prise en charge de ratios d'aspect variables pour l'analyse de documents, l'OCR et l'analyse d'images sur l'appareil.
Empreinte minimale
Seulement 3,2 Go de VRAM en quantification 4 bits. Fonctionne sur téléphones, Raspberry Pi et ordinateurs portables d'entrée de gamme.
Points clés
Métriques de performance du modèle ultra-compact
Gemma 4 E2B fournit des résultats significatifs sur des tâches variées tout en s'adaptant au matériel le plus contraint.
Résultats phares
- 60 % sur MMLU Pro en connaissances et raisonnement
- 44 % sur LiveCodeBench v6 en programmation
- 43,4 % sur GPQA Diamond en connaissances scientifiques
- 44,2 % sur MMMU Pro en raisonnement multimodal
- Fenêtre de contexte de 128K tokens
Spécifications techniques
- 2,3 Mrd de paramètres effectifs (5,1 Mrd avec embeddings)
- 35 couches de décodeur avec Per-Layer Embeddings
- Encodeur de vision ~150M + encodeur audio ~300M
- Entrée native texte, image, vidéo et audio
- 3,2-4 Go de VRAM en quantification 4 bits
Performance
Une IA pertinente à la plus petite échelle
Gemma 4 E2B atteint 60 % sur MMLU Pro et 44 % sur LiveCodeBench v6 avec seulement 2,3 milliards de paramètres effectifs - la preuve qu'une IA utile tient dans votre poche.
Gemma 4 E2B démontre que même les plus petits modèles de la famille offrent une valeur pratique en raisonnement, programmation et tâches multimodales.


60 % sur MMLU Pro - connaissances et raisonnement solides pour un modèle ultra-compact
44 % sur LiveCodeBench v6 - aide à la programmation pratique sur matériel minimal
43,4 % sur GPQA Diamond - compréhension scientifique en 2,3 Mrd de paramètres
44,2 % sur MMMU Pro - raisonnement multimodal sur l'appareil
95 tokens/seconde sur matériel grand public - inférence ultra-rapide
Comparaison des benchmarks
E2B vs E4B et la famille Gemma 4
Gemma 4 E2B est le plus petit modèle de la famille. Passez à E4B pour une meilleure qualité, ou à 26B/31B pour des performances de pointe.
| Benchmark | Gemma 4 E2B IT Thinking En vedette | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Mathématiques Sans outils | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Connaissances scientifiques | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programmation compétitive | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programmation compétitive | 633 | 940 | 1718 | 2150 |
MMMU Pro Raisonnement multimodal | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Mémoire minimale | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Entrée audio native | Oui | Oui | Non | Non |
Résultats de benchmarks issus de la fiche officielle Gemma 4. Les benchmarks E2B démontrent des capacités pratiques avec un nombre minimal de paramètres.
Ultra-compact
L'IA multimodale complète dans le plus petit format Gemma 4
Gemma 4 E2B n'est pas un modèle allégé. Il dispose de la même architecture multimodale que ses grands frères - entrée texte, image, vidéo et audio - dans un format de 2,3 milliards de paramètres effectifs.
- Mêmes modalités que E4B : entrée texte, image, vidéo et audio
- Même fenêtre de contexte de 128K que le modèle edge plus grand
- 3,2 Go de VRAM en 4 bits - compatible avec les téléphones et le matériel d'entrée de gamme
Ultra-rapide
95 tokens par seconde sur matériel grand public
Le plus petit modèle de la famille est aussi le plus rapide. Gemma 4 E2B fournit des réponses quasi instantanées sur du matériel grand public, idéal pour les applications en temps réel et les expériences interactives.
- ~95 tokens/seconde sur GPU grand public
- Latence du premier token inférieure à une seconde sur la plupart du matériel
- Idéal pour le chat en temps réel, les assistants vocaux et les outils interactifs
IoT & Edge
L'IA pour les appareils qui tiennent dans votre main
Gemma 4 E2B est conçu pour l'edge. Exécutez-le sur les téléphones Pixel, Raspberry Pi, navigateurs Chrome et tout appareil où la confidentialité et la latence comptent plus que les scores de benchmark.
- Checkpoints ONNX pour le déploiement edge multiplateforme
- Prise en charge WebGPU pour l'inférence dans le navigateur
- Conçu pour les environnements Pixel, Chrome et IoT
Pour commencer
Essayez Gemma 4 E2B maintenant
Commencez à discuter instantanément ou téléchargez pour un déploiement ultra-compact.
Télécharger les poids
Déploiement ultra-compact
Téléchargez les poids officiels du modèle pour le déploiement le plus compact possible.
Plateformes edge
Déploiement sur téléphone, navigateur et IoT
Déployez sur les plus petits appareils avec des environnements d'exécution optimisés.
Famille Gemma 4
Le plus petit modèle d'une famille de pointe
Gemma 4 E2B est le point d'entrée de la famille Gemma 4. Passez à E4B pour une meilleure qualité, ou à 26B/31B pour des performances de pointe.
Pour commencer
Prêt à exécuter l'IA sur les plus petits appareils ?
Commencez à discuter gratuitement ou téléchargez Gemma 4 E2B pour un déploiement ultra-compact, privé et sur l'appareil.