Gemma 4 E4B
4,5 milliards de paramètres d'intelligence embarquée avec audio natif
Gemma 4 E4B concentre 4,5 milliards de paramètres effectifs dans un modèle qui fonctionne sur ordinateurs portables, téléphones et navigateurs. Grâce à la compréhension native de l'audio, de l'image et du texte, ainsi qu'une fenêtre de contexte de 128K, il apporte une IA multimodale de pointe directement sur vos appareils.
Variantes du modèle
Ajusté pour le déploiement embarqué
Gemma 4 E4B utilise les Per-Layer Embeddings (PLE) pour maximiser l'efficacité des paramètres, offrant des performances élevées à partir d'une architecture compacte.
Architecture Per-Layer Embeddings
4,5 milliards de paramètres effectifs, 8 milliards au total avec les embeddings
Gemma 4 E4B utilise les PLE pour attribuer à chaque couche du décodeur son propre chemin de conditionnement. Avec 42 couches, un encodeur visuel d'environ 150M de paramètres et un encodeur audio d'environ 300M, il traite nativement le texte, les images et l'audio.
Idéal pour le déploiement embarqué, l'IA dans le navigateur et les applications axées sur la confidentialité où les données ne quittent jamais l'appareil de l'utilisateur.
Ajusté aux instructions
E4B Instruct
Optimisé pour l'IA conversationnelle, la compréhension audio et l'exécution de tâches sur l'appareil
Affiné pour le suivi d'instructions avec prise en charge multimodale native, y compris l'entrée audio
Pré-entraîné
E4B Base
Modèle de base pour l'ajustement d'applications embarquées et mobiles
Pré-entraîné sur des données multimodales variées, y compris l'audio, pour une flexibilité maximale
Capacités
Des performances de bureau sur du matériel embarqué
Gemma 4 E4B apporte la compréhension multimodale, l'assistance au code et le raisonnement sur des appareils qui tiennent dans la main.
Entrée audio native
L'encodeur audio conformer de type USM traite la parole et les clips audio jusqu'à 30 secondes directement, sans pipeline de transcription.
Raisonnement avancé
Mode de réflexion configurable avec 42,5 % sur AIME 2026 en mathématiques et 58,6 % sur GPQA Diamond en sciences de niveau supérieur.
Programmation performante
52 % sur LiveCodeBench v6 et 940 ELO Codeforces. L'appel de fonctions natif permet des flux de travail agentiques sur l'appareil.
Fenêtre de contexte de 128K
Traitez de longs documents, des bases de code entières et des conversations prolongées sur l'appareil grâce à l'attention hybride locale/globale.
Compréhension visuelle
52,6 % sur MMMU Pro et 59,5 % sur MATH-Vision. Prise en charge des ratios d'aspect variables avec budgets de tokens d'image configurables.
Fonctionne partout
Fonctionne dans les navigateurs via WebGPU, sur les téléphones via ONNX et sur les ordinateurs portables via Ollama. Seulement 5,5 Go de VRAM en quantification 4 bits.
Points clés
Métriques de performance embarquée
Gemma 4 E4B obtient des résultats solides sur divers benchmarks tout en fonctionnant sur du matériel grand public.
Résultats phares
- 69,4 % sur MMLU Pro en connaissances et raisonnement
- 52 % sur LiveCodeBench v6 en programmation
- 58,6 % sur GPQA Diamond en connaissances scientifiques
- 52,6 % sur MMMU Pro en raisonnement multimodal
- Fenêtre de contexte de 128K tokens
Spécifications techniques
- 4,5 milliards de paramètres effectifs (8 milliards avec les embeddings)
- 42 couches de décodeur avec Per-Layer Embeddings
- Encodeur visuel d'environ 150M + encodeur audio d'environ 300M
- Entrée native en texte, image, vidéo et audio
- 5,5 à 6 Go de VRAM en quantification 4 bits
Performance
Des résultats bien au-dessus de sa catégorie
Gemma 4 E4B atteint 69,4 % sur MMLU Pro et 52 % sur LiveCodeBench v6 avec seulement 4,5 milliards de paramètres effectifs, surpassant de nombreux modèles deux fois plus grands.
Gemma 4 E4B démontre que les modèles embarqués peuvent offrir des performances significatives en raisonnement, programmation et tâches multimodales.


69,4 % sur MMLU Pro - connaissances et raisonnement remarquables pour un modèle embarqué
52 % sur LiveCodeBench v6 - assistance à la programmation directement sur l'appareil
58,6 % sur GPQA Diamond - compréhension scientifique de niveau supérieur
52,6 % sur MMMU Pro - raisonnement multimodal avec images
940 ELO Codeforces - capacité en programmation compétitive
Comparaison des benchmarks
E4B face à la famille Gemma 4 et Gemma 3
Gemma 4 E4B offre de solides performances embarquées tandis que les modèles plus grands gèrent les charges de travail plus lourdes.
| Benchmark | Gemma 4 E4B IT Réflexion En vedette | Gemma 4 E2B IT Réflexion | Gemma 4 31B IT Réflexion | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 Mathématiques Sans outils | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond Connaissances scientifiques | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 Programmation compétitive | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO Programmation compétitive | 940 | 633 | 2150 | - |
MMMU Pro Raisonnement multimodal | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision Raisonnement mathématique visuel | 59.5% | 52.4% | 85.6% | - |
Audio Support Entrée audio native | Oui | Oui | Non | Non |
Context Window Tokens maximum | 128K | 128K | 256K | 128K |
Résultats issus de la fiche officielle du modèle Gemma 4. Les benchmarks E4B démontrent une efficacité exceptionnelle pour son nombre de paramètres.
Audio natif
Compréhension vocale sans pipeline de transcription
Gemma 4 E4B intègre un encodeur audio conformer de type USM qui traite la parole et l'audio directement. Aucun modèle ASR séparé n'est nécessaire : fournissez simplement l'audio et obtenez des réponses intelligentes.
- Encodeur audio conformer d'environ 300M de paramètres intégré au modèle
- Traitement de clips audio jusqu'à 30 secondes directement
- Idéal pour les assistants vocaux, l'analyse audio et les outils d'accessibilité
Déploiement embarqué
Du navigateur au téléphone en passant par le Raspberry Pi
Gemma 4 E4B est conçu pour être déployé partout. Exécutez-le dans Chrome avec WebGPU via transformers.js, sur téléphone avec ONNX, ou sur ordinateur portable avec Ollama. Seulement 5,5 Go de VRAM en quantification 4 bits.
- Navigateur : transformers.js avec accélération WebGPU dans Chrome
- Mobile : checkpoints ONNX pour le déploiement iOS et Android
- Local : Ollama, llama.cpp, MLX pour l'inférence privée sur l'appareil
Vision et documents
Compréhension d'images et analyse de documents sur l'appareil
L'encodeur visuel d'environ 150M de paramètres traite les images avec des ratios d'aspect variables et des budgets de tokens configurables. La reconnaissance de texte et la compréhension de documents performantes en font un outil pratique pour l'analyse de documents sur l'appareil.
- 52,6 % sur MMMU Pro en raisonnement multimodal
- Résolution d'image variable : de 70 à 1120 tokens par image
- Analyse de documents, OCR et compréhension de graphiques sur l'appareil
Pour commencer
Essayez Gemma 4 E4B maintenant
Commencez à discuter instantanément ou téléchargez le modèle pour un déploiement sur l'appareil.
Télécharger les poids
Déploiement sur l'appareil
Téléchargez les poids officiels du modèle pour un déploiement embarqué et local.
Plateformes embarquées
Déploiement navigateur et mobile
Déployez sur des appareils embarqués, navigateurs et plateformes mobiles.
Famille Gemma 4
Le modèle embarqué d'une famille de pointe
Gemma 4 E4B est le modèle embarqué recommandé de la famille Gemma 4. Passez au 26B MoE ou au 31B Dense pour plus de puissance, ou au E2B pour l'empreinte la plus compacte.
Gemma 4 E2B
Modèle ultra-compact de 2,3 milliards de paramètres pour les contraintes matérielles les plus strictes
ComparerGemma 4 26B
Modèle MoE offrant une qualité proche du 31B pour un coût d'inférence de 4B
En savoir plusPour commencer
Prêt à exécuter l'IA sur votre appareil avec Gemma 4 E4B ?
Commencez à discuter gratuitement ou téléchargez le modèle pour un déploiement privé sur l'appareil. Aucune donnée ne quitte votre appareil.