Gemma 4 E2B

Le plus petit Gemma 4 - une intelligence multimodale complète en 2,3 milliards de paramètres

Gemma 4 E2B concentre la compréhension du texte, de l'image et de l'audio en seulement 2,3 milliards de paramètres effectifs. Avec un contexte de 128K et seulement 4 Go de RAM, il apporte de véritables capacités d'IA aux téléphones, appareils IoT et aux budgets matériels les plus serrés.

Démarrer le chat Voir les benchmarks

Variantes du modèle

Modèle Instruction-Tuned ultra-compact

Gemma 4 E2B utilise les Per-Layer Embeddings (PLE) pour extraire un maximum de capacités à partir d'un minimum de paramètres.

Architecture Per-Layer Embeddings

2,3 Mrd de paramètres effectifs, 5,1 Mrd au total avec les embeddings

Gemma 4 E2B utilise le PLE pour donner à chacune de ses 35 couches de décodeur son propre chemin de conditionnement. Avec un encodeur de vision d'environ 150M et un encodeur audio d'environ 300M, il traite nativement le texte, les images et l'audio avec un coût de calcul minimal.

Le point d'entrée le plus accessible vers Gemma 4. Idéal pour les téléphones, l'IoT, le Raspberry Pi et tout déploiement où la mémoire est la contrainte principale.

Démarrer le chat Voir les capacités

Instruction-Tuned

E2B Instruct

Optimisé pour l'IA conversationnelle sur appareil avec compréhension audio

Affiné pour suivre les instructions avec prise en charge multimodale native

Disponible maintenant

Démarrer le chat Télécharger les poids

Pré-entraîné

E2B Base

Modèle de base pour l'affinage d'applications edge ultra-compactes

Pré-entraîné sur des données multimodales variées pour une flexibilité maximale dans un format minimal

Disponible maintenant

Voir sur HuggingFace Guide d'affinage

Capacités

De véritables capacités d'IA à la plus petite échelle

Gemma 4 E2B prouve qu'une IA utile ne nécessite pas de matériel massif. Audio, vision, raisonnement et programmation dans un modèle qui tient sur un téléphone.

Entrée audio native

L'encodeur audio Conformer de type USM traite la parole et les clips audio jusqu'à 30 secondes. Assistants vocaux et analyse audio sur les plus petits appareils.

Raisonnement pratique

60 % sur MMLU Pro et 37,5 % sur AIME 2026 en mathématiques. Mode de réflexion configurable pour la résolution de problèmes étape par étape sur l'appareil.

Assistance à la programmation

44 % sur LiveCodeBench v6 et 633 Codeforces ELO. Génération de code et débogage utiles même sur du matériel limité.

Fenêtre de contexte de 128K

Traitement de longs documents et conversations prolongées sur l'appareil. L'attention hybride maintient une utilisation mémoire raisonnable.

Compréhension visuelle

44,2 % sur MMMU Pro. Prise en charge de ratios d'aspect variables pour l'analyse de documents, l'OCR et l'analyse d'images sur l'appareil.

Empreinte minimale

Seulement 3,2 Go de VRAM en quantification 4 bits. Fonctionne sur téléphones, Raspberry Pi et ordinateurs portables d'entrée de gamme.

Points clés

Métriques de performance du modèle ultra-compact

Gemma 4 E2B fournit des résultats significatifs sur des tâches variées tout en s'adaptant au matériel le plus contraint.

Résultats phares

60 % sur MMLU Pro en connaissances et raisonnement
44 % sur LiveCodeBench v6 en programmation
43,4 % sur GPQA Diamond en connaissances scientifiques
44,2 % sur MMMU Pro en raisonnement multimodal
Fenêtre de contexte de 128K tokens

Spécifications techniques

2,3 Mrd de paramètres effectifs (5,1 Mrd avec embeddings)
35 couches de décodeur avec Per-Layer Embeddings
Encodeur de vision ~150M + encodeur audio ~300M
Entrée native texte, image, vidéo et audio
3,2-4 Go de VRAM en quantification 4 bits

Démarrer le chat Voir la fiche modèle

Performance

Une IA pertinente à la plus petite échelle

Gemma 4 E2B atteint 60 % sur MMLU Pro et 44 % sur LiveCodeBench v6 avec seulement 2,3 milliards de paramètres effectifs - la preuve qu'une IA utile tient dans votre poche.

Gemma 4 E2B démontre que même les plus petits modèles de la famille offrent une valeur pratique en raisonnement, programmation et tâches multimodales.

Démarrer le chat Voir la fiche modèle

Graphique de comparaison des performances de Gemma 4 E2B

60 % sur MMLU Pro - connaissances et raisonnement solides pour un modèle ultra-compact

44 % sur LiveCodeBench v6 - aide à la programmation pratique sur matériel minimal

43,4 % sur GPQA Diamond - compréhension scientifique en 2,3 Mrd de paramètres

44,2 % sur MMMU Pro - raisonnement multimodal sur l'appareil

95 tokens/seconde sur matériel grand public - inférence ultra-rapide

Comparaison des benchmarks

E2B vs E4B et la famille Gemma 4

Gemma 4 E2B est le plus petit modèle de la famille. Passez à E4B pour une meilleure qualité, ou à 26B/31B pour des performances de pointe.

Benchmark	Gemma 4 E2B IT Thinking En vedette	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Connaissances et raisonnement	60.0%	69.4%	82.6%	85.2%
AIME 2026 Mathématiques Sans outils	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Connaissances scientifiques	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programmation compétitive	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programmation compétitive	633	940	1718	2150
MMMU Pro Raisonnement multimodal	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Mémoire minimale	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Entrée audio native	Oui	Oui	Non	Non

Résultats de benchmarks issus de la fiche officielle Gemma 4. Les benchmarks E2B démontrent des capacités pratiques avec un nombre minimal de paramètres.

Ultra-compact

L'IA multimodale complète dans le plus petit format Gemma 4

Gemma 4 E2B n'est pas un modèle allégé. Il dispose de la même architecture multimodale que ses grands frères - entrée texte, image, vidéo et audio - dans un format de 2,3 milliards de paramètres effectifs.

Mêmes modalités que E4B : entrée texte, image, vidéo et audio
Même fenêtre de contexte de 128K que le modèle edge plus grand
3,2 Go de VRAM en 4 bits - compatible avec les téléphones et le matériel d'entrée de gamme

Démarrer le chat Comparer avec E4B

L'IA multimodale complète dans le plus petit format Gemma 4

Ultra-rapide

95 tokens par seconde sur matériel grand public

Le plus petit modèle de la famille est aussi le plus rapide. Gemma 4 E2B fournit des réponses quasi instantanées sur du matériel grand public, idéal pour les applications en temps réel et les expériences interactives.

~95 tokens/seconde sur GPU grand public
Latence du premier token inférieure à une seconde sur la plupart du matériel
Idéal pour le chat en temps réel, les assistants vocaux et les outils interactifs

Tester la vitesse Guide matériel

95 tokens par seconde sur matériel grand public

IoT & Edge

L'IA pour les appareils qui tiennent dans votre main

Gemma 4 E2B est conçu pour l'edge. Exécutez-le sur les téléphones Pixel, Raspberry Pi, navigateurs Chrome et tout appareil où la confidentialité et la latence comptent plus que les scores de benchmark.