Gemma 4 E2B

Le plus petit Gemma 4 - une intelligence multimodale complète en 2,3 milliards de paramètres

Gemma 4 E2B concentre la compréhension du texte, de l'image et de l'audio en seulement 2,3 milliards de paramètres effectifs. Avec un contexte de 128K et seulement 4 Go de RAM, il apporte de véritables capacités d'IA aux téléphones, appareils IoT et aux budgets matériels les plus serrés.

Variantes du modèle

Modèle Instruction-Tuned ultra-compact

Gemma 4 E2B utilise les Per-Layer Embeddings (PLE) pour extraire un maximum de capacités à partir d'un minimum de paramètres.

Architecture Per-Layer Embeddings

2,3 Mrd de paramètres effectifs, 5,1 Mrd au total avec les embeddings

Gemma 4 E2B utilise le PLE pour donner à chacune de ses 35 couches de décodeur son propre chemin de conditionnement. Avec un encodeur de vision d'environ 150M et un encodeur audio d'environ 300M, il traite nativement le texte, les images et l'audio avec un coût de calcul minimal.

Le point d'entrée le plus accessible vers Gemma 4. Idéal pour les téléphones, l'IoT, le Raspberry Pi et tout déploiement où la mémoire est la contrainte principale.

Instruction-Tuned

E2B Instruct

Optimisé pour l'IA conversationnelle sur appareil avec compréhension audio

Affiné pour suivre les instructions avec prise en charge multimodale native

Disponible maintenant

Pré-entraîné

E2B Base

Modèle de base pour l'affinage d'applications edge ultra-compactes

Pré-entraîné sur des données multimodales variées pour une flexibilité maximale dans un format minimal

Disponible maintenant

Capacités

De véritables capacités d'IA à la plus petite échelle

Gemma 4 E2B prouve qu'une IA utile ne nécessite pas de matériel massif. Audio, vision, raisonnement et programmation dans un modèle qui tient sur un téléphone.

Entrée audio native

L'encodeur audio Conformer de type USM traite la parole et les clips audio jusqu'à 30 secondes. Assistants vocaux et analyse audio sur les plus petits appareils.

Raisonnement pratique

60 % sur MMLU Pro et 37,5 % sur AIME 2026 en mathématiques. Mode de réflexion configurable pour la résolution de problèmes étape par étape sur l'appareil.

Assistance à la programmation

44 % sur LiveCodeBench v6 et 633 Codeforces ELO. Génération de code et débogage utiles même sur du matériel limité.

Fenêtre de contexte de 128K

Traitement de longs documents et conversations prolongées sur l'appareil. L'attention hybride maintient une utilisation mémoire raisonnable.

Compréhension visuelle

44,2 % sur MMMU Pro. Prise en charge de ratios d'aspect variables pour l'analyse de documents, l'OCR et l'analyse d'images sur l'appareil.

Empreinte minimale

Seulement 3,2 Go de VRAM en quantification 4 bits. Fonctionne sur téléphones, Raspberry Pi et ordinateurs portables d'entrée de gamme.

Points clés

Métriques de performance du modèle ultra-compact

Gemma 4 E2B fournit des résultats significatifs sur des tâches variées tout en s'adaptant au matériel le plus contraint.

Résultats phares

  • 60 % sur MMLU Pro en connaissances et raisonnement
  • 44 % sur LiveCodeBench v6 en programmation
  • 43,4 % sur GPQA Diamond en connaissances scientifiques
  • 44,2 % sur MMMU Pro en raisonnement multimodal
  • Fenêtre de contexte de 128K tokens

Spécifications techniques

  • 2,3 Mrd de paramètres effectifs (5,1 Mrd avec embeddings)
  • 35 couches de décodeur avec Per-Layer Embeddings
  • Encodeur de vision ~150M + encodeur audio ~300M
  • Entrée native texte, image, vidéo et audio
  • 3,2-4 Go de VRAM en quantification 4 bits

Performance

Une IA pertinente à la plus petite échelle

Gemma 4 E2B atteint 60 % sur MMLU Pro et 44 % sur LiveCodeBench v6 avec seulement 2,3 milliards de paramètres effectifs - la preuve qu'une IA utile tient dans votre poche.

Gemma 4 E2B démontre que même les plus petits modèles de la famille offrent une valeur pratique en raisonnement, programmation et tâches multimodales.

Graphique de comparaison des performances de Gemma 4 E2B

60 % sur MMLU Pro - connaissances et raisonnement solides pour un modèle ultra-compact

44 % sur LiveCodeBench v6 - aide à la programmation pratique sur matériel minimal

43,4 % sur GPQA Diamond - compréhension scientifique en 2,3 Mrd de paramètres

44,2 % sur MMMU Pro - raisonnement multimodal sur l'appareil

95 tokens/seconde sur matériel grand public - inférence ultra-rapide

Comparaison des benchmarks

E2B vs E4B et la famille Gemma 4

Gemma 4 E2B est le plus petit modèle de la famille. Passez à E4B pour une meilleure qualité, ou à 26B/31B pour des performances de pointe.

Benchmark
Gemma 4 E2B IT
Thinking
En vedette
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Connaissances et raisonnement
60.0%69.4%82.6%85.2%
AIME 2026
Mathématiques
Sans outils
37.5%42.5%88.3%89.2%
GPQA Diamond
Connaissances scientifiques
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Programmation compétitive
44.0%52.0%77.1%80.0%
Codeforces ELO
Programmation compétitive
63394017182150
MMMU Pro
Raisonnement multimodal
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Mémoire minimale
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Entrée audio native
OuiOuiNonNon

Résultats de benchmarks issus de la fiche officielle Gemma 4. Les benchmarks E2B démontrent des capacités pratiques avec un nombre minimal de paramètres.

Ultra-compact

L'IA multimodale complète dans le plus petit format Gemma 4

Gemma 4 E2B n'est pas un modèle allégé. Il dispose de la même architecture multimodale que ses grands frères - entrée texte, image, vidéo et audio - dans un format de 2,3 milliards de paramètres effectifs.

  • Mêmes modalités que E4B : entrée texte, image, vidéo et audio
  • Même fenêtre de contexte de 128K que le modèle edge plus grand
  • 3,2 Go de VRAM en 4 bits - compatible avec les téléphones et le matériel d'entrée de gamme
L'IA multimodale complète dans le plus petit format Gemma 4

Ultra-rapide

95 tokens par seconde sur matériel grand public

Le plus petit modèle de la famille est aussi le plus rapide. Gemma 4 E2B fournit des réponses quasi instantanées sur du matériel grand public, idéal pour les applications en temps réel et les expériences interactives.

  • ~95 tokens/seconde sur GPU grand public
  • Latence du premier token inférieure à une seconde sur la plupart du matériel
  • Idéal pour le chat en temps réel, les assistants vocaux et les outils interactifs
95 tokens par seconde sur matériel grand public

IoT & Edge

L'IA pour les appareils qui tiennent dans votre main

Gemma 4 E2B est conçu pour l'edge. Exécutez-le sur les téléphones Pixel, Raspberry Pi, navigateurs Chrome et tout appareil où la confidentialité et la latence comptent plus que les scores de benchmark.

  • Checkpoints ONNX pour le déploiement edge multiplateforme
  • Prise en charge WebGPU pour l'inférence dans le navigateur
  • Conçu pour les environnements Pixel, Chrome et IoT
L'IA pour les appareils qui tiennent dans votre main

Télécharger les poids

Déploiement ultra-compact

Téléchargez les poids officiels du modèle pour le déploiement le plus compact possible.

Plateformes edge

Déploiement sur téléphone, navigateur et IoT

Déployez sur les plus petits appareils avec des environnements d'exécution optimisés.

Famille Gemma 4

Le plus petit modèle d'une famille de pointe

Gemma 4 E2B est le point d'entrée de la famille Gemma 4. Passez à E4B pour une meilleure qualité, ou à 26B/31B pour des performances de pointe.

Gemma 4 E4B

Modèle edge plus puissant avec 4,5 Mrd de paramètres effectifs

Comparer

Gemma 4 26B

Modèle MoE avec une qualité proche du 31B pour un coût d'inférence de 4B

En savoir plus

Gemma 4 31B

Modèle dense phare pour des performances maximales

En savoir plus

Documentation

Guides complets pour l'intégration et le déploiement

Lire la doc

Communauté

Rejoignez les développeurs qui construisent avec Gemma

Explorer

Fiche modèle

Spécifications techniques et résultats d'évaluation

Voir les détails

Pour commencer

Prêt à exécuter l'IA sur les plus petits appareils ?

Commencez à discuter gratuitement ou téléchargez Gemma 4 E2B pour un déploiement ultra-compact, privé et sur l'appareil.