Gemma 4 E2B

Das kleinste Gemma 4 - volle multimodale Intelligenz in 2,3 Milliarden Parametern

Gemma 4 E2B vereint Text-, Bild- und Audioverständnis in nur 2,3 Mrd. effektiven Parametern. Mit 128K Kontext und nur 4 GB RAM bringt es echte KI-Fähigkeiten auf Smartphones, IoT-Geräte und die sparsamsten Hardware-Budgets.

Modellvarianten

Ultrakompaktes Instruction-Tuned-Modell

Gemma 4 E2B nutzt Per-Layer Embeddings (PLE), um aus minimalen Parametern maximale Leistung herauszuholen.

Per-Layer Embeddings Architektur

2,3 Mrd. effektive Parameter, 5,1 Mrd. gesamt mit Embeddings

Gemma 4 E2B nutzt PLE, um jedem seiner 35 Decoder-Layer einen eigenen Konditionierungspfad zu geben. Mit einem ~150M Vision-Encoder und einem ~300M Audio-Encoder verarbeitet es Text, Bilder und Audio nativ bei minimalem Rechenaufwand.

Der einfachste Einstieg in Gemma 4. Ideal für Smartphones, IoT, Raspberry Pi und jede Umgebung, in der Arbeitsspeicher die größte Einschränkung darstellt.

Instruction-Tuned

E2B Instruct

Optimiert für On-Device-Konversations-KI mit Audioverständnis

Feinabgestimmt für das Befolgen von Anweisungen mit nativer multimodaler Unterstützung

Jetzt verfügbar

Vortrainiert

E2B Base

Basismodell für das Feintuning ultrakompakter Edge-Anwendungen

Vortrainiert auf vielfältigen multimodalen Daten für maximale Flexibilität bei minimaler Größe

Jetzt verfügbar

Funktionen

Echte KI-Fähigkeiten im kleinsten Maßstab

Gemma 4 E2B beweist, dass nützliche KI keine massive Hardware erfordert. Audio, Bildverarbeitung, logisches Denken und Programmierung in einem Modell, das auf ein Smartphone passt.

Native Audioeingabe

Der USM-basierte Conformer-Audio-Encoder verarbeitet Sprache und Audioclips bis zu 30 Sekunden. Sprachassistenten und Audioanalyse auf den kleinsten Geräten.

Praktisches Denkvermögen

60 % bei MMLU Pro und 37,5 % bei AIME 2026 Mathematik. Konfigurierbarer Denkmodus für schrittweises Problemlösen auf dem Gerät.

Programmierunterstützung

44 % bei LiveCodeBench v6 und 633 Codeforces ELO. Nützliche Codegenerierung und Debugging selbst auf eingeschränkter Hardware.

128K Kontextfenster

Verarbeitung langer Dokumente und ausgedehnte Gespräche auf dem Gerät. Hybride Aufmerksamkeit hält den Speicherverbrauch praktikabel.

Bildverständnis

44,2 % bei MMMU Pro. Unterstützung variabler Seitenverhältnisse für Dokumentenanalyse, OCR und Bildanalyse auf dem Gerät.

Minimaler Speicherbedarf

Nur 3,2 GB VRAM bei 4-Bit-Quantisierung. Läuft auf Smartphones, Raspberry Pi und günstigen Laptops.

Wichtige Highlights

Leistungskennzahlen des ultrakompakten Modells

Gemma 4 E2B liefert aussagekräftige Ergebnisse bei vielfältigen Aufgaben und passt dabei auf die am stärksten eingeschränkte Hardware.

Top-Ergebnisse

  • 60 % bei MMLU Pro Wissen und logischem Denken
  • 44 % bei LiveCodeBench v6 Programmierung
  • 43,4 % bei GPQA Diamond wissenschaftliches Wissen
  • 44,2 % bei MMMU Pro multimodales Denken
  • 128K Token Kontextfenster

Technische Daten

  • 2,3 Mrd. effektive Parameter (5,1 Mrd. mit Embeddings)
  • 35 Decoder-Layer mit Per-Layer Embeddings
  • ~150M Vision-Encoder + ~300M Audio-Encoder
  • Native Text-, Bild-, Video- und Audioeingabe
  • 3,2-4 GB VRAM bei 4-Bit-Quantisierung

Leistung

Sinnvolle KI im kleinsten Maßstab

Gemma 4 E2B erreicht 60 % bei MMLU Pro und 44 % bei LiveCodeBench v6 mit nur 2,3 Mrd. effektiven Parametern - der Beweis, dass nützliche KI in Ihre Tasche passt.

Gemma 4 E2B zeigt, dass selbst die kleinsten Modelle der Familie praktischen Nutzen bei logischem Denken, Programmierung und multimodalen Aufgaben bieten.

Gemma 4 E2B Leistungsvergleichsdiagramm

60 % bei MMLU Pro - solides Wissen und logisches Denken für ein ultrakompaktes Modell

44 % bei LiveCodeBench v6 - praktische Programmierhilfe auf minimaler Hardware

43,4 % bei GPQA Diamond - wissenschaftliches Verständnis in 2,3 Mrd. Parametern

44,2 % bei MMMU Pro - multimodales Denken auf dem Gerät

95 Token/Sekunde auf Consumer-Hardware - blitzschnelle Inferenz

Benchmark-Vergleich

E2B vs. E4B und die Gemma 4-Familie

Gemma 4 E2B ist das kleinste Modell der Familie. Für bessere Qualität wählen Sie E4B, für Spitzenleistung 26B/31B.

Benchmark
Gemma 4 E2B IT
Thinking
Empfohlen
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Wissen & logisches Denken
60.0%69.4%82.6%85.2%
AIME 2026
Mathematik
Ohne Tools
37.5%42.5%88.3%89.2%
GPQA Diamond
Wissenschaftliches Wissen
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Wettbewerbsprogrammierung
44.0%52.0%77.1%80.0%
Codeforces ELO
Wettbewerbsprogrammierung
63394017182150
MMMU Pro
Multimodales Denken
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Minimaler Speicher
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Native Audioeingabe
JaJaNeinNein

Benchmark-Ergebnisse aus der offiziellen Gemma 4-Modellkarte. E2B-Benchmarks zeigen praktische Leistungsfähigkeit bei minimaler Parameterzahl.

Ultrakompakt

Volle multimodale KI im kleinsten Gemma 4-Paket

Gemma 4 E2B ist kein abgespecktes Modell. Es verfügt über die gleiche multimodale Architektur wie seine größeren Geschwister - Text-, Bild-, Video- und Audioeingabe - nur in einem 2,3 Mrd. Parameter-Paket.

  • Gleiche Modalitäten wie E4B: Text-, Bild-, Video- und Audioeingabe
  • Gleiches 128K Kontextfenster wie das größere Edge-Modell
  • 3,2 GB VRAM bei 4-Bit - passt auf Smartphones und günstige Hardware
Volle multimodale KI im kleinsten Gemma 4-Paket

Blitzschnell

95 Token pro Sekunde auf Consumer-Hardware

Das kleinste Modell der Familie ist auch das schnellste. Gemma 4 E2B liefert nahezu sofortige Antworten auf Consumer-Hardware und eignet sich ideal für Echtzeitanwendungen und interaktive Erlebnisse.

  • ~95 Token/Sekunde auf Consumer-GPUs
  • Unter einer Sekunde bis zum ersten Token auf den meisten Geräten
  • Ideal für Echtzeit-Chat, Sprachassistenten und interaktive Tools
95 Token pro Sekunde auf Consumer-Hardware

IoT & Edge

KI für Geräte, die in Ihre Hand passen

Gemma 4 E2B wurde für den Edge-Einsatz entwickelt. Nutzen Sie es auf Pixel-Smartphones, Raspberry Pi, Chrome-Browsern und jedem Gerät, bei dem Datenschutz und Latenz wichtiger sind als Spitzen-Benchmarks.

  • ONNX-Checkpoints für plattformübergreifendes Edge-Deployment
  • WebGPU-Unterstützung für Inferenz im Browser
  • Entwickelt für Pixel, Chrome und IoT-Umgebungen
KI für Geräte, die in Ihre Hand passen

Gewichte herunterladen

Ultrakompaktes Deployment

Laden Sie die offiziellen Modellgewichte für das kleinstmögliche Deployment herunter.

Teil von Gemma 4

Das kleinste Modell einer Spitzenfamilie

Gemma 4 E2B ist der Einstiegspunkt in die Gemma 4-Familie. Für bessere Qualität wählen Sie E4B, für Spitzenleistung 26B/31B.

Gemma 4 E4B

Leistungsstärkeres Edge-Modell mit 4,5 Mrd. effektiven Parametern

Vergleichen

Gemma 4 26B

MoE-Modell mit nahezu 31B-Qualität bei 4B Inferenzkosten

Mehr erfahren

Gemma 4 31B

Flaggschiff-Dense-Modell für maximale Leistung

Mehr erfahren

Dokumentation

Vollständige Leitfäden für Integration und Deployment

Docs lesen

Community

Treten Sie Entwicklern bei, die mit Gemma arbeiten

Entdecken

Modellkarte

Technische Spezifikationen und Evaluierungsergebnisse

Details ansehen

Erste Schritte

Bereit, KI auf den kleinsten Geräten auszuführen?

Starten Sie kostenlos einen Chat oder laden Sie Gemma 4 E2B für ultrakompaktes, privates On-Device-Deployment herunter.