Gemma 4 E4B
4,5 Milliarden Parameter On-Device-Intelligenz mit nativer Audio-Verarbeitung
Gemma 4 E4B vereint 4,5 Mrd. effektive Parameter in einem Modell, das auf Laptops, Smartphones und im Browser läuft. Mit nativer Audio-, Bild- und Textverarbeitung sowie einem 128K-Kontextfenster bringt es multimodale KI der Spitzenklasse direkt auf Ihr Gerät.
Modellvarianten
Instruction-tuned für den Edge-Einsatz
Gemma 4 E4B nutzt Per-Layer Embeddings (PLE), um die Parametereffizienz zu maximieren und starke Leistung aus einer kompakten Architektur zu erzielen.
Per-Layer Embeddings Architektur
4,5 Mrd. effektive Parameter, 8 Mrd. gesamt mit Embeddings
Gemma 4 E4B nutzt PLE, um jeder Decoder-Schicht einen eigenen Konditionierungspfad zu geben. Mit 42 Schichten, einem ~150M Vision-Encoder und einem ~300M Audio-Encoder verarbeitet es Text, Bilder und Audio nativ.
Ideal für den Einsatz auf Endgeräten, browserbasierte KI und datenschutzorientierte Anwendungen, bei denen keine Daten das Gerät verlassen.
Instruction-tuned
E4B Instruct
Optimiert für konversationelle KI, Audio-Verständnis und On-Device-Aufgaben
Feinabgestimmt für das Befolgen von Anweisungen mit nativer multimodaler Unterstützung einschließlich Audio-Eingabe
Vortrainiert
E4B Base
Basismodell zum Feinabstimmen für Edge- und Mobilanwendungen
Vortrainiert auf vielfältigen multimodalen Daten einschließlich Audio für maximale Flexibilität
Funktionen
Desktop-Intelligenz auf Edge-Hardware
Gemma 4 E4B bringt multimodales Verständnis, Programmierassistenz und logisches Denken auf Geräte, die in Ihre Hand passen.
Native Audio-Eingabe
Der USM-style Conformer Audio-Encoder verarbeitet Sprache und Audioclips bis zu 30 Sekunden direkt - keine Transkriptionspipeline erforderlich.
Starkes logisches Denken
Konfigurierbarer Denkmodus mit 42,5 % bei AIME 2026 (Mathematik) und 58,6 % bei GPQA Diamond (Naturwissenschaften auf Graduiertenniveau).
Leistungsfähige Programmierung
52 % bei LiveCodeBench v6 und 940 Codeforces ELO. Natives Function Calling ermöglicht agentische Workflows auf dem Gerät.
128K-Kontextfenster
Verarbeiten Sie lange Dokumente, ganze Codebasen und ausgedehnte Konversationen auf dem Gerät mit hybrider lokaler/globaler Attention.
Bildverständnis
52,6 % bei MMMU Pro und 59,5 % bei MATH-Vision. Unterstützung variabler Seitenverhältnisse mit konfigurierbaren Bild-Token-Budgets.
Überall einsetzbar
Läuft im Browser via WebGPU, auf Smartphones via ONNX und auf Laptops via Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.
Highlights
Edge-Leistungskennzahlen
Gemma 4 E4B liefert starke Ergebnisse über diverse Benchmarks hinweg und passt dabei auf Consumer-Hardware.
Top-Ergebnisse
- 69,4 % bei MMLU Pro - Wissen und logisches Denken
- 52 % bei LiveCodeBench v6 - Programmierung
- 58,6 % bei GPQA Diamond - Naturwissenschaften
- 52,6 % bei MMMU Pro - Multimodales Denken
- 128K Token Kontextfenster
Technische Daten
- 4,5 Mrd. effektive Parameter (8 Mrd. mit Embeddings)
- 42 Decoder-Schichten mit Per-Layer Embeddings
- ~150M Vision-Encoder + ~300M Audio-Encoder
- Native Text-, Bild-, Video- und Audio-Eingabe
- 5,5-6 GB VRAM bei 4-Bit-Quantisierung
Leistung
Übertrifft deutlich seine Gewichtsklasse
Gemma 4 E4B erreicht 69,4 % bei MMLU Pro und 52 % bei LiveCodeBench v6 mit nur 4,5 Mrd. effektiven Parametern - und übertrifft damit viele Modelle mit doppelter Größe.
Gemma 4 E4B zeigt, dass Edge-Modelle bedeutende Leistung bei logischem Denken, Programmierung und multimodalen Aufgaben liefern können.


69,4 % bei MMLU Pro - starkes Wissen und logisches Denken für ein Edge-Modell
52 % bei LiveCodeBench v6 - praktische Programmierassistenz auf dem Gerät
58,6 % bei GPQA Diamond - naturwissenschaftliches Verständnis auf Graduiertenniveau
52,6 % bei MMMU Pro - multimodales Denken mit Bildern
940 Codeforces ELO - Competitive-Programming-Fähigkeit
Benchmark-Vergleich
E4B im Vergleich zur Gemma 4 Familie und Gemma 3
Gemma 4 E4B liefert starke Edge-Leistung, während die größeren Modelle anspruchsvollere Aufgaben übernehmen.
| Benchmark | Gemma 4 E4B IT Thinking Empfohlen | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Wissen & logisches Denken | 69,4 % | 60,0 % | 85,2 % | 67,6 % |
AIME 2026 Mathematik Ohne Tools | 42,5 % | 37,5 % | 89,2 % | 20,8 % |
GPQA Diamond Naturwissenschaften | 58,6 % | 43,4 % | 84,3 % | 42,4 % |
LiveCodeBench v6 Competitive Coding | 52,0 % | 44,0 % | 80,0 % | 29,1 % |
Codeforces ELO Competitive Programming | 940 | 633 | 2150 | - |
MMMU Pro Multimodales Denken | 52,6 % | 44,2 % | 76,9 % | 49,7 % |
MATH-Vision Visuelles mathematisches Denken | 59,5 % | 52,4 % | 85,6 % | - |
Audio Support Native Audio-Eingabe | Ja | Ja | Nein | Nein |
Context Window Maximale Token-Anzahl | 128K | 128K | 256K | 128K |
Benchmark-Ergebnisse aus der offiziellen Gemma 4 Model Card. Die E4B-Benchmarks zeigen außergewöhnliche Effizienz für die Parameteranzahl.
Native Audio
Sprachverständnis ohne Transkriptionspipeline
Gemma 4 E4B enthält einen USM-style Conformer Audio-Encoder, der Sprache und Audio direkt verarbeitet. Kein separates ASR-Modell nötig - einfach Audio eingeben und intelligente Antworten erhalten.
- ~300M Parameter Conformer Audio-Encoder direkt im Modell integriert
- Verarbeitung von Audioclips bis zu 30 Sekunden
- Ideal für Sprachassistenten, Audioanalyse und Barrierefreiheits-Tools
Edge Deployment
Vom Browser über das Smartphone bis zum Raspberry Pi
Gemma 4 E4B ist für den Einsatz überall konzipiert. Nutzen Sie es in Chrome mit WebGPU über transformers.js, auf Smartphones mit ONNX oder auf Laptops mit Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.
- Browser: transformers.js mit WebGPU-Beschleunigung in Chrome
- Mobil: ONNX-Checkpoints für iOS- und Android-Deployment
- Lokal: Ollama, llama.cpp, MLX für private On-Device-Inferenz
Vision & Dokumente
Bildverständnis und Dokumentenanalyse auf dem Gerät
Der ~150M Vision-Encoder verarbeitet Bilder mit variablen Seitenverhältnissen und konfigurierbaren Token-Budgets. Starke OCR- und Dokumentenverständnis-Fähigkeiten machen ihn praktisch für die On-Device-Dokumentenanalyse.
- 52,6 % bei MMMU Pro - multimodales Denken
- Variable Bildauflösung: 70 bis 1120 Token pro Bild
- Dokumentenanalyse, OCR, Diagrammverständnis auf dem Gerät
Erste Schritte
Gemma 4 E4B jetzt ausprobieren
Starten Sie sofort einen Chat oder laden Sie das Modell für den privaten On-Device-Einsatz herunter.
Gewichte herunterladen
On-Device Deployment
Laden Sie die offiziellen Modellgewichte für Edge- und lokales Deployment herunter.
Edge-Plattformen
Browser- und Mobil-Deployment
Deployment auf Edge-Geräten, in Browsern und auf mobilen Plattformen.
Teil von Gemma 4
Das Edge-Modell einer Spitzenklasse-Familie
Gemma 4 E4B ist das empfohlene Edge-Modell der Gemma 4 Familie. Wechseln Sie zu 26B MoE oder 31B Dense für mehr Leistung, oder zu E2B für den kleinsten Speicherbedarf.
Erste Schritte
Bereit, KI auf Ihrem Gerät mit Gemma 4 E4B auszuführen?
Starten Sie kostenlos einen Chat oder laden Sie das Modell für privates On-Device-Deployment herunter. Keine Daten verlassen Ihr Gerät.