Gemma 4 E4B

4,5 Milliarden Parameter On-Device-Intelligenz mit nativer Audio-Verarbeitung

Gemma 4 E4B vereint 4,5 Mrd. effektive Parameter in einem Modell, das auf Laptops, Smartphones und im Browser läuft. Mit nativer Audio-, Bild- und Textverarbeitung sowie einem 128K-Kontextfenster bringt es multimodale KI der Spitzenklasse direkt auf Ihr Gerät.

Modellvarianten

Instruction-tuned für den Edge-Einsatz

Gemma 4 E4B nutzt Per-Layer Embeddings (PLE), um die Parametereffizienz zu maximieren und starke Leistung aus einer kompakten Architektur zu erzielen.

Per-Layer Embeddings Architektur

4,5 Mrd. effektive Parameter, 8 Mrd. gesamt mit Embeddings

Gemma 4 E4B nutzt PLE, um jeder Decoder-Schicht einen eigenen Konditionierungspfad zu geben. Mit 42 Schichten, einem ~150M Vision-Encoder und einem ~300M Audio-Encoder verarbeitet es Text, Bilder und Audio nativ.

Ideal für den Einsatz auf Endgeräten, browserbasierte KI und datenschutzorientierte Anwendungen, bei denen keine Daten das Gerät verlassen.

Instruction-tuned

E4B Instruct

Optimiert für konversationelle KI, Audio-Verständnis und On-Device-Aufgaben

Feinabgestimmt für das Befolgen von Anweisungen mit nativer multimodaler Unterstützung einschließlich Audio-Eingabe

Jetzt verfügbar

Vortrainiert

E4B Base

Basismodell zum Feinabstimmen für Edge- und Mobilanwendungen

Vortrainiert auf vielfältigen multimodalen Daten einschließlich Audio für maximale Flexibilität

Jetzt verfügbar

Funktionen

Desktop-Intelligenz auf Edge-Hardware

Gemma 4 E4B bringt multimodales Verständnis, Programmierassistenz und logisches Denken auf Geräte, die in Ihre Hand passen.

Native Audio-Eingabe

Der USM-style Conformer Audio-Encoder verarbeitet Sprache und Audioclips bis zu 30 Sekunden direkt - keine Transkriptionspipeline erforderlich.

Starkes logisches Denken

Konfigurierbarer Denkmodus mit 42,5 % bei AIME 2026 (Mathematik) und 58,6 % bei GPQA Diamond (Naturwissenschaften auf Graduiertenniveau).

Leistungsfähige Programmierung

52 % bei LiveCodeBench v6 und 940 Codeforces ELO. Natives Function Calling ermöglicht agentische Workflows auf dem Gerät.

128K-Kontextfenster

Verarbeiten Sie lange Dokumente, ganze Codebasen und ausgedehnte Konversationen auf dem Gerät mit hybrider lokaler/globaler Attention.

Bildverständnis

52,6 % bei MMMU Pro und 59,5 % bei MATH-Vision. Unterstützung variabler Seitenverhältnisse mit konfigurierbaren Bild-Token-Budgets.

Überall einsetzbar

Läuft im Browser via WebGPU, auf Smartphones via ONNX und auf Laptops via Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.

Highlights

Edge-Leistungskennzahlen

Gemma 4 E4B liefert starke Ergebnisse über diverse Benchmarks hinweg und passt dabei auf Consumer-Hardware.

Top-Ergebnisse

  • 69,4 % bei MMLU Pro - Wissen und logisches Denken
  • 52 % bei LiveCodeBench v6 - Programmierung
  • 58,6 % bei GPQA Diamond - Naturwissenschaften
  • 52,6 % bei MMMU Pro - Multimodales Denken
  • 128K Token Kontextfenster

Technische Daten

  • 4,5 Mrd. effektive Parameter (8 Mrd. mit Embeddings)
  • 42 Decoder-Schichten mit Per-Layer Embeddings
  • ~150M Vision-Encoder + ~300M Audio-Encoder
  • Native Text-, Bild-, Video- und Audio-Eingabe
  • 5,5-6 GB VRAM bei 4-Bit-Quantisierung

Leistung

Übertrifft deutlich seine Gewichtsklasse

Gemma 4 E4B erreicht 69,4 % bei MMLU Pro und 52 % bei LiveCodeBench v6 mit nur 4,5 Mrd. effektiven Parametern - und übertrifft damit viele Modelle mit doppelter Größe.

Gemma 4 E4B zeigt, dass Edge-Modelle bedeutende Leistung bei logischem Denken, Programmierung und multimodalen Aufgaben liefern können.

Gemma 4 E4B Leistungsvergleichsdiagramm

69,4 % bei MMLU Pro - starkes Wissen und logisches Denken für ein Edge-Modell

52 % bei LiveCodeBench v6 - praktische Programmierassistenz auf dem Gerät

58,6 % bei GPQA Diamond - naturwissenschaftliches Verständnis auf Graduiertenniveau

52,6 % bei MMMU Pro - multimodales Denken mit Bildern

940 Codeforces ELO - Competitive-Programming-Fähigkeit

Benchmark-Vergleich

E4B im Vergleich zur Gemma 4 Familie und Gemma 3

Gemma 4 E4B liefert starke Edge-Leistung, während die größeren Modelle anspruchsvollere Aufgaben übernehmen.

Benchmark
Gemma 4 E4B IT
Thinking
Empfohlen
Gemma 4 E2B IT
Thinking
Gemma 4 31B IT
Thinking
Gemma 3 27B IT
MMLU Pro
Wissen & logisches Denken
69,4 %60,0 %85,2 %67,6 %
AIME 2026
Mathematik
Ohne Tools
42,5 %37,5 %89,2 %20,8 %
GPQA Diamond
Naturwissenschaften
58,6 %43,4 %84,3 %42,4 %
LiveCodeBench v6
Competitive Coding
52,0 %44,0 %80,0 %29,1 %
Codeforces ELO
Competitive Programming
9406332150-
MMMU Pro
Multimodales Denken
52,6 %44,2 %76,9 %49,7 %
MATH-Vision
Visuelles mathematisches Denken
59,5 %52,4 %85,6 %-
Audio Support
Native Audio-Eingabe
JaJaNeinNein
Context Window
Maximale Token-Anzahl
128K128K256K128K

Benchmark-Ergebnisse aus der offiziellen Gemma 4 Model Card. Die E4B-Benchmarks zeigen außergewöhnliche Effizienz für die Parameteranzahl.

Native Audio

Sprachverständnis ohne Transkriptionspipeline

Gemma 4 E4B enthält einen USM-style Conformer Audio-Encoder, der Sprache und Audio direkt verarbeitet. Kein separates ASR-Modell nötig - einfach Audio eingeben und intelligente Antworten erhalten.

  • ~300M Parameter Conformer Audio-Encoder direkt im Modell integriert
  • Verarbeitung von Audioclips bis zu 30 Sekunden
  • Ideal für Sprachassistenten, Audioanalyse und Barrierefreiheits-Tools
Sprachverständnis ohne Transkriptionspipeline

Edge Deployment

Vom Browser über das Smartphone bis zum Raspberry Pi

Gemma 4 E4B ist für den Einsatz überall konzipiert. Nutzen Sie es in Chrome mit WebGPU über transformers.js, auf Smartphones mit ONNX oder auf Laptops mit Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.

  • Browser: transformers.js mit WebGPU-Beschleunigung in Chrome
  • Mobil: ONNX-Checkpoints für iOS- und Android-Deployment
  • Lokal: Ollama, llama.cpp, MLX für private On-Device-Inferenz
Vom Browser über das Smartphone bis zum Raspberry Pi

Vision & Dokumente

Bildverständnis und Dokumentenanalyse auf dem Gerät

Der ~150M Vision-Encoder verarbeitet Bilder mit variablen Seitenverhältnissen und konfigurierbaren Token-Budgets. Starke OCR- und Dokumentenverständnis-Fähigkeiten machen ihn praktisch für die On-Device-Dokumentenanalyse.

  • 52,6 % bei MMMU Pro - multimodales Denken
  • Variable Bildauflösung: 70 bis 1120 Token pro Bild
  • Dokumentenanalyse, OCR, Diagrammverständnis auf dem Gerät
Bildverständnis und Dokumentenanalyse auf dem Gerät

Gewichte herunterladen

On-Device Deployment

Laden Sie die offiziellen Modellgewichte für Edge- und lokales Deployment herunter.

Teil von Gemma 4

Das Edge-Modell einer Spitzenklasse-Familie

Gemma 4 E4B ist das empfohlene Edge-Modell der Gemma 4 Familie. Wechseln Sie zu 26B MoE oder 31B Dense für mehr Leistung, oder zu E2B für den kleinsten Speicherbedarf.

Gemma 4 E2B

Ultrakompaktes 2,3B-Modell für die engsten Hardware-Beschränkungen

Vergleichen

Gemma 4 26B

MoE-Modell mit nahezu 31B-Qualität bei 4B-Inferenzkosten

Mehr erfahren

Gemma 4 31B

Flaggschiff-Dense-Modell für maximale Leistung

Mehr erfahren

Dokumentation

Vollständige Leitfäden für Integration und Deployment

Docs lesen

Community

Werden Sie Teil der Entwickler-Community rund um Gemma

Entdecken

Model Card

Technische Spezifikationen und Evaluierungsergebnisse

Details ansehen

Erste Schritte

Bereit, KI auf Ihrem Gerät mit Gemma 4 E4B auszuführen?

Starten Sie kostenlos einen Chat oder laden Sie das Modell für privates On-Device-Deployment herunter. Keine Daten verlassen Ihr Gerät.