Gemma 4 E4B

4,5 Milliarden Parameter On-Device-Intelligenz mit nativer Audio-Verarbeitung

Gemma 4 E4B vereint 4,5 Mrd. effektive Parameter in einem Modell, das auf Laptops, Smartphones und im Browser läuft. Mit nativer Audio-, Bild- und Textverarbeitung sowie einem 128K-Kontextfenster bringt es multimodale KI der Spitzenklasse direkt auf Ihr Gerät.

Chat starten Benchmarks ansehen

Modellvarianten

Instruction-tuned für den Edge-Einsatz

Gemma 4 E4B nutzt Per-Layer Embeddings (PLE), um die Parametereffizienz zu maximieren und starke Leistung aus einer kompakten Architektur zu erzielen.

Per-Layer Embeddings Architektur

4,5 Mrd. effektive Parameter, 8 Mrd. gesamt mit Embeddings

Gemma 4 E4B nutzt PLE, um jeder Decoder-Schicht einen eigenen Konditionierungspfad zu geben. Mit 42 Schichten, einem ~150M Vision-Encoder und einem ~300M Audio-Encoder verarbeitet es Text, Bilder und Audio nativ.

Ideal für den Einsatz auf Endgeräten, browserbasierte KI und datenschutzorientierte Anwendungen, bei denen keine Daten das Gerät verlassen.

Chat starten Funktionen entdecken

Instruction-tuned

E4B Instruct

Optimiert für konversationelle KI, Audio-Verständnis und On-Device-Aufgaben

Feinabgestimmt für das Befolgen von Anweisungen mit nativer multimodaler Unterstützung einschließlich Audio-Eingabe

Jetzt verfügbar

Chat starten Gewichte herunterladen

Vortrainiert

E4B Base

Basismodell zum Feinabstimmen für Edge- und Mobilanwendungen

Vortrainiert auf vielfältigen multimodalen Daten einschließlich Audio für maximale Flexibilität

Jetzt verfügbar

Auf HuggingFace ansehen Feinabstimmungs-Anleitung

Funktionen

Desktop-Intelligenz auf Edge-Hardware

Gemma 4 E4B bringt multimodales Verständnis, Programmierassistenz und logisches Denken auf Geräte, die in Ihre Hand passen.

Native Audio-Eingabe

Der USM-style Conformer Audio-Encoder verarbeitet Sprache und Audioclips bis zu 30 Sekunden direkt - keine Transkriptionspipeline erforderlich.

Starkes logisches Denken

Konfigurierbarer Denkmodus mit 42,5 % bei AIME 2026 (Mathematik) und 58,6 % bei GPQA Diamond (Naturwissenschaften auf Graduiertenniveau).

Leistungsfähige Programmierung

52 % bei LiveCodeBench v6 und 940 Codeforces ELO. Natives Function Calling ermöglicht agentische Workflows auf dem Gerät.

128K-Kontextfenster

Verarbeiten Sie lange Dokumente, ganze Codebasen und ausgedehnte Konversationen auf dem Gerät mit hybrider lokaler/globaler Attention.

Bildverständnis

52,6 % bei MMMU Pro und 59,5 % bei MATH-Vision. Unterstützung variabler Seitenverhältnisse mit konfigurierbaren Bild-Token-Budgets.

Überall einsetzbar

Läuft im Browser via WebGPU, auf Smartphones via ONNX und auf Laptops via Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.

Highlights

Edge-Leistungskennzahlen

Gemma 4 E4B liefert starke Ergebnisse über diverse Benchmarks hinweg und passt dabei auf Consumer-Hardware.

Top-Ergebnisse

69,4 % bei MMLU Pro - Wissen und logisches Denken
52 % bei LiveCodeBench v6 - Programmierung
58,6 % bei GPQA Diamond - Naturwissenschaften
52,6 % bei MMMU Pro - Multimodales Denken
128K Token Kontextfenster

Technische Daten

4,5 Mrd. effektive Parameter (8 Mrd. mit Embeddings)
42 Decoder-Schichten mit Per-Layer Embeddings
~150M Vision-Encoder + ~300M Audio-Encoder
Native Text-, Bild-, Video- und Audio-Eingabe
5,5-6 GB VRAM bei 4-Bit-Quantisierung

Chat starten Model Card ansehen

Leistung

Übertrifft deutlich seine Gewichtsklasse

Gemma 4 E4B erreicht 69,4 % bei MMLU Pro und 52 % bei LiveCodeBench v6 mit nur 4,5 Mrd. effektiven Parametern - und übertrifft damit viele Modelle mit doppelter Größe.

Gemma 4 E4B zeigt, dass Edge-Modelle bedeutende Leistung bei logischem Denken, Programmierung und multimodalen Aufgaben liefern können.

Chat starten Model Card ansehen

69,4 % bei MMLU Pro - starkes Wissen und logisches Denken für ein Edge-Modell

52 % bei LiveCodeBench v6 - praktische Programmierassistenz auf dem Gerät

58,6 % bei GPQA Diamond - naturwissenschaftliches Verständnis auf Graduiertenniveau

52,6 % bei MMMU Pro - multimodales Denken mit Bildern

940 Codeforces ELO - Competitive-Programming-Fähigkeit

Benchmark-Vergleich

E4B im Vergleich zur Gemma 4 Familie und Gemma 3

Gemma 4 E4B liefert starke Edge-Leistung, während die größeren Modelle anspruchsvollere Aufgaben übernehmen.

Benchmark	Gemma 4 E4B IT Thinking Empfohlen	Gemma 4 E2B IT Thinking	Gemma 4 31B IT Thinking	Gemma 3 27B IT
MMLU Pro Wissen & logisches Denken	69,4 %	60,0 %	85,2 %	67,6 %
AIME 2026 Mathematik Ohne Tools	42,5 %	37,5 %	89,2 %	20,8 %
GPQA Diamond Naturwissenschaften	58,6 %	43,4 %	84,3 %	42,4 %
LiveCodeBench v6 Competitive Coding	52,0 %	44,0 %	80,0 %	29,1 %
Codeforces ELO Competitive Programming	940	633	2150	-
MMMU Pro Multimodales Denken	52,6 %	44,2 %	76,9 %	49,7 %
MATH-Vision Visuelles mathematisches Denken	59,5 %	52,4 %	85,6 %	-
Audio Support Native Audio-Eingabe	Ja	Ja	Nein	Nein
Context Window Maximale Token-Anzahl	128K	128K	256K	128K

Benchmark-Ergebnisse aus der offiziellen Gemma 4 Model Card. Die E4B-Benchmarks zeigen außergewöhnliche Effizienz für die Parameteranzahl.

Native Audio

Sprachverständnis ohne Transkriptionspipeline

Gemma 4 E4B enthält einen USM-style Conformer Audio-Encoder, der Sprache und Audio direkt verarbeitet. Kein separates ASR-Modell nötig - einfach Audio eingeben und intelligente Antworten erhalten.

~300M Parameter Conformer Audio-Encoder direkt im Modell integriert
Verarbeitung von Audioclips bis zu 30 Sekunden
Ideal für Sprachassistenten, Audioanalyse und Barrierefreiheits-Tools

Audio-Eingabe testen Dokumentation ansehen

Sprachverständnis ohne Transkriptionspipeline

Edge Deployment

Vom Browser über das Smartphone bis zum Raspberry Pi

Gemma 4 E4B ist für den Einsatz überall konzipiert. Nutzen Sie es in Chrome mit WebGPU über transformers.js, auf Smartphones mit ONNX oder auf Laptops mit Ollama. Ab nur 5,5 GB VRAM bei 4-Bit-Quantisierung.

Browser: transformers.js mit WebGPU-Beschleunigung in Chrome
Mobil: ONNX-Checkpoints für iOS- und Android-Deployment
Lokal: Ollama, llama.cpp, MLX für private On-Device-Inferenz

Im Browser testen Für lokale Nutzung herunterladen

Vom Browser über das Smartphone bis zum Raspberry Pi

Vision & Dokumente

Bildverständnis und Dokumentenanalyse auf dem Gerät

Der ~150M Vision-Encoder verarbeitet Bilder mit variablen Seitenverhältnissen und konfigurierbaren Token-Budgets. Starke OCR- und Dokumentenverständnis-Fähigkeiten machen ihn praktisch für die On-Device-Dokumentenanalyse.

52,6 % bei MMMU Pro - multimodales Denken
Variable Bildauflösung: 70 bis 1120 Token pro Bild
Dokumentenanalyse, OCR, Diagrammverständnis auf dem Gerät

Vision-Aufgaben testen Beispiele ansehen

Bildverständnis und Dokumentenanalyse auf dem Gerät

Erste Schritte

Gemma 4 E4B jetzt ausprobieren

Starten Sie sofort einen Chat oder laden Sie das Modell für den privaten On-Device-Einsatz herunter.

Chat starten

Chatten Sie sofort mit Gemma 4 E4B - keine Einrichtung nötig

Überblick ansehen

Offizielles Gemma 4 Einführungsvideo

Model Card

Vollständige technische Spezifikationen und Benchmarks

Dokumentation

Integrationsleitfäden und Best Practices

Gewichte herunterladen

On-Device Deployment

Laden Sie die offiziellen Modellgewichte für Edge- und lokales Deployment herunter.

Hugging Face

Offizielles Gemma 4 E4B Modell-Repository

Kaggle

Download über Kaggle Models

Ollama

Lokal ausführen mit Ollama

Edge-Plattformen

Browser- und Mobil-Deployment

Deployment auf Edge-Geräten, in Browsern und auf mobilen Plattformen.

transformers.js

Im Browser mit WebGPU-Beschleunigung ausführen

ONNX Runtime

Plattformübergreifendes Edge-Deployment

MLX

Optimiert für Apple Silicon

llama.cpp

Effiziente CPU- und GPU-Inferenz

Teil von Gemma 4

Das Edge-Modell einer Spitzenklasse-Familie

Gemma 4 E4B ist das empfohlene Edge-Modell der Gemma 4 Familie. Wechseln Sie zu 26B MoE oder 31B Dense für mehr Leistung, oder zu E2B für den kleinsten Speicherbedarf.

Alle Modelle entdecken Offizielle Seite

Gemma 4 E2B

Ultrakompaktes 2,3B-Modell für die engsten Hardware-Beschränkungen

Vergleichen

Gemma 4 26B

MoE-Modell mit nahezu 31B-Qualität bei 4B-Inferenzkosten

Mehr erfahren

Gemma 4 31B

Flaggschiff-Dense-Modell für maximale Leistung

Mehr erfahren

Dokumentation

Vollständige Leitfäden für Integration und Deployment

Docs lesen

Community

Werden Sie Teil der Entwickler-Community rund um Gemma

Entdecken

Model Card

Technische Spezifikationen und Evaluierungsergebnisse

Details ansehen

Erste Schritte

Bereit, KI auf Ihrem Gerät mit Gemma 4 E4B auszuführen?

Starten Sie kostenlos einen Chat oder laden Sie das Modell für privates On-Device-Deployment herunter. Keine Daten verlassen Ihr Gerät.

Kostenlos chatten Gewichte herunterladen

4,5 Milliarden Parameter On-Device-Intelligenz mit nativer Audio-Verarbeitung

Multimodale Intelligenz im Taschenformat

Instruction-tuned für den Edge-Einsatz

4,5 Mrd. effektive Parameter, 8 Mrd. gesamt mit Embeddings

E4B Instruct

E4B Base

Desktop-Intelligenz auf Edge-Hardware

Native Audio-Eingabe

Starkes logisches Denken

Leistungsfähige Programmierung

128K-Kontextfenster

Bildverständnis

Überall einsetzbar

Edge-Leistungskennzahlen

Übertrifft deutlich seine Gewichtsklasse

E4B im Vergleich zur Gemma 4 Familie und Gemma 3

Sprachverständnis ohne Transkriptionspipeline

Vom Browser über das Smartphone bis zum Raspberry Pi

Bildverständnis und Dokumentenanalyse auf dem Gerät

Gemma 4 E4B jetzt ausprobieren

On-Device Deployment

Browser- und Mobil-Deployment

Das Edge-Modell einer Spitzenklasse-Familie

Gemma 4 E2B

Gemma 4 26B

Gemma 4 31B

Dokumentation

Community

Model Card

Bereit, KI auf Ihrem Gerät mit Gemma 4 E4B auszuführen?