Überblick
Veröffentlicht am 2. April 2026 unter Apache 2.0, liefert Gemma 4 erstklassige multimodale Intelligenz über vier Architekturen. Von ultramobilen 2B Edge-Modellen bis zur dichten 31B Flaggschiff-Variante verarbeitet jede Größe nativ Text, Bilder mit variabler Auflösung, Video und Audio.
Edge-Modelle
Ultrakompakte Modelle mit 2,3B und 4,5B effektiven Parametern, entwickelt für Pixel, Chrome und Browser-Deployment mit nativer Audio-Unterstützung und 128K Kontext.
Die E2B- und E4B-Varianten verwenden Per-Layer Embeddings (PLE), um die Parametereffizienz zu maximieren. Sie unterstützen nativ Text-, Bild-, Video- und Audio-Eingaben und sind ideal für datenschutzorientierte On-Device-Anwendungen.
Server-Modelle
Das 31B Dense-Modell belegt Platz 3 im Arena AI Leaderboard mit 89,2% bei AIME 2026. Das 26B MoE aktiviert nur 4B Parameter pro Token bei ähnlicher Qualität.
Beide Modelle verfügen über 256K Kontextfenster, native Funktionsaufrufe und konfigurierbare Denkmodi. Das 31B erreicht 85,2% bei MMLU Pro und 80% bei LiveCodeBench v6 und konkurriert mit Modellen, die um ein Vielfaches größer sind.
Funktionen
Alle Modelle verarbeiten nativ Text, Bilder mit variablen Seitenverhältnissen, Video und Audio. E2B und E4B enthalten Audio-Encoder für Sprachverständnis.
Der Vision-Encoder verwendet gelernte 2D-Positionen und mehrdimensionales RoPE und bewahrt die ursprünglichen Seitenverhältnisse. Bilder können in verschiedene Token-Budgets (70, 140, 280, 560, 1120) kodiert werden für optimale Geschwindigkeits-Qualitäts-Kompromisse.
Architektur
Kleine Modelle verfügen über 128K Kontext, während mittlere Modelle 256K unterstützen. Duale RoPE-Konfigurationen ermöglichen längere Kontextverarbeitung.
Alternierende lokale Sliding-Window (512-1024 Token) und globale Full-Context-Attention-Layer optimieren die Speichernutzung. Gemeinsamer KV-Cache reduziert Rechenaufwand und Speicher für Long-Context-Generierung.
Features
Alle Modelle unterstützen konfigurierbare Denkmodi für fortgeschrittene Reasoning-Aufgaben mit nativer System-Prompt-Unterstützung für strukturierte Konversationen.
Das 31B-Modell erreicht 89,2% bei AIME 2026 Math Reasoning und 84,3% bei GPQA Diamond. Integrierte Funktionsaufrufe ermöglichen autonome Agenten ohne Fine-Tuning.
Performance
Das 31B-Modell erreicht 80% bei LiveCodeBench v6 und 2150 Codeforces ELO. Das 26B MoE erreicht 77,1% mit nur 4B aktiven Parametern.
Bemerkenswerte Verbesserungen bei Coding-Benchmarks zusammen mit integrierter Funktionsaufruf-Unterstützung ermöglichen hochfähige autonome Agenten. HLE-Benchmark zeigt 19,5% ohne Tools, 26,5% mit Suche.
Multimodal
Das 31B-Modell erreicht 76,9% bei MMMU Pro und 85,6% bei MATH-Vision. OmniDocBench Edit-Distanz von 0,131 zeigt starke OCR-Fähigkeiten.
Variable Seitenverhältnis-Unterstützung und konfigurierbare Bild-Token-Budgets ermöglichen effiziente Verarbeitung von Dokumenten, Diagrammen und Screenshots. Das E4B-Modell erreicht 52,6% bei MMMU Pro trotz seiner kompakten Größe.
Integration
Tag-0-Unterstützung für transformers, llama.cpp, MLX, WebGPU, Mistral.rs und mehr. ONNX-Checkpoints ermöglichen Edge-Device-Deployment.
Apache 2.0-Lizenz erlaubt verantwortungsvolle kommerzielle Nutzung. Verfügbar auf Kaggle, Hugging Face und über Google AI Studio. Kompatibel mit lokalen Tools wie Ollama für private, Offline-Interaktionen.
Erste Schritte
Erleben Sie Google DeepMinds führende multimodale Modelle kostenlos. Keine Kreditkarte erforderlich, um Ihr erstes Gespräch zu beginnen.
Einführung
Erfahren Sie mehr über die vier Modellarchitekturen, native multimodale Funktionen und Deployment-Optionen von Google DeepMind.
Performance
Gemma 4-Modelle bilden eine Pareto-Front und liefern außergewöhnliche Leistung im Verhältnis zu ihrer Größe. Das 31B Dense-Modell belegt Platz 3 unter allen offenen Modellen im Arena AI Leaderboard.
Offizielle Benchmarks zeigen wettbewerbsfähige Leistung mit Modellen, die um ein Vielfaches größer sind. Das 31B-Modell erreicht 89,2% bei AIME 2026 Math Reasoning, während das 26B MoE ähnliche Qualität mit nur 4B aktiven Parametern erreicht.


Das 31B-Modell erreicht 89,2% bei AIME 2026 und 85,2% bei MMLU Pro und konkurriert mit Modellen über 100B Parametern.
Coding-Performance erreicht 80% bei LiveCodeBench v6 und 2150 Codeforces ELO, vor vielen größeren Modellen.
Vision-Fähigkeiten umfassen 76,9% bei MMMU Pro und 85,6% bei MATH-Vision mit starkem OCR und Dokumentenverständnis.
Offizielle Benchmarks
Umfassende Evaluierung über Reasoning-, Coding-, Vision-, Audio- und Long-Context-Aufgaben zeigt erstklassige Fähigkeiten.
| Benchmark | Gemma 4 31B Dense Flaggschiff 31B | Gemma 4 26B A4B MoE (4B aktiv) 26B | Gemma 4 E4B Edge-Modell E4B | Gemma 4 E2B Ultrakompakt E2B |
|---|---|---|---|---|
MMLU Pro Wissen & Reasoning | 85,2% | 82,6% | 69,4% | 60,0% |
AIME 2026 (ohne Tools) Math Reasoning | 89,2% | 88,3% | 42,5% | 37,5% |
GPQA Diamond Wissenschaft auf Graduiertenniveau | 84,3% | 82,3% | 58,6% | 43,4% |
LiveCodeBench v6 Coding-Performance | 80,0% | 77,1% | 52,0% | 44,0% |
Codeforces ELO Wettbewerbsprogrammierung | 2150 | 1718 | 940 | 633 |
MMMU Pro Multimodales Verständnis | 76,9% | 73,8% | 52,6% | 44,2% |
MATH-Vision Visuelles Math Reasoning | 85,6% | 82,4% | 59,5% | 52,4% |
OmniDocBench 1.5 Dokument-OCR (Edit-Distanz) | 0,131 | 0,149 | 0,181 | 0,290 |
Kontextfenster Maximale Token | 256K | 256K | 128K | 128K |
Audio-Unterstützung Native Audio-Eingabe | Nein | Nein | Ja | Ja |
Alle Zahlen aus der offiziellen Gemma 4-Modellkarte und dem Hugging Face-Blog. E2B- und E4B-Benchmarks zeigen außergewöhnliche Effizienz für ihre Parameteranzahl.
Server-Modelle
Das 31B Dense-Modell belegt Platz 3 im Arena AI Leaderboard mit 89,2% bei AIME 2026. Das 26B MoE aktiviert nur 4B Parameter pro Token bei ähnlicher Qualität, ideal für High-Throughput-Szenarien.
Edge-Modelle
Ultrakompakte Modelle mit 2,3B und 4,5B effektiven Parametern, entwickelt für Pixel, Chrome und Browser-Deployment. Native Audio-Encoder ermöglichen Echtzeit-Sprachverständnis auf dem Gerät.
Architektur
Gemma 4 führt Architekturinnovationen ein, die die Effizienz maximieren. PLE gibt jeder Decoder-Schicht ihren eigenen Konditionierungspfad, während Shared KV Cache die Speichernutzung während der Long-Context-Generierung reduziert.

Multimodal
Alle Modelle verarbeiten nativ Text und Bilder mit variablen Seitenverhältnissen. Der Vision-Encoder verwendet gelernte 2D-Positionen und kann Bilder in verschiedene Token-Budgets (70-1120) für Geschwindigkeits-Qualitäts-Kompromisse kodieren.

Deployment
Tag-0-Unterstützung für transformers, llama.cpp, MLX, WebGPU, Mistral.rs und mehr. E2B und E4B laufen in Browsern mit transformers.js, während 31B und 26B auf Server-Hardware glänzen.

FAQ
Verstehen Sie die technischen Innovationen von Gemma 4, von Per-Layer Embeddings bis zur multimodalen Verarbeitung.
Gemma 4 führt native multimodale Unterstützung (Text, Bild, Video, Audio), erweiterte Kontextfenster (128K-256K), konfigurierbare Denkmodi und integrierte Funktionsaufrufe ein. Die Architektur verwendet Per-Layer Embeddings (PLE) für Effizienz und Shared KV Cache zur Reduzierung der Speichernutzung während der Long-Context-Generierung.
E2B (2,3B effektiv) und E4B (4,5B effektiv) sind für Edge-Geräte, Browser und Mobile mit nativer Audio-Unterstützung konzipiert. Das 26B A4B ist ein Mixture-of-Experts-Modell, das nur 4B Parameter pro Token aktiviert, ideal für High-Throughput-Szenarien. Das 31B Dense-Modell ist das Flaggschiff für maximale Leistung bei Reasoning-, Coding- und Vision-Aufgaben.
Alle Modelle verarbeiten nativ Text und Bilder mit variablen Seitenverhältnissen. Der Vision-Encoder verwendet gelernte 2D-Positionen und kann Bilder in verschiedene Token-Budgets (70-1120 Token) für Geschwindigkeits-Qualitäts-Kompromisse kodieren. E2B und E4B enthalten USM-Style Conformer Audio-Encoder für Sprachverständnis. Video wird in der gesamten Familie durch Verarbeitung von Frames und Audio-Tracks unterstützt.
PLE gibt jeder Decoder-Schicht ihr eigenes kleines Embedding für jedes Token und schafft einen parallelen Konditionierungspfad neben dem Haupt-Residual-Stream. Dies ermöglicht es jeder Schicht, token-spezifische Informationen nur bei Bedarf zu erhalten, anstatt alles in ein einziges Upfront-Embedding zu packen. Es fügt bedeutungsvolle schichtweise Spezialisierung bei moderaten Parameterkosten hinzu und macht kleine Modelle effizienter.
FAQ
Erste Schritte mit Gemma 4 auf verschiedenen Plattformen, von Cloud bis Edge-Geräten.
Gemma 4-Modelle sind auf Kaggle und Hugging Face unter Apache 2.0-Lizenz verfügbar. Sie können sie über Google AI Studio verwenden, auf Vertex AI bereitstellen oder lokal mit Tools wie Ollama, llama.cpp, MLX (für Apple Silicon), transformers und Mistral.rs ausführen. ONNX-Checkpoints ermöglichen Browser- und Edge-Device-Deployment.
E2B benötigt ~9,6GB (BF16) bis 3,2GB (4-Bit) VRAM. E4B benötigt ~15GB (BF16) bis 5GB (4-Bit). Das 31B-Modell benötigt ~58GB (BF16) bis 17GB (4-Bit). Das 26B MoE benötigt ~48GB (BF16) bis 16GB (4-Bit). Dies sind nur Basis-Gewichte; fügen Sie Speicher für Kontextfenster (KV-Cache) basierend auf Ihrem Anwendungsfall hinzu.
Ja. Die E2B- und E4B-Modelle sind speziell für Browser- und Mobile-Deployment konzipiert. transformers.js ermöglicht die Ausführung von Gemma 4 direkt in Browsern mit WebGPU-Unterstützung. ONNX-Checkpoints funktionieren auf verschiedenen Edge-Hardware-Backends. Die Modelle sind für Pixel-Geräte und Chrome-Browser-Umgebungen optimiert.
Gemma 4 verfügt über integrierte Funktionsaufruf-Unterstützung ohne Fine-Tuning. Die Modelle können Tool-Definitionen parsen, strukturierte JSON-Aufrufe generieren und multimodale Funktionsaufrufe verarbeiten (z.B. ein Bild analysieren und eine Wetter-API aufrufen). Dies ermöglicht autonome Agenten für Aufgaben wie Code-Ausführung, Web-Browsing und Datenabruf.
FAQ
Wie Gemma 4 im Vergleich zu anderen Modellen abschneidet und was es für verschiedene Anwendungsfälle wettbewerbsfähig macht.
Das 31B-Modell belegt Platz 3 im Arena AI Leaderboard unter offenen Modellen, vor Llama 3.3 70B, obwohl es weniger als halb so groß ist. Es erreicht 89,2% bei AIME 2026 Math Reasoning, 85,2% bei MMLU Pro und 80% bei LiveCodeBench v6. Die Effizienz kommt von Architekturinnovationen wie alternierenden Attention-Mustern und Shared KV Cache.
Das 26B A4B-Modell hat 26 Milliarden Gesamtparameter, aktiviert aber nur 4 Milliarden pro Token während der Generierung. Alle 26B Parameter müssen für schnelles Routing in den Speicher geladen werden, aber die Inferenzkosten liegen näher an einem 4B-Modell. Dies erreicht 88,3% bei AIME 2026 und 82,6% bei MMLU Pro mit deutlich geringerer Berechnung pro Token als das dichte 31B-Modell.
Ja. Kleine Modelle unterstützen 128K Kontextfenster, während mittlere Modelle 256K Token verarbeiten. Die Architektur verwendet duale RoPE-Konfigurationen (Standard für Sliding-Schichten, beschnitten für globale Schichten), um längeren Kontext zu ermöglichen. Shared KV Cache reduziert den Speicherverbrauch während der Long-Context-Generierung und macht die Verarbeitung ganzer Codebasen und Forschungsarbeiten praktikabel.
Gemma 4 wird vollständig in TRL (Transformer Reinforcement Learning) unterstützt, mit Beispielen für multimodale Tool-Antworten und Umgebungsinteraktion. Hugging Face bietet Fine-Tuning-Leitfäden für Vertex AI mit SFT. Unsloth Studio bietet eine UI-basierte Fine-Tuning-Erfahrung. Die Modelle unterstützen PEFT-Methoden wie LoRA für parametereffizientes Training.