Gemma 4: Führende Multimodale Intelligenz, die Sie überall ausführen können

Überblick

Vier Modelle, eine Familie: Von Edge bis Server-Grade Performance

Veröffentlicht am 2. April 2026 unter Apache 2.0, liefert Gemma 4 erstklassige multimodale Intelligenz über vier Architekturen. Von ultramobilen 2B Edge-Modellen bis zur dichten 31B Flaggschiff-Variante verarbeitet jede Größe nativ Text, Bilder mit variabler Auflösung, Video und Audio.

Edge-Modelle

Gemma 4 E2B & E4B: On-Device-Intelligenz

Ultrakompakte Modelle mit 2,3B und 4,5B effektiven Parametern, entwickelt für Pixel, Chrome und Browser-Deployment mit nativer Audio-Unterstützung und 128K Kontext.

Die E2B- und E4B-Varianten verwenden Per-Layer Embeddings (PLE), um die Parametereffizienz zu maximieren. Sie unterstützen nativ Text-, Bild-, Video- und Audio-Eingaben und sind ideal für datenschutzorientierte On-Device-Anwendungen.

E4B kostenlos testen Mehr erfahren

Server-Modelle

Gemma 4 31B Dense & 26B MoE: Führende Leistung

Das 31B Dense-Modell belegt Platz 3 im Arena AI Leaderboard mit 89,2% bei AIME 2026. Das 26B MoE aktiviert nur 4B Parameter pro Token bei ähnlicher Qualität.

Beide Modelle verfügen über 256K Kontextfenster, native Funktionsaufrufe und konfigurierbare Denkmodi. Das 31B erreicht 85,2% bei MMLU Pro und 80% bei LiveCodeBench v6 und konkurriert mit Modellen, die um ein Vielfaches größer sind.

Benchmarks ansehen Auf Hugging Face ansehen

Funktionen

Native Multimodalität

Alle Modelle verarbeiten nativ Text, Bilder mit variablen Seitenverhältnissen, Video und Audio. E2B und E4B enthalten Audio-Encoder für Sprachverständnis.

Der Vision-Encoder verwendet gelernte 2D-Positionen und mehrdimensionales RoPE und bewahrt die ursprünglichen Seitenverhältnisse. Bilder können in verschiedene Token-Budgets (70, 140, 280, 560, 1120) kodiert werden für optimale Geschwindigkeits-Qualitäts-Kompromisse.

Alle Modelle

Beispiele ansehen

Architektur

Erweiterte Kontextfenster

Kleine Modelle verfügen über 128K Kontext, während mittlere Modelle 256K unterstützen. Duale RoPE-Konfigurationen ermöglichen längere Kontextverarbeitung.

Alternierende lokale Sliding-Window (512-1024 Token) und globale Full-Context-Attention-Layer optimieren die Speichernutzung. Gemeinsamer KV-Cache reduziert Rechenaufwand und Speicher für Long-Context-Generierung.

128K-256K

Features

Konfigurierbares Denken

Alle Modelle unterstützen konfigurierbare Denkmodi für fortgeschrittene Reasoning-Aufgaben mit nativer System-Prompt-Unterstützung für strukturierte Konversationen.

Das 31B-Modell erreicht 89,2% bei AIME 2026 Math Reasoning und 84,3% bei GPQA Diamond. Integrierte Funktionsaufrufe ermöglichen autonome Agenten ohne Fine-Tuning.

Alle Modelle

Performance

Coding & Agentische Leistung

Das 31B-Modell erreicht 80% bei LiveCodeBench v6 und 2150 Codeforces ELO. Das 26B MoE erreicht 77,1% mit nur 4B aktiven Parametern.

Bemerkenswerte Verbesserungen bei Coding-Benchmarks zusammen mit integrierter Funktionsaufruf-Unterstützung ermöglichen hochfähige autonome Agenten. HLE-Benchmark zeigt 19,5% ohne Tools, 26,5% mit Suche.

Optimiert

Benchmarks ansehen

Multimodal

Vision & Dokumentenanalyse

Das 31B-Modell erreicht 76,9% bei MMMU Pro und 85,6% bei MATH-Vision. OmniDocBench Edit-Distanz von 0,131 zeigt starke OCR-Fähigkeiten.

Variable Seitenverhältnis-Unterstützung und konfigurierbare Bild-Token-Budgets ermöglichen effiziente Verarbeitung von Dokumenten, Diagrammen und Screenshots. Das E4B-Modell erreicht 52,6% bei MMMU Pro trotz seiner kompakten Größe.

Alle Modelle

Integration

Überall bereitstellen

Tag-0-Unterstützung für transformers, llama.cpp, MLX, WebGPU, Mistral.rs und mehr. ONNX-Checkpoints ermöglichen Edge-Device-Deployment.

Apache 2.0-Lizenz erlaubt verantwortungsvolle kommerzielle Nutzung. Verfügbar auf Kaggle, Hugging Face und über Google AI Studio. Kompatibel mit lokalen Tools wie Ollama für private, Offline-Interaktionen.

Open Source

Erste Schritte

Starten Sie heute mit Gemma 4 zu chatten

Erleben Sie Google DeepMinds führende multimodale Modelle kostenlos. Keine Kreditkarte erforderlich, um Ihr erstes Gespräch zu beginnen.

Kostenlosen Chat starten Preise ansehen

Einführung

Ansehen: Offizielle Gemma 4-Einführung

Erfahren Sie mehr über die vier Modellarchitekturen, native multimodale Funktionen und Deployment-Optionen von Google DeepMind.

Performance

Führende Leistung bei Reasoning, Coding und Vision

Gemma 4-Modelle bilden eine Pareto-Front und liefern außergewöhnliche Leistung im Verhältnis zu ihrer Größe. Das 31B Dense-Modell belegt Platz 3 unter allen offenen Modellen im Arena AI Leaderboard.

Offizielle Benchmarks zeigen wettbewerbsfähige Leistung mit Modellen, die um ein Vielfaches größer sind. Das 31B-Modell erreicht 89,2% bei AIME 2026 Math Reasoning, während das 26B MoE ähnliche Qualität mit nur 4B aktiven Parametern erreicht.

Jetzt testen Technische Details lesen

Gemma 4 Leistungsvergleich über Modellgrößen und Benchmarks

Das 31B-Modell erreicht 89,2% bei AIME 2026 und 85,2% bei MMLU Pro und konkurriert mit Modellen über 100B Parametern.

Coding-Performance erreicht 80% bei LiveCodeBench v6 und 2150 Codeforces ELO, vor vielen größeren Modellen.

Vision-Fähigkeiten umfassen 76,9% bei MMMU Pro und 85,6% bei MATH-Vision mit starkem OCR und Dokumentenverständnis.

Offizielle Benchmarks

Gemma 4-Leistung über Schlüsselaufgaben

Umfassende Evaluierung über Reasoning-, Coding-, Vision-, Audio- und Long-Context-Aufgaben zeigt erstklassige Fähigkeiten.

Benchmark	Gemma 4 31B Dense Flaggschiff 31B	Gemma 4 26B A4B MoE (4B aktiv) 26B	Gemma 4 E4B Edge-Modell E4B	Gemma 4 E2B Ultrakompakt E2B
MMLU Pro Wissen & Reasoning	85,2%	82,6%	69,4%	60,0%
AIME 2026 (ohne Tools) Math Reasoning	89,2%	88,3%	42,5%	37,5%
GPQA Diamond Wissenschaft auf Graduiertenniveau	84,3%	82,3%	58,6%	43,4%
LiveCodeBench v6 Coding-Performance	80,0%	77,1%	52,0%	44,0%
Codeforces ELO Wettbewerbsprogrammierung	2150	1718	940	633
MMMU Pro Multimodales Verständnis	76,9%	73,8%	52,6%	44,2%
MATH-Vision Visuelles Math Reasoning	85,6%	82,4%	59,5%	52,4%
OmniDocBench 1.5 Dokument-OCR (Edit-Distanz)	0,131	0,149	0,181	0,290
Kontextfenster Maximale Token	256K	256K	128K	128K
Audio-Unterstützung Native Audio-Eingabe	Nein	Nein	Ja	Ja

Alle Zahlen aus der offiziellen Gemma 4-Modellkarte und dem Hugging Face-Blog. E2B- und E4B-Benchmarks zeigen außergewöhnliche Effizienz für ihre Parameteranzahl.

Server-Modelle

31B Dense & 26B MoE: Führende Leistung für Produktion

Das 31B Dense-Modell belegt Platz 3 im Arena AI Leaderboard mit 89,2% bei AIME 2026. Das 26B MoE aktiviert nur 4B Parameter pro Token bei ähnlicher Qualität, ideal für High-Throughput-Szenarien.

31B Dense: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 Codeforces ELO
26B MoE (4B aktiv): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
256K Kontextfenster mit dualen RoPE-Konfigurationen für effiziente Long-Context-Verarbeitung

26B-Modell testen Auf Hugging Face ansehen

Edge-Modelle

E2B & E4B: On-Device-Intelligenz mit Audio-Unterstützung

Ultrakompakte Modelle mit 2,3B und 4,5B effektiven Parametern, entwickelt für Pixel, Chrome und Browser-Deployment. Native Audio-Encoder ermöglichen Echtzeit-Sprachverständnis auf dem Gerät.

E2B (2,3B effektiv, 5,1B mit Embeddings): 60% MMLU Pro, 44% LiveCodeBench, 128K Kontext
E4B (4,5B effektiv, 8B mit Embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, 128K Kontext
Per-Layer Embeddings (PLE) maximieren Parametereffizienz für Edge-Deployment

Im Browser testen transformers.js Demo

Architektur

Per-Layer Embeddings und Shared KV Cache

Gemma 4 führt Architekturinnovationen ein, die die Effizienz maximieren. PLE gibt jeder Decoder-Schicht ihren eigenen Konditionierungspfad, während Shared KV Cache die Speichernutzung während der Long-Context-Generierung reduziert.

Per-Layer Embeddings fügen bedeutungsvolle Spezialisierung bei moderaten Parameterkosten hinzu
Shared KV Cache: Die letzten N Schichten verwenden Key-Value-Zustände wieder und eliminieren redundante Projektionen
Alternierende lokale Sliding-Window- und globale Full-Context-Attention für optimale Speichernutzung

Technische Details

Multimodal

Natives Bild-, Video- und Audio-Verständnis

Variable Seitenverhältnis-Unterstützung bewahrt ursprüngliche Bildabmessungen
Konfigurierbare Bild-Token-Budgets: 70, 140, 280, 560, 1120 Token
E2B und E4B enthalten USM-Style Conformer Audio-Encoder für Sprachverarbeitung

Multimodalen Chat testen Beispiele ansehen

Gemma 4 Multimodal-Benchmark-Performance

Deployment

Überall bereitstellen: Browser, Lokal oder Cloud

Tag-0-Unterstützung für transformers, llama.cpp, MLX, WebGPU, Mistral.rs und mehr. E2B und E4B laufen in Browsern mit transformers.js, während 31B und 26B auf Server-Hardware glänzen.

Browser: transformers.js ermöglicht E2B/E4B in Chrome mit WebGPU-Beschleunigung
Lokal: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs für private Inferenz
Cloud: Google AI Studio, Vertex AI oder selbst gehostet mit vLLM und TGI

Kostenlos starten Auf GitHub ansehen

Gemma 4 Deployment-Optionen und Performance

FAQ

Modellarchitektur und Funktionen

Verstehen Sie die technischen Innovationen von Gemma 4, von Per-Layer Embeddings bis zur multimodalen Verarbeitung.

Was unterscheidet Gemma 4 von früheren Gemma-Versionen?

Gemma 4 führt native multimodale Unterstützung (Text, Bild, Video, Audio), erweiterte Kontextfenster (128K-256K), konfigurierbare Denkmodi und integrierte Funktionsaufrufe ein. Die Architektur verwendet Per-Layer Embeddings (PLE) für Effizienz und Shared KV Cache zur Reduzierung der Speichernutzung während der Long-Context-Generierung.

Was sind die vier Gemma 4-Modellgrößen und wann sollte ich welche verwenden?

E2B (2,3B effektiv) und E4B (4,5B effektiv) sind für Edge-Geräte, Browser und Mobile mit nativer Audio-Unterstützung konzipiert. Das 26B A4B ist ein Mixture-of-Experts-Modell, das nur 4B Parameter pro Token aktiviert, ideal für High-Throughput-Szenarien. Das 31B Dense-Modell ist das Flaggschiff für maximale Leistung bei Reasoning-, Coding- und Vision-Aufgaben.

Wie verarbeitet Gemma 4 multimodale Eingaben?

Alle Modelle verarbeiten nativ Text und Bilder mit variablen Seitenverhältnissen. Der Vision-Encoder verwendet gelernte 2D-Positionen und kann Bilder in verschiedene Token-Budgets (70-1120 Token) für Geschwindigkeits-Qualitäts-Kompromisse kodieren. E2B und E4B enthalten USM-Style Conformer Audio-Encoder für Sprachverständnis. Video wird in der gesamten Familie durch Verarbeitung von Frames und Audio-Tracks unterstützt.

Was sind Per-Layer Embeddings (PLE) und warum sind sie wichtig?

PLE gibt jeder Decoder-Schicht ihr eigenes kleines Embedding für jedes Token und schafft einen parallelen Konditionierungspfad neben dem Haupt-Residual-Stream. Dies ermöglicht es jeder Schicht, token-spezifische Informationen nur bei Bedarf zu erhalten, anstatt alles in ein einziges Upfront-Embedding zu packen. Es fügt bedeutungsvolle schichtweise Spezialisierung bei moderaten Parameterkosten hinzu und macht kleine Modelle effizienter.

FAQ

Deployment und Integration

Erste Schritte mit Gemma 4 auf verschiedenen Plattformen, von Cloud bis Edge-Geräten.

Wo kann ich Gemma 4-Modelle herunterladen und ausführen?

Gemma 4-Modelle sind auf Kaggle und Hugging Face unter Apache 2.0-Lizenz verfügbar. Sie können sie über Google AI Studio verwenden, auf Vertex AI bereitstellen oder lokal mit Tools wie Ollama, llama.cpp, MLX (für Apple Silicon), transformers und Mistral.rs ausführen. ONNX-Checkpoints ermöglichen Browser- und Edge-Device-Deployment.

Was sind die Hardware-Anforderungen für die Ausführung von Gemma 4?

E2B benötigt ~9,6GB (BF16) bis 3,2GB (4-Bit) VRAM. E4B benötigt ~15GB (BF16) bis 5GB (4-Bit). Das 31B-Modell benötigt ~58GB (BF16) bis 17GB (4-Bit). Das 26B MoE benötigt ~48GB (BF16) bis 16GB (4-Bit). Dies sind nur Basis-Gewichte; fügen Sie Speicher für Kontextfenster (KV-Cache) basierend auf Ihrem Anwendungsfall hinzu.

Kann ich Gemma 4 im Browser oder auf mobilen Geräten ausführen?

Ja. Die E2B- und E4B-Modelle sind speziell für Browser- und Mobile-Deployment konzipiert. transformers.js ermöglicht die Ausführung von Gemma 4 direkt in Browsern mit WebGPU-Unterstützung. ONNX-Checkpoints funktionieren auf verschiedenen Edge-Hardware-Backends. Die Modelle sind für Pixel-Geräte und Chrome-Browser-Umgebungen optimiert.

Wie verwende ich Gemma 4 mit Funktionsaufrufen und Agenten?

Gemma 4 verfügt über integrierte Funktionsaufruf-Unterstützung ohne Fine-Tuning. Die Modelle können Tool-Definitionen parsen, strukturierte JSON-Aufrufe generieren und multimodale Funktionsaufrufe verarbeiten (z.B. ein Bild analysieren und eine Wetter-API aufrufen). Dies ermöglicht autonome Agenten für Aufgaben wie Code-Ausführung, Web-Browsing und Datenabruf.

FAQ

Performance und Vergleiche

Wie Gemma 4 im Vergleich zu anderen Modellen abschneidet und was es für verschiedene Anwendungsfälle wettbewerbsfähig macht.

Wie schneidet Gemma 4 31B im Vergleich zu größeren Modellen wie Llama 3.3 70B ab?

Das 31B-Modell belegt Platz 3 im Arena AI Leaderboard unter offenen Modellen, vor Llama 3.3 70B, obwohl es weniger als halb so groß ist. Es erreicht 89,2% bei AIME 2026 Math Reasoning, 85,2% bei MMLU Pro und 80% bei LiveCodeBench v6. Die Effizienz kommt von Architekturinnovationen wie alternierenden Attention-Mustern und Shared KV Cache.

Was ist die Mixture-of-Experts (MoE)-Architektur im 26B-Modell?

Das 26B A4B-Modell hat 26 Milliarden Gesamtparameter, aktiviert aber nur 4 Milliarden pro Token während der Generierung. Alle 26B Parameter müssen für schnelles Routing in den Speicher geladen werden, aber die Inferenzkosten liegen näher an einem 4B-Modell. Dies erreicht 88,3% bei AIME 2026 und 82,6% bei MMLU Pro mit deutlich geringerer Berechnung pro Token als das dichte 31B-Modell.

Kann Gemma 4 lange Dokumente und erweiterten Kontext verarbeiten?

Ja. Kleine Modelle unterstützen 128K Kontextfenster, während mittlere Modelle 256K Token verarbeiten. Die Architektur verwendet duale RoPE-Konfigurationen (Standard für Sliding-Schichten, beschnitten für globale Schichten), um längeren Kontext zu ermöglichen. Shared KV Cache reduziert den Speicherverbrauch während der Long-Context-Generierung und macht die Verarbeitung ganzer Codebasen und Forschungsarbeiten praktikabel.

Wo finde ich Fine-Tuning-Beispiele und Trainingsressourcen?

Gemma 4 wird vollständig in TRL (Transformer Reinforcement Learning) unterstützt, mit Beispielen für multimodale Tool-Antworten und Umgebungsinteraktion. Hugging Face bietet Fine-Tuning-Leitfäden für Vertex AI mit SFT. Unsloth Studio bietet eine UI-basierte Fine-Tuning-Erfahrung. Die Modelle unterstützen PEFT-Methoden wie LoRA für parametereffizientes Training.

Gemma 4: Führende Multimodale Intelligenz, die Sie überall ausführen können

Vier Modelle, eine Familie: Von Edge bis Server-Grade Performance

Gemma 4 E2B & E4B: On-Device-Intelligenz

Gemma 4 31B Dense & 26B MoE: Führende Leistung

Native Multimodalität

Erweiterte Kontextfenster

Konfigurierbares Denken

Coding & Agentische Leistung

Vision & Dokumentenanalyse

Überall bereitstellen

Starten Sie heute mit Gemma 4 zu chatten

Ansehen: Offizielle Gemma 4-Einführung

Gemma 4: Von Edge bis Cloud

Führende Leistung bei Reasoning, Coding und Vision

Gemma 4-Leistung über Schlüsselaufgaben

31B Dense & 26B MoE: Führende Leistung für Produktion

E2B & E4B: On-Device-Intelligenz mit Audio-Unterstützung

Per-Layer Embeddings und Shared KV Cache

Natives Bild-, Video- und Audio-Verständnis

Überall bereitstellen: Browser, Lokal oder Cloud

Modellarchitektur und Funktionen

Deployment und Integration

Performance und Vergleiche