Gemma 4 Modelle
Vier Modelle, eine Familie - von Edge bis Frontier
Die Gemma 4 Familie umfasst vier Architekturen: die ultrakompakten E2B und E4B für Edge-Geräte, das 26B MoE für effizientes Server-Deployment und das Flaggschiff 31B Dense. Alle teilen native multimodale Unterstützung, konfigurierbares Denken und Apache 2.0 Lizenzierung.
Alle Modelle
Wählen Sie das richtige Gemma 4 für Ihren Einsatzzweck
Jedes Modell der Familie ist für unterschiedliche Deployment-Szenarien optimiert. Edge-Modelle bieten Audio-Unterstützung, während Server-Modelle 256K Kontext und Frontier-Reasoning bereitstellen.
Edge-Modelle
E2B & E4B: On-Device-Intelligenz mit Audio
Ultrakompakte Modelle mit 2.3B und 4.5B effektiven Parametern. Beide verfügen über native Audio-Encoder, 128K Kontext und laufen auf Smartphones, Browsern und IoT-Geräten.
Wählen Sie E2B für den kleinsten Speicherbedarf (3.2GB bei 4-Bit). Wählen Sie E4B für bessere Qualität (5.5GB bei 4-Bit). Beide unterstützen Text-, Bild-, Video- und Audio-Eingabe.
Server-Modelle
26B MoE & 31B Dense: Frontier-Leistung
Das 26B MoE aktiviert nur 4B Parameter pro Token für effizientes Serving. Das 31B Dense ist das Flaggschiff mit Platz 3 im Arena AI Ranking. Beide bieten 256K Kontext und natives Function Calling.
Wählen Sie 26B für Hochdurchsatz-Produktion (16GB bei 4-Bit). Wählen Sie 31B für maximale Qualität (17GB bei 4-Bit). Beide glänzen bei Reasoning, Coding und multimodalen Aufgaben.
Edge - Ultrakompakt
Gemma 4 E2B
2.3B effektive Parameter. Das kleinste Gemma 4 mit vollständiger multimodaler + Audio-Unterstützung.
35 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 3.2GB VRAM bei 4-Bit.
Edge - Empfohlen
Gemma 4 E4B
4.5B effektive Parameter. Bestes Edge-Modell mit starkem Reasoning und Audio-Unterstützung.
42 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 5.5GB VRAM bei 4-Bit.
Server - Effizient
Gemma 4 26B A4B
25.2B gesamt, 3.8B aktiv pro Token. Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung.
MoE mit 128 Experten (8 aktiv + 1 geteilt). 256K Kontext. 16GB VRAM bei 4-Bit.
Server - Flaggschiff
Gemma 4 31B
30.7B Dense-Parameter. Platz 3 bei Arena AI. Maximale Intelligenz und Zuverlässigkeit.
Dense-Architektur, 256K Kontext, 140+ Sprachen. 17GB VRAM bei 4-Bit.
Gemeinsame Fähigkeiten
Was jedes Gemma 4 Modell kann
Alle vier Modelle teilen einen gemeinsamen Satz an Fähigkeiten, die die Gemma 4 Familie einzigartig vielseitig machen.
Natives Multimodal
Alle Modelle verarbeiten Text und Bilder nativ. Edge-Modelle unterstützen zusätzlich Audio und Video. Keine separaten Encoder oder Pipelines erforderlich.
Konfigurierbares Denken
Alle Modelle unterstützen Denkmodi für schrittweises Reasoning. Steuern Sie die Tiefe des Reasonings basierend auf der Aufgabenkomplexität.
Function Calling
Integriertes Function Calling in der gesamten Familie ermöglicht agentische Workflows. Kein Fine-Tuning für die Werkzeugnutzung erforderlich.
Erweiterter Kontext
128K Token für Edge-Modelle, 256K für Server-Modelle. Hybride Attention hält den Speicherverbrauch praktikabel.
140+ Sprachen
Mehrsprachige Unterstützung mit kulturellem Kontextverständnis über alle Modellgrößen hinweg.
Apache 2.0 Lizenz
Volle kommerzielle Freiheit. Keine MAU-Beschränkungen, keine Nutzungseinschränkungen. Überall einsetzbar, frei modifizierbar.
Schnellauswahl-Leitfaden
Welches Modell sollten Sie wählen?
Ordnen Sie Ihre Deployment-Anforderungen und Qualitätsansprüche der richtigen Gemma 4 Variante zu.
Nach Hardware
- Smartphone / IoT / 4GB RAM: Gemma 4 E2B
- Laptop / 8-16GB RAM: Gemma 4 E4B
- Einzelne GPU / 16-24GB VRAM: Gemma 4 26B A4B
- Multi-GPU / 24GB+ VRAM: Gemma 4 31B
Nach Einsatzzweck
- Sprachassistent / Audio: E2B oder E4B (Audio-Unterstützung)
- Browserbasierte KI: E2B oder E4B (WebGPU)
- Hochdurchsatz-API: 26B A4B (MoE-Effizienz)
- Maximale Qualität: 31B Dense (Frontier-Leistung)
Leistung
Vollständiger Benchmark-Vergleich aller vier Modelle
Jedes Gemma 4 Modell bildet einen Teil der Pareto-Frontier - jede Größe liefert außergewöhnliche Leistung im Verhältnis zu ihrer Parameterzahl.
Vom ultrakompakten E2B bis zum Flaggschiff 31B ist jedes Modell für seine Deployment-Stufe optimiert und teilt dabei die gleichen architektonischen Innovationen.


31B Dense: Platz 3 bei Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE: Nahezu 31B-Qualität (ELO 1441) mit nur 4B aktiven Parametern pro Token
E4B: 69.4% MMLU Pro, 52% LiveCodeBench - starke Edge-Leistung mit Audio
E2B: 60% MMLU Pro, 44% LiveCodeBench - leistungsfähige KI bei 3.2GB VRAM
Vollständiger Familienvergleich
Alle Gemma 4 Modelle im direkten Vergleich
Vollständige Benchmark-Ergebnisse für Reasoning, Coding, Multimodal und Deployment-Metriken.
| Benchmark | 31B Dense Flaggschiff 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Kompakt E2B |
|---|---|---|---|---|
Arena AI ELO Gesamtranking | 1452 | 1441 | - | - |
MMLU Pro Wissen & Reasoning | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Mathematik | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Coding | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Wissenschaft | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Maximale Token | 256K | 256K | 128K | 128K |
Audio Support Natives Audio | No | No | Yes | Yes |
VRAM (4-bit) Minimaler Speicher | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Alle Zahlen aus der offiziellen Gemma 4 Modellkarte. Arena AI Scores vom 2. April 2026.
Edge-Stufe
E2B & E4B: KI, die auf Ihrem Gerät läuft
Die Edge-Modelle bringen vollständige multimodale KI auf Smartphones, Browser und IoT-Geräte. Beide verfügen über native Audio-Encoder - eine Fähigkeit, die den größeren Modellen fehlt. Wählen Sie E2B für den kleinsten Speicherbedarf, E4B für bessere Qualität.
- E2B: 2.3B effektiv, 3.2GB bei 4-Bit, 95 tok/s auf Consumer-Hardware
- E4B: 4.5B effektiv, 5.5GB bei 4-Bit, starkes Reasoning und Coding
- Beide: natives Audio, 128K Kontext, WebGPU-Browser-Unterstützung
Server-Stufe
26B MoE & 31B Dense: Frontier-Leistung
Die Server-Modelle liefern Frontier-Reasoning, Coding und multimodales Verständnis. Das 26B MoE bietet nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Das 31B Dense ist das Flaggschiff für maximale Leistung.
- 26B MoE: 3.8B aktiv pro Token, ELO 1441, 88.3% AIME 2026
- 31B Dense: Volle 30.7B aktiv, ELO 1452, 89.2% AIME 2026
- Beide: 256K Kontext, natives Function Calling, 140+ Sprachen
Architektur
Gemeinsame Innovationen in der gesamten Familie
Alle Gemma 4 Modelle teilen zentrale architektonische Innovationen aus der Forschung von Google DeepMind. Per-Layer Embeddings, geteilter KV-Cache und hybride Attention-Muster maximieren die Effizienz auf jeder Skala.
- Per-Layer Embeddings (PLE) für parametereffiziente Konditionierung
- Geteilter KV-Cache reduziert den Speicher bei Long-Context-Generierung
- Hybride lokale/globale Attention für optimalen Speicher-Qualitäts-Kompromiss

Jetzt testen
Mit jedem Gemma 4 Modell chatten
Testen Sie alle Modelle sofort über unsere Chat-Oberfläche oder laden Sie sie für lokales Deployment herunter.
Herunterladen
Modellgewichte herunterladen
Laden Sie die offiziellen Gewichte für jede Gemma 4 Variante herunter.
Bereitstellen
Produktions-Deployment
Bereitstellung auf Cloud-, lokalen oder Edge-Plattformen.
Gemma 4 Familie
Jedes Modell im Detail erkunden
Tauchen Sie tiefer in jede Gemma 4 Variante ein - mit eigenen Seiten zu Architektur, Benchmarks und Deployment-Leitfäden.
Erste Schritte
Finden Sie Ihr Gemma 4 Modell
Chatten Sie kostenlos mit jedem Gemma 4 Modell oder laden Sie die Gewichte für lokales Deployment herunter. Apache 2.0 lizenziert für volle kommerzielle Freiheit.