Gemma 4 Modelle

Vier Modelle, eine Familie - von Edge bis Frontier

Die Gemma 4 Familie umfasst vier Architekturen: die ultrakompakten E2B und E4B für Edge-Geräte, das 26B MoE für effizientes Server-Deployment und das Flaggschiff 31B Dense. Alle teilen native multimodale Unterstützung, konfigurierbares Denken und Apache 2.0 Lizenzierung.

Chat starten Benchmarks vergleichen

Alle Modelle

Wählen Sie das richtige Gemma 4 für Ihren Einsatzzweck

Jedes Modell der Familie ist für unterschiedliche Deployment-Szenarien optimiert. Edge-Modelle bieten Audio-Unterstützung, während Server-Modelle 256K Kontext und Frontier-Reasoning bereitstellen.

Edge-Modelle

E2B & E4B: On-Device-Intelligenz mit Audio

Ultrakompakte Modelle mit 2.3B und 4.5B effektiven Parametern. Beide verfügen über native Audio-Encoder, 128K Kontext und laufen auf Smartphones, Browsern und IoT-Geräten.

Wählen Sie E2B für den kleinsten Speicherbedarf (3.2GB bei 4-Bit). Wählen Sie E4B für bessere Qualität (5.5GB bei 4-Bit). Beide unterstützen Text-, Bild-, Video- und Audio-Eingabe.

E4B kostenlos testen E2B vs E4B vergleichen

Server-Modelle

26B MoE & 31B Dense: Frontier-Leistung

Das 26B MoE aktiviert nur 4B Parameter pro Token für effizientes Serving. Das 31B Dense ist das Flaggschiff mit Platz 3 im Arena AI Ranking. Beide bieten 256K Kontext und natives Function Calling.

Wählen Sie 26B für Hochdurchsatz-Produktion (16GB bei 4-Bit). Wählen Sie 31B für maximale Qualität (17GB bei 4-Bit). Beide glänzen bei Reasoning, Coding und multimodalen Aufgaben.

26B kostenlos testen Benchmarks ansehen

Edge - Ultrakompakt

Gemma 4 E2B

2.3B effektive Parameter. Das kleinste Gemma 4 mit vollständiger multimodaler + Audio-Unterstützung.

35 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 3.2GB VRAM bei 4-Bit.

Jetzt verfügbar

Mehr erfahren Herunterladen

Edge - Empfohlen

Gemma 4 E4B

4.5B effektive Parameter. Bestes Edge-Modell mit starkem Reasoning und Audio-Unterstützung.

42 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 5.5GB VRAM bei 4-Bit.

Jetzt verfügbar

Mehr erfahren Herunterladen

Server - Effizient

Gemma 4 26B A4B

25.2B gesamt, 3.8B aktiv pro Token. Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung.

MoE mit 128 Experten (8 aktiv + 1 geteilt). 256K Kontext. 16GB VRAM bei 4-Bit.

Jetzt verfügbar

Mehr erfahren Herunterladen

Server - Flaggschiff

Gemma 4 31B

30.7B Dense-Parameter. Platz 3 bei Arena AI. Maximale Intelligenz und Zuverlässigkeit.

Dense-Architektur, 256K Kontext, 140+ Sprachen. 17GB VRAM bei 4-Bit.

Jetzt verfügbar

Mehr erfahren Herunterladen

Gemeinsame Fähigkeiten

Was jedes Gemma 4 Modell kann

Alle vier Modelle teilen einen gemeinsamen Satz an Fähigkeiten, die die Gemma 4 Familie einzigartig vielseitig machen.

Natives Multimodal

Alle Modelle verarbeiten Text und Bilder nativ. Edge-Modelle unterstützen zusätzlich Audio und Video. Keine separaten Encoder oder Pipelines erforderlich.

Konfigurierbares Denken

Alle Modelle unterstützen Denkmodi für schrittweises Reasoning. Steuern Sie die Tiefe des Reasonings basierend auf der Aufgabenkomplexität.

Function Calling

Integriertes Function Calling in der gesamten Familie ermöglicht agentische Workflows. Kein Fine-Tuning für die Werkzeugnutzung erforderlich.

Erweiterter Kontext

128K Token für Edge-Modelle, 256K für Server-Modelle. Hybride Attention hält den Speicherverbrauch praktikabel.

140+ Sprachen

Mehrsprachige Unterstützung mit kulturellem Kontextverständnis über alle Modellgrößen hinweg.

Apache 2.0 Lizenz

Volle kommerzielle Freiheit. Keine MAU-Beschränkungen, keine Nutzungseinschränkungen. Überall einsetzbar, frei modifizierbar.

Schnellauswahl-Leitfaden

Welches Modell sollten Sie wählen?

Ordnen Sie Ihre Deployment-Anforderungen und Qualitätsansprüche der richtigen Gemma 4 Variante zu.

Nach Hardware

Smartphone / IoT / 4GB RAM: Gemma 4 E2B
Laptop / 8-16GB RAM: Gemma 4 E4B
Einzelne GPU / 16-24GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24GB+ VRAM: Gemma 4 31B

Nach Einsatzzweck

Sprachassistent / Audio: E2B oder E4B (Audio-Unterstützung)
Browserbasierte KI: E2B oder E4B (WebGPU)
Hochdurchsatz-API: 26B A4B (MoE-Effizienz)
Maximale Qualität: 31B Dense (Frontier-Leistung)

Chat starten Alle Benchmarks ansehen

Leistung

Vollständiger Benchmark-Vergleich aller vier Modelle

Jedes Gemma 4 Modell bildet einen Teil der Pareto-Frontier - jede Größe liefert außergewöhnliche Leistung im Verhältnis zu ihrer Parameterzahl.

Vom ultrakompakten E2B bis zum Flaggschiff 31B ist jedes Modell für seine Deployment-Stufe optimiert und teilt dabei die gleichen architektonischen Innovationen.

Chat starten Modellkarte ansehen

Leistungsvergleich der Gemma 4 Familie über alle Modellgrößen

31B Dense: Platz 3 bei Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Nahezu 31B-Qualität (ELO 1441) mit nur 4B aktiven Parametern pro Token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - starke Edge-Leistung mit Audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - leistungsfähige KI bei 3.2GB VRAM

Vollständiger Familienvergleich

Alle Gemma 4 Modelle im direkten Vergleich

Vollständige Benchmark-Ergebnisse für Reasoning, Coding, Multimodal und Deployment-Metriken.

Benchmark	31B Dense Flaggschiff 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Kompakt E2B
Arena AI ELO Gesamtranking	1452	1441	-	-
MMLU Pro Wissen & Reasoning	85.2%	82.6%	69.4%	60.0%
AIME 2026 Mathematik	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Coding	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Wissenschaft	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodal	76.9%	73.8%	52.6%	44.2%
Context Window Maximale Token	256K	256K	128K	128K
Audio Support Natives Audio	No	No	Yes	Yes
VRAM (4-bit) Minimaler Speicher	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Alle Zahlen aus der offiziellen Gemma 4 Modellkarte. Arena AI Scores vom 2. April 2026.

Edge-Stufe

E2B & E4B: KI, die auf Ihrem Gerät läuft

Die Edge-Modelle bringen vollständige multimodale KI auf Smartphones, Browser und IoT-Geräte. Beide verfügen über native Audio-Encoder - eine Fähigkeit, die den größeren Modellen fehlt. Wählen Sie E2B für den kleinsten Speicherbedarf, E4B für bessere Qualität.

E2B: 2.3B effektiv, 3.2GB bei 4-Bit, 95 tok/s auf Consumer-Hardware
E4B: 4.5B effektiv, 5.5GB bei 4-Bit, starkes Reasoning und Coding
Beide: natives Audio, 128K Kontext, WebGPU-Browser-Unterstützung

E4B testen E2B vs E4B vergleichen

E2B & E4B: KI, die auf Ihrem Gerät läuft

Server-Stufe

26B MoE & 31B Dense: Frontier-Leistung

Die Server-Modelle liefern Frontier-Reasoning, Coding und multimodales Verständnis. Das 26B MoE bietet nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Das 31B Dense ist das Flaggschiff für maximale Leistung.

26B MoE: 3.8B aktiv pro Token, ELO 1441, 88.3% AIME 2026
31B Dense: Volle 30.7B aktiv, ELO 1452, 89.2% AIME 2026
Beide: 256K Kontext, natives Function Calling, 140+ Sprachen

26B testen 26B vs 31B vergleichen

Architektur

Gemeinsame Innovationen in der gesamten Familie

Alle Gemma 4 Modelle teilen zentrale architektonische Innovationen aus der Forschung von Google DeepMind. Per-Layer Embeddings, geteilter KV-Cache und hybride Attention-Muster maximieren die Effizienz auf jeder Skala.

Per-Layer Embeddings (PLE) für parametereffiziente Konditionierung
Geteilter KV-Cache reduziert den Speicher bei Long-Context-Generierung
Hybride lokale/globale Attention für optimalen Speicher-Qualitäts-Kompromiss

Technische Details lesen Modellkarte ansehen

Gemeinsame Innovationen in der gesamten Familie

Jetzt testen

Mit jedem Gemma 4 Modell chatten

Testen Sie alle Modelle sofort über unsere Chat-Oberfläche oder laden Sie sie für lokales Deployment herunter.

Chat starten

Sofort mit Gemma 4 Modellen chatten, ohne Einrichtung

Übersicht ansehen

Offizielles Einführungsvideo zur Gemma 4 Familie

Modellkarte

Vollständige technische Spezifikationen aller Varianten

Dokumentation

Integrationsleitfäden und Best Practices

Herunterladen

Modellgewichte herunterladen

Laden Sie die offiziellen Gewichte für jede Gemma 4 Variante herunter.

Hugging Face

Alle Gemma 4 Modell-Repositories

Kaggle

Von Kaggle Models herunterladen

Ollama

Jede Variante lokal mit Ollama ausführen

Bereitstellen

Produktions-Deployment

Bereitstellung auf Cloud-, lokalen oder Edge-Plattformen.

Google AI Studio

Gehosteter API-Zugang zu allen Modellen

Vertex AI

Enterprise-Deployment auf Google Cloud

Ollama

Lokales Deployment für alle Varianten

transformers.js

Browser-Deployment für Edge-Modelle

Gemma 4 Familie