Gemma 4 Modelle

Vier Modelle, eine Familie - von Edge bis Frontier

Die Gemma 4 Familie umfasst vier Architekturen: die ultrakompakten E2B und E4B für Edge-Geräte, das 26B MoE für effizientes Server-Deployment und das Flaggschiff 31B Dense. Alle teilen native multimodale Unterstützung, konfigurierbares Denken und Apache 2.0 Lizenzierung.

Alle Modelle

Wählen Sie das richtige Gemma 4 für Ihren Einsatzzweck

Jedes Modell der Familie ist für unterschiedliche Deployment-Szenarien optimiert. Edge-Modelle bieten Audio-Unterstützung, während Server-Modelle 256K Kontext und Frontier-Reasoning bereitstellen.

Edge-Modelle

E2B & E4B: On-Device-Intelligenz mit Audio

Ultrakompakte Modelle mit 2.3B und 4.5B effektiven Parametern. Beide verfügen über native Audio-Encoder, 128K Kontext und laufen auf Smartphones, Browsern und IoT-Geräten.

Wählen Sie E2B für den kleinsten Speicherbedarf (3.2GB bei 4-Bit). Wählen Sie E4B für bessere Qualität (5.5GB bei 4-Bit). Beide unterstützen Text-, Bild-, Video- und Audio-Eingabe.

Server-Modelle

26B MoE & 31B Dense: Frontier-Leistung

Das 26B MoE aktiviert nur 4B Parameter pro Token für effizientes Serving. Das 31B Dense ist das Flaggschiff mit Platz 3 im Arena AI Ranking. Beide bieten 256K Kontext und natives Function Calling.

Wählen Sie 26B für Hochdurchsatz-Produktion (16GB bei 4-Bit). Wählen Sie 31B für maximale Qualität (17GB bei 4-Bit). Beide glänzen bei Reasoning, Coding und multimodalen Aufgaben.

Edge - Ultrakompakt

Gemma 4 E2B

2.3B effektive Parameter. Das kleinste Gemma 4 mit vollständiger multimodaler + Audio-Unterstützung.

35 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 3.2GB VRAM bei 4-Bit.

Jetzt verfügbar

Edge - Empfohlen

Gemma 4 E4B

4.5B effektive Parameter. Bestes Edge-Modell mit starkem Reasoning und Audio-Unterstützung.

42 Schichten, PLE-Architektur, ~150M Vision + ~300M Audio-Encoder. 5.5GB VRAM bei 4-Bit.

Jetzt verfügbar

Server - Effizient

Gemma 4 26B A4B

25.2B gesamt, 3.8B aktiv pro Token. Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung.

MoE mit 128 Experten (8 aktiv + 1 geteilt). 256K Kontext. 16GB VRAM bei 4-Bit.

Jetzt verfügbar

Server - Flaggschiff

Gemma 4 31B

30.7B Dense-Parameter. Platz 3 bei Arena AI. Maximale Intelligenz und Zuverlässigkeit.

Dense-Architektur, 256K Kontext, 140+ Sprachen. 17GB VRAM bei 4-Bit.

Jetzt verfügbar

Gemeinsame Fähigkeiten

Was jedes Gemma 4 Modell kann

Alle vier Modelle teilen einen gemeinsamen Satz an Fähigkeiten, die die Gemma 4 Familie einzigartig vielseitig machen.

Natives Multimodal

Alle Modelle verarbeiten Text und Bilder nativ. Edge-Modelle unterstützen zusätzlich Audio und Video. Keine separaten Encoder oder Pipelines erforderlich.

Konfigurierbares Denken

Alle Modelle unterstützen Denkmodi für schrittweises Reasoning. Steuern Sie die Tiefe des Reasonings basierend auf der Aufgabenkomplexität.

Function Calling

Integriertes Function Calling in der gesamten Familie ermöglicht agentische Workflows. Kein Fine-Tuning für die Werkzeugnutzung erforderlich.

Erweiterter Kontext

128K Token für Edge-Modelle, 256K für Server-Modelle. Hybride Attention hält den Speicherverbrauch praktikabel.

140+ Sprachen

Mehrsprachige Unterstützung mit kulturellem Kontextverständnis über alle Modellgrößen hinweg.

Apache 2.0 Lizenz

Volle kommerzielle Freiheit. Keine MAU-Beschränkungen, keine Nutzungseinschränkungen. Überall einsetzbar, frei modifizierbar.

Schnellauswahl-Leitfaden

Welches Modell sollten Sie wählen?

Ordnen Sie Ihre Deployment-Anforderungen und Qualitätsansprüche der richtigen Gemma 4 Variante zu.

Nach Hardware

  • Smartphone / IoT / 4GB RAM: Gemma 4 E2B
  • Laptop / 8-16GB RAM: Gemma 4 E4B
  • Einzelne GPU / 16-24GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24GB+ VRAM: Gemma 4 31B

Nach Einsatzzweck

  • Sprachassistent / Audio: E2B oder E4B (Audio-Unterstützung)
  • Browserbasierte KI: E2B oder E4B (WebGPU)
  • Hochdurchsatz-API: 26B A4B (MoE-Effizienz)
  • Maximale Qualität: 31B Dense (Frontier-Leistung)

Leistung

Vollständiger Benchmark-Vergleich aller vier Modelle

Jedes Gemma 4 Modell bildet einen Teil der Pareto-Frontier - jede Größe liefert außergewöhnliche Leistung im Verhältnis zu ihrer Parameterzahl.

Vom ultrakompakten E2B bis zum Flaggschiff 31B ist jedes Modell für seine Deployment-Stufe optimiert und teilt dabei die gleichen architektonischen Innovationen.

Leistungsvergleich der Gemma 4 Familie über alle Modellgrößen

31B Dense: Platz 3 bei Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Nahezu 31B-Qualität (ELO 1441) mit nur 4B aktiven Parametern pro Token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - starke Edge-Leistung mit Audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - leistungsfähige KI bei 3.2GB VRAM

Vollständiger Familienvergleich

Alle Gemma 4 Modelle im direkten Vergleich

Vollständige Benchmark-Ergebnisse für Reasoning, Coding, Multimodal und Deployment-Metriken.

Benchmark
31B Dense
Flaggschiff
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Kompakt
E2B
Arena AI ELO
Gesamtranking
14521441--
MMLU Pro
Wissen & Reasoning
85.2%82.6%69.4%60.0%
AIME 2026
Mathematik
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Coding
80.0%77.1%52.0%44.0%
GPQA Diamond
Wissenschaft
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodal
76.9%73.8%52.6%44.2%
Context Window
Maximale Token
256K256K128K128K
Audio Support
Natives Audio
NoNoYesYes
VRAM (4-bit)
Minimaler Speicher
~17 GB~16 GB~5.5 GB~3.2 GB

Alle Zahlen aus der offiziellen Gemma 4 Modellkarte. Arena AI Scores vom 2. April 2026.

Edge-Stufe

E2B & E4B: KI, die auf Ihrem Gerät läuft

Die Edge-Modelle bringen vollständige multimodale KI auf Smartphones, Browser und IoT-Geräte. Beide verfügen über native Audio-Encoder - eine Fähigkeit, die den größeren Modellen fehlt. Wählen Sie E2B für den kleinsten Speicherbedarf, E4B für bessere Qualität.

  • E2B: 2.3B effektiv, 3.2GB bei 4-Bit, 95 tok/s auf Consumer-Hardware
  • E4B: 4.5B effektiv, 5.5GB bei 4-Bit, starkes Reasoning und Coding
  • Beide: natives Audio, 128K Kontext, WebGPU-Browser-Unterstützung
E2B & E4B: KI, die auf Ihrem Gerät läuft

Server-Stufe

26B MoE & 31B Dense: Frontier-Leistung

Die Server-Modelle liefern Frontier-Reasoning, Coding und multimodales Verständnis. Das 26B MoE bietet nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Das 31B Dense ist das Flaggschiff für maximale Leistung.

  • 26B MoE: 3.8B aktiv pro Token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: Volle 30.7B aktiv, ELO 1452, 89.2% AIME 2026
  • Beide: 256K Kontext, natives Function Calling, 140+ Sprachen
26B MoE & 31B Dense: Frontier-Leistung

Architektur

Gemeinsame Innovationen in der gesamten Familie

Alle Gemma 4 Modelle teilen zentrale architektonische Innovationen aus der Forschung von Google DeepMind. Per-Layer Embeddings, geteilter KV-Cache und hybride Attention-Muster maximieren die Effizienz auf jeder Skala.

  • Per-Layer Embeddings (PLE) für parametereffiziente Konditionierung
  • Geteilter KV-Cache reduziert den Speicher bei Long-Context-Generierung
  • Hybride lokale/globale Attention für optimalen Speicher-Qualitäts-Kompromiss
Gemeinsame Innovationen in der gesamten Familie

Gemma 4 Familie

Jedes Modell im Detail erkunden

Tauchen Sie tiefer in jede Gemma 4 Variante ein - mit eigenen Seiten zu Architektur, Benchmarks und Deployment-Leitfäden.

Gemma 4 E2B

Ultrakompaktes 2.3B Edge-Modell mit Audio

Erkunden

Gemma 4 E4B

Empfohlenes 4.5B Edge-Modell mit Audio

Erkunden

Gemma 4 26B

Effizientes MoE mit 4B aktiven Parametern

Erkunden

Gemma 4 31B

Flaggschiff Dense-Modell, Platz 3 bei Arena AI

Erkunden

Lokal ausführen

Anleitung zum Ausführen von Gemma 4 auf Ihrer Hardware

Anleitung lesen

API-Zugang

Gemma 4 über gehostete APIs nutzen

Loslegen

Erste Schritte

Finden Sie Ihr Gemma 4 Modell

Chatten Sie kostenlos mit jedem Gemma 4 Modell oder laden Sie die Gewichte für lokales Deployment herunter. Apache 2.0 lizenziert für volle kommerzielle Freiheit.