Gemma 4 Test

Gemma 4 im Test: Wie ein 31B-Modell mit 600B-Rivalen konkurriert

Google DeepMinds Gemma 4 Familie wurde am 2. April 2026 mit vier Modellen unter Apache 2.0 veröffentlicht. Das 31B belegt Platz 3 auf Arena AI, das 26B MoE läuft auf einer einzelnen RTX 4090, und das E2B passt auf ein Smartphone. Hier erfahren Sie, was wirklich funktioniert und wo es Schwächen gibt.

Selbst ausprobieren Benchmarks ansehen

Fazit

Das Fazit zu jedem Gemma 4 Modell

Nach umfangreichen Tests in Reasoning, Coding, Multimodal und lokaler Bereitstellung hier das Fazit zu jeder Variante.

Gesamtfazit

Die leistungsfähigste offene Modellfamilie für lokale Nutzung

Gemma 4 ist die beste offene Modellfamilie für Nutzer, die Frontier-KI auf eigener Hardware wollen. Das 31B konkurriert mit 20x größeren Modellen bei Reasoning und Coding. Das 26B MoE ist der Sweet Spot für die meisten Produktionsanwendungen. Die Edge-Modelle bringen echte KI auf Smartphones und Browser.

Die Hauptschwäche: Bei reinem agentischem Coding (SWE-Bench) liegt Gemma 4 noch hinter Qwen 3.6 und GLM-5.1. Wenn Ihr Hauptanwendungsfall autonome Codebearbeitung ist, sollten Sie diese Alternativen in Betracht ziehen.

Selbst ausprobieren Mit Qwen 3.6 vergleichen

Fazit: Ausgezeichnet

31B Dense

Das Flaggschiff hält sein Versprechen. Platz 3 auf Arena AI, herausragendes Reasoning und Coding, starkes Multimodal. Das beste offene Dense-Modell in dieser Größe.

Stärken: Reasoning, Mathematik, Coding, Multimodal. Schwäche: SWE-Bench hinter Qwen 3.6.

26B MoE

Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Der Sweet Spot für Produktionsbereitstellung. Passt auf eine einzelne RTX 4090.

Stärken: Effizienz, nahezu 31B-Qualität, Einzelne-GPU-Bereitstellung. Schwäche: Bei niedrigen Batch-Größen langsamer als Dense.

Bestes Preis-Leistungs-Verhältnis

26B testen Alle Details

Fazit: Beeindruckend

E4B Edge

Das empfohlene Edge-Modell. Starkes Reasoning und Coding für seine Größe. Natives Audio ist ein einzigartiger Vorteil gegenüber Wettbewerbern.

Stärken: Audio-Unterstützung, gutes Reasoning, läuft auf Laptops. Schwäche: Für komplexe Aufgaben begrenzt.

Edge-Empfehlung

E4B testen Alle Details

Fazit: Nische, aber nützlich

E2B Compact

Blitzschnell mit 95 tok/s. Nützlich für einfache Aufgaben und Echtzeitanwendungen. Nicht für komplexes Reasoning geeignet.

Stärken: Geschwindigkeit, winziger Footprint, Audio-Unterstützung. Schwäche: Qualität sinkt bei schwierigeren Aufgaben.

Geschwindigkeits-Tipp

E2B testen Alle Details

Was funktioniert

Wo Gemma 4 wirklich überzeugt

Nach Tests mit Dutzenden von Praxisaufgaben sind dies die Bereiche, in denen Gemma 4 wirklich beeindruckt.

Mathematisches Reasoning

89.2% bei AIME 2026 ist kein Zufall. Der Thinking-Modus liefert klare, schrittweise Lösungen. Wirklich nützlich für Mathe-Nachhilfe und Problemlösung.

Code-Generierung

80% bei LiveCodeBench v6 bedeutet praktische Coding-Unterstützung. Funktionsimplementierungen, Debugging und Code-Review sind alle stark.

Multimodale Verständnis

Bildanalyse, Dokumentenverarbeitung und Diagrammverständnis funktionieren gut. Variable Auflösungsunterstützung bedeutet eleganten Umgang mit verschiedenen Bildtypen.

Lokale Bereitstellung

Die Spanne von 3.2GB bis 17GB (bei 4-Bit) bedeutet, dass es ein Modell für jede Hardware-Stufe gibt. Ollama-Setup dauert unter 2 Minuten.

Function Calling

Natives Function Calling ist zuverlässig. JSON-Ausgabe ist wohlgeformt, Tool-Auswahl ist genau, und mehrstufige Agenten-Workflows funktionieren konsistent.

Mehrsprachigkeit

140+ Sprachunterstützung ist echt. Die Qualität hält über alle wichtigen Sprachen hinweg, nicht nur Englisch.

Ehrliche Einschätzung

Wo Gemma 4 Schwächen zeigt

Kein Modell ist perfekt. Hier hat Gemma 4 Verbesserungspotenzial.

Schwächen

SWE-Bench: 52% vs Qwen 3.6s 73.4% - deutliche Lücke bei autonomem Coding
Kein natives Audio bei 26B und 31B - nur Edge-Modelle haben Audio-Encoder
26B MoE ist bei niedrigen Batch-Größen langsamer als erwartet
E2B-Qualität sinkt merklich bei komplexen Reasoning-Aufgaben
Long-Context-Leistung verschlechtert sich in der Praxis über ~100K Tokens hinaus

Wettbewerb

Qwen 3.6 35B A3B: Besser bei agentischem Coding (SWE-Bench, Terminal-Bench)
GLM-5.1: Stärker bei einigen chinesischen Sprachaufgaben
Llama 4: Größere Kontextfenster-Optionen
DeepSeek V4: Wettbewerbsfähig bei Reasoning-Benchmarks
Mistral Small 4: Schnellere Inferenz bei ähnlichen Qualitätsstufen

Selbst ausprobieren Mit Qwen 3.6 vergleichen

Benchmarks

Offizielle Benchmarks vs Praxiserfahrung

Wie übersetzen sich die offiziellen Zahlen in die tatsächliche Nutzung? Hier unsere Einschätzung nach umfangreichen Tests.

Offizielle Benchmarks erzählen einen Teil der Geschichte. Praxistests zeigen, wo die Zahlen mit der Erfahrung übereinstimmen und wo nicht.

Selbst ausprobieren Modellkarte ansehen

Gemma 4 Benchmark-Leistung über alle Modelle

Mathematisches Reasoning: Benchmarks stimmen mit der Realität überein - der Thinking-Modus hilft wirklich

Coding: Stark bei Generierung, schwächer bei autonomer Bearbeitung (SWE-Bench-Lücke)

Multimodal: Bildverständnis ist solide, Dokument-OCR funktioniert gut

Geschwindigkeit: E2B ist wirklich schnell (~95 tok/s), 26B ist lokal langsamer als erwartet

Leistungs-Realitätscheck

Gemma 4 vs die Konkurrenz

Wie Gemma 4 31B bei wichtigen Benchmarks im Vergleich zu anderen führenden offenen Modellen abschneidet.

Benchmark	Gemma 4 31B Im Fokus	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

Benchmark-Daten aus offiziellen Modellkarten und unabhängigen Tests. Ergebnisse können je nach Evaluierungsmethodik variieren.

Reasoning

Mathematisches und wissenschaftliches Reasoning: wirklich beeindruckend

Der Thinking-Modus des 31B-Modells liefert klare, schrittweise Lösungen, die leicht nachvollziehbar und überprüfbar sind. 89.2% bei AIME 2026 bedeutet echte Mathe-Nachhilfe-Fähigkeit.

Thinking-Modus zeigt klare Reasoning-Ketten
Bewältigt mehrstufige Probleme mit guter Genauigkeit
Wissenschaftliches Reasoning (GPQA Diamond 84.3%) ist stark

Reasoning-Aufgaben testen Benchmarks ansehen

Mathematisches und wissenschaftliches Reasoning: wirklich beeindruckend

Coding

Starke Code-Generierung, schwächere autonome Bearbeitung

Gemma 4 glänzt bei Code-Generierung, Debugging und Erklärung. Bei autonomen Code-Bearbeitungsaufgaben (SWE-Bench) fällt es jedoch deutlich hinter Qwen 3.6 zurück. Wenn Sie einen KI-Coding-Agenten brauchen, ist Qwen 3.6 derzeit besser.

Code-Generierung und Debugging: ausgezeichnet (80% LiveCodeBench)
Function Calling für Agenten: zuverlässig und wohlgeformt
Autonome Code-Bearbeitung: schwächer (52% vs Qwens 73.4% SWE-Bench)

Coding-Aufgaben testen Mit Qwen 3.6 vergleichen

Starke Code-Generierung, schwächere autonome Bearbeitung

Lokale Nutzung

Die beste offene Modellfamilie für lokale Bereitstellung

Keine andere Modellfamilie deckt die Spanne vom Smartphone bis zur Workstation so gut ab wie Gemma 4. Das E2B läuft mit 95 tok/s auf Consumer-Hardware, und das 26B passt mit nahezu 31B-Qualität auf eine einzelne RTX 4090.

E2B: blitzschnell, passt auf Smartphones, aber begrenzt bei komplexen Aufgaben
E4B: der Sweet Spot für Laptop-Nutzer, gute Allround-Qualität
26B: nahezu 31B-Qualität auf einer einzelnen GPU, aber langsamer als erwartet

Lokal ausführen Hardware-Leitfaden