Gemma 4 Test

Gemma 4 im Test: Wie ein 31B-Modell mit 600B-Rivalen konkurriert

Google DeepMinds Gemma 4 Familie wurde am 2. April 2026 mit vier Modellen unter Apache 2.0 veröffentlicht. Das 31B belegt Platz 3 auf Arena AI, das 26B MoE läuft auf einer einzelnen RTX 4090, und das E2B passt auf ein Smartphone. Hier erfahren Sie, was wirklich funktioniert und wo es Schwächen gibt.

Fazit

Das Fazit zu jedem Gemma 4 Modell

Nach umfangreichen Tests in Reasoning, Coding, Multimodal und lokaler Bereitstellung hier das Fazit zu jeder Variante.

Gesamtfazit

Die leistungsfähigste offene Modellfamilie für lokale Nutzung

Gemma 4 ist die beste offene Modellfamilie für Nutzer, die Frontier-KI auf eigener Hardware wollen. Das 31B konkurriert mit 20x größeren Modellen bei Reasoning und Coding. Das 26B MoE ist der Sweet Spot für die meisten Produktionsanwendungen. Die Edge-Modelle bringen echte KI auf Smartphones und Browser.

Die Hauptschwäche: Bei reinem agentischem Coding (SWE-Bench) liegt Gemma 4 noch hinter Qwen 3.6 und GLM-5.1. Wenn Ihr Hauptanwendungsfall autonome Codebearbeitung ist, sollten Sie diese Alternativen in Betracht ziehen.

Fazit: Ausgezeichnet

31B Dense

Das Flaggschiff hält sein Versprechen. Platz 3 auf Arena AI, herausragendes Reasoning und Coding, starkes Multimodal. Das beste offene Dense-Modell in dieser Größe.

Stärken: Reasoning, Mathematik, Coding, Multimodal. Schwäche: SWE-Bench hinter Qwen 3.6.

Empfohlen

Fazit: Bestes Preis-Leistungs-Verhältnis

26B MoE

Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Der Sweet Spot für Produktionsbereitstellung. Passt auf eine einzelne RTX 4090.

Stärken: Effizienz, nahezu 31B-Qualität, Einzelne-GPU-Bereitstellung. Schwäche: Bei niedrigen Batch-Größen langsamer als Dense.

Bestes Preis-Leistungs-Verhältnis

Fazit: Beeindruckend

E4B Edge

Das empfohlene Edge-Modell. Starkes Reasoning und Coding für seine Größe. Natives Audio ist ein einzigartiger Vorteil gegenüber Wettbewerbern.

Stärken: Audio-Unterstützung, gutes Reasoning, läuft auf Laptops. Schwäche: Für komplexe Aufgaben begrenzt.

Edge-Empfehlung

Fazit: Nische, aber nützlich

E2B Compact

Blitzschnell mit 95 tok/s. Nützlich für einfache Aufgaben und Echtzeitanwendungen. Nicht für komplexes Reasoning geeignet.

Stärken: Geschwindigkeit, winziger Footprint, Audio-Unterstützung. Schwäche: Qualität sinkt bei schwierigeren Aufgaben.

Geschwindigkeits-Tipp

Was funktioniert

Wo Gemma 4 wirklich überzeugt

Nach Tests mit Dutzenden von Praxisaufgaben sind dies die Bereiche, in denen Gemma 4 wirklich beeindruckt.

Mathematisches Reasoning

89.2% bei AIME 2026 ist kein Zufall. Der Thinking-Modus liefert klare, schrittweise Lösungen. Wirklich nützlich für Mathe-Nachhilfe und Problemlösung.

Code-Generierung

80% bei LiveCodeBench v6 bedeutet praktische Coding-Unterstützung. Funktionsimplementierungen, Debugging und Code-Review sind alle stark.

Multimodale Verständnis

Bildanalyse, Dokumentenverarbeitung und Diagrammverständnis funktionieren gut. Variable Auflösungsunterstützung bedeutet eleganten Umgang mit verschiedenen Bildtypen.

Lokale Bereitstellung

Die Spanne von 3.2GB bis 17GB (bei 4-Bit) bedeutet, dass es ein Modell für jede Hardware-Stufe gibt. Ollama-Setup dauert unter 2 Minuten.

Function Calling

Natives Function Calling ist zuverlässig. JSON-Ausgabe ist wohlgeformt, Tool-Auswahl ist genau, und mehrstufige Agenten-Workflows funktionieren konsistent.

Mehrsprachigkeit

140+ Sprachunterstützung ist echt. Die Qualität hält über alle wichtigen Sprachen hinweg, nicht nur Englisch.

Ehrliche Einschätzung

Wo Gemma 4 Schwächen zeigt

Kein Modell ist perfekt. Hier hat Gemma 4 Verbesserungspotenzial.

Schwächen

  • SWE-Bench: 52% vs Qwen 3.6s 73.4% - deutliche Lücke bei autonomem Coding
  • Kein natives Audio bei 26B und 31B - nur Edge-Modelle haben Audio-Encoder
  • 26B MoE ist bei niedrigen Batch-Größen langsamer als erwartet
  • E2B-Qualität sinkt merklich bei komplexen Reasoning-Aufgaben
  • Long-Context-Leistung verschlechtert sich in der Praxis über ~100K Tokens hinaus

Wettbewerb

  • Qwen 3.6 35B A3B: Besser bei agentischem Coding (SWE-Bench, Terminal-Bench)
  • GLM-5.1: Stärker bei einigen chinesischen Sprachaufgaben
  • Llama 4: Größere Kontextfenster-Optionen
  • DeepSeek V4: Wettbewerbsfähig bei Reasoning-Benchmarks
  • Mistral Small 4: Schnellere Inferenz bei ähnlichen Qualitätsstufen

Benchmarks

Offizielle Benchmarks vs Praxiserfahrung

Wie übersetzen sich die offiziellen Zahlen in die tatsächliche Nutzung? Hier unsere Einschätzung nach umfangreichen Tests.

Offizielle Benchmarks erzählen einen Teil der Geschichte. Praxistests zeigen, wo die Zahlen mit der Erfahrung übereinstimmen und wo nicht.

Gemma 4 Benchmark-Leistung über alle Modelle

Mathematisches Reasoning: Benchmarks stimmen mit der Realität überein - der Thinking-Modus hilft wirklich

Coding: Stark bei Generierung, schwächer bei autonomer Bearbeitung (SWE-Bench-Lücke)

Multimodal: Bildverständnis ist solide, Dokument-OCR funktioniert gut

Geschwindigkeit: E2B ist wirklich schnell (~95 tok/s), 26B ist lokal langsamer als erwartet

Leistungs-Realitätscheck

Gemma 4 vs die Konkurrenz

Wie Gemma 4 31B bei wichtigen Benchmarks im Vergleich zu anderen führenden offenen Modellen abschneidet.

Benchmark
Gemma 4 31B
Im Fokus
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

Benchmark-Daten aus offiziellen Modellkarten und unabhängigen Tests. Ergebnisse können je nach Evaluierungsmethodik variieren.

Reasoning

Mathematisches und wissenschaftliches Reasoning: wirklich beeindruckend

Der Thinking-Modus des 31B-Modells liefert klare, schrittweise Lösungen, die leicht nachvollziehbar und überprüfbar sind. 89.2% bei AIME 2026 bedeutet echte Mathe-Nachhilfe-Fähigkeit.

  • Thinking-Modus zeigt klare Reasoning-Ketten
  • Bewältigt mehrstufige Probleme mit guter Genauigkeit
  • Wissenschaftliches Reasoning (GPQA Diamond 84.3%) ist stark
Mathematisches und wissenschaftliches Reasoning: wirklich beeindruckend

Coding

Starke Code-Generierung, schwächere autonome Bearbeitung

Gemma 4 glänzt bei Code-Generierung, Debugging und Erklärung. Bei autonomen Code-Bearbeitungsaufgaben (SWE-Bench) fällt es jedoch deutlich hinter Qwen 3.6 zurück. Wenn Sie einen KI-Coding-Agenten brauchen, ist Qwen 3.6 derzeit besser.

  • Code-Generierung und Debugging: ausgezeichnet (80% LiveCodeBench)
  • Function Calling für Agenten: zuverlässig und wohlgeformt
  • Autonome Code-Bearbeitung: schwächer (52% vs Qwens 73.4% SWE-Bench)
Starke Code-Generierung, schwächere autonome Bearbeitung

Lokale Nutzung

Die beste offene Modellfamilie für lokale Bereitstellung

Keine andere Modellfamilie deckt die Spanne vom Smartphone bis zur Workstation so gut ab wie Gemma 4. Das E2B läuft mit 95 tok/s auf Consumer-Hardware, und das 26B passt mit nahezu 31B-Qualität auf eine einzelne RTX 4090.

  • E2B: blitzschnell, passt auf Smartphones, aber begrenzt bei komplexen Aufgaben
  • E4B: der Sweet Spot für Laptop-Nutzer, gute Allround-Qualität
  • 26B: nahezu 31B-Qualität auf einer einzelnen GPU, aber langsamer als erwartet
Die beste offene Modellfamilie für lokale Bereitstellung

Mehr entdecken

Tauchen Sie tiefer in Gemma 4 ein

Erkunden Sie einzelne Modelle, Bereitstellungsoptionen und Vergleiche.

Gemma 4 31B

Flaggschiff Dense-Modell Test

Mehr lesen

Gemma 4 26B

MoE-Effizienz Test

Mehr lesen

Lokal ausführen

Lokaler Bereitstellungsleitfaden

Loslegen

Qwen 3.6 Vergleich

Direktvergleich mit dem Hauptrivalen

Vergleichen

API-Zugang

Über gehostete APIs nutzen

Loslegen

Download

Modellgewichte herunterladen

Herunterladen

Selbst ausprobieren

Der beste Test ist Ihre eigene Erfahrung

Probieren Sie alle Gemma 4 Modelle kostenlos aus. Keine Anmeldung für den Basis-Chat erforderlich. Bilden Sie sich Ihre eigene Meinung.