Gemma 4 Test
Gemma 4 im Test: Wie ein 31B-Modell mit 600B-Rivalen konkurriert
Google DeepMinds Gemma 4 Familie wurde am 2. April 2026 mit vier Modellen unter Apache 2.0 veröffentlicht. Das 31B belegt Platz 3 auf Arena AI, das 26B MoE läuft auf einer einzelnen RTX 4090, und das E2B passt auf ein Smartphone. Hier erfahren Sie, was wirklich funktioniert und wo es Schwächen gibt.
Fazit
Das Fazit zu jedem Gemma 4 Modell
Nach umfangreichen Tests in Reasoning, Coding, Multimodal und lokaler Bereitstellung hier das Fazit zu jeder Variante.
Gesamtfazit
Die leistungsfähigste offene Modellfamilie für lokale Nutzung
Gemma 4 ist die beste offene Modellfamilie für Nutzer, die Frontier-KI auf eigener Hardware wollen. Das 31B konkurriert mit 20x größeren Modellen bei Reasoning und Coding. Das 26B MoE ist der Sweet Spot für die meisten Produktionsanwendungen. Die Edge-Modelle bringen echte KI auf Smartphones und Browser.
Die Hauptschwäche: Bei reinem agentischem Coding (SWE-Bench) liegt Gemma 4 noch hinter Qwen 3.6 und GLM-5.1. Wenn Ihr Hauptanwendungsfall autonome Codebearbeitung ist, sollten Sie diese Alternativen in Betracht ziehen.
Fazit: Ausgezeichnet
31B Dense
Das Flaggschiff hält sein Versprechen. Platz 3 auf Arena AI, herausragendes Reasoning und Coding, starkes Multimodal. Das beste offene Dense-Modell in dieser Größe.
Stärken: Reasoning, Mathematik, Coding, Multimodal. Schwäche: SWE-Bench hinter Qwen 3.6.
Fazit: Bestes Preis-Leistungs-Verhältnis
26B MoE
Nahezu 31B-Qualität bei einem Bruchteil der Rechenleistung. Der Sweet Spot für Produktionsbereitstellung. Passt auf eine einzelne RTX 4090.
Stärken: Effizienz, nahezu 31B-Qualität, Einzelne-GPU-Bereitstellung. Schwäche: Bei niedrigen Batch-Größen langsamer als Dense.
Fazit: Beeindruckend
E4B Edge
Das empfohlene Edge-Modell. Starkes Reasoning und Coding für seine Größe. Natives Audio ist ein einzigartiger Vorteil gegenüber Wettbewerbern.
Stärken: Audio-Unterstützung, gutes Reasoning, läuft auf Laptops. Schwäche: Für komplexe Aufgaben begrenzt.
Fazit: Nische, aber nützlich
E2B Compact
Blitzschnell mit 95 tok/s. Nützlich für einfache Aufgaben und Echtzeitanwendungen. Nicht für komplexes Reasoning geeignet.
Stärken: Geschwindigkeit, winziger Footprint, Audio-Unterstützung. Schwäche: Qualität sinkt bei schwierigeren Aufgaben.
Was funktioniert
Wo Gemma 4 wirklich überzeugt
Nach Tests mit Dutzenden von Praxisaufgaben sind dies die Bereiche, in denen Gemma 4 wirklich beeindruckt.
Mathematisches Reasoning
89.2% bei AIME 2026 ist kein Zufall. Der Thinking-Modus liefert klare, schrittweise Lösungen. Wirklich nützlich für Mathe-Nachhilfe und Problemlösung.
Code-Generierung
80% bei LiveCodeBench v6 bedeutet praktische Coding-Unterstützung. Funktionsimplementierungen, Debugging und Code-Review sind alle stark.
Multimodale Verständnis
Bildanalyse, Dokumentenverarbeitung und Diagrammverständnis funktionieren gut. Variable Auflösungsunterstützung bedeutet eleganten Umgang mit verschiedenen Bildtypen.
Lokale Bereitstellung
Die Spanne von 3.2GB bis 17GB (bei 4-Bit) bedeutet, dass es ein Modell für jede Hardware-Stufe gibt. Ollama-Setup dauert unter 2 Minuten.
Function Calling
Natives Function Calling ist zuverlässig. JSON-Ausgabe ist wohlgeformt, Tool-Auswahl ist genau, und mehrstufige Agenten-Workflows funktionieren konsistent.
Mehrsprachigkeit
140+ Sprachunterstützung ist echt. Die Qualität hält über alle wichtigen Sprachen hinweg, nicht nur Englisch.
Ehrliche Einschätzung
Wo Gemma 4 Schwächen zeigt
Kein Modell ist perfekt. Hier hat Gemma 4 Verbesserungspotenzial.
Schwächen
- SWE-Bench: 52% vs Qwen 3.6s 73.4% - deutliche Lücke bei autonomem Coding
- Kein natives Audio bei 26B und 31B - nur Edge-Modelle haben Audio-Encoder
- 26B MoE ist bei niedrigen Batch-Größen langsamer als erwartet
- E2B-Qualität sinkt merklich bei komplexen Reasoning-Aufgaben
- Long-Context-Leistung verschlechtert sich in der Praxis über ~100K Tokens hinaus
Wettbewerb
- Qwen 3.6 35B A3B: Besser bei agentischem Coding (SWE-Bench, Terminal-Bench)
- GLM-5.1: Stärker bei einigen chinesischen Sprachaufgaben
- Llama 4: Größere Kontextfenster-Optionen
- DeepSeek V4: Wettbewerbsfähig bei Reasoning-Benchmarks
- Mistral Small 4: Schnellere Inferenz bei ähnlichen Qualitätsstufen
Benchmarks
Offizielle Benchmarks vs Praxiserfahrung
Wie übersetzen sich die offiziellen Zahlen in die tatsächliche Nutzung? Hier unsere Einschätzung nach umfangreichen Tests.
Offizielle Benchmarks erzählen einen Teil der Geschichte. Praxistests zeigen, wo die Zahlen mit der Erfahrung übereinstimmen und wo nicht.


Mathematisches Reasoning: Benchmarks stimmen mit der Realität überein - der Thinking-Modus hilft wirklich
Coding: Stark bei Generierung, schwächer bei autonomer Bearbeitung (SWE-Bench-Lücke)
Multimodal: Bildverständnis ist solide, Dokument-OCR funktioniert gut
Geschwindigkeit: E2B ist wirklich schnell (~95 tok/s), 26B ist lokal langsamer als erwartet
Leistungs-Realitätscheck
Gemma 4 vs die Konkurrenz
Wie Gemma 4 31B bei wichtigen Benchmarks im Vergleich zu anderen führenden offenen Modellen abschneidet.
| Benchmark | Gemma 4 31B Im Fokus | Gemma 4 26B | Qwen 3.6 35B | Llama 4 Scout |
|---|---|---|---|---|
MMLU Pro Knowledge | 85.2% | 82.6% | 83.1% | 74.3% |
AIME 2026 Math | 89.2% | 88.3% | 81.5% | 73.0% |
LiveCodeBench v6 Coding | 80.0% | 77.1% | 75.2% | 53.0% |
SWE-Bench Verified Agentic coding | 52.0% | - | 73.4% | - |
MMMU Pro Multimodal | 76.9% | 73.8% | 70.2% | 57.5% |
Arena AI ELO Overall | 1452 | 1441 | ~1440 | ~1380 |
Benchmark-Daten aus offiziellen Modellkarten und unabhängigen Tests. Ergebnisse können je nach Evaluierungsmethodik variieren.
Reasoning
Mathematisches und wissenschaftliches Reasoning: wirklich beeindruckend
Der Thinking-Modus des 31B-Modells liefert klare, schrittweise Lösungen, die leicht nachvollziehbar und überprüfbar sind. 89.2% bei AIME 2026 bedeutet echte Mathe-Nachhilfe-Fähigkeit.
- Thinking-Modus zeigt klare Reasoning-Ketten
- Bewältigt mehrstufige Probleme mit guter Genauigkeit
- Wissenschaftliches Reasoning (GPQA Diamond 84.3%) ist stark
Coding
Starke Code-Generierung, schwächere autonome Bearbeitung
Gemma 4 glänzt bei Code-Generierung, Debugging und Erklärung. Bei autonomen Code-Bearbeitungsaufgaben (SWE-Bench) fällt es jedoch deutlich hinter Qwen 3.6 zurück. Wenn Sie einen KI-Coding-Agenten brauchen, ist Qwen 3.6 derzeit besser.
- Code-Generierung und Debugging: ausgezeichnet (80% LiveCodeBench)
- Function Calling für Agenten: zuverlässig und wohlgeformt
- Autonome Code-Bearbeitung: schwächer (52% vs Qwens 73.4% SWE-Bench)
Lokale Nutzung
Die beste offene Modellfamilie für lokale Bereitstellung
Keine andere Modellfamilie deckt die Spanne vom Smartphone bis zur Workstation so gut ab wie Gemma 4. Das E2B läuft mit 95 tok/s auf Consumer-Hardware, und das 26B passt mit nahezu 31B-Qualität auf eine einzelne RTX 4090.
- E2B: blitzschnell, passt auf Smartphones, aber begrenzt bei komplexen Aufgaben
- E4B: der Sweet Spot für Laptop-Nutzer, gute Allround-Qualität
- 26B: nahezu 31B-Qualität auf einer einzelnen GPU, aber langsamer als erwartet
Ausprobieren
Testen Sie Gemma 4 selbst
Der beste Test ist Ihre eigene Erfahrung. Probieren Sie alle Modelle kostenlos aus.
Vergleiche
Wie Gemma 4 abschneidet
Detaillierte Vergleiche mit konkurrierenden Modellen.
Ressourcen
Mehr erfahren
Tiefgehende Einblicke in Gemma 4 Architektur und Fähigkeiten.
Mehr entdecken
Tauchen Sie tiefer in Gemma 4 ein
Erkunden Sie einzelne Modelle, Bereitstellungsoptionen und Vergleiche.
Selbst ausprobieren
Der beste Test ist Ihre eigene Erfahrung
Probieren Sie alle Gemma 4 Modelle kostenlos aus. Keine Anmeldung für den Basis-Chat erforderlich. Bilden Sie sich Ihre eigene Meinung.