Gemma 4 Review
Gemma 4 review: hoe een 31B-model concurreert met 600B-rivalen
Google DeepMinds Gemma 4 familie werd gelanceerd op 2 april 2026 met vier modellen onder Apache 2.0. Het 31B staat op plek 3 op Arena AI, het 26B MoE draait op een enkele RTX 4090, en het E2B past op een telefoon. Dit is wat echt werkt en waar het tekortschiet.
Oordeel
Het oordeel over elk Gemma 4 model
Na uitgebreide tests op reasoning, codering, multimodaal en lokale implementatie, hier het oordeel over elke variant.
Totaaloordeel
De krachtigste open modelfamilie die je lokaal kunt draaien
Gemma 4 is de beste open modelfamilie voor gebruikers die frontier-AI op eigen hardware willen. Het 31B concurreert met 20x grotere modellen op reasoning en codering. Het 26B MoE is de sweet spot voor de meeste productietoepassingen. De edge-modellen brengen echte AI naar telefoons en browsers.
De belangrijkste zwakte: bij puur agentische codering (SWE-Bench) loopt Gemma 4 nog achter op Qwen 3.6 en GLM-5.1. Als je hoofdgebruik autonome codebewerking is, overweeg dan die alternatieven.
Oordeel: Uitstekend
31B Dense
Het vlaggenschip maakt zijn belofte waar. Plek 3 op Arena AI, uitzonderlijk reasoning en codering, sterk multimodaal. Het beste open Dense-model in deze grootte.
Sterktes: reasoning, wiskunde, codering, multimodaal. Zwakte: SWE-Bench achter Qwen 3.6.
Oordeel: Beste prijs-kwaliteit
26B MoE
Bijna 31B-kwaliteit voor een fractie van de rekenkracht. De sweet spot voor productie-implementatie. Past op een enkele RTX 4090.
Sterktes: efficiëntie, bijna 31B-kwaliteit, enkele-GPU-implementatie. Zwakte: langzamer dan Dense bij lage batch.
Oordeel: Indrukwekkend
E4B Edge
Het aanbevolen edge-model. Sterk reasoning en codering voor zijn grootte. Native audio is een uniek voordeel ten opzichte van concurrenten.
Sterktes: audio-ondersteuning, goed reasoning, draait op laptops. Zwakte: beperkt voor complexe taken.
Oordeel: Niche maar nuttig
E2B Compact
Razendsnell met 95 tok/s. Nuttig voor eenvoudige taken en realtime-toepassingen. Niet geschikt voor complex reasoning.
Sterktes: snelheid, minimale footprint, audio-ondersteuning. Zwakte: kwaliteit daalt bij moeilijkere taken.
Wat werkt
Waar Gemma 4 uitblinkt
Na tests met tientallen praktijktaken zijn dit de gebieden waar Gemma 4 echt indruk maakt.
Wiskundig reasoning
89.2% op AIME 2026 is geen toeval. De Thinking-modus levert duidelijke, stapsgewijze oplossingen. Echt nuttig voor wiskundebijles en probleemoplossing.
Code-generatie
80% op LiveCodeBench v6 vertaalt zich naar praktische coderingsondersteuning. Functie-implementaties, debugging en code-review zijn allemaal sterk.
Multimodaal begrip
Beeldanalyse, documentverwerking en grafiekbegrip werken goed. Variabele resolutie-ondersteuning gaat elegant om met verschillende beeldtypen.
Lokale implementatie
Het bereik van 3.2 GB tot 17 GB (bij 4-bit) betekent dat er een model is voor elk hardwareniveau. Ollama-setup duurt minder dan 2 minuten.
Function calling
Native function calling is betrouwbaar. JSON-uitvoer is goed gevormd, toolselectie is nauwkeurig, en meerstaps-agentworkflows werken consistent.
Meertalig
Ondersteuning voor 140+ talen is echt. De kwaliteit houdt stand over alle belangrijke talen, niet alleen Engels.
Eerlijke beoordeling
Waar Gemma 4 tekortschiet
Geen model is perfect. Hier heeft Gemma 4 ruimte voor verbetering.
Zwaktes
- SWE-Bench: 52% vs 73.4% van Qwen 3.6 - aanzienlijke kloof bij autonome codering
- Geen native audio op 26B en 31B - alleen edge-modellen hebben audio-encoders
- 26B MoE is langzamer dan verwacht bij lage batch
- E2B-kwaliteit daalt merkbaar bij complexe reasoning-taken
- Long-context prestaties verslechteren voorbij ~100K tokens in de praktijk
Concurrentie
- Qwen 3.6 35B A3B: Beter bij agentische codering (SWE-Bench, Terminal-Bench)
- GLM-5.1: Sterker op sommige Chinese taaltaken
- Llama 4: Grotere contextvenster-opties
- DeepSeek V4: Competitief op reasoning-benchmarks
- Mistral Small 4: Snellere inferentie bij vergelijkbare kwaliteitsniveaus
Benchmarks
Officiële benchmarks vs praktijkervaring
Hoe vertalen de officiële cijfers zich naar daadwerkelijk gebruik? Hier onze beoordeling na uitgebreide tests.
Officiële benchmarks vertellen een deel van het verhaal. Praktijktests onthullen waar de cijfers overeenkomen met de ervaring en waar niet.


Wiskundig reasoning: benchmarks komen overeen met de realiteit - de Thinking-modus helpt echt
Codering: sterk in generatie, zwakker in autonome bewerking (SWE-Bench-kloof)
Multimodaal: beeldbegrip is solide, document-OCR werkt goed
Snelheid: E2B is echt snel (~95 tok/s), 26B is lokaal langzamer dan verwacht
Prestatiecheck
Gemma 4 vs de concurrentie
Hoe Gemma 4 31B zich verhoudt tot andere toonaangevende open modellen op belangrijke benchmarks.
| Benchmark | Gemma 4 31B Uitgelicht | Gemma 4 26B | Qwen 3.6 35B | Llama 4 Scout |
|---|---|---|---|---|
MMLU Pro Knowledge | 85.2% | 82.6% | 83.1% | 74.3% |
AIME 2026 Math | 89.2% | 88.3% | 81.5% | 73.0% |
LiveCodeBench v6 Coding | 80.0% | 77.1% | 75.2% | 53.0% |
SWE-Bench Verified Agentic coding | 52.0% | - | 73.4% | - |
MMMU Pro Multimodal | 76.9% | 73.8% | 70.2% | 57.5% |
Arena AI ELO Overall | 1452 | 1441 | ~1440 | ~1380 |
Benchmarkgegevens uit officiële modelkaarten en onafhankelijke tests. Scores kunnen variëren per evaluatiemethodologie.
Reasoning
Wiskundig en wetenschappelijk reasoning: echt indrukwekkend
De Thinking-modus van het 31B-model levert duidelijke, stapsgewijze oplossingen die makkelijk te volgen en te verifiëren zijn. 89.2% op AIME 2026 vertaalt zich naar echte wiskundebijles-capaciteit.
- Thinking-modus toont duidelijke reasoning-ketens
- Verwerkt meerstapsproblemen met goede nauwkeurigheid
- Wetenschappelijk reasoning (GPQA Diamond 84.3%) is sterk
Codering
Sterke code-generatie, zwakkere autonome bewerking
Gemma 4 blinkt uit in code-generatie, debugging en uitleg. Maar bij autonome codebewerkingstaken (SWE-Bench) valt het aanzienlijk achter bij Qwen 3.6. Als je een AI-coderingsagent nodig hebt, is Qwen 3.6 momenteel beter.
- Code-generatie en debugging: uitstekend (80% LiveCodeBench)
- Function calling voor agents: betrouwbaar en goed gevormd
- Autonome codebewerking: zwakker (52% vs 73.4% van Qwen op SWE-Bench)
Lokaal gebruik
De beste open modelfamilie voor lokale implementatie
Geen andere modelfamilie dekt het bereik van telefoon tot werkstation zo goed als Gemma 4. Het E2B draait op 95 tok/s op consumentenhardware, en het 26B past op een enkele RTX 4090 met bijna 31B-kwaliteit.
- E2B: razendsnell, past op telefoons, maar beperkt voor complexe taken
- E4B: de sweet spot voor laptopgebruikers, goede algehele kwaliteit
- 26B: bijna 31B-kwaliteit op een enkele GPU, maar langzamer dan verwacht
Probeer het
Test Gemma 4 zelf
De beste review is je eigen ervaring. Probeer alle modellen gratis.
Vergelijkingen
Hoe Gemma 4 zich verhoudt
Gedetailleerde vergelijkingen met concurrerende modellen.
Bronnen
Meer informatie
Diepgaande analyses van Gemma 4 architectuur en mogelijkheden.
Meer ontdekken
Duik dieper in Gemma 4
Verken individuele modellen, implementatie-opties en vergelijkingen.
Zelf proberen
De beste review is je eigen ervaring
Probeer alle Gemma 4 modellen gratis. Geen registratie nodig voor basischat. Vorm je eigen mening.