Gemma 4 Review

Gemma 4 review: hoe een 31B-model concurreert met 600B-rivalen

Google DeepMinds Gemma 4 familie werd gelanceerd op 2 april 2026 met vier modellen onder Apache 2.0. Het 31B staat op plek 3 op Arena AI, het 26B MoE draait op een enkele RTX 4090, en het E2B past op een telefoon. Dit is wat echt werkt en waar het tekortschiet.

Zelf proberen Benchmarks bekijken

Oordeel

Het oordeel over elk Gemma 4 model

Na uitgebreide tests op reasoning, codering, multimodaal en lokale implementatie, hier het oordeel over elke variant.

Totaaloordeel

De krachtigste open modelfamilie die je lokaal kunt draaien

Gemma 4 is de beste open modelfamilie voor gebruikers die frontier-AI op eigen hardware willen. Het 31B concurreert met 20x grotere modellen op reasoning en codering. Het 26B MoE is de sweet spot voor de meeste productietoepassingen. De edge-modellen brengen echte AI naar telefoons en browsers.

De belangrijkste zwakte: bij puur agentische codering (SWE-Bench) loopt Gemma 4 nog achter op Qwen 3.6 en GLM-5.1. Als je hoofdgebruik autonome codebewerking is, overweeg dan die alternatieven.

Zelf proberen Vergelijken met Qwen 3.6

Oordeel: Uitstekend

31B Dense

Het vlaggenschip maakt zijn belofte waar. Plek 3 op Arena AI, uitzonderlijk reasoning en codering, sterk multimodaal. Het beste open Dense-model in deze grootte.

Sterktes: reasoning, wiskunde, codering, multimodaal. Zwakte: SWE-Bench achter Qwen 3.6.

Aanbevolen

31B testen Alle details

Oordeel: Beste prijs-kwaliteit

26B MoE

Bijna 31B-kwaliteit voor een fractie van de rekenkracht. De sweet spot voor productie-implementatie. Past op een enkele RTX 4090.

Sterktes: efficiëntie, bijna 31B-kwaliteit, enkele-GPU-implementatie. Zwakte: langzamer dan Dense bij lage batch.

Beste prijs-kwaliteit

26B testen Alle details

Oordeel: Indrukwekkend

E4B Edge

Het aanbevolen edge-model. Sterk reasoning en codering voor zijn grootte. Native audio is een uniek voordeel ten opzichte van concurrenten.

Sterktes: audio-ondersteuning, goed reasoning, draait op laptops. Zwakte: beperkt voor complexe taken.

Edge-keuze

E4B testen Alle details

Oordeel: Niche maar nuttig

E2B Compact

Razendsnell met 95 tok/s. Nuttig voor eenvoudige taken en realtime-toepassingen. Niet geschikt voor complex reasoning.

Sterktes: snelheid, minimale footprint, audio-ondersteuning. Zwakte: kwaliteit daalt bij moeilijkere taken.

Snelheidskeuze

E2B testen Alle details

Wat werkt

Waar Gemma 4 uitblinkt

Na tests met tientallen praktijktaken zijn dit de gebieden waar Gemma 4 echt indruk maakt.

Wiskundig reasoning

89.2% op AIME 2026 is geen toeval. De Thinking-modus levert duidelijke, stapsgewijze oplossingen. Echt nuttig voor wiskundebijles en probleemoplossing.

Code-generatie

80% op LiveCodeBench v6 vertaalt zich naar praktische coderingsondersteuning. Functie-implementaties, debugging en code-review zijn allemaal sterk.

Multimodaal begrip

Beeldanalyse, documentverwerking en grafiekbegrip werken goed. Variabele resolutie-ondersteuning gaat elegant om met verschillende beeldtypen.

Lokale implementatie

Het bereik van 3.2 GB tot 17 GB (bij 4-bit) betekent dat er een model is voor elk hardwareniveau. Ollama-setup duurt minder dan 2 minuten.

Function calling

Native function calling is betrouwbaar. JSON-uitvoer is goed gevormd, toolselectie is nauwkeurig, en meerstaps-agentworkflows werken consistent.

Meertalig

Ondersteuning voor 140+ talen is echt. De kwaliteit houdt stand over alle belangrijke talen, niet alleen Engels.

Eerlijke beoordeling

Waar Gemma 4 tekortschiet

Geen model is perfect. Hier heeft Gemma 4 ruimte voor verbetering.

Zwaktes

SWE-Bench: 52% vs 73.4% van Qwen 3.6 - aanzienlijke kloof bij autonome codering
Geen native audio op 26B en 31B - alleen edge-modellen hebben audio-encoders
26B MoE is langzamer dan verwacht bij lage batch
E2B-kwaliteit daalt merkbaar bij complexe reasoning-taken
Long-context prestaties verslechteren voorbij ~100K tokens in de praktijk

Concurrentie

Qwen 3.6 35B A3B: Beter bij agentische codering (SWE-Bench, Terminal-Bench)
GLM-5.1: Sterker op sommige Chinese taaltaken
Llama 4: Grotere contextvenster-opties
DeepSeek V4: Competitief op reasoning-benchmarks
Mistral Small 4: Snellere inferentie bij vergelijkbare kwaliteitsniveaus

Zelf proberen Vergelijken met Qwen 3.6

Benchmarks

Officiële benchmarks vs praktijkervaring

Hoe vertalen de officiële cijfers zich naar daadwerkelijk gebruik? Hier onze beoordeling na uitgebreide tests.

Officiële benchmarks vertellen een deel van het verhaal. Praktijktests onthullen waar de cijfers overeenkomen met de ervaring en waar niet.

Zelf proberen Modelkaart bekijken

Gemma 4 benchmark-prestaties over alle modellen

Wiskundig reasoning: benchmarks komen overeen met de realiteit - de Thinking-modus helpt echt

Codering: sterk in generatie, zwakker in autonome bewerking (SWE-Bench-kloof)

Multimodaal: beeldbegrip is solide, document-OCR werkt goed

Snelheid: E2B is echt snel (~95 tok/s), 26B is lokaal langzamer dan verwacht

Prestatiecheck

Gemma 4 vs de concurrentie

Hoe Gemma 4 31B zich verhoudt tot andere toonaangevende open modellen op belangrijke benchmarks.

Benchmark	Gemma 4 31B Uitgelicht	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

Benchmarkgegevens uit officiële modelkaarten en onafhankelijke tests. Scores kunnen variëren per evaluatiemethodologie.

Reasoning

Wiskundig en wetenschappelijk reasoning: echt indrukwekkend

De Thinking-modus van het 31B-model levert duidelijke, stapsgewijze oplossingen die makkelijk te volgen en te verifiëren zijn. 89.2% op AIME 2026 vertaalt zich naar echte wiskundebijles-capaciteit.

Thinking-modus toont duidelijke reasoning-ketens
Verwerkt meerstapsproblemen met goede nauwkeurigheid
Wetenschappelijk reasoning (GPQA Diamond 84.3%) is sterk

Reasoning testen Benchmarks bekijken

Wiskundig en wetenschappelijk reasoning: echt indrukwekkend

Codering

Sterke code-generatie, zwakkere autonome bewerking

Gemma 4 blinkt uit in code-generatie, debugging en uitleg. Maar bij autonome codebewerkingstaken (SWE-Bench) valt het aanzienlijk achter bij Qwen 3.6. Als je een AI-coderingsagent nodig hebt, is Qwen 3.6 momenteel beter.

Code-generatie en debugging: uitstekend (80% LiveCodeBench)
Function calling voor agents: betrouwbaar en goed gevormd
Autonome codebewerking: zwakker (52% vs 73.4% van Qwen op SWE-Bench)

Codering testen Vergelijken met Qwen 3.6

Sterke code-generatie, zwakkere autonome bewerking

Lokaal gebruik

De beste open modelfamilie voor lokale implementatie

Geen andere modelfamilie dekt het bereik van telefoon tot werkstation zo goed als Gemma 4. Het E2B draait op 95 tok/s op consumentenhardware, en het 26B past op een enkele RTX 4090 met bijna 31B-kwaliteit.

E2B: razendsnell, past op telefoons, maar beperkt voor complexe taken
E4B: de sweet spot voor laptopgebruikers, goede algehele kwaliteit
26B: bijna 31B-kwaliteit op een enkele GPU, maar langzamer dan verwacht

Lokaal draaien Hardware-gids