Gemma 4 Review

Gemma 4 review: hoe een 31B-model concurreert met 600B-rivalen

Google DeepMinds Gemma 4 familie werd gelanceerd op 2 april 2026 met vier modellen onder Apache 2.0. Het 31B staat op plek 3 op Arena AI, het 26B MoE draait op een enkele RTX 4090, en het E2B past op een telefoon. Dit is wat echt werkt en waar het tekortschiet.

Oordeel

Het oordeel over elk Gemma 4 model

Na uitgebreide tests op reasoning, codering, multimodaal en lokale implementatie, hier het oordeel over elke variant.

Totaaloordeel

De krachtigste open modelfamilie die je lokaal kunt draaien

Gemma 4 is de beste open modelfamilie voor gebruikers die frontier-AI op eigen hardware willen. Het 31B concurreert met 20x grotere modellen op reasoning en codering. Het 26B MoE is de sweet spot voor de meeste productietoepassingen. De edge-modellen brengen echte AI naar telefoons en browsers.

De belangrijkste zwakte: bij puur agentische codering (SWE-Bench) loopt Gemma 4 nog achter op Qwen 3.6 en GLM-5.1. Als je hoofdgebruik autonome codebewerking is, overweeg dan die alternatieven.

Oordeel: Uitstekend

31B Dense

Het vlaggenschip maakt zijn belofte waar. Plek 3 op Arena AI, uitzonderlijk reasoning en codering, sterk multimodaal. Het beste open Dense-model in deze grootte.

Sterktes: reasoning, wiskunde, codering, multimodaal. Zwakte: SWE-Bench achter Qwen 3.6.

Aanbevolen

Oordeel: Beste prijs-kwaliteit

26B MoE

Bijna 31B-kwaliteit voor een fractie van de rekenkracht. De sweet spot voor productie-implementatie. Past op een enkele RTX 4090.

Sterktes: efficiëntie, bijna 31B-kwaliteit, enkele-GPU-implementatie. Zwakte: langzamer dan Dense bij lage batch.

Beste prijs-kwaliteit

Oordeel: Indrukwekkend

E4B Edge

Het aanbevolen edge-model. Sterk reasoning en codering voor zijn grootte. Native audio is een uniek voordeel ten opzichte van concurrenten.

Sterktes: audio-ondersteuning, goed reasoning, draait op laptops. Zwakte: beperkt voor complexe taken.

Edge-keuze

Oordeel: Niche maar nuttig

E2B Compact

Razendsnell met 95 tok/s. Nuttig voor eenvoudige taken en realtime-toepassingen. Niet geschikt voor complex reasoning.

Sterktes: snelheid, minimale footprint, audio-ondersteuning. Zwakte: kwaliteit daalt bij moeilijkere taken.

Snelheidskeuze

Wat werkt

Waar Gemma 4 uitblinkt

Na tests met tientallen praktijktaken zijn dit de gebieden waar Gemma 4 echt indruk maakt.

Wiskundig reasoning

89.2% op AIME 2026 is geen toeval. De Thinking-modus levert duidelijke, stapsgewijze oplossingen. Echt nuttig voor wiskundebijles en probleemoplossing.

Code-generatie

80% op LiveCodeBench v6 vertaalt zich naar praktische coderingsondersteuning. Functie-implementaties, debugging en code-review zijn allemaal sterk.

Multimodaal begrip

Beeldanalyse, documentverwerking en grafiekbegrip werken goed. Variabele resolutie-ondersteuning gaat elegant om met verschillende beeldtypen.

Lokale implementatie

Het bereik van 3.2 GB tot 17 GB (bij 4-bit) betekent dat er een model is voor elk hardwareniveau. Ollama-setup duurt minder dan 2 minuten.

Function calling

Native function calling is betrouwbaar. JSON-uitvoer is goed gevormd, toolselectie is nauwkeurig, en meerstaps-agentworkflows werken consistent.

Meertalig

Ondersteuning voor 140+ talen is echt. De kwaliteit houdt stand over alle belangrijke talen, niet alleen Engels.

Eerlijke beoordeling

Waar Gemma 4 tekortschiet

Geen model is perfect. Hier heeft Gemma 4 ruimte voor verbetering.

Zwaktes

  • SWE-Bench: 52% vs 73.4% van Qwen 3.6 - aanzienlijke kloof bij autonome codering
  • Geen native audio op 26B en 31B - alleen edge-modellen hebben audio-encoders
  • 26B MoE is langzamer dan verwacht bij lage batch
  • E2B-kwaliteit daalt merkbaar bij complexe reasoning-taken
  • Long-context prestaties verslechteren voorbij ~100K tokens in de praktijk

Concurrentie

  • Qwen 3.6 35B A3B: Beter bij agentische codering (SWE-Bench, Terminal-Bench)
  • GLM-5.1: Sterker op sommige Chinese taaltaken
  • Llama 4: Grotere contextvenster-opties
  • DeepSeek V4: Competitief op reasoning-benchmarks
  • Mistral Small 4: Snellere inferentie bij vergelijkbare kwaliteitsniveaus

Benchmarks

Officiële benchmarks vs praktijkervaring

Hoe vertalen de officiële cijfers zich naar daadwerkelijk gebruik? Hier onze beoordeling na uitgebreide tests.

Officiële benchmarks vertellen een deel van het verhaal. Praktijktests onthullen waar de cijfers overeenkomen met de ervaring en waar niet.

Gemma 4 benchmark-prestaties over alle modellen

Wiskundig reasoning: benchmarks komen overeen met de realiteit - de Thinking-modus helpt echt

Codering: sterk in generatie, zwakker in autonome bewerking (SWE-Bench-kloof)

Multimodaal: beeldbegrip is solide, document-OCR werkt goed

Snelheid: E2B is echt snel (~95 tok/s), 26B is lokaal langzamer dan verwacht

Prestatiecheck

Gemma 4 vs de concurrentie

Hoe Gemma 4 31B zich verhoudt tot andere toonaangevende open modellen op belangrijke benchmarks.

Benchmark
Gemma 4 31B
Uitgelicht
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

Benchmarkgegevens uit officiële modelkaarten en onafhankelijke tests. Scores kunnen variëren per evaluatiemethodologie.

Reasoning

Wiskundig en wetenschappelijk reasoning: echt indrukwekkend

De Thinking-modus van het 31B-model levert duidelijke, stapsgewijze oplossingen die makkelijk te volgen en te verifiëren zijn. 89.2% op AIME 2026 vertaalt zich naar echte wiskundebijles-capaciteit.

  • Thinking-modus toont duidelijke reasoning-ketens
  • Verwerkt meerstapsproblemen met goede nauwkeurigheid
  • Wetenschappelijk reasoning (GPQA Diamond 84.3%) is sterk
Wiskundig en wetenschappelijk reasoning: echt indrukwekkend

Codering

Sterke code-generatie, zwakkere autonome bewerking

Gemma 4 blinkt uit in code-generatie, debugging en uitleg. Maar bij autonome codebewerkingstaken (SWE-Bench) valt het aanzienlijk achter bij Qwen 3.6. Als je een AI-coderingsagent nodig hebt, is Qwen 3.6 momenteel beter.

  • Code-generatie en debugging: uitstekend (80% LiveCodeBench)
  • Function calling voor agents: betrouwbaar en goed gevormd
  • Autonome codebewerking: zwakker (52% vs 73.4% van Qwen op SWE-Bench)
Sterke code-generatie, zwakkere autonome bewerking

Lokaal gebruik

De beste open modelfamilie voor lokale implementatie

Geen andere modelfamilie dekt het bereik van telefoon tot werkstation zo goed als Gemma 4. Het E2B draait op 95 tok/s op consumentenhardware, en het 26B past op een enkele RTX 4090 met bijna 31B-kwaliteit.

  • E2B: razendsnell, past op telefoons, maar beperkt voor complexe taken
  • E4B: de sweet spot voor laptopgebruikers, goede algehele kwaliteit
  • 26B: bijna 31B-kwaliteit op een enkele GPU, maar langzamer dan verwacht
De beste open modelfamilie voor lokale implementatie

Meer ontdekken

Duik dieper in Gemma 4

Verken individuele modellen, implementatie-opties en vergelijkingen.

Gemma 4 31B

Review van het Dense vlaggenschipmodel

Meer lezen

Gemma 4 26B

Review van MoE-efficiëntie

Meer lezen

Lokaal draaien

Gids voor lokale implementatie

Aan de slag

Qwen 3.6 vergelijking

Direct vergelijk met de hoofdrivaal

Vergelijken

API-toegang

Gebruik via gehoste API's

Aan de slag

Download

Modelgewichten ophalen

Downloaden

Zelf proberen

De beste review is je eigen ervaring

Probeer alle Gemma 4 modellen gratis. Geen registratie nodig voor basischat. Vorm je eigen mening.