Gemma 4 Modellen
Vier modellen, één familie - van edge tot frontier
De Gemma 4 familie omvat vier architecturen: de ultracompacte E2B en E4B voor edge-apparaten, het 26B MoE voor efficiënte serverimplementatie en het vlaggenschip 31B Dense. Allemaal delen ze native multimodale ondersteuning, configureerbaar redeneren en Apache 2.0 licentie.
Alle modellen
Kies het juiste Gemma 4 voor jouw toepassing
Elk model in de familie is geoptimaliseerd voor verschillende implementatiescenario's. Edge-modellen bieden audio-ondersteuning, terwijl servermodellen 256K context en frontier-redeneren bieden.
Edge-modellen
E2B & E4B: On-device intelligentie met audio
Ultracompacte modellen met 2.3B en 4.5B effectieve parameters. Beide bevatten native audio-encoders, 128K context en draaien op telefoons, browsers en IoT-apparaten.
Kies E2B voor de kleinste footprint (3.2 GB bij 4-bit). Kies E4B voor betere kwaliteit (5.5 GB bij 4-bit). Beide ondersteunen tekst-, beeld-, video- en audio-invoer.
Servermodellen
26B MoE & 31B Dense: Frontier-prestaties
Het 26B MoE activeert slechts 4B parameters per token voor efficiënte serving. Het 31B Dense is het vlaggenschip met positie #3 op Arena AI. Beide bieden 256K context en native Function Calling.
Kies 26B voor high-throughput productie (16 GB bij 4-bit). Kies 31B voor maximale kwaliteit (17 GB bij 4-bit). Beide blinken uit in redeneren, coderen en multimodale taken.
Edge - Ultracompact
Gemma 4 E2B
2.3B effectieve parameters. Het kleinste Gemma 4 met volledige multimodale + audio-ondersteuning.
35 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 3.2 GB VRAM bij 4-bit.
Edge - Aanbevolen
Gemma 4 E4B
4.5B effectieve parameters. Beste edge-model met sterk redeneren en audio-ondersteuning.
42 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 5.5 GB VRAM bij 4-bit.
Server - Efficiënt
Gemma 4 26B A4B
25.2B totaal, 3.8B actief per token. Bijna 31B-kwaliteit tegen een fractie van de rekenkracht.
MoE met 128 experts (8 actief + 1 gedeeld). 256K context. 16 GB VRAM bij 4-bit.
Server - Vlaggenschip
Gemma 4 31B
30.7B dense parameters. #3 op Arena AI. Maximale intelligentie en betrouwbaarheid.
Dense architectuur, 256K context, 140+ talen. 17 GB VRAM bij 4-bit.
Gedeelde mogelijkheden
Wat elk Gemma 4 model kan
Alle vier modellen delen een gemeenschappelijke set mogelijkheden die de Gemma 4 familie uniek veelzijdig maken.
Native multimodaal
Alle modellen verwerken tekst en afbeeldingen native. Edge-modellen voegen audio- en video-ondersteuning toe. Geen aparte encoders of pipelines nodig.
Configureerbaar redeneren
Alle modellen ondersteunen denkmodi voor stapsgewijs redeneren. Bepaal de diepte van het redeneren op basis van de complexiteit van de taak.
Function Calling
Ingebouwde Function Calling in de hele familie maakt agentische workflows mogelijk. Geen fine-tuning nodig voor toolgebruik.
Uitgebreide context
128K tokens voor edge-modellen, 256K voor servermodellen. Hybride attention houdt het geheugengebruik praktisch.
140+ talen
Meertalige ondersteuning met cultureel contextbegrip over alle modelgroottes.
Apache 2.0 licentie
Volledige commerciële vrijheid. Geen MAU-limieten, geen gebruiksbeperkingen. Implementeer overal, pas vrij aan.
Snelkeuzegids
Welk model moet je kiezen?
Koppel je implementatiebeperkingen en kwaliteitseisen aan de juiste Gemma 4 variant.
Op hardware
- Telefoon / IoT / 4 GB RAM: Gemma 4 E2B
- Laptop / 8-16 GB RAM: Gemma 4 E4B
- Enkele GPU / 16-24 GB VRAM: Gemma 4 26B A4B
- Multi-GPU / 24 GB+ VRAM: Gemma 4 31B
Op toepassing
- Spraakassistent / audio: E2B of E4B (audio-ondersteuning)
- Browser-gebaseerde AI: E2B of E4B (WebGPU)
- High-throughput API: 26B A4B (MoE-efficiëntie)
- Maximale kwaliteit: 31B Dense (frontier-prestaties)
Prestaties
Volledige benchmarkvergelijking van alle vier modellen
Elk Gemma 4 model maakt deel uit van een Pareto-frontier - elke grootte levert uitzonderlijke prestaties ten opzichte van het aantal parameters.
Van het ultracompacte E2B tot het vlaggenschip 31B is elk model geoptimaliseerd voor zijn implementatieniveau terwijl het dezelfde architecturale innovaties deelt.


31B Dense: #3 op Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE: Bijna 31B-kwaliteit (ELO 1441) met slechts 4B actieve parameters per token
E4B: 69.4% MMLU Pro, 52% LiveCodeBench - sterke edge-prestaties met audio
E2B: 60% MMLU Pro, 44% LiveCodeBench - betekenisvolle AI bij 3.2 GB VRAM
Volledige familievergelijking
Alle Gemma 4 modellen naast elkaar
Volledige benchmarkresultaten voor redeneren, coderen, multimodaal en implementatiemetrieken.
| Benchmark | 31B Dense Vlaggenschip 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Compact E2B |
|---|---|---|---|---|
Arena AI ELO Algemene ranking | 1452 | 1441 | - | - |
MMLU Pro Kennis & redeneren | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Wiskunde | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Coderen | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Wetenschap | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodaal | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Maximale tokens | 256K | 256K | 128K | 128K |
Audio Support Native audio | No | No | Yes | Yes |
VRAM (4-bit) Minimaal geheugen | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Alle cijfers uit de officiële Gemma 4 modelkaart. Arena AI scores per 2 april 2026.
Edge-niveau
E2B & E4B: AI die op je apparaat draait
De edge-modellen brengen volledige multimodale AI naar telefoons, browsers en IoT-apparaten. Beide bevatten native audio-encoders - een mogelijkheid die de grotere modellen niet hebben. Kies E2B voor de kleinste footprint, E4B voor betere kwaliteit.
- E2B: 2.3B effectief, 3.2 GB bij 4-bit, 95 tok/s op consumenten-hardware
- E4B: 4.5B effectief, 5.5 GB bij 4-bit, sterk redeneren en coderen
- Beide: native audio, 128K context, WebGPU browserondersteuning
Serverniveau
26B MoE & 31B Dense: Frontier-prestaties
De servermodellen leveren frontier-redeneren, coderen en multimodaal begrip. Het 26B MoE biedt bijna 31B-kwaliteit tegen een fractie van de rekenkracht. Het 31B Dense is het vlaggenschip voor maximale prestaties.
- 26B MoE: 3.8B actief per token, ELO 1441, 88.3% AIME 2026
- 31B Dense: Volledig 30.7B actief, ELO 1452, 89.2% AIME 2026
- Beide: 256K context, native Function Calling, 140+ talen
Architectuur
Gedeelde innovaties in de hele familie
Alle Gemma 4 modellen delen belangrijke architecturale innovaties uit het onderzoek van Google DeepMind. Per-Layer Embeddings, gedeelde KV-cache en hybride attention-patronen maximaliseren de efficiëntie op elke schaal.
- Per-Layer Embeddings (PLE) voor parameter-efficiënte conditionering
- Gedeelde KV-cache vermindert geheugen tijdens long-context generatie
- Hybride lokale/globale attention voor optimale geheugen-kwaliteit afweging

Nu proberen
Chat met elk Gemma 4 model
Probeer alle modellen direct via onze chatinterface, of download ze voor lokale implementatie.
Downloaden
Modelgewichten ophalen
Download officiële gewichten voor elke Gemma 4 variant.
Implementeren
Productie-implementatie
Implementeer op cloud-, lokale of edge-platformen.
Gemma 4 Familie
Verken elk model in detail
Duik dieper in elke Gemma 4 variant met speciale pagina's over architectuur, benchmarks en implementatiegidsen.
Aan de slag
Vind jouw Gemma 4 model
Chat gratis met elk Gemma 4 model, of download gewichten voor lokale implementatie. Apache 2.0 gelicentieerd voor volledige commerciële vrijheid.