Gemma 4 Modellen

Vier modellen, één familie - van edge tot frontier

De Gemma 4 familie omvat vier architecturen: de ultracompacte E2B en E4B voor edge-apparaten, het 26B MoE voor efficiënte serverimplementatie en het vlaggenschip 31B Dense. Allemaal delen ze native multimodale ondersteuning, configureerbaar redeneren en Apache 2.0 licentie.

Start met chatten Benchmarks vergelijken

Alle modellen

Kies het juiste Gemma 4 voor jouw toepassing

Elk model in de familie is geoptimaliseerd voor verschillende implementatiescenario's. Edge-modellen bieden audio-ondersteuning, terwijl servermodellen 256K context en frontier-redeneren bieden.

Edge-modellen

E2B & E4B: On-device intelligentie met audio

Ultracompacte modellen met 2.3B en 4.5B effectieve parameters. Beide bevatten native audio-encoders, 128K context en draaien op telefoons, browsers en IoT-apparaten.

Kies E2B voor de kleinste footprint (3.2 GB bij 4-bit). Kies E4B voor betere kwaliteit (5.5 GB bij 4-bit). Beide ondersteunen tekst-, beeld-, video- en audio-invoer.

Probeer E4B gratis Vergelijk E2B vs E4B

Servermodellen

26B MoE & 31B Dense: Frontier-prestaties

Het 26B MoE activeert slechts 4B parameters per token voor efficiënte serving. Het 31B Dense is het vlaggenschip met positie #3 op Arena AI. Beide bieden 256K context en native Function Calling.

Kies 26B voor high-throughput productie (16 GB bij 4-bit). Kies 31B voor maximale kwaliteit (17 GB bij 4-bit). Beide blinken uit in redeneren, coderen en multimodale taken.

Probeer 26B gratis Bekijk benchmarks

Edge - Ultracompact

Gemma 4 E2B

2.3B effectieve parameters. Het kleinste Gemma 4 met volledige multimodale + audio-ondersteuning.

35 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 3.2 GB VRAM bij 4-bit.

Nu beschikbaar

Meer informatie Downloaden

Edge - Aanbevolen

Gemma 4 E4B

4.5B effectieve parameters. Beste edge-model met sterk redeneren en audio-ondersteuning.

42 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 5.5 GB VRAM bij 4-bit.

Nu beschikbaar

Meer informatie Downloaden

Server - Efficiënt

Gemma 4 26B A4B

25.2B totaal, 3.8B actief per token. Bijna 31B-kwaliteit tegen een fractie van de rekenkracht.

MoE met 128 experts (8 actief + 1 gedeeld). 256K context. 16 GB VRAM bij 4-bit.

Nu beschikbaar

Meer informatie Downloaden

Server - Vlaggenschip

Gemma 4 31B

30.7B dense parameters. #3 op Arena AI. Maximale intelligentie en betrouwbaarheid.

Dense architectuur, 256K context, 140+ talen. 17 GB VRAM bij 4-bit.

Nu beschikbaar

Meer informatie Downloaden

Gedeelde mogelijkheden

Wat elk Gemma 4 model kan

Alle vier modellen delen een gemeenschappelijke set mogelijkheden die de Gemma 4 familie uniek veelzijdig maken.

Native multimodaal

Alle modellen verwerken tekst en afbeeldingen native. Edge-modellen voegen audio- en video-ondersteuning toe. Geen aparte encoders of pipelines nodig.

Configureerbaar redeneren

Alle modellen ondersteunen denkmodi voor stapsgewijs redeneren. Bepaal de diepte van het redeneren op basis van de complexiteit van de taak.

Function Calling

Ingebouwde Function Calling in de hele familie maakt agentische workflows mogelijk. Geen fine-tuning nodig voor toolgebruik.

Uitgebreide context

128K tokens voor edge-modellen, 256K voor servermodellen. Hybride attention houdt het geheugengebruik praktisch.

140+ talen

Meertalige ondersteuning met cultureel contextbegrip over alle modelgroottes.

Apache 2.0 licentie

Volledige commerciële vrijheid. Geen MAU-limieten, geen gebruiksbeperkingen. Implementeer overal, pas vrij aan.

Snelkeuzegids

Welk model moet je kiezen?

Koppel je implementatiebeperkingen en kwaliteitseisen aan de juiste Gemma 4 variant.

Op hardware

Telefoon / IoT / 4 GB RAM: Gemma 4 E2B
Laptop / 8-16 GB RAM: Gemma 4 E4B
Enkele GPU / 16-24 GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Op toepassing

Spraakassistent / audio: E2B of E4B (audio-ondersteuning)
Browser-gebaseerde AI: E2B of E4B (WebGPU)
High-throughput API: 26B A4B (MoE-efficiëntie)
Maximale kwaliteit: 31B Dense (frontier-prestaties)

Start met chatten Alle benchmarks bekijken

Prestaties

Volledige benchmarkvergelijking van alle vier modellen

Elk Gemma 4 model maakt deel uit van een Pareto-frontier - elke grootte levert uitzonderlijke prestaties ten opzichte van het aantal parameters.

Van het ultracompacte E2B tot het vlaggenschip 31B is elk model geoptimaliseerd voor zijn implementatieniveau terwijl het dezelfde architecturale innovaties deelt.

Start met chatten Modelkaart bekijken

Prestatievergelijking van de Gemma 4 familie over alle modelgroottes

31B Dense: #3 op Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Bijna 31B-kwaliteit (ELO 1441) met slechts 4B actieve parameters per token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - sterke edge-prestaties met audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - betekenisvolle AI bij 3.2 GB VRAM

Volledige familievergelijking

Alle Gemma 4 modellen naast elkaar

Volledige benchmarkresultaten voor redeneren, coderen, multimodaal en implementatiemetrieken.

Benchmark	31B Dense Vlaggenschip 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compact E2B
Arena AI ELO Algemene ranking	1452	1441	-	-
MMLU Pro Kennis & redeneren	85.2%	82.6%	69.4%	60.0%
AIME 2026 Wiskunde	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Coderen	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Wetenschap	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodaal	76.9%	73.8%	52.6%	44.2%
Context Window Maximale tokens	256K	256K	128K	128K
Audio Support Native audio	No	No	Yes	Yes
VRAM (4-bit) Minimaal geheugen	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Alle cijfers uit de officiële Gemma 4 modelkaart. Arena AI scores per 2 april 2026.

Edge-niveau

E2B & E4B: AI die op je apparaat draait

De edge-modellen brengen volledige multimodale AI naar telefoons, browsers en IoT-apparaten. Beide bevatten native audio-encoders - een mogelijkheid die de grotere modellen niet hebben. Kies E2B voor de kleinste footprint, E4B voor betere kwaliteit.

E2B: 2.3B effectief, 3.2 GB bij 4-bit, 95 tok/s op consumenten-hardware
E4B: 4.5B effectief, 5.5 GB bij 4-bit, sterk redeneren en coderen
Beide: native audio, 128K context, WebGPU browserondersteuning

Probeer E4B Vergelijk E2B vs E4B

Serverniveau

26B MoE & 31B Dense: Frontier-prestaties

De servermodellen leveren frontier-redeneren, coderen en multimodaal begrip. Het 26B MoE biedt bijna 31B-kwaliteit tegen een fractie van de rekenkracht. Het 31B Dense is het vlaggenschip voor maximale prestaties.

26B MoE: 3.8B actief per token, ELO 1441, 88.3% AIME 2026
31B Dense: Volledig 30.7B actief, ELO 1452, 89.2% AIME 2026
Beide: 256K context, native Function Calling, 140+ talen

Probeer 26B Vergelijk 26B vs 31B

26B MoE & 31B Dense: Frontier-prestaties

Architectuur

Gedeelde innovaties in de hele familie

Alle Gemma 4 modellen delen belangrijke architecturale innovaties uit het onderzoek van Google DeepMind. Per-Layer Embeddings, gedeelde KV-cache en hybride attention-patronen maximaliseren de efficiëntie op elke schaal.