Gemma 4 Modellen

Vier modellen, één familie - van edge tot frontier

De Gemma 4 familie omvat vier architecturen: de ultracompacte E2B en E4B voor edge-apparaten, het 26B MoE voor efficiënte serverimplementatie en het vlaggenschip 31B Dense. Allemaal delen ze native multimodale ondersteuning, configureerbaar redeneren en Apache 2.0 licentie.

Alle modellen

Kies het juiste Gemma 4 voor jouw toepassing

Elk model in de familie is geoptimaliseerd voor verschillende implementatiescenario's. Edge-modellen bieden audio-ondersteuning, terwijl servermodellen 256K context en frontier-redeneren bieden.

Edge-modellen

E2B & E4B: On-device intelligentie met audio

Ultracompacte modellen met 2.3B en 4.5B effectieve parameters. Beide bevatten native audio-encoders, 128K context en draaien op telefoons, browsers en IoT-apparaten.

Kies E2B voor de kleinste footprint (3.2 GB bij 4-bit). Kies E4B voor betere kwaliteit (5.5 GB bij 4-bit). Beide ondersteunen tekst-, beeld-, video- en audio-invoer.

Servermodellen

26B MoE & 31B Dense: Frontier-prestaties

Het 26B MoE activeert slechts 4B parameters per token voor efficiënte serving. Het 31B Dense is het vlaggenschip met positie #3 op Arena AI. Beide bieden 256K context en native Function Calling.

Kies 26B voor high-throughput productie (16 GB bij 4-bit). Kies 31B voor maximale kwaliteit (17 GB bij 4-bit). Beide blinken uit in redeneren, coderen en multimodale taken.

Edge - Ultracompact

Gemma 4 E2B

2.3B effectieve parameters. Het kleinste Gemma 4 met volledige multimodale + audio-ondersteuning.

35 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 3.2 GB VRAM bij 4-bit.

Nu beschikbaar

Edge - Aanbevolen

Gemma 4 E4B

4.5B effectieve parameters. Beste edge-model met sterk redeneren en audio-ondersteuning.

42 lagen, PLE-architectuur, ~150M vision + ~300M audio-encoder. 5.5 GB VRAM bij 4-bit.

Nu beschikbaar

Server - Efficiënt

Gemma 4 26B A4B

25.2B totaal, 3.8B actief per token. Bijna 31B-kwaliteit tegen een fractie van de rekenkracht.

MoE met 128 experts (8 actief + 1 gedeeld). 256K context. 16 GB VRAM bij 4-bit.

Nu beschikbaar

Server - Vlaggenschip

Gemma 4 31B

30.7B dense parameters. #3 op Arena AI. Maximale intelligentie en betrouwbaarheid.

Dense architectuur, 256K context, 140+ talen. 17 GB VRAM bij 4-bit.

Nu beschikbaar

Gedeelde mogelijkheden

Wat elk Gemma 4 model kan

Alle vier modellen delen een gemeenschappelijke set mogelijkheden die de Gemma 4 familie uniek veelzijdig maken.

Native multimodaal

Alle modellen verwerken tekst en afbeeldingen native. Edge-modellen voegen audio- en video-ondersteuning toe. Geen aparte encoders of pipelines nodig.

Configureerbaar redeneren

Alle modellen ondersteunen denkmodi voor stapsgewijs redeneren. Bepaal de diepte van het redeneren op basis van de complexiteit van de taak.

Function Calling

Ingebouwde Function Calling in de hele familie maakt agentische workflows mogelijk. Geen fine-tuning nodig voor toolgebruik.

Uitgebreide context

128K tokens voor edge-modellen, 256K voor servermodellen. Hybride attention houdt het geheugengebruik praktisch.

140+ talen

Meertalige ondersteuning met cultureel contextbegrip over alle modelgroottes.

Apache 2.0 licentie

Volledige commerciële vrijheid. Geen MAU-limieten, geen gebruiksbeperkingen. Implementeer overal, pas vrij aan.

Snelkeuzegids

Welk model moet je kiezen?

Koppel je implementatiebeperkingen en kwaliteitseisen aan de juiste Gemma 4 variant.

Op hardware

  • Telefoon / IoT / 4 GB RAM: Gemma 4 E2B
  • Laptop / 8-16 GB RAM: Gemma 4 E4B
  • Enkele GPU / 16-24 GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Op toepassing

  • Spraakassistent / audio: E2B of E4B (audio-ondersteuning)
  • Browser-gebaseerde AI: E2B of E4B (WebGPU)
  • High-throughput API: 26B A4B (MoE-efficiëntie)
  • Maximale kwaliteit: 31B Dense (frontier-prestaties)

Prestaties

Volledige benchmarkvergelijking van alle vier modellen

Elk Gemma 4 model maakt deel uit van een Pareto-frontier - elke grootte levert uitzonderlijke prestaties ten opzichte van het aantal parameters.

Van het ultracompacte E2B tot het vlaggenschip 31B is elk model geoptimaliseerd voor zijn implementatieniveau terwijl het dezelfde architecturale innovaties deelt.

Prestatievergelijking van de Gemma 4 familie over alle modelgroottes

31B Dense: #3 op Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Bijna 31B-kwaliteit (ELO 1441) met slechts 4B actieve parameters per token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - sterke edge-prestaties met audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - betekenisvolle AI bij 3.2 GB VRAM

Volledige familievergelijking

Alle Gemma 4 modellen naast elkaar

Volledige benchmarkresultaten voor redeneren, coderen, multimodaal en implementatiemetrieken.

Benchmark
31B Dense
Vlaggenschip
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compact
E2B
Arena AI ELO
Algemene ranking
14521441--
MMLU Pro
Kennis & redeneren
85.2%82.6%69.4%60.0%
AIME 2026
Wiskunde
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Coderen
80.0%77.1%52.0%44.0%
GPQA Diamond
Wetenschap
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodaal
76.9%73.8%52.6%44.2%
Context Window
Maximale tokens
256K256K128K128K
Audio Support
Native audio
NoNoYesYes
VRAM (4-bit)
Minimaal geheugen
~17 GB~16 GB~5.5 GB~3.2 GB

Alle cijfers uit de officiële Gemma 4 modelkaart. Arena AI scores per 2 april 2026.

Edge-niveau

E2B & E4B: AI die op je apparaat draait

De edge-modellen brengen volledige multimodale AI naar telefoons, browsers en IoT-apparaten. Beide bevatten native audio-encoders - een mogelijkheid die de grotere modellen niet hebben. Kies E2B voor de kleinste footprint, E4B voor betere kwaliteit.

  • E2B: 2.3B effectief, 3.2 GB bij 4-bit, 95 tok/s op consumenten-hardware
  • E4B: 4.5B effectief, 5.5 GB bij 4-bit, sterk redeneren en coderen
  • Beide: native audio, 128K context, WebGPU browserondersteuning
E2B & E4B: AI die op je apparaat draait

Serverniveau

26B MoE & 31B Dense: Frontier-prestaties

De servermodellen leveren frontier-redeneren, coderen en multimodaal begrip. Het 26B MoE biedt bijna 31B-kwaliteit tegen een fractie van de rekenkracht. Het 31B Dense is het vlaggenschip voor maximale prestaties.

  • 26B MoE: 3.8B actief per token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: Volledig 30.7B actief, ELO 1452, 89.2% AIME 2026
  • Beide: 256K context, native Function Calling, 140+ talen
26B MoE & 31B Dense: Frontier-prestaties

Architectuur

Gedeelde innovaties in de hele familie

Alle Gemma 4 modellen delen belangrijke architecturale innovaties uit het onderzoek van Google DeepMind. Per-Layer Embeddings, gedeelde KV-cache en hybride attention-patronen maximaliseren de efficiëntie op elke schaal.

  • Per-Layer Embeddings (PLE) voor parameter-efficiënte conditionering
  • Gedeelde KV-cache vermindert geheugen tijdens long-context generatie
  • Hybride lokale/globale attention voor optimale geheugen-kwaliteit afweging
Gedeelde innovaties in de hele familie

Gemma 4 Familie

Verken elk model in detail

Duik dieper in elke Gemma 4 variant met speciale pagina's over architectuur, benchmarks en implementatiegidsen.

Gemma 4 E2B

Ultracompact 2.3B edge-model met audio

Verkennen

Gemma 4 E4B

Aanbevolen 4.5B edge-model met audio

Verkennen

Gemma 4 26B

Efficiënt MoE met 4B actieve parameters

Verkennen

Gemma 4 31B

Vlaggenschip dense model, #3 op Arena AI

Verkennen

Lokaal draaien

Gids voor het draaien van Gemma 4 op je hardware

Gids lezen

API-toegang

Gebruik Gemma 4 via gehoste API's

Aan de slag

Aan de slag

Vind jouw Gemma 4 model

Chat gratis met elk Gemma 4 model, of download gewichten voor lokale implementatie. Apache 2.0 gelicentieerd voor volledige commerciële vrijheid.