Gemma 4: Geavanceerde Multimodale Intelligentie die Overal Draait

Overzicht

Vier Modellen, Eén Familie: Van Edge tot Server-Grade Prestaties

Uitgebracht op 2 april 2026 onder Apache 2.0, levert Gemma 4 geavanceerde multimodale intelligentie over vier architecturen. Van ultra-mobiele 2B edge-modellen tot de vlaggenschip 31B dense variant, elk formaat verwerkt tekst, afbeeldingen met variabele resolutie, video en audio native.

Edge-Modellen

Gemma 4 E2B & E4B: On-Device Intelligentie

Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, gebouwd voor Pixel, Chrome en browser-implementatie met native audio-ondersteuning en 128K context.

De E2B- en E4B-varianten gebruiken Per-Layer Embeddings (PLE) om parameter-efficiëntie te maximaliseren. Ze ondersteunen tekst-, afbeeldings-, video- en audio-invoer native, waardoor ze ideaal zijn voor privacy-gerichte on-device toepassingen.

Server-Modellen

Gemma 4 31B Dense & 26B MoE: Geavanceerde Prestaties

Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit.

Beide modellen beschikken over 256K contextvensters, native function calling en configureerbare denkmodi. De 31B behaalt 85,2% op MMLU Pro en 80% op LiveCodeBench v6, en concurreert met modellen vele malen groter.

Mogelijkheden

Native Multimodaal

Alle modellen verwerken tekst, afbeeldingen met variabele beeldverhoudingen, video en audio native. E2B en E4B bevatten audio-encoders voor spraakherkenning.

De vision encoder gebruikt geleerde 2D-posities en multidimensionale RoPE, waarbij originele beeldverhoudingen behouden blijven. Afbeeldingen kunnen worden gecodeerd naar verschillende token-budgetten (70, 140, 280, 560, 1120) voor optimale snelheid-kwaliteit afwegingen.

Alle Modellen

Architectuur

Uitgebreide Contextvensters

Kleine modellen hebben 128K context, terwijl middelgrote modellen 256K ondersteunen. Dubbele RoPE-configuraties maken langere contextverwerking mogelijk.

Afwisselende lokale sliding-window (512-1024 tokens) en globale full-context attention-lagen optimaliseren geheugengebruik. Gedeelde KV cache vermindert berekening en geheugen voor lange-context generatie.

128K-256K

Functies

Configureerbaar Denken

Alle modellen ondersteunen configureerbare denkmodi voor geavanceerde redeneertaken, met native system prompt-ondersteuning voor gestructureerde gesprekken.

Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren en 84,3% op GPQA Diamond. Ingebouwde function calling maakt autonome agents mogelijk zonder fine-tuning.

Alle Modellen

Prestaties

Programmeer- & Agentische Kracht

Het 31B-model scoort 80% op LiveCodeBench v6 en bereikt 2150 Codeforces ELO. Het 26B MoE behaalt 77,1% met slechts 4B actieve parameters.

Opmerkelijke verbeteringen in programmeerbenchmarks naast ingebouwde function calling-ondersteuning maken zeer capabele autonome agents mogelijk. HLE-benchmark toont 19,5% zonder tools, 26,5% met zoeken.

Geoptimaliseerd

Multimodaal

Beeld- & Documentanalyse

Het 31B-model behaalt 76,9% op MMMU Pro en 85,6% op MATH-Vision. OmniDocBench edit distance van 0,131 toont sterke OCR-mogelijkheden.

Ondersteuning voor variabele beeldverhoudingen en configureerbare afbeeldings-token-budgetten maken efficiënte verwerking van documenten, diagrammen en screenshots mogelijk. Het E4B-model bereikt 52,6% op MMMU Pro ondanks zijn compacte formaat.

Alle Modellen

Integratie

Overal Implementeren

Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. ONNX-checkpoints maken edge-device implementatie mogelijk.

Apache 2.0-licentie staat verantwoord commercieel gebruik toe. Beschikbaar op Kaggle, Hugging Face en via Google AI Studio. Compatibel met lokale tools zoals Ollama voor privé, offline interacties.

Open Source

Aan de Slag

Begin Vandaag met Chatten met Gemma 4

Ervaar Google DeepMind's geavanceerde multimodale modellen gratis. Geen creditcard nodig om je eerste gesprek te starten.

Introductie

Bekijk: Officiële Introductie van Gemma 4

Leer over de vier modelarchitecturen, native multimodale mogelijkheden en implementatieopties van Google DeepMind.

Prestaties

Geavanceerde Prestaties in Redeneren, Programmeren en Beeld

Gemma 4-modellen vormen een Pareto-front en leveren uitzonderlijke prestaties ten opzichte van hun grootte. Het 31B dense model staat op #3 tussen alle open modellen op het Arena AI-klassement.

Officiële benchmarks tonen competitieve prestaties met modellen vele malen groter. Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren, terwijl het 26B MoE vergelijkbare kwaliteit bereikt met slechts 4B actieve parameters.

Gemma 4 prestatievergelijking over modelgroottes en benchmarks

Het 31B-model behaalt 89,2% op AIME 2026 en 85,2% op MMLU Pro, en concurreert met modellen van meer dan 100B parameters.

Programmeerprestaties bereiken 80% op LiveCodeBench v6 en 2150 Codeforces ELO, voor veel grotere modellen uit.

Beeldmogelijkheden omvatten 76,9% op MMMU Pro en 85,6% op MATH-Vision, met sterke OCR en documentbegrip.

Officiële Benchmarks

Gemma 4 Prestaties over Belangrijke Taken

Uitgebreide evaluatie over redeneer-, programmeer-, beeld-, audio- en lange-context taken toont geavanceerde mogelijkheden.

Benchmark
Gemma 4 31B
Dense vlaggenschip
31B
Gemma 4 26B A4B
MoE (4B actief)
26B
Gemma 4 E4B
Edge-model
E4B
Gemma 4 E2B
Ultra-compact
E2B
MMLU Pro
Kennis & redeneren
85,2%82,6%69,4%60,0%
AIME 2026 (geen tools)
Wiskundig redeneren
89,2%88,3%42,5%37,5%
GPQA Diamond
Wetenschap op graduate-niveau
84,3%82,3%58,6%43,4%
LiveCodeBench v6
Programmeerprestaties
80,0%77,1%52,0%44,0%
Codeforces ELO
Competitief programmeren
21501718940633
MMMU Pro
Multimodaal begrip
76,9%73,8%52,6%44,2%
MATH-Vision
Visueel wiskundig redeneren
85,6%82,4%59,5%52,4%
OmniDocBench 1.5
Document OCR (bewerkingsafstand)
0,1310,1490,1810,290
Contextvenster
Maximum tokens
256K256K128K128K
Audio-ondersteuning
Native audio-invoer
NeeNeeJaJa

Alle cijfers uit officiële Gemma 4 modelkaart en Hugging Face blog. E2B- en E4B-benchmarks tonen uitzonderlijke efficiëntie voor hun parameter-aantal.

Server-Modellen

31B Dense & 26B MoE: Geavanceerde Prestaties voor Productie

Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit, ideaal voor high-throughput scenario's.

  • 31B Dense: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 Codeforces ELO
  • 26B MoE (4B actief): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
  • 256K contextvensters met dubbele RoPE-configuraties voor efficiënte lange-context verwerking

Edge-Modellen

E2B & E4B: On-Device Intelligentie met Audio-ondersteuning

Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, ontworpen voor Pixel, Chrome en browser-implementatie. Native audio-encoders maken realtime spraakherkenning on-device mogelijk.

  • E2B (2,3B effectief, 5,1B met embeddings): 60% MMLU Pro, 44% LiveCodeBench, 128K context
  • E4B (4,5B effectief, 8B met embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, 128K context
  • Per-Layer Embeddings (PLE) maximaliseren parameter-efficiëntie voor edge-implementatie

Architectuur

Per-Layer Embeddings en Gedeelde KV Cache

Gemma 4 introduceert architectuurinnovaties die efficiëntie maximaliseren. PLE geeft elke decoder-laag zijn eigen conditioneringspad, terwijl gedeelde KV cache geheugengebruik vermindert tijdens lange-context generatie.

  • Per-Layer Embeddings voegen betekenisvolle specialisatie toe tegen bescheiden parameter-kosten
  • Gedeelde KV cache: laatste N lagen hergebruiken key-value states, waardoor redundante projecties worden geëlimineerd
  • Afwisselende lokale sliding-window en globale full-context attention voor optimaal geheugengebruik
Gemma 4 architectuur prestatievergelijking

Multimodaal

Native Beeld-, Video- en Audiobegrip

Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. Vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120) voor snelheid-kwaliteit afwegingen.

  • Ondersteuning voor variabele beeldverhoudingen behoudt originele afbeeldingsdimensies
  • Configureerbare afbeeldings-token-budgetten: 70, 140, 280, 560, 1120 tokens
  • E2B en E4B bevatten USM-stijl conformer audio-encoders voor spraakverwerking
Gemma 4 multimodale benchmark-prestaties

Implementatie

Overal Implementeren: Browser, Lokaal of Cloud

Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. E2B en E4B draaien in browsers met transformers.js, terwijl 31B en 26B uitblinken op serverhardware.

  • Browser: transformers.js maakt E2B/E4B mogelijk in Chrome met WebGPU-versnelling
  • Lokaal: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs voor privé-inferentie
  • Cloud: Google AI Studio, Vertex AI, of zelf gehost met vLLM en TGI
Gemma 4 implementatieopties en prestaties

FAQ

Modelarchitectuur en Mogelijkheden

Begrip van Gemma 4's technische innovaties, van Per-Layer Embeddings tot multimodale verwerking.

Wat maakt Gemma 4 anders dan eerdere Gemma-versies?

Gemma 4 introduceert native multimodale ondersteuning (tekst, afbeelding, video, audio), uitgebreide contextvensters (128K-256K), configureerbare denkmodi en ingebouwde function calling. De architectuur gebruikt Per-Layer Embeddings (PLE) voor efficiëntie en gedeelde KV cache om geheugengebruik te verminderen tijdens lange-context generatie.

Wat zijn de vier Gemma 4-modelgroottes en wanneer moet ik elk gebruiken?

E2B (2,3B effectief) en E4B (4,5B effectief) zijn ontworpen voor edge-apparaten, browsers en mobiel met native audio-ondersteuning. Het 26B A4B is een Mixture-of-Experts model dat slechts 4B parameters per token activeert, ideaal voor high-throughput scenario's. Het 31B dense model is het vlaggenschip voor maximale prestaties op redeneer-, programmeer- en beeldtaken.

Hoe verwerkt Gemma 4 multimodale invoer?

Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. De vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120 tokens) voor snelheid-kwaliteit afwegingen. E2B en E4B bevatten USM-stijl conformer audio-encoders voor spraakherkenning. Video wordt ondersteund in de hele familie door frames en audiotracks te verwerken.

Wat is Per-Layer Embeddings (PLE) en waarom is het belangrijk?

PLE geeft elke decoder-laag zijn eigen kleine embedding voor elk token, waardoor een parallel conditioneringspad naast de hoofdresidual stream ontstaat. Dit stelt elke laag in staat om token-specifieke informatie alleen te ontvangen wanneer relevant, in plaats van alles in één voorafgaande embedding te pakken. Het voegt betekenisvolle per-laag specialisatie toe tegen bescheiden parameter-kosten, waardoor kleine modellen efficiënter worden.

FAQ

Implementatie en Integratie

Aan de slag met Gemma 4 op verschillende platforms, van cloud tot edge-apparaten.

Waar kan ik Gemma 4-modellen downloaden en uitvoeren?

Gemma 4-modellen zijn beschikbaar op Kaggle en Hugging Face onder Apache 2.0-licentie. Je kunt ze gebruiken via Google AI Studio, implementeren op Vertex AI, of lokaal uitvoeren met tools zoals Ollama, llama.cpp, MLX (voor Apple Silicon), transformers en Mistral.rs. ONNX-checkpoints maken browser- en edge-device implementatie mogelijk.

Wat zijn de hardwarevereisten voor het uitvoeren van Gemma 4?

E2B vereist ~9,6GB (BF16) tot 3,2GB (4-bit) VRAM. E4B heeft ~15GB (BF16) tot 5GB (4-bit) nodig. Het 31B-model vereist ~58GB (BF16) tot 17GB (4-bit). Het 26B MoE heeft ~48GB (BF16) tot 16GB (4-bit) nodig. Dit zijn alleen basisgewichten; voeg geheugen toe voor contextvenster (KV cache) op basis van je use case.

Kan ik Gemma 4 in de browser of op mobiele apparaten uitvoeren?

Ja. De E2B- en E4B-modellen zijn specifiek ontworpen voor browser- en mobiele implementatie. transformers.js maakt het mogelijk om Gemma 4 direct in browsers uit te voeren met WebGPU-ondersteuning. ONNX-checkpoints werken op verschillende edge-hardware backends. De modellen zijn geoptimaliseerd voor Pixel-apparaten en Chrome-browseromgevingen.

Hoe gebruik ik Gemma 4 met function calling en agents?

Gemma 4 heeft ingebouwde function calling-ondersteuning zonder fine-tuning te vereisen. De modellen kunnen tooldefinities parseren, gestructureerde JSON-aanroepen genereren en multimodale function calling afhandelen (bijv. een afbeelding analyseren en een weer-API aanroepen). Dit maakt autonome agents mogelijk voor taken zoals code-uitvoering, webbrowsing en data-ophaling.

FAQ

Prestaties en Vergelijkingen

Hoe Gemma 4 zich verhoudt tot andere modellen en wat het competitief maakt voor verschillende use cases.

Hoe verhoudt Gemma 4 31B zich tot grotere modellen zoals Llama 3.3 70B?

Het 31B-model staat op #3 in het Arena AI-klassement tussen open modellen, voor Llama 3.3 70B ondanks dat het minder dan de helft van de grootte is. Het behaalt 89,2% op AIME 2026 wiskundig redeneren, 85,2% op MMLU Pro en 80% op LiveCodeBench v6. De efficiëntie komt van architectuurinnovaties zoals afwisselende attention-patronen en gedeelde KV cache.

Wat is de Mixture-of-Experts (MoE) architectuur in het 26B-model?

Het 26B A4B-model heeft 26 miljard totale parameters maar activeert slechts 4 miljard per token tijdens generatie. Alle 26B parameters moeten in het geheugen worden geladen voor snelle routing, maar inferentiekosten zijn dichter bij een 4B-model. Dit behaalt 88,3% op AIME 2026 en 82,6% op MMLU Pro met aanzienlijk lagere berekening per token dan het dense 31B-model.

Kan Gemma 4 lange documenten en uitgebreide context verwerken?

Ja. Kleine modellen ondersteunen 128K contextvensters, terwijl middelgrote modellen 256K tokens aankunnen. De architectuur gebruikt dubbele RoPE-configuraties (standaard voor sliding-lagen, gesnoeid voor globale lagen) om langere context mogelijk te maken. Gedeelde KV cache vermindert geheugenconsumptie tijdens lange-context generatie, waardoor het praktisch wordt om hele codebases en onderzoekspapers te verwerken.

Waar kan ik fine-tuning voorbeelden en trainingsbronnen vinden?

Gemma 4 wordt volledig ondersteund in TRL (Transformer Reinforcement Learning), met voorbeelden voor multimodale tool-responses en omgevingsinteractie. Hugging Face biedt fine-tuning gidsen voor Vertex AI met SFT. Unsloth Studio biedt een UI-gebaseerde fine-tuning ervaring. De modellen ondersteunen PEFT-methoden zoals LoRA voor parameter-efficiënte training.