Overzicht
Uitgebracht op 2 april 2026 onder Apache 2.0, levert Gemma 4 geavanceerde multimodale intelligentie over vier architecturen. Van ultra-mobiele 2B edge-modellen tot de vlaggenschip 31B dense variant, elk formaat verwerkt tekst, afbeeldingen met variabele resolutie, video en audio native.
Edge-Modellen
Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, gebouwd voor Pixel, Chrome en browser-implementatie met native audio-ondersteuning en 128K context.
De E2B- en E4B-varianten gebruiken Per-Layer Embeddings (PLE) om parameter-efficiëntie te maximaliseren. Ze ondersteunen tekst-, afbeeldings-, video- en audio-invoer native, waardoor ze ideaal zijn voor privacy-gerichte on-device toepassingen.
Server-Modellen
Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit.
Beide modellen beschikken over 256K contextvensters, native function calling en configureerbare denkmodi. De 31B behaalt 85,2% op MMLU Pro en 80% op LiveCodeBench v6, en concurreert met modellen vele malen groter.
Mogelijkheden
Alle modellen verwerken tekst, afbeeldingen met variabele beeldverhoudingen, video en audio native. E2B en E4B bevatten audio-encoders voor spraakherkenning.
De vision encoder gebruikt geleerde 2D-posities en multidimensionale RoPE, waarbij originele beeldverhoudingen behouden blijven. Afbeeldingen kunnen worden gecodeerd naar verschillende token-budgetten (70, 140, 280, 560, 1120) voor optimale snelheid-kwaliteit afwegingen.
Architectuur
Kleine modellen hebben 128K context, terwijl middelgrote modellen 256K ondersteunen. Dubbele RoPE-configuraties maken langere contextverwerking mogelijk.
Afwisselende lokale sliding-window (512-1024 tokens) en globale full-context attention-lagen optimaliseren geheugengebruik. Gedeelde KV cache vermindert berekening en geheugen voor lange-context generatie.
Functies
Alle modellen ondersteunen configureerbare denkmodi voor geavanceerde redeneertaken, met native system prompt-ondersteuning voor gestructureerde gesprekken.
Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren en 84,3% op GPQA Diamond. Ingebouwde function calling maakt autonome agents mogelijk zonder fine-tuning.
Prestaties
Het 31B-model scoort 80% op LiveCodeBench v6 en bereikt 2150 Codeforces ELO. Het 26B MoE behaalt 77,1% met slechts 4B actieve parameters.
Opmerkelijke verbeteringen in programmeerbenchmarks naast ingebouwde function calling-ondersteuning maken zeer capabele autonome agents mogelijk. HLE-benchmark toont 19,5% zonder tools, 26,5% met zoeken.
Multimodaal
Het 31B-model behaalt 76,9% op MMMU Pro en 85,6% op MATH-Vision. OmniDocBench edit distance van 0,131 toont sterke OCR-mogelijkheden.
Ondersteuning voor variabele beeldverhoudingen en configureerbare afbeeldings-token-budgetten maken efficiënte verwerking van documenten, diagrammen en screenshots mogelijk. Het E4B-model bereikt 52,6% op MMMU Pro ondanks zijn compacte formaat.
Integratie
Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. ONNX-checkpoints maken edge-device implementatie mogelijk.
Apache 2.0-licentie staat verantwoord commercieel gebruik toe. Beschikbaar op Kaggle, Hugging Face en via Google AI Studio. Compatibel met lokale tools zoals Ollama voor privé, offline interacties.
Aan de Slag
Ervaar Google DeepMind's geavanceerde multimodale modellen gratis. Geen creditcard nodig om je eerste gesprek te starten.
Introductie
Leer over de vier modelarchitecturen, native multimodale mogelijkheden en implementatieopties van Google DeepMind.
Prestaties
Gemma 4-modellen vormen een Pareto-front en leveren uitzonderlijke prestaties ten opzichte van hun grootte. Het 31B dense model staat op #3 tussen alle open modellen op het Arena AI-klassement.
Officiële benchmarks tonen competitieve prestaties met modellen vele malen groter. Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren, terwijl het 26B MoE vergelijkbare kwaliteit bereikt met slechts 4B actieve parameters.


Het 31B-model behaalt 89,2% op AIME 2026 en 85,2% op MMLU Pro, en concurreert met modellen van meer dan 100B parameters.
Programmeerprestaties bereiken 80% op LiveCodeBench v6 en 2150 Codeforces ELO, voor veel grotere modellen uit.
Beeldmogelijkheden omvatten 76,9% op MMMU Pro en 85,6% op MATH-Vision, met sterke OCR en documentbegrip.
Officiële Benchmarks
Uitgebreide evaluatie over redeneer-, programmeer-, beeld-, audio- en lange-context taken toont geavanceerde mogelijkheden.
| Benchmark | Gemma 4 31B Dense vlaggenschip 31B | Gemma 4 26B A4B MoE (4B actief) 26B | Gemma 4 E4B Edge-model E4B | Gemma 4 E2B Ultra-compact E2B |
|---|---|---|---|---|
MMLU Pro Kennis & redeneren | 85,2% | 82,6% | 69,4% | 60,0% |
AIME 2026 (geen tools) Wiskundig redeneren | 89,2% | 88,3% | 42,5% | 37,5% |
GPQA Diamond Wetenschap op graduate-niveau | 84,3% | 82,3% | 58,6% | 43,4% |
LiveCodeBench v6 Programmeerprestaties | 80,0% | 77,1% | 52,0% | 44,0% |
Codeforces ELO Competitief programmeren | 2150 | 1718 | 940 | 633 |
MMMU Pro Multimodaal begrip | 76,9% | 73,8% | 52,6% | 44,2% |
MATH-Vision Visueel wiskundig redeneren | 85,6% | 82,4% | 59,5% | 52,4% |
OmniDocBench 1.5 Document OCR (bewerkingsafstand) | 0,131 | 0,149 | 0,181 | 0,290 |
Contextvenster Maximum tokens | 256K | 256K | 128K | 128K |
Audio-ondersteuning Native audio-invoer | Nee | Nee | Ja | Ja |
Alle cijfers uit officiële Gemma 4 modelkaart en Hugging Face blog. E2B- en E4B-benchmarks tonen uitzonderlijke efficiëntie voor hun parameter-aantal.
Server-Modellen
Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit, ideaal voor high-throughput scenario's.
Edge-Modellen
Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, ontworpen voor Pixel, Chrome en browser-implementatie. Native audio-encoders maken realtime spraakherkenning on-device mogelijk.
Architectuur
Gemma 4 introduceert architectuurinnovaties die efficiëntie maximaliseren. PLE geeft elke decoder-laag zijn eigen conditioneringspad, terwijl gedeelde KV cache geheugengebruik vermindert tijdens lange-context generatie.

Multimodaal
Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. Vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120) voor snelheid-kwaliteit afwegingen.

Implementatie
Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. E2B en E4B draaien in browsers met transformers.js, terwijl 31B en 26B uitblinken op serverhardware.

FAQ
Begrip van Gemma 4's technische innovaties, van Per-Layer Embeddings tot multimodale verwerking.
Gemma 4 introduceert native multimodale ondersteuning (tekst, afbeelding, video, audio), uitgebreide contextvensters (128K-256K), configureerbare denkmodi en ingebouwde function calling. De architectuur gebruikt Per-Layer Embeddings (PLE) voor efficiëntie en gedeelde KV cache om geheugengebruik te verminderen tijdens lange-context generatie.
E2B (2,3B effectief) en E4B (4,5B effectief) zijn ontworpen voor edge-apparaten, browsers en mobiel met native audio-ondersteuning. Het 26B A4B is een Mixture-of-Experts model dat slechts 4B parameters per token activeert, ideaal voor high-throughput scenario's. Het 31B dense model is het vlaggenschip voor maximale prestaties op redeneer-, programmeer- en beeldtaken.
Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. De vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120 tokens) voor snelheid-kwaliteit afwegingen. E2B en E4B bevatten USM-stijl conformer audio-encoders voor spraakherkenning. Video wordt ondersteund in de hele familie door frames en audiotracks te verwerken.
PLE geeft elke decoder-laag zijn eigen kleine embedding voor elk token, waardoor een parallel conditioneringspad naast de hoofdresidual stream ontstaat. Dit stelt elke laag in staat om token-specifieke informatie alleen te ontvangen wanneer relevant, in plaats van alles in één voorafgaande embedding te pakken. Het voegt betekenisvolle per-laag specialisatie toe tegen bescheiden parameter-kosten, waardoor kleine modellen efficiënter worden.
FAQ
Aan de slag met Gemma 4 op verschillende platforms, van cloud tot edge-apparaten.
Gemma 4-modellen zijn beschikbaar op Kaggle en Hugging Face onder Apache 2.0-licentie. Je kunt ze gebruiken via Google AI Studio, implementeren op Vertex AI, of lokaal uitvoeren met tools zoals Ollama, llama.cpp, MLX (voor Apple Silicon), transformers en Mistral.rs. ONNX-checkpoints maken browser- en edge-device implementatie mogelijk.
E2B vereist ~9,6GB (BF16) tot 3,2GB (4-bit) VRAM. E4B heeft ~15GB (BF16) tot 5GB (4-bit) nodig. Het 31B-model vereist ~58GB (BF16) tot 17GB (4-bit). Het 26B MoE heeft ~48GB (BF16) tot 16GB (4-bit) nodig. Dit zijn alleen basisgewichten; voeg geheugen toe voor contextvenster (KV cache) op basis van je use case.
Ja. De E2B- en E4B-modellen zijn specifiek ontworpen voor browser- en mobiele implementatie. transformers.js maakt het mogelijk om Gemma 4 direct in browsers uit te voeren met WebGPU-ondersteuning. ONNX-checkpoints werken op verschillende edge-hardware backends. De modellen zijn geoptimaliseerd voor Pixel-apparaten en Chrome-browseromgevingen.
Gemma 4 heeft ingebouwde function calling-ondersteuning zonder fine-tuning te vereisen. De modellen kunnen tooldefinities parseren, gestructureerde JSON-aanroepen genereren en multimodale function calling afhandelen (bijv. een afbeelding analyseren en een weer-API aanroepen). Dit maakt autonome agents mogelijk voor taken zoals code-uitvoering, webbrowsing en data-ophaling.
FAQ
Hoe Gemma 4 zich verhoudt tot andere modellen en wat het competitief maakt voor verschillende use cases.
Het 31B-model staat op #3 in het Arena AI-klassement tussen open modellen, voor Llama 3.3 70B ondanks dat het minder dan de helft van de grootte is. Het behaalt 89,2% op AIME 2026 wiskundig redeneren, 85,2% op MMLU Pro en 80% op LiveCodeBench v6. De efficiëntie komt van architectuurinnovaties zoals afwisselende attention-patronen en gedeelde KV cache.
Het 26B A4B-model heeft 26 miljard totale parameters maar activeert slechts 4 miljard per token tijdens generatie. Alle 26B parameters moeten in het geheugen worden geladen voor snelle routing, maar inferentiekosten zijn dichter bij een 4B-model. Dit behaalt 88,3% op AIME 2026 en 82,6% op MMLU Pro met aanzienlijk lagere berekening per token dan het dense 31B-model.
Ja. Kleine modellen ondersteunen 128K contextvensters, terwijl middelgrote modellen 256K tokens aankunnen. De architectuur gebruikt dubbele RoPE-configuraties (standaard voor sliding-lagen, gesnoeid voor globale lagen) om langere context mogelijk te maken. Gedeelde KV cache vermindert geheugenconsumptie tijdens lange-context generatie, waardoor het praktisch wordt om hele codebases en onderzoekspapers te verwerken.
Gemma 4 wordt volledig ondersteund in TRL (Transformer Reinforcement Learning), met voorbeelden voor multimodale tool-responses en omgevingsinteractie. Hugging Face biedt fine-tuning gidsen voor Vertex AI met SFT. Unsloth Studio biedt een UI-gebaseerde fine-tuning ervaring. De modellen ondersteunen PEFT-methoden zoals LoRA voor parameter-efficiënte training.