Gemma 4: Geavanceerde Multimodale Intelligentie die Overal Draait

Overzicht

Vier Modellen, Eén Familie: Van Edge tot Server-Grade Prestaties

Uitgebracht op 2 april 2026 onder Apache 2.0, levert Gemma 4 geavanceerde multimodale intelligentie over vier architecturen. Van ultra-mobiele 2B edge-modellen tot de vlaggenschip 31B dense variant, elk formaat verwerkt tekst, afbeeldingen met variabele resolutie, video en audio native.

Edge-Modellen

Gemma 4 E2B & E4B: On-Device Intelligentie

Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, gebouwd voor Pixel, Chrome en browser-implementatie met native audio-ondersteuning en 128K context.

De E2B- en E4B-varianten gebruiken Per-Layer Embeddings (PLE) om parameter-efficiëntie te maximaliseren. Ze ondersteunen tekst-, afbeeldings-, video- en audio-invoer native, waardoor ze ideaal zijn voor privacy-gerichte on-device toepassingen.

Probeer E4B Gratis Meer Informatie

Server-Modellen

Gemma 4 31B Dense & 26B MoE: Geavanceerde Prestaties

Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit.

Beide modellen beschikken over 256K contextvensters, native function calling en configureerbare denkmodi. De 31B behaalt 85,2% op MMLU Pro en 80% op LiveCodeBench v6, en concurreert met modellen vele malen groter.

Bekijk Benchmarks Bekijk op Hugging Face

Mogelijkheden

Native Multimodaal

Alle modellen verwerken tekst, afbeeldingen met variabele beeldverhoudingen, video en audio native. E2B en E4B bevatten audio-encoders voor spraakherkenning.

De vision encoder gebruikt geleerde 2D-posities en multidimensionale RoPE, waarbij originele beeldverhoudingen behouden blijven. Afbeeldingen kunnen worden gecodeerd naar verschillende token-budgetten (70, 140, 280, 560, 1120) voor optimale snelheid-kwaliteit afwegingen.

Alle Modellen

Bekijk Voorbeelden

Architectuur

Uitgebreide Contextvensters

Kleine modellen hebben 128K context, terwijl middelgrote modellen 256K ondersteunen. Dubbele RoPE-configuraties maken langere contextverwerking mogelijk.

Afwisselende lokale sliding-window (512-1024 tokens) en globale full-context attention-lagen optimaliseren geheugengebruik. Gedeelde KV cache vermindert berekening en geheugen voor lange-context generatie.

128K-256K

Functies

Configureerbaar Denken

Alle modellen ondersteunen configureerbare denkmodi voor geavanceerde redeneertaken, met native system prompt-ondersteuning voor gestructureerde gesprekken.

Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren en 84,3% op GPQA Diamond. Ingebouwde function calling maakt autonome agents mogelijk zonder fine-tuning.

Alle Modellen

Prestaties

Programmeer- & Agentische Kracht

Het 31B-model scoort 80% op LiveCodeBench v6 en bereikt 2150 Codeforces ELO. Het 26B MoE behaalt 77,1% met slechts 4B actieve parameters.

Opmerkelijke verbeteringen in programmeerbenchmarks naast ingebouwde function calling-ondersteuning maken zeer capabele autonome agents mogelijk. HLE-benchmark toont 19,5% zonder tools, 26,5% met zoeken.

Geoptimaliseerd

Bekijk Benchmarks

Multimodaal

Beeld- & Documentanalyse

Het 31B-model behaalt 76,9% op MMMU Pro en 85,6% op MATH-Vision. OmniDocBench edit distance van 0,131 toont sterke OCR-mogelijkheden.

Ondersteuning voor variabele beeldverhoudingen en configureerbare afbeeldings-token-budgetten maken efficiënte verwerking van documenten, diagrammen en screenshots mogelijk. Het E4B-model bereikt 52,6% op MMMU Pro ondanks zijn compacte formaat.

Alle Modellen

Integratie

Overal Implementeren

Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. ONNX-checkpoints maken edge-device implementatie mogelijk.

Apache 2.0-licentie staat verantwoord commercieel gebruik toe. Beschikbaar op Kaggle, Hugging Face en via Google AI Studio. Compatibel met lokale tools zoals Ollama voor privé, offline interacties.

Open Source

Aan de Slag

Begin Vandaag met Chatten met Gemma 4

Ervaar Google DeepMind's geavanceerde multimodale modellen gratis. Geen creditcard nodig om je eerste gesprek te starten.

Start Gratis Chat Bekijk Prijzen

Introductie

Bekijk: Officiële Introductie van Gemma 4

Leer over de vier modelarchitecturen, native multimodale mogelijkheden en implementatieopties van Google DeepMind.

Prestaties

Geavanceerde Prestaties in Redeneren, Programmeren en Beeld

Gemma 4-modellen vormen een Pareto-front en leveren uitzonderlijke prestaties ten opzichte van hun grootte. Het 31B dense model staat op #3 tussen alle open modellen op het Arena AI-klassement.

Officiële benchmarks tonen competitieve prestaties met modellen vele malen groter. Het 31B-model behaalt 89,2% op AIME 2026 wiskundig redeneren, terwijl het 26B MoE vergelijkbare kwaliteit bereikt met slechts 4B actieve parameters.

Probeer Nu Lees Technische Details

Gemma 4 prestatievergelijking over modelgroottes en benchmarks

Het 31B-model behaalt 89,2% op AIME 2026 en 85,2% op MMLU Pro, en concurreert met modellen van meer dan 100B parameters.

Programmeerprestaties bereiken 80% op LiveCodeBench v6 en 2150 Codeforces ELO, voor veel grotere modellen uit.

Beeldmogelijkheden omvatten 76,9% op MMMU Pro en 85,6% op MATH-Vision, met sterke OCR en documentbegrip.

Officiële Benchmarks

Gemma 4 Prestaties over Belangrijke Taken

Uitgebreide evaluatie over redeneer-, programmeer-, beeld-, audio- en lange-context taken toont geavanceerde mogelijkheden.

Benchmark	Gemma 4 31B Dense vlaggenschip 31B	Gemma 4 26B A4B MoE (4B actief) 26B	Gemma 4 E4B Edge-model E4B	Gemma 4 E2B Ultra-compact E2B
MMLU Pro Kennis & redeneren	85,2%	82,6%	69,4%	60,0%
AIME 2026 (geen tools) Wiskundig redeneren	89,2%	88,3%	42,5%	37,5%
GPQA Diamond Wetenschap op graduate-niveau	84,3%	82,3%	58,6%	43,4%
LiveCodeBench v6 Programmeerprestaties	80,0%	77,1%	52,0%	44,0%
Codeforces ELO Competitief programmeren	2150	1718	940	633
MMMU Pro Multimodaal begrip	76,9%	73,8%	52,6%	44,2%
MATH-Vision Visueel wiskundig redeneren	85,6%	82,4%	59,5%	52,4%
OmniDocBench 1.5 Document OCR (bewerkingsafstand)	0,131	0,149	0,181	0,290
Contextvenster Maximum tokens	256K	256K	128K	128K
Audio-ondersteuning Native audio-invoer	Nee	Nee	Ja	Ja

Alle cijfers uit officiële Gemma 4 modelkaart en Hugging Face blog. E2B- en E4B-benchmarks tonen uitzonderlijke efficiëntie voor hun parameter-aantal.

Server-Modellen

31B Dense & 26B MoE: Geavanceerde Prestaties voor Productie

Het 31B dense model staat op #3 in het Arena AI-klassement met 89,2% op AIME 2026. Het 26B MoE activeert slechts 4B parameters per token met vergelijkbare kwaliteit, ideaal voor high-throughput scenario's.

31B Dense: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 Codeforces ELO
26B MoE (4B actief): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
256K contextvensters met dubbele RoPE-configuraties voor efficiënte lange-context verwerking

Probeer 26B Model Bekijk op Hugging Face

Edge-Modellen

E2B & E4B: On-Device Intelligentie met Audio-ondersteuning

Ultra-compacte modellen met 2,3B en 4,5B effectieve parameters, ontworpen voor Pixel, Chrome en browser-implementatie. Native audio-encoders maken realtime spraakherkenning on-device mogelijk.

E2B (2,3B effectief, 5,1B met embeddings): 60% MMLU Pro, 44% LiveCodeBench, 128K context
E4B (4,5B effectief, 8B met embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, 128K context
Per-Layer Embeddings (PLE) maximaliseren parameter-efficiëntie voor edge-implementatie

Probeer in Browser transformers.js Demo

Architectuur

Per-Layer Embeddings en Gedeelde KV Cache

Gemma 4 introduceert architectuurinnovaties die efficiëntie maximaliseren. PLE geeft elke decoder-laag zijn eigen conditioneringspad, terwijl gedeelde KV cache geheugengebruik vermindert tijdens lange-context generatie.

Per-Layer Embeddings voegen betekenisvolle specialisatie toe tegen bescheiden parameter-kosten
Gedeelde KV cache: laatste N lagen hergebruiken key-value states, waardoor redundante projecties worden geëlimineerd
Afwisselende lokale sliding-window en globale full-context attention voor optimaal geheugengebruik

Technische Details

Gemma 4 architectuur prestatievergelijking

Multimodaal

Native Beeld-, Video- en Audiobegrip

Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. Vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120) voor snelheid-kwaliteit afwegingen.

Ondersteuning voor variabele beeldverhoudingen behoudt originele afbeeldingsdimensies
Configureerbare afbeeldings-token-budgetten: 70, 140, 280, 560, 1120 tokens
E2B en E4B bevatten USM-stijl conformer audio-encoders voor spraakverwerking

Probeer Multimodale Chat Bekijk Voorbeelden

Gemma 4 multimodale benchmark-prestaties

Implementatie

Overal Implementeren: Browser, Lokaal of Cloud

Dag-0 ondersteuning voor transformers, llama.cpp, MLX, WebGPU, Mistral.rs en meer. E2B en E4B draaien in browsers met transformers.js, terwijl 31B en 26B uitblinken op serverhardware.

Browser: transformers.js maakt E2B/E4B mogelijk in Chrome met WebGPU-versnelling
Lokaal: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs voor privé-inferentie
Cloud: Google AI Studio, Vertex AI, of zelf gehost met vLLM en TGI

Start Gratis Bekijk op GitHub

Gemma 4 implementatieopties en prestaties

FAQ

Modelarchitectuur en Mogelijkheden

Begrip van Gemma 4's technische innovaties, van Per-Layer Embeddings tot multimodale verwerking.

Wat maakt Gemma 4 anders dan eerdere Gemma-versies?

Gemma 4 introduceert native multimodale ondersteuning (tekst, afbeelding, video, audio), uitgebreide contextvensters (128K-256K), configureerbare denkmodi en ingebouwde function calling. De architectuur gebruikt Per-Layer Embeddings (PLE) voor efficiëntie en gedeelde KV cache om geheugengebruik te verminderen tijdens lange-context generatie.

Wat zijn de vier Gemma 4-modelgroottes en wanneer moet ik elk gebruiken?

E2B (2,3B effectief) en E4B (4,5B effectief) zijn ontworpen voor edge-apparaten, browsers en mobiel met native audio-ondersteuning. Het 26B A4B is een Mixture-of-Experts model dat slechts 4B parameters per token activeert, ideaal voor high-throughput scenario's. Het 31B dense model is het vlaggenschip voor maximale prestaties op redeneer-, programmeer- en beeldtaken.

Hoe verwerkt Gemma 4 multimodale invoer?

Alle modellen verwerken tekst en afbeeldingen met variabele beeldverhoudingen native. De vision encoder gebruikt geleerde 2D-posities en kan afbeeldingen coderen naar verschillende token-budgetten (70-1120 tokens) voor snelheid-kwaliteit afwegingen. E2B en E4B bevatten USM-stijl conformer audio-encoders voor spraakherkenning. Video wordt ondersteund in de hele familie door frames en audiotracks te verwerken.

Wat is Per-Layer Embeddings (PLE) en waarom is het belangrijk?

PLE geeft elke decoder-laag zijn eigen kleine embedding voor elk token, waardoor een parallel conditioneringspad naast de hoofdresidual stream ontstaat. Dit stelt elke laag in staat om token-specifieke informatie alleen te ontvangen wanneer relevant, in plaats van alles in één voorafgaande embedding te pakken. Het voegt betekenisvolle per-laag specialisatie toe tegen bescheiden parameter-kosten, waardoor kleine modellen efficiënter worden.

FAQ

Implementatie en Integratie

Aan de slag met Gemma 4 op verschillende platforms, van cloud tot edge-apparaten.

Waar kan ik Gemma 4-modellen downloaden en uitvoeren?

Gemma 4-modellen zijn beschikbaar op Kaggle en Hugging Face onder Apache 2.0-licentie. Je kunt ze gebruiken via Google AI Studio, implementeren op Vertex AI, of lokaal uitvoeren met tools zoals Ollama, llama.cpp, MLX (voor Apple Silicon), transformers en Mistral.rs. ONNX-checkpoints maken browser- en edge-device implementatie mogelijk.

Wat zijn de hardwarevereisten voor het uitvoeren van Gemma 4?

E2B vereist ~9,6GB (BF16) tot 3,2GB (4-bit) VRAM. E4B heeft ~15GB (BF16) tot 5GB (4-bit) nodig. Het 31B-model vereist ~58GB (BF16) tot 17GB (4-bit). Het 26B MoE heeft ~48GB (BF16) tot 16GB (4-bit) nodig. Dit zijn alleen basisgewichten; voeg geheugen toe voor contextvenster (KV cache) op basis van je use case.

Kan ik Gemma 4 in de browser of op mobiele apparaten uitvoeren?

Ja. De E2B- en E4B-modellen zijn specifiek ontworpen voor browser- en mobiele implementatie. transformers.js maakt het mogelijk om Gemma 4 direct in browsers uit te voeren met WebGPU-ondersteuning. ONNX-checkpoints werken op verschillende edge-hardware backends. De modellen zijn geoptimaliseerd voor Pixel-apparaten en Chrome-browseromgevingen.

Hoe gebruik ik Gemma 4 met function calling en agents?

Gemma 4 heeft ingebouwde function calling-ondersteuning zonder fine-tuning te vereisen. De modellen kunnen tooldefinities parseren, gestructureerde JSON-aanroepen genereren en multimodale function calling afhandelen (bijv. een afbeelding analyseren en een weer-API aanroepen). Dit maakt autonome agents mogelijk voor taken zoals code-uitvoering, webbrowsing en data-ophaling.

FAQ

Prestaties en Vergelijkingen

Hoe Gemma 4 zich verhoudt tot andere modellen en wat het competitief maakt voor verschillende use cases.

Hoe verhoudt Gemma 4 31B zich tot grotere modellen zoals Llama 3.3 70B?

Het 31B-model staat op #3 in het Arena AI-klassement tussen open modellen, voor Llama 3.3 70B ondanks dat het minder dan de helft van de grootte is. Het behaalt 89,2% op AIME 2026 wiskundig redeneren, 85,2% op MMLU Pro en 80% op LiveCodeBench v6. De efficiëntie komt van architectuurinnovaties zoals afwisselende attention-patronen en gedeelde KV cache.

Wat is de Mixture-of-Experts (MoE) architectuur in het 26B-model?

Het 26B A4B-model heeft 26 miljard totale parameters maar activeert slechts 4 miljard per token tijdens generatie. Alle 26B parameters moeten in het geheugen worden geladen voor snelle routing, maar inferentiekosten zijn dichter bij een 4B-model. Dit behaalt 88,3% op AIME 2026 en 82,6% op MMLU Pro met aanzienlijk lagere berekening per token dan het dense 31B-model.

Kan Gemma 4 lange documenten en uitgebreide context verwerken?

Ja. Kleine modellen ondersteunen 128K contextvensters, terwijl middelgrote modellen 256K tokens aankunnen. De architectuur gebruikt dubbele RoPE-configuraties (standaard voor sliding-lagen, gesnoeid voor globale lagen) om langere context mogelijk te maken. Gedeelde KV cache vermindert geheugenconsumptie tijdens lange-context generatie, waardoor het praktisch wordt om hele codebases en onderzoekspapers te verwerken.

Waar kan ik fine-tuning voorbeelden en trainingsbronnen vinden?

Gemma 4 wordt volledig ondersteund in TRL (Transformer Reinforcement Learning), met voorbeelden voor multimodale tool-responses en omgevingsinteractie. Hugging Face biedt fine-tuning gidsen voor Vertex AI met SFT. Unsloth Studio biedt een UI-gebaseerde fine-tuning ervaring. De modellen ondersteunen PEFT-methoden zoals LoRA voor parameter-efficiënte training.

Gemma 4: Geavanceerde Multimodale Intelligentie die Overal Draait

Vier Modellen, Eén Familie: Van Edge tot Server-Grade Prestaties

Gemma 4 E2B & E4B: On-Device Intelligentie

Gemma 4 31B Dense & 26B MoE: Geavanceerde Prestaties

Native Multimodaal

Uitgebreide Contextvensters

Configureerbaar Denken

Programmeer- & Agentische Kracht

Beeld- & Documentanalyse

Overal Implementeren

Begin Vandaag met Chatten met Gemma 4

Bekijk: Officiële Introductie van Gemma 4

Gemma 4: Van Edge tot Cloud

Geavanceerde Prestaties in Redeneren, Programmeren en Beeld

Gemma 4 Prestaties over Belangrijke Taken

31B Dense & 26B MoE: Geavanceerde Prestaties voor Productie

E2B & E4B: On-Device Intelligentie met Audio-ondersteuning

Per-Layer Embeddings en Gedeelde KV Cache

Native Beeld-, Video- en Audiobegrip

Overal Implementeren: Browser, Lokaal of Cloud

Modelarchitectuur en Mogelijkheden

Implementatie en Integratie

Prestaties en Vergelijkingen