Gemma 4 downloaden
Download officiële Gemma 4-gewichten - Apache 2.0-licentie
Alle vier Gemma 4-modellen zijn beschikbaar voor download via Hugging Face, Kaggle en Ollama. Instruction-Tuned en basisvarianten, meerdere kwantisatieniveaus en volledige commerciële vrijheid onder Apache 2.0.
Beschikbare modellen
Alle Gemma 4-varianten klaar voor download
Elk model is beschikbaar als Instruction-Tuned (IT) en basisvariant. Kies op basis van je toepassing: IT voor chat en taken, basis voor finetuning.
Downloadopties
Meerdere formaten en kwantisatieniveaus
Modellen zijn beschikbaar in BF16 (volledige precisie), GGUF (voor llama.cpp/Ollama) en ONNX (voor edge-implementatie). Gekwantiseerde versies van 4-bit tot 8-bit verlagen de geheugenvereisten.
Voor de meeste gebruikers raden we Ollama aan (kiest automatisch de juiste kwantisatie) of Hugging Face GGUF-bestanden voor llama.cpp.
Edge - 2,3 miljard effectieve parameters
Gemma 4 E2B
Kleinste model. 3,2 GB bij 4-bit. Draait op telefoons, IoT en budgethardware.
Inclusief audio-encoder. Ideaal voor ultracompacte implementatie waar geheugen de belangrijkste beperking is.
Edge - 4,5 miljard effectieve parameters
Gemma 4 E4B
Aanbevolen edge-model. 5,5 GB bij 4-bit. Beste kwaliteit voor laptops en desktops.
Inclusief audio-encoder. Sterk redeneren en programmeren op het apparaat.
Server - MoE
Gemma 4 26B A4B
Efficiënt MoE-model. 16 GB bij 4-bit. Bijna 31B-kwaliteit tegen 4B-inferentiekosten.
128 experts, 8 actief + 1 gedeeld. Ideaal voor productieomgevingen met hoge doorvoer.
Server - Vlaggenschip
Gemma 4 31B
Maximale kwaliteit. 17 GB bij 4-bit. #3 op het Arena AI-leaderboard.
Dense-architectuur voor maximale betrouwbaarheid. Ideaal voor kwaliteitskritische toepassingen.
Downloadbronnen
Officiële downloadplatformen
Download van betrouwbare, officiële bronnen. Alle modellen worden geverifieerd en onderhouden door Google DeepMind.
Hugging Face
Volledige modelrepositories met alle varianten, kwantisaties en documentatie. De meest uitgebreide bron voor Gemma 4-gewichten.
Kaggle
Officiële Google-modelhosting. Download gewichten en krijg toegang tot notebooks voor experimenten en finetuning.
Ollama
Download en draai met één commando. Ollama kiest automatisch de juiste kwantisatie voor jouw hardware.
Google AI Studio
Geen download nodig. Gebruik Gemma 4 via een gehoste API voor prototyping en ontwikkeling.
GGUF-formaat
Geoptimaliseerd voor llama.cpp en Ollama. Meerdere kwantisatieniveaus van Q4_K_M tot Q8_0 voor verschillende geheugenbudgetten.
ONNX-formaat
Cross-platform implementatie voor edge-apparaten, mobiel en browser. Geoptimaliseerd voor inferentie op diverse hardware.
Snel downloaden
De snelste manier om te beginnen
Gebruik Ollama voor het snelste pad van download naar uitvoering. Eén commando doet alles.
Ollama-commando's
- ollama pull gemma4:e2b - Edge ultracompact
- ollama pull gemma4:e4b - Edge aanbevolen
- ollama pull gemma4:26b - Server MoE
- ollama pull gemma4:31b - Server vlaggenschip
- ollama run gemma4:e4b - Downloaden en direct chatten
Hugging Face CLI
- pip install huggingface_hub
- huggingface-cli download google/gemma-4-e4b-it
- huggingface-cli download google/gemma-4-26b-a4b-it
- huggingface-cli download google/gemma-4-31b-it
- Voeg --revision toe voor specifieke kwantisaties
Downloadgroottes
Bestandsgroottes per model en kwantisatie
Kies de juiste kwantisatie voor jouw opslag- en geheugenbeperkingen. Kleinere kwantisaties ruilen wat kwaliteit in voor aanzienlijk kleinere bestanden.
Downloadgroottes variëren per kwantisatieniveau. 4-bit kwantisatie (Q4_K_M) biedt de beste balans tussen kwaliteit en grootte voor de meeste gebruikers.


E2B bij 4-bit: ca. 2 GB download, ca. 3,2 GB in geheugen
E4B bij 4-bit: ca. 4 GB download, ca. 5,5 GB in geheugen
26B bij 4-bit: ca. 10 GB download, ca. 16 GB in geheugen
31B bij 4-bit: ca. 12 GB download, ca. 17 GB in geheugen
Groottevergelijking
Download- en geheugenvereisten
Bestandsgroottes voor verschillende kwantisatieniveaus van alle Gemma 4-modellen.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit GGUF Aanbevolen | ~2 GB | ~4 GB | ~10 GB | ~12 GB |
8-bit GGUF Hogere kwaliteit | ~5 GB | ~8 GB | ~24 GB | ~29 GB |
BF16 Volledige precisie | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
VRAM needed Bij 4-bit | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Geschatte groottes. De werkelijke download kan enigszins afwijken afhankelijk van bron en formaat.
Apache 2.0
Volledige commerciële vrijheid met Apache 2.0-licentie
Elk Gemma 4-model wordt uitgebracht onder de Apache 2.0-licentie. Geen MAU-limieten, geen gebruiksbeperkingen, geen royalty's. Commercieel gebruiken, vrij aanpassen, zonder beperkingen distribueren.
- Volledig commercieel gebruik zonder beperkingen toegestaan
- Vrij aanpassen en distribueren
- Geen gebruikslimieten of rapportageverplichtingen
Meerdere formaten
GGUF, ONNX, SafeTensors en meer
Gemma 4 is beschikbaar in meerdere formaten voor verschillende implementatiedoelen. GGUF voor llama.cpp/Ollama, ONNX voor edge-apparaten, SafeTensors voor transformers en meer.
- GGUF: llama.cpp, Ollama, LM Studio, GPT4All
- ONNX: edge-apparaten, mobiel, browserimplementatie
- SafeTensors: Hugging Face transformers, vLLM, TGI
Geverifieerde bronnen
Download alleen van officiële, geverifieerde bronnen
Alle Gemma 4-gewichten worden gepubliceerd door Google DeepMind op officiële platformen. Controleer altijd de uitgever voor het downloaden om authentieke, ongewijzigde gewichten te krijgen.
- Hugging Face: google/ organisatie geverifieerd
- Kaggle: google/ uitgever geverifieerd
- Ollama: officiële bibliotheekvermelding
Officiële bronnen
Download van geverifieerde platformen
Verkrijg authentieke Gemma 4-gewichten van officiële bronnen.
Installatiehandleidingen
Aan de slag na het downloaden
Stapsgewijze handleidingen voor elke implementatietool.
Documentatie
Technische referenties
Gedetailleerde documentatie voor alle modellen.
Na het downloaden
Wat je kunt doen met je Gemma 4-gewichten
Gewichten gedownload? Dit kun je vervolgens doen.
Aan de slag
Download Gemma 4 en begin met bouwen
Probeer het eerst online, of download direct voor privé, lokale implementatie. Apache 2.0-licentie voor volledige commerciële vrijheid.