Gemma 4 downloaden

Download officiële Gemma 4-gewichten - Apache 2.0-licentie

Alle vier Gemma 4-modellen zijn beschikbaar voor download via Hugging Face, Kaggle en Ollama. Instruction-Tuned en basisvarianten, meerdere kwantisatieniveaus en volledige commerciële vrijheid onder Apache 2.0.

Eerst uitproberen Alle varianten bekijken

Beschikbare modellen

Alle Gemma 4-varianten klaar voor download

Elk model is beschikbaar als Instruction-Tuned (IT) en basisvariant. Kies op basis van je toepassing: IT voor chat en taken, basis voor finetuning.

Downloadopties

Meerdere formaten en kwantisatieniveaus

Modellen zijn beschikbaar in BF16 (volledige precisie), GGUF (voor llama.cpp/Ollama) en ONNX (voor edge-implementatie). Gekwantiseerde versies van 4-bit tot 8-bit verlagen de geheugenvereisten.

Voor de meeste gebruikers raden we Ollama aan (kiest automatisch de juiste kwantisatie) of Hugging Face GGUF-bestanden voor llama.cpp.

Eerst uitproberen Hardware-handleiding

Edge - 2,3 miljard effectieve parameters

Gemma 4 E2B

Kleinste model. 3,2 GB bij 4-bit. Draait op telefoons, IoT en budgethardware.

Inclusief audio-encoder. Ideaal voor ultracompacte implementatie waar geheugen de belangrijkste beperking is.

Ca. 2-10 GB download

Hugging Face Ollama

Edge - 4,5 miljard effectieve parameters

Gemma 4 E4B

Aanbevolen edge-model. 5,5 GB bij 4-bit. Beste kwaliteit voor laptops en desktops.

Inclusief audio-encoder. Sterk redeneren en programmeren op het apparaat.

Ca. 4-16 GB download

Hugging Face Ollama

Server - MoE

Gemma 4 26B A4B

Efficiënt MoE-model. 16 GB bij 4-bit. Bijna 31B-kwaliteit tegen 4B-inferentiekosten.

128 experts, 8 actief + 1 gedeeld. Ideaal voor productieomgevingen met hoge doorvoer.

Ca. 10-48 GB download

Hugging Face Ollama

Server - Vlaggenschip

Gemma 4 31B

Maximale kwaliteit. 17 GB bij 4-bit. #3 op het Arena AI-leaderboard.

Dense-architectuur voor maximale betrouwbaarheid. Ideaal voor kwaliteitskritische toepassingen.

Ca. 12-58 GB download

Hugging Face Ollama

Downloadbronnen

Officiële downloadplatformen

Download van betrouwbare, officiële bronnen. Alle modellen worden geverifieerd en onderhouden door Google DeepMind.

Hugging Face

Volledige modelrepositories met alle varianten, kwantisaties en documentatie. De meest uitgebreide bron voor Gemma 4-gewichten.

Kaggle

Officiële Google-modelhosting. Download gewichten en krijg toegang tot notebooks voor experimenten en finetuning.

Ollama

Download en draai met één commando. Ollama kiest automatisch de juiste kwantisatie voor jouw hardware.

Google AI Studio

Geen download nodig. Gebruik Gemma 4 via een gehoste API voor prototyping en ontwikkeling.

GGUF-formaat

Geoptimaliseerd voor llama.cpp en Ollama. Meerdere kwantisatieniveaus van Q4_K_M tot Q8_0 voor verschillende geheugenbudgetten.

ONNX-formaat

Cross-platform implementatie voor edge-apparaten, mobiel en browser. Geoptimaliseerd voor inferentie op diverse hardware.

Snel downloaden

De snelste manier om te beginnen

Gebruik Ollama voor het snelste pad van download naar uitvoering. Eén commando doet alles.

Ollama-commando's

ollama pull gemma4:e2b - Edge ultracompact
ollama pull gemma4:e4b - Edge aanbevolen
ollama pull gemma4:26b - Server MoE
ollama pull gemma4:31b - Server vlaggenschip
ollama run gemma4:e4b - Downloaden en direct chatten

Hugging Face CLI

pip install huggingface_hub
huggingface-cli download google/gemma-4-e4b-it
huggingface-cli download google/gemma-4-26b-a4b-it
huggingface-cli download google/gemma-4-31b-it
Voeg --revision toe voor specifieke kwantisaties

Eerst uitproberen Alle modellen bekijken

Downloadgroottes

Bestandsgroottes per model en kwantisatie

Kies de juiste kwantisatie voor jouw opslag- en geheugenbeperkingen. Kleinere kwantisaties ruilen wat kwaliteit in voor aanzienlijk kleinere bestanden.

Downloadgroottes variëren per kwantisatieniveau. 4-bit kwantisatie (Q4_K_M) biedt de beste balans tussen kwaliteit en grootte voor de meeste gebruikers.

Nu downloaden Hardware-handleiding

Gemma 4 downloadgroottevergelijking over modellen en kwantisaties

E2B bij 4-bit: ca. 2 GB download, ca. 3,2 GB in geheugen

E4B bij 4-bit: ca. 4 GB download, ca. 5,5 GB in geheugen

26B bij 4-bit: ca. 10 GB download, ca. 16 GB in geheugen

31B bij 4-bit: ca. 12 GB download, ca. 17 GB in geheugen

Groottevergelijking

Download- en geheugenvereisten

Bestandsgroottes voor verschillende kwantisatieniveaus van alle Gemma 4-modellen.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit GGUF Aanbevolen	~2 GB	~4 GB	~10 GB	~12 GB
8-bit GGUF Hogere kwaliteit	~5 GB	~8 GB	~24 GB	~29 GB
BF16 Volledige precisie	~10 GB	~16 GB	~48 GB	~58 GB
VRAM needed Bij 4-bit	~3.2 GB	~5.5 GB	~16 GB	~17 GB

Geschatte groottes. De werkelijke download kan enigszins afwijken afhankelijk van bron en formaat.

Apache 2.0

Volledige commerciële vrijheid met Apache 2.0-licentie

Elk Gemma 4-model wordt uitgebracht onder de Apache 2.0-licentie. Geen MAU-limieten, geen gebruiksbeperkingen, geen royalty's. Commercieel gebruiken, vrij aanpassen, zonder beperkingen distribueren.

Volledig commercieel gebruik zonder beperkingen toegestaan
Vrij aanpassen en distribueren
Geen gebruikslimieten of rapportageverplichtingen

Nu downloaden Licentie bekijken

Volledige commerciële vrijheid met Apache 2.0-licentie

Meerdere formaten

GGUF, ONNX, SafeTensors en meer

Gemma 4 is beschikbaar in meerdere formaten voor verschillende implementatiedoelen. GGUF voor llama.cpp/Ollama, ONNX voor edge-apparaten, SafeTensors voor transformers en meer.

GGUF: llama.cpp, Ollama, LM Studio, GPT4All
ONNX: edge-apparaten, mobiel, browserimplementatie
SafeTensors: Hugging Face transformers, vLLM, TGI

Hugging Face Formaatgids

Geverifieerde bronnen

Download alleen van officiële, geverifieerde bronnen

Alle Gemma 4-gewichten worden gepubliceerd door Google DeepMind op officiële platformen. Controleer altijd de uitgever voor het downloaden om authentieke, ongewijzigde gewichten te krijgen.

Hugging Face: google/ organisatie geverifieerd
Kaggle: google/ uitgever geverifieerd
Ollama: officiële bibliotheekvermelding

Hugging Face Kaggle