Gemma 4 Local

Draai Gemma 4 op je eigen hardware - privé, offline, geen API-sleutels

Elk Gemma 4 model draait lokaal. Van de 3,2 GB E2B op een telefoon tot het 31B-vlaggenschip op een workstation. Ollama, llama.cpp, MLX, transformers en browser-deployment - kies je tool en begin binnen enkele minuten.

Eerst online proberen Hardwarevereisten bekijken

Hardwarevereisten

Wat je nodig hebt om elk model lokaal te draaien

Geheugenvereisten hangen af van modelgrootte en kwantisatieniveau. 4-bit kwantisatie biedt de beste balans tussen kwaliteit en geheugengebruik voor de meeste lokale deployments.

Hardware-gids

Koppel je hardware aan het juiste model

E2B draait op telefoons en budget-laptops. E4B past comfortabel op de meeste laptops. De 26B MoE heeft een fatsoenlijke GPU nodig. De 31B Dense vereist een workstation-configuratie.

Alle geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor het contextvenster (KV cache) afhankelijk van je gebruik.

Eerst online proberen Modellen downloaden

Telefoon / Budget-laptop

E2B (3,2-10 GB)

4-bit: ~3,2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. Draait op telefoons, Raspberry Pi en budget-hardware.

~95 tok/s op consumenten-GPU's. Het snelste model in de familie. Ideaal voor realtime-toepassingen.

Makkelijkst te draaien

E2B downloaden Installatiegids

Laptop / Desktop

E4B (5,5-16 GB)

4-bit: ~5,5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. Beste edge-model voor dagelijks lokaal gebruik.

Goede snelheid op RTX 3060+ of M1+ Macs. Het aanbevolen startpunt voor de meeste lokale gebruikers.

Aanbevolen

E4B downloaden Installatiegids

GPU-workstation

26B MoE (16-48 GB)

4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. Bijna 31B-kwaliteit op een enkele RTX 4090 of M4 Pro.

~2-8 tok/s afhankelijk van hardware. Ideaal voor batchverwerking en kwaliteitskritische lokale taken.

Power-gebruikers

26B downloaden Installatiegids

Multi-GPU / Server

31B Dense (17-58 GB)

4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. Maximale kwaliteit voor lokale deployment.

Vereist RTX 4090+ of M4 Max+ voor comfortabel gebruik. Ideaal voor maximale kwaliteit zonder cloud-afhankelijkheid.

Maximale kwaliteit

31B downloaden Installatiegids

Deployment-tools

Zes manieren om Gemma 4 lokaal te draaien

Van een Ollama-setup met één commando tot aangepaste llama.cpp-builds, er is een lokaal deployment-pad voor elk vaardigheidsniveau.

Ollama

Eén commando om te installeren, één commando om te draaien. De makkelijkste weg naar lokale Gemma 4. HTTP API inbegrepen voor integratie met andere tools.

llama.cpp

Maximale controle over kwantisatie, contextgrootte en GPU-lagen. Ideaal voor power-gebruikers die elke parameter willen afstemmen.

MLX (Apple Silicon)

Geoptimaliseerd voor M1/M2/M3/M4 Macs. Maakt gebruik van unified memory voor efficiënte inferentie op Apple-hardware.

transformers (Python)

Volledige integratie met het Hugging Face ecosysteem. Ideaal voor Python-ontwikkelaars die willen scripten, fine-tunen of aangepaste pipelines willen bouwen.

transformers.js (Browser)

Draai E2B en E4B rechtstreeks in Chrome met WebGPU. Geen installatie, geen server - open gewoon een webpagina.

LM Studio

GUI-gebaseerd lokaal modelbeheer. Download, configureer en chat met Gemma 4 via een desktopapplicatie.

Snelstart

Binnen 2 minuten aan de slag met Ollama

De snelste weg van nul naar lokale Gemma 4. Installeer Ollama, download een model, begin met chatten.

Installeren en draaien

Installeren: curl -fsSL https://ollama.com/install.sh | sh
E4B draaien: ollama run gemma4:e4b
26B draaien: ollama run gemma4:26b
31B draaien: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

Tips

Begin met E4B als je 8-16 GB RAM hebt
Gebruik 4-bit kwantisatie (Q4_K_M) voor de beste kwaliteit/geheugenverhouding
Voeg --num-gpu-layers toe voor GPU-versnelling in llama.cpp
Stel de contextgrootte in op basis van je beschikbare geheugen
Monitor het VRAM-gebruik - houd ruimte over voor de KV cache

Eerst online proberen Modellen downloaden

Lokale prestaties

Werkelijke snelheid en kwaliteit op consumenten-hardware

Werkelijke prestaties variëren per hardware, kwantisatie en contextlengte. Dit kun je verwachten op gangbare configuraties.

Lokale inferentiesnelheid hangt af van je GPU, RAM, kwantisatieniveau en contextlengte. Deze cijfers vertegenwoordigen typische prestaties op gangbare consumenten-hardware.

Eerst online proberen Hardware-gids

Lokale Gemma 4 prestaties op verschillende hardwareconfiguraties

E2B op 4-bit: ~95 tok/s op RTX 3060, ~60 tok/s op M1 MacBook

E4B op 4-bit: ~40-60 tok/s op RTX 3060, ~30 tok/s op M1 MacBook

26B op 4-bit: ~8-15 tok/s op RTX 4090, ~5 tok/s op M4 Pro

31B op 4-bit: ~5-10 tok/s op RTX 4090, ~3 tok/s op M4 Max

Hardwarevereisten

VRAM- en RAM-vereisten per kwantisatie

Kies je kwantisatieniveau op basis van beschikbaar geheugen. 4-bit (Q4_K_M) biedt de beste kwaliteit-geheugenverhouding voor de meeste gebruikers.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Aanbevolen	~3,2 GB	~5,5 GB	~16 GB	~17 GB
8-bit (Q8_0) Hogere kwaliteit	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 Volledige precisie	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU Comfortabel gebruik	Elke 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Aanbevolen Mac	Elke M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

Geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor de KV cache afhankelijk van de contextlengte.

Privacy voorop

Je data verlaat nooit je apparaat

Gemma 4 lokaal draaien betekent volledige privacy. Geen API-aanroepen, geen dataregistratie, geen internet nodig na het downloaden. Verwerk gevoelige documenten, code en gesprekken zonder enige blootstelling.

Geen dataoverdracht - alles blijft op je hardware
Geen API-sleutels, geen accounts, geen gebruikstracking
Verwerk vertrouwelijke documenten en eigen code veilig

Nu downloaden Privacy-gids

Browser-AI

Draai Gemma 4 in je browser - geen installatie nodig

De E2B- en E4B-modellen draaien rechtstreeks in Chrome met WebGPU via transformers.js. Geen server, geen installatie, geen configuratie. Open gewoon een webpagina en begin met chatten.

transformers.js maakt browser-inferentie mogelijk met WebGPU
E2B en E4B geoptimaliseerd voor browser-deployment
Werkt in Chrome, Edge en andere WebGPU-compatibele browsers

Probeer in de browser transformers.js documentatie

Draai Gemma 4 in je browser - geen installatie nodig

Ontwikkelaarstools

Integreer lokale Gemma 4 in je workflow

Gebruik Gemma 4 als lokale codeerassistent met Claude Code, VS Code of elke tool die OpenAI-compatibele API's ondersteunt. Ollama en llama.cpp bieden beide compatibele endpoints.