Gemma 4 Local
Draai Gemma 4 op je eigen hardware - privé, offline, geen API-sleutels
Elk Gemma 4 model draait lokaal. Van de 3,2 GB E2B op een telefoon tot het 31B-vlaggenschip op een workstation. Ollama, llama.cpp, MLX, transformers en browser-deployment - kies je tool en begin binnen enkele minuten.
Hardwarevereisten
Wat je nodig hebt om elk model lokaal te draaien
Geheugenvereisten hangen af van modelgrootte en kwantisatieniveau. 4-bit kwantisatie biedt de beste balans tussen kwaliteit en geheugengebruik voor de meeste lokale deployments.
Hardware-gids
Koppel je hardware aan het juiste model
E2B draait op telefoons en budget-laptops. E4B past comfortabel op de meeste laptops. De 26B MoE heeft een fatsoenlijke GPU nodig. De 31B Dense vereist een workstation-configuratie.
Alle geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor het contextvenster (KV cache) afhankelijk van je gebruik.
Telefoon / Budget-laptop
E2B (3,2-10 GB)
4-bit: ~3,2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. Draait op telefoons, Raspberry Pi en budget-hardware.
~95 tok/s op consumenten-GPU's. Het snelste model in de familie. Ideaal voor realtime-toepassingen.
Laptop / Desktop
E4B (5,5-16 GB)
4-bit: ~5,5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. Beste edge-model voor dagelijks lokaal gebruik.
Goede snelheid op RTX 3060+ of M1+ Macs. Het aanbevolen startpunt voor de meeste lokale gebruikers.
GPU-workstation
26B MoE (16-48 GB)
4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. Bijna 31B-kwaliteit op een enkele RTX 4090 of M4 Pro.
~2-8 tok/s afhankelijk van hardware. Ideaal voor batchverwerking en kwaliteitskritische lokale taken.
Multi-GPU / Server
31B Dense (17-58 GB)
4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. Maximale kwaliteit voor lokale deployment.
Vereist RTX 4090+ of M4 Max+ voor comfortabel gebruik. Ideaal voor maximale kwaliteit zonder cloud-afhankelijkheid.
Deployment-tools
Zes manieren om Gemma 4 lokaal te draaien
Van een Ollama-setup met één commando tot aangepaste llama.cpp-builds, er is een lokaal deployment-pad voor elk vaardigheidsniveau.
Ollama
Eén commando om te installeren, één commando om te draaien. De makkelijkste weg naar lokale Gemma 4. HTTP API inbegrepen voor integratie met andere tools.
llama.cpp
Maximale controle over kwantisatie, contextgrootte en GPU-lagen. Ideaal voor power-gebruikers die elke parameter willen afstemmen.
MLX (Apple Silicon)
Geoptimaliseerd voor M1/M2/M3/M4 Macs. Maakt gebruik van unified memory voor efficiënte inferentie op Apple-hardware.
transformers (Python)
Volledige integratie met het Hugging Face ecosysteem. Ideaal voor Python-ontwikkelaars die willen scripten, fine-tunen of aangepaste pipelines willen bouwen.
transformers.js (Browser)
Draai E2B en E4B rechtstreeks in Chrome met WebGPU. Geen installatie, geen server - open gewoon een webpagina.
LM Studio
GUI-gebaseerd lokaal modelbeheer. Download, configureer en chat met Gemma 4 via een desktopapplicatie.
Snelstart
Binnen 2 minuten aan de slag met Ollama
De snelste weg van nul naar lokale Gemma 4. Installeer Ollama, download een model, begin met chatten.
Installeren en draaien
- Installeren: curl -fsSL https://ollama.com/install.sh | sh
- E4B draaien: ollama run gemma4:e4b
- 26B draaien: ollama run gemma4:26b
- 31B draaien: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
Tips
- Begin met E4B als je 8-16 GB RAM hebt
- Gebruik 4-bit kwantisatie (Q4_K_M) voor de beste kwaliteit/geheugenverhouding
- Voeg --num-gpu-layers toe voor GPU-versnelling in llama.cpp
- Stel de contextgrootte in op basis van je beschikbare geheugen
- Monitor het VRAM-gebruik - houd ruimte over voor de KV cache
Lokale prestaties
Werkelijke snelheid en kwaliteit op consumenten-hardware
Werkelijke prestaties variëren per hardware, kwantisatie en contextlengte. Dit kun je verwachten op gangbare configuraties.
Lokale inferentiesnelheid hangt af van je GPU, RAM, kwantisatieniveau en contextlengte. Deze cijfers vertegenwoordigen typische prestaties op gangbare consumenten-hardware.


E2B op 4-bit: ~95 tok/s op RTX 3060, ~60 tok/s op M1 MacBook
E4B op 4-bit: ~40-60 tok/s op RTX 3060, ~30 tok/s op M1 MacBook
26B op 4-bit: ~8-15 tok/s op RTX 4090, ~5 tok/s op M4 Pro
31B op 4-bit: ~5-10 tok/s op RTX 4090, ~3 tok/s op M4 Max
Hardwarevereisten
VRAM- en RAM-vereisten per kwantisatie
Kies je kwantisatieniveau op basis van beschikbaar geheugen. 4-bit (Q4_K_M) biedt de beste kwaliteit-geheugenverhouding voor de meeste gebruikers.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) Aanbevolen | ~3,2 GB | ~5,5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) Hogere kwaliteit | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 Volledige precisie | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU Comfortabel gebruik | Elke 4 GB+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Aanbevolen Mac | Elke M1+ | M1+ 16 GB | M4 Pro 24 GB | M4 Max 64 GB |
Geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor de KV cache afhankelijk van de contextlengte.
Privacy voorop
Je data verlaat nooit je apparaat
Gemma 4 lokaal draaien betekent volledige privacy. Geen API-aanroepen, geen dataregistratie, geen internet nodig na het downloaden. Verwerk gevoelige documenten, code en gesprekken zonder enige blootstelling.
- Geen dataoverdracht - alles blijft op je hardware
- Geen API-sleutels, geen accounts, geen gebruikstracking
- Verwerk vertrouwelijke documenten en eigen code veilig
Browser-AI
Draai Gemma 4 in je browser - geen installatie nodig
De E2B- en E4B-modellen draaien rechtstreeks in Chrome met WebGPU via transformers.js. Geen server, geen installatie, geen configuratie. Open gewoon een webpagina en begin met chatten.
- transformers.js maakt browser-inferentie mogelijk met WebGPU
- E2B en E4B geoptimaliseerd voor browser-deployment
- Werkt in Chrome, Edge en andere WebGPU-compatibele browsers
Ontwikkelaarstools
Integreer lokale Gemma 4 in je workflow
Gebruik Gemma 4 als lokale codeerassistent met Claude Code, VS Code of elke tool die OpenAI-compatibele API's ondersteunt. Ollama en llama.cpp bieden beide compatibele endpoints.
- OpenAI-compatibele API via Ollama (localhost:11434)
- Werkt met Claude Code, Continue, Cursor en andere AI-tools
- Fine-tune met TRL, Unsloth of Keras voor aangepaste taken
Snelstart
Gemma 4 lokaal aan de praat krijgen
Kies je favoriete tool en begin binnen enkele minuten.
Gewichten downloaden
Modelbestanden ophalen
Download officiële gewichten van betrouwbare bronnen.
Geavanceerd
Fine-tuning en aanpassing
Pas Gemma 4 aan voor jouw specifieke gebruik.
Lokaal AI-ecosysteem
Tools en platforms voor lokale Gemma 4
Een groeiend ecosysteem van tools maakt het lokaal draaien van Gemma 4 makkelijker dan ooit.
Aan de slag
Draai Gemma 4 vandaag nog op je eigen hardware
Probeer het eerst online en download het vervolgens voor privé, offline gebruik. Geen API-sleutels, geen accounts, geen data verlaat je apparaat.