Gemma 4 Local

Draai Gemma 4 op je eigen hardware - privé, offline, geen API-sleutels

Elk Gemma 4 model draait lokaal. Van de 3,2 GB E2B op een telefoon tot het 31B-vlaggenschip op een workstation. Ollama, llama.cpp, MLX, transformers en browser-deployment - kies je tool en begin binnen enkele minuten.

Hardwarevereisten

Wat je nodig hebt om elk model lokaal te draaien

Geheugenvereisten hangen af van modelgrootte en kwantisatieniveau. 4-bit kwantisatie biedt de beste balans tussen kwaliteit en geheugengebruik voor de meeste lokale deployments.

Hardware-gids

Koppel je hardware aan het juiste model

E2B draait op telefoons en budget-laptops. E4B past comfortabel op de meeste laptops. De 26B MoE heeft een fatsoenlijke GPU nodig. De 31B Dense vereist een workstation-configuratie.

Alle geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor het contextvenster (KV cache) afhankelijk van je gebruik.

Telefoon / Budget-laptop

E2B (3,2-10 GB)

4-bit: ~3,2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. Draait op telefoons, Raspberry Pi en budget-hardware.

~95 tok/s op consumenten-GPU's. Het snelste model in de familie. Ideaal voor realtime-toepassingen.

Makkelijkst te draaien

Laptop / Desktop

E4B (5,5-16 GB)

4-bit: ~5,5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. Beste edge-model voor dagelijks lokaal gebruik.

Goede snelheid op RTX 3060+ of M1+ Macs. Het aanbevolen startpunt voor de meeste lokale gebruikers.

Aanbevolen

GPU-workstation

26B MoE (16-48 GB)

4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. Bijna 31B-kwaliteit op een enkele RTX 4090 of M4 Pro.

~2-8 tok/s afhankelijk van hardware. Ideaal voor batchverwerking en kwaliteitskritische lokale taken.

Power-gebruikers

Multi-GPU / Server

31B Dense (17-58 GB)

4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. Maximale kwaliteit voor lokale deployment.

Vereist RTX 4090+ of M4 Max+ voor comfortabel gebruik. Ideaal voor maximale kwaliteit zonder cloud-afhankelijkheid.

Maximale kwaliteit

Deployment-tools

Zes manieren om Gemma 4 lokaal te draaien

Van een Ollama-setup met één commando tot aangepaste llama.cpp-builds, er is een lokaal deployment-pad voor elk vaardigheidsniveau.

Ollama

Eén commando om te installeren, één commando om te draaien. De makkelijkste weg naar lokale Gemma 4. HTTP API inbegrepen voor integratie met andere tools.

llama.cpp

Maximale controle over kwantisatie, contextgrootte en GPU-lagen. Ideaal voor power-gebruikers die elke parameter willen afstemmen.

MLX (Apple Silicon)

Geoptimaliseerd voor M1/M2/M3/M4 Macs. Maakt gebruik van unified memory voor efficiënte inferentie op Apple-hardware.

transformers (Python)

Volledige integratie met het Hugging Face ecosysteem. Ideaal voor Python-ontwikkelaars die willen scripten, fine-tunen of aangepaste pipelines willen bouwen.

transformers.js (Browser)

Draai E2B en E4B rechtstreeks in Chrome met WebGPU. Geen installatie, geen server - open gewoon een webpagina.

LM Studio

GUI-gebaseerd lokaal modelbeheer. Download, configureer en chat met Gemma 4 via een desktopapplicatie.

Snelstart

Binnen 2 minuten aan de slag met Ollama

De snelste weg van nul naar lokale Gemma 4. Installeer Ollama, download een model, begin met chatten.

Installeren en draaien

  • Installeren: curl -fsSL https://ollama.com/install.sh | sh
  • E4B draaien: ollama run gemma4:e4b
  • 26B draaien: ollama run gemma4:26b
  • 31B draaien: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

Tips

  • Begin met E4B als je 8-16 GB RAM hebt
  • Gebruik 4-bit kwantisatie (Q4_K_M) voor de beste kwaliteit/geheugenverhouding
  • Voeg --num-gpu-layers toe voor GPU-versnelling in llama.cpp
  • Stel de contextgrootte in op basis van je beschikbare geheugen
  • Monitor het VRAM-gebruik - houd ruimte over voor de KV cache

Lokale prestaties

Werkelijke snelheid en kwaliteit op consumenten-hardware

Werkelijke prestaties variëren per hardware, kwantisatie en contextlengte. Dit kun je verwachten op gangbare configuraties.

Lokale inferentiesnelheid hangt af van je GPU, RAM, kwantisatieniveau en contextlengte. Deze cijfers vertegenwoordigen typische prestaties op gangbare consumenten-hardware.

Lokale Gemma 4 prestaties op verschillende hardwareconfiguraties

E2B op 4-bit: ~95 tok/s op RTX 3060, ~60 tok/s op M1 MacBook

E4B op 4-bit: ~40-60 tok/s op RTX 3060, ~30 tok/s op M1 MacBook

26B op 4-bit: ~8-15 tok/s op RTX 4090, ~5 tok/s op M4 Pro

31B op 4-bit: ~5-10 tok/s op RTX 4090, ~3 tok/s op M4 Max

Hardwarevereisten

VRAM- en RAM-vereisten per kwantisatie

Kies je kwantisatieniveau op basis van beschikbaar geheugen. 4-bit (Q4_K_M) biedt de beste kwaliteit-geheugenverhouding voor de meeste gebruikers.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Aanbevolen
~3,2 GB~5,5 GB~16 GB~17 GB
8-bit (Q8_0)
Hogere kwaliteit
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
Volledige precisie
~10 GB~16 GB~48 GB~58 GB
Min GPU
Comfortabel gebruik
Elke 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Aanbevolen Mac
Elke M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

Geheugenwaarden zijn alleen voor modelgewichten. Voeg 2-4 GB toe voor de KV cache afhankelijk van de contextlengte.

Privacy voorop

Je data verlaat nooit je apparaat

Gemma 4 lokaal draaien betekent volledige privacy. Geen API-aanroepen, geen dataregistratie, geen internet nodig na het downloaden. Verwerk gevoelige documenten, code en gesprekken zonder enige blootstelling.

  • Geen dataoverdracht - alles blijft op je hardware
  • Geen API-sleutels, geen accounts, geen gebruikstracking
  • Verwerk vertrouwelijke documenten en eigen code veilig
Je data verlaat nooit je apparaat

Browser-AI

Draai Gemma 4 in je browser - geen installatie nodig

De E2B- en E4B-modellen draaien rechtstreeks in Chrome met WebGPU via transformers.js. Geen server, geen installatie, geen configuratie. Open gewoon een webpagina en begin met chatten.

  • transformers.js maakt browser-inferentie mogelijk met WebGPU
  • E2B en E4B geoptimaliseerd voor browser-deployment
  • Werkt in Chrome, Edge en andere WebGPU-compatibele browsers
Draai Gemma 4 in je browser - geen installatie nodig

Ontwikkelaarstools

Integreer lokale Gemma 4 in je workflow

Gebruik Gemma 4 als lokale codeerassistent met Claude Code, VS Code of elke tool die OpenAI-compatibele API's ondersteunt. Ollama en llama.cpp bieden beide compatibele endpoints.

  • OpenAI-compatibele API via Ollama (localhost:11434)
  • Werkt met Claude Code, Continue, Cursor en andere AI-tools
  • Fine-tune met TRL, Unsloth of Keras voor aangepaste taken
Integreer lokale Gemma 4 in je workflow

Lokaal AI-ecosysteem

Tools en platforms voor lokale Gemma 4

Een groeiend ecosysteem van tools maakt het lokaal draaien van Gemma 4 makkelijker dan ooit.

Ollama

Makkelijkste lokale deployment met HTTP API

Aan de slag

llama.cpp

Maximale controle en aanpassing

Meer info

LM Studio

Desktop-GUI voor lokaal modelbeheer

Downloaden

transformers.js

Browser-gebaseerde inferentie met WebGPU

Proberen

MLX

Geoptimaliseerde inferentie voor Apple Silicon

Aan de slag

vLLM

Lokale serving met hoge doorvoer

Deployen

Aan de slag

Draai Gemma 4 vandaag nog op je eigen hardware

Probeer het eerst online en download het vervolgens voor privé, offline gebruik. Geen API-sleutels, geen accounts, geen data verlaat je apparaat.