Gemma 4 Local
Gemma 4 auf eigener Hardware ausführen - privat, offline, keine API-Schlüssel
Jedes Gemma 4 Modell läuft lokal. Vom 3,2 GB E2B auf dem Smartphone bis zum 31B-Flaggschiff auf der Workstation. Ollama, llama.cpp, MLX, transformers und Browser-Deployment - wählen Sie Ihr Tool und starten Sie in Minuten.
Hardwareanforderungen
Was Sie für jedes Modell lokal benötigen
Der Speicherbedarf hängt von Modellgröße und Quantisierungsstufe ab. 4-Bit-Quantisierung bietet das beste Verhältnis von Qualität und Speicherverbrauch für die meisten lokalen Deployments.
Hardware-Leitfaden
Finden Sie das passende Modell für Ihre Hardware
E2B läuft auf Smartphones und günstigen Laptops. E4B passt bequem auf die meisten Laptops. Das 26B MoE braucht eine ordentliche GPU. Das 31B Dense erfordert eine Workstation-Konfiguration.
Alle Speicherangaben beziehen sich nur auf die Modellgewichte. Rechnen Sie je nach Anwendungsfall 2-4 GB für das Kontextfenster (KV Cache) hinzu.
Smartphone / Günstiger Laptop
E2B (3,2-10 GB)
4-Bit: ~3,2 GB | 8-Bit: ~5-8 GB | BF16: ~10 GB. Läuft auf Smartphones, Raspberry Pi und günstiger Hardware.
~95 tok/s auf Consumer-GPUs. Das schnellste Modell der Familie. Ideal für Echtzeitanwendungen.
Laptop / Desktop
E4B (5,5-16 GB)
4-Bit: ~5,5-6 GB | 8-Bit: ~9-12 GB | BF16: ~16 GB. Bestes Edge-Modell für den täglichen lokalen Einsatz.
Gute Geschwindigkeit auf RTX 3060+ oder M1+ Macs. Der empfohlene Einstiegspunkt für die meisten lokalen Nutzer.
GPU-Workstation
26B MoE (16-48 GB)
4-Bit: ~16 GB | 8-Bit: ~24 GB | BF16: ~48 GB. Nahezu 31B-Qualität auf einer einzelnen RTX 4090 oder M4 Pro.
~2-8 tok/s je nach Hardware. Ideal für Stapelverarbeitung und qualitätskritische lokale Aufgaben.
Multi-GPU / Server
31B Dense (17-58 GB)
4-Bit: ~17 GB | 8-Bit: ~29 GB | BF16: ~58 GB. Maximale Qualität für lokales Deployment.
Erfordert RTX 4090+ oder M4 Max+ für komfortablen Einsatz. Ideal für maximale Qualität ohne Cloud-Abhängigkeit.
Deployment-Tools
Sechs Wege, Gemma 4 lokal auszuführen
Vom Ein-Befehl-Ollama-Setup bis zum individuellen llama.cpp-Build gibt es einen lokalen Deployment-Pfad für jedes Erfahrungsniveau.
Ollama
Ein Befehl zum Installieren, ein Befehl zum Starten. Der einfachste Weg zu lokalem Gemma 4. HTTP-API für die Integration mit anderen Tools inklusive.
llama.cpp
Maximale Kontrolle über Quantisierung, Kontextgröße und GPU-Layer. Ideal für Power-User, die jeden Parameter anpassen möchten.
MLX (Apple Silicon)
Optimiert für M1/M2/M3/M4 Macs. Nutzt Unified Memory für effiziente Inferenz auf Apple-Hardware.
transformers (Python)
Vollständige Integration in das Hugging Face Ökosystem. Ideal für Python-Entwickler, die skripten, feintunen oder eigene Pipelines bauen möchten.
transformers.js (Browser)
E2B und E4B direkt in Chrome mit WebGPU ausführen. Keine Installation, kein Server - einfach eine Webseite öffnen.
LM Studio
GUI-basierte lokale Modellverwaltung. Gemma 4 über eine Desktop-Anwendung herunterladen, konfigurieren und chatten.
Schnellstart
In 2 Minuten mit Ollama loslegen
Der schnellste Weg von null zu lokalem Gemma 4. Ollama installieren, Modell laden, loschatten.
Installieren & starten
- Installieren: curl -fsSL https://ollama.com/install.sh | sh
- E4B starten: ollama run gemma4:e4b
- 26B starten: ollama run gemma4:26b
- 31B starten: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
Tipps
- Beginnen Sie mit E4B, wenn Sie 8-16 GB RAM haben
- Verwenden Sie 4-Bit-Quantisierung (Q4_K_M) für das beste Qualitäts-/Speicherverhältnis
- Fügen Sie --num-gpu-layers für GPU-Beschleunigung in llama.cpp hinzu
- Stellen Sie die Kontextgröße basierend auf Ihrem verfügbaren Speicher ein
- Überwachen Sie die VRAM-Nutzung - lassen Sie Spielraum für den KV Cache
Lokale Leistung
Praxisnahe Geschwindigkeit und Qualität auf Consumer-Hardware
Die tatsächliche Leistung variiert je nach Hardware, Quantisierung und Kontextlänge. Hier erfahren Sie, was Sie auf gängigen Konfigurationen erwarten können.
Die lokale Inferenzgeschwindigkeit hängt von GPU, RAM, Quantisierungsstufe und Kontextlänge ab. Diese Werte zeigen typische Leistung auf gängiger Consumer-Hardware.


E2B bei 4-Bit: ~95 tok/s auf RTX 3060, ~60 tok/s auf M1 MacBook
E4B bei 4-Bit: ~40-60 tok/s auf RTX 3060, ~30 tok/s auf M1 MacBook
26B bei 4-Bit: ~8-15 tok/s auf RTX 4090, ~5 tok/s auf M4 Pro
31B bei 4-Bit: ~5-10 tok/s auf RTX 4090, ~3 tok/s auf M4 Max
Hardwareanforderungen
VRAM- und RAM-Anforderungen nach Quantisierung
Wählen Sie Ihre Quantisierungsstufe basierend auf dem verfügbaren Speicher. 4-Bit (Q4_K_M) bietet das beste Qualitäts-Speicher-Verhältnis für die meisten Nutzer.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) Empfohlen | ~3,2 GB | ~5,5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) Höhere Qualität | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 Volle Präzision | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU Komfortabler Einsatz | Beliebige 4 GB+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Empfohlener Mac | Beliebiger M1+ | M1+ 16 GB | M4 Pro 24 GB | M4 Max 64 GB |
Speicherangaben beziehen sich nur auf Modellgewichte. Rechnen Sie je nach Kontextlänge 2-4 GB für den KV Cache hinzu.
Datenschutz zuerst
Ihre Daten verlassen nie Ihr Gerät
Gemma 4 lokal auszuführen bedeutet vollständigen Datenschutz. Keine API-Aufrufe, keine Datenprotokollierung, kein Internet nach dem Download erforderlich. Verarbeiten Sie sensible Dokumente, Code und Gespräche ohne jegliche Offenlegung.
- Keine Datenübertragung - alles bleibt auf Ihrer Hardware
- Keine API-Schlüssel, keine Konten, kein Nutzungs-Tracking
- Vertrauliche Dokumente und proprietären Code sicher verarbeiten
Browser-KI
Gemma 4 im Browser ausführen - keine Installation nötig
Die E2B- und E4B-Modelle laufen direkt in Chrome mit WebGPU über transformers.js. Kein Server, keine Installation, keine Konfiguration. Einfach eine Webseite öffnen und loschatten.
- transformers.js ermöglicht Browser-Inferenz mit WebGPU
- E2B und E4B für Browser-Deployment optimiert
- Funktioniert in Chrome, Edge und anderen WebGPU-fähigen Browsern
Entwickler-Tools
Lokales Gemma 4 in Ihren Workflow integrieren
Nutzen Sie Gemma 4 als lokalen Coding-Assistenten mit Claude Code, VS Code oder jedem Tool, das OpenAI-kompatible APIs unterstützt. Ollama und llama.cpp bieten beide kompatible Endpunkte.
- OpenAI-kompatible API über Ollama (localhost:11434)
- Funktioniert mit Claude Code, Continue, Cursor und anderen KI-Tools
- Feintuning mit TRL, Unsloth oder Keras für individuelle Aufgaben
Schnellstart
Gemma 4 lokal zum Laufen bringen
Wählen Sie Ihr bevorzugtes Tool und starten Sie in Minuten.
Gewichte herunterladen
Modelldateien beziehen
Laden Sie offizielle Gewichte von vertrauenswürdigen Quellen herunter.
Fortgeschritten
Feintuning und Anpassung
Passen Sie Gemma 4 an Ihren spezifischen Anwendungsfall an.
Lokales KI-Ökosystem
Tools und Plattformen für lokales Gemma 4
Ein wachsendes Ökosystem an Tools macht das lokale Ausführen von Gemma 4 einfacher als je zuvor.
Jetzt starten
Führen Sie Gemma 4 noch heute auf Ihrer Hardware aus
Testen Sie es erst online, dann laden Sie es für private, offline Nutzung herunter. Keine API-Schlüssel, keine Konten, keine Daten verlassen Ihr Gerät.