Gemma 4 Local

Gemma 4 auf eigener Hardware ausführen - privat, offline, keine API-Schlüssel

Jedes Gemma 4 Modell läuft lokal. Vom 3,2 GB E2B auf dem Smartphone bis zum 31B-Flaggschiff auf der Workstation. Ollama, llama.cpp, MLX, transformers und Browser-Deployment - wählen Sie Ihr Tool und starten Sie in Minuten.

Erst online testen Hardwareanforderungen ansehen

Hardwareanforderungen

Was Sie für jedes Modell lokal benötigen

Der Speicherbedarf hängt von Modellgröße und Quantisierungsstufe ab. 4-Bit-Quantisierung bietet das beste Verhältnis von Qualität und Speicherverbrauch für die meisten lokalen Deployments.

Hardware-Leitfaden

Finden Sie das passende Modell für Ihre Hardware

E2B läuft auf Smartphones und günstigen Laptops. E4B passt bequem auf die meisten Laptops. Das 26B MoE braucht eine ordentliche GPU. Das 31B Dense erfordert eine Workstation-Konfiguration.

Alle Speicherangaben beziehen sich nur auf die Modellgewichte. Rechnen Sie je nach Anwendungsfall 2-4 GB für das Kontextfenster (KV Cache) hinzu.

Erst online testen Modelle herunterladen

Smartphone / Günstiger Laptop

E2B (3,2-10 GB)

4-Bit: ~3,2 GB | 8-Bit: ~5-8 GB | BF16: ~10 GB. Läuft auf Smartphones, Raspberry Pi und günstiger Hardware.

~95 tok/s auf Consumer-GPUs. Das schnellste Modell der Familie. Ideal für Echtzeitanwendungen.

Am einfachsten auszuführen

E2B herunterladen Einrichtungsanleitung

Laptop / Desktop

E4B (5,5-16 GB)

4-Bit: ~5,5-6 GB | 8-Bit: ~9-12 GB | BF16: ~16 GB. Bestes Edge-Modell für den täglichen lokalen Einsatz.

Gute Geschwindigkeit auf RTX 3060+ oder M1+ Macs. Der empfohlene Einstiegspunkt für die meisten lokalen Nutzer.

26B MoE (16-48 GB)

4-Bit: ~16 GB | 8-Bit: ~24 GB | BF16: ~48 GB. Nahezu 31B-Qualität auf einer einzelnen RTX 4090 oder M4 Pro.

~2-8 tok/s je nach Hardware. Ideal für Stapelverarbeitung und qualitätskritische lokale Aufgaben.

Power-User

26B herunterladen Einrichtungsanleitung

Multi-GPU / Server

31B Dense (17-58 GB)

4-Bit: ~17 GB | 8-Bit: ~29 GB | BF16: ~58 GB. Maximale Qualität für lokales Deployment.

Erfordert RTX 4090+ oder M4 Max+ für komfortablen Einsatz. Ideal für maximale Qualität ohne Cloud-Abhängigkeit.

Maximale Qualität

31B herunterladen Einrichtungsanleitung

Deployment-Tools

Sechs Wege, Gemma 4 lokal auszuführen

Vom Ein-Befehl-Ollama-Setup bis zum individuellen llama.cpp-Build gibt es einen lokalen Deployment-Pfad für jedes Erfahrungsniveau.

Ollama

Ein Befehl zum Installieren, ein Befehl zum Starten. Der einfachste Weg zu lokalem Gemma 4. HTTP-API für die Integration mit anderen Tools inklusive.

llama.cpp

Maximale Kontrolle über Quantisierung, Kontextgröße und GPU-Layer. Ideal für Power-User, die jeden Parameter anpassen möchten.

MLX (Apple Silicon)

Optimiert für M1/M2/M3/M4 Macs. Nutzt Unified Memory für effiziente Inferenz auf Apple-Hardware.

transformers (Python)

Vollständige Integration in das Hugging Face Ökosystem. Ideal für Python-Entwickler, die skripten, feintunen oder eigene Pipelines bauen möchten.

transformers.js (Browser)

E2B und E4B direkt in Chrome mit WebGPU ausführen. Keine Installation, kein Server - einfach eine Webseite öffnen.

LM Studio

GUI-basierte lokale Modellverwaltung. Gemma 4 über eine Desktop-Anwendung herunterladen, konfigurieren und chatten.

Schnellstart

In 2 Minuten mit Ollama loslegen

Der schnellste Weg von null zu lokalem Gemma 4. Ollama installieren, Modell laden, loschatten.

Installieren & starten

Installieren: curl -fsSL https://ollama.com/install.sh | sh
E4B starten: ollama run gemma4:e4b
26B starten: ollama run gemma4:26b
31B starten: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

Tipps

Beginnen Sie mit E4B, wenn Sie 8-16 GB RAM haben
Verwenden Sie 4-Bit-Quantisierung (Q4_K_M) für das beste Qualitäts-/Speicherverhältnis
Fügen Sie --num-gpu-layers für GPU-Beschleunigung in llama.cpp hinzu
Stellen Sie die Kontextgröße basierend auf Ihrem verfügbaren Speicher ein
Überwachen Sie die VRAM-Nutzung - lassen Sie Spielraum für den KV Cache

Erst online testen Modelle herunterladen

Lokale Leistung

Praxisnahe Geschwindigkeit und Qualität auf Consumer-Hardware

Die tatsächliche Leistung variiert je nach Hardware, Quantisierung und Kontextlänge. Hier erfahren Sie, was Sie auf gängigen Konfigurationen erwarten können.

Die lokale Inferenzgeschwindigkeit hängt von GPU, RAM, Quantisierungsstufe und Kontextlänge ab. Diese Werte zeigen typische Leistung auf gängiger Consumer-Hardware.

Erst online testen Hardware-Leitfaden

Lokale Gemma 4 Leistung auf verschiedenen Hardwarekonfigurationen

E2B bei 4-Bit: ~95 tok/s auf RTX 3060, ~60 tok/s auf M1 MacBook

E4B bei 4-Bit: ~40-60 tok/s auf RTX 3060, ~30 tok/s auf M1 MacBook

26B bei 4-Bit: ~8-15 tok/s auf RTX 4090, ~5 tok/s auf M4 Pro

31B bei 4-Bit: ~5-10 tok/s auf RTX 4090, ~3 tok/s auf M4 Max

Hardwareanforderungen

VRAM- und RAM-Anforderungen nach Quantisierung

Wählen Sie Ihre Quantisierungsstufe basierend auf dem verfügbaren Speicher. 4-Bit (Q4_K_M) bietet das beste Qualitäts-Speicher-Verhältnis für die meisten Nutzer.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Empfohlen	~3,2 GB	~5,5 GB	~16 GB	~17 GB
8-bit (Q8_0) Höhere Qualität	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 Volle Präzision	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU Komfortabler Einsatz	Beliebige 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Empfohlener Mac	Beliebiger M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

Speicherangaben beziehen sich nur auf Modellgewichte. Rechnen Sie je nach Kontextlänge 2-4 GB für den KV Cache hinzu.

Datenschutz zuerst

Ihre Daten verlassen nie Ihr Gerät

Gemma 4 lokal auszuführen bedeutet vollständigen Datenschutz. Keine API-Aufrufe, keine Datenprotokollierung, kein Internet nach dem Download erforderlich. Verarbeiten Sie sensible Dokumente, Code und Gespräche ohne jegliche Offenlegung.

Keine Datenübertragung - alles bleibt auf Ihrer Hardware
Keine API-Schlüssel, keine Konten, kein Nutzungs-Tracking
Vertrauliche Dokumente und proprietären Code sicher verarbeiten

Jetzt herunterladen Datenschutz-Leitfaden

Browser-KI

Gemma 4 im Browser ausführen - keine Installation nötig

Die E2B- und E4B-Modelle laufen direkt in Chrome mit WebGPU über transformers.js. Kein Server, keine Installation, keine Konfiguration. Einfach eine Webseite öffnen und loschatten.

transformers.js ermöglicht Browser-Inferenz mit WebGPU
E2B und E4B für Browser-Deployment optimiert
Funktioniert in Chrome, Edge und anderen WebGPU-fähigen Browsern

Im Browser testen transformers.js Dokumentation

Gemma 4 im Browser ausführen - keine Installation nötig

Entwickler-Tools

Lokales Gemma 4 in Ihren Workflow integrieren

Nutzen Sie Gemma 4 als lokalen Coding-Assistenten mit Claude Code, VS Code oder jedem Tool, das OpenAI-kompatible APIs unterstützt. Ollama und llama.cpp bieten beide kompatible Endpunkte.

OpenAI-kompatible API über Ollama (localhost:11434)
Funktioniert mit Claude Code, Continue, Cursor und anderen KI-Tools
Feintuning mit TRL, Unsloth oder Keras für individuelle Aufgaben

Integrationsleitfaden Feintuning-Dokumentation

Lokales Gemma 4 in Ihren Workflow integrieren

Schnellstart

Gemma 4 lokal zum Laufen bringen

Wählen Sie Ihr bevorzugtes Tool und starten Sie in Minuten.

Erst online testen

Chatten Sie sofort mit Gemma 4, während Sie die lokale Einrichtung vorbereiten

Ollama-Anleitung

Ein-Befehl-Setup für alle Gemma 4 Modelle

llama.cpp-Anleitung

Maximale Kontrolle für Power-User

MLX-Anleitung

Optimiert für Apple Silicon Macs

Gewichte herunterladen

Modelldateien beziehen

Laden Sie offizielle Gewichte von vertrauenswürdigen Quellen herunter.

Hugging Face

Offizielle Modell-Repositories mit allen Quantisierungen

Kaggle

Download von Kaggle Models

Ollama Library

Automatischer Download über ollama pull

Fortgeschritten

Feintuning und Anpassung

Passen Sie Gemma 4 an Ihren spezifischen Anwendungsfall an.

Feintuning mit TRL

Hugging Face Transformer Reinforcement Learning

Unsloth Studio

UI-basiertes Feintuning-Erlebnis

Keras

Feintuning mit dem Keras-Framework

LoRA / PEFT

Parametereffiziente Feintuning-Methoden

Lokales KI-Ökosystem