Gemma 4 Local

Gemma 4 auf eigener Hardware ausführen - privat, offline, keine API-Schlüssel

Jedes Gemma 4 Modell läuft lokal. Vom 3,2 GB E2B auf dem Smartphone bis zum 31B-Flaggschiff auf der Workstation. Ollama, llama.cpp, MLX, transformers und Browser-Deployment - wählen Sie Ihr Tool und starten Sie in Minuten.

Hardwareanforderungen

Was Sie für jedes Modell lokal benötigen

Der Speicherbedarf hängt von Modellgröße und Quantisierungsstufe ab. 4-Bit-Quantisierung bietet das beste Verhältnis von Qualität und Speicherverbrauch für die meisten lokalen Deployments.

Hardware-Leitfaden

Finden Sie das passende Modell für Ihre Hardware

E2B läuft auf Smartphones und günstigen Laptops. E4B passt bequem auf die meisten Laptops. Das 26B MoE braucht eine ordentliche GPU. Das 31B Dense erfordert eine Workstation-Konfiguration.

Alle Speicherangaben beziehen sich nur auf die Modellgewichte. Rechnen Sie je nach Anwendungsfall 2-4 GB für das Kontextfenster (KV Cache) hinzu.

Smartphone / Günstiger Laptop

E2B (3,2-10 GB)

4-Bit: ~3,2 GB | 8-Bit: ~5-8 GB | BF16: ~10 GB. Läuft auf Smartphones, Raspberry Pi und günstiger Hardware.

~95 tok/s auf Consumer-GPUs. Das schnellste Modell der Familie. Ideal für Echtzeitanwendungen.

Am einfachsten auszuführen

Laptop / Desktop

E4B (5,5-16 GB)

4-Bit: ~5,5-6 GB | 8-Bit: ~9-12 GB | BF16: ~16 GB. Bestes Edge-Modell für den täglichen lokalen Einsatz.

Gute Geschwindigkeit auf RTX 3060+ oder M1+ Macs. Der empfohlene Einstiegspunkt für die meisten lokalen Nutzer.

Empfohlen

GPU-Workstation

26B MoE (16-48 GB)

4-Bit: ~16 GB | 8-Bit: ~24 GB | BF16: ~48 GB. Nahezu 31B-Qualität auf einer einzelnen RTX 4090 oder M4 Pro.

~2-8 tok/s je nach Hardware. Ideal für Stapelverarbeitung und qualitätskritische lokale Aufgaben.

Power-User

Multi-GPU / Server

31B Dense (17-58 GB)

4-Bit: ~17 GB | 8-Bit: ~29 GB | BF16: ~58 GB. Maximale Qualität für lokales Deployment.

Erfordert RTX 4090+ oder M4 Max+ für komfortablen Einsatz. Ideal für maximale Qualität ohne Cloud-Abhängigkeit.

Maximale Qualität

Deployment-Tools

Sechs Wege, Gemma 4 lokal auszuführen

Vom Ein-Befehl-Ollama-Setup bis zum individuellen llama.cpp-Build gibt es einen lokalen Deployment-Pfad für jedes Erfahrungsniveau.

Ollama

Ein Befehl zum Installieren, ein Befehl zum Starten. Der einfachste Weg zu lokalem Gemma 4. HTTP-API für die Integration mit anderen Tools inklusive.

llama.cpp

Maximale Kontrolle über Quantisierung, Kontextgröße und GPU-Layer. Ideal für Power-User, die jeden Parameter anpassen möchten.

MLX (Apple Silicon)

Optimiert für M1/M2/M3/M4 Macs. Nutzt Unified Memory für effiziente Inferenz auf Apple-Hardware.

transformers (Python)

Vollständige Integration in das Hugging Face Ökosystem. Ideal für Python-Entwickler, die skripten, feintunen oder eigene Pipelines bauen möchten.

transformers.js (Browser)

E2B und E4B direkt in Chrome mit WebGPU ausführen. Keine Installation, kein Server - einfach eine Webseite öffnen.

LM Studio

GUI-basierte lokale Modellverwaltung. Gemma 4 über eine Desktop-Anwendung herunterladen, konfigurieren und chatten.

Schnellstart

In 2 Minuten mit Ollama loslegen

Der schnellste Weg von null zu lokalem Gemma 4. Ollama installieren, Modell laden, loschatten.

Installieren & starten

  • Installieren: curl -fsSL https://ollama.com/install.sh | sh
  • E4B starten: ollama run gemma4:e4b
  • 26B starten: ollama run gemma4:26b
  • 31B starten: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

Tipps

  • Beginnen Sie mit E4B, wenn Sie 8-16 GB RAM haben
  • Verwenden Sie 4-Bit-Quantisierung (Q4_K_M) für das beste Qualitäts-/Speicherverhältnis
  • Fügen Sie --num-gpu-layers für GPU-Beschleunigung in llama.cpp hinzu
  • Stellen Sie die Kontextgröße basierend auf Ihrem verfügbaren Speicher ein
  • Überwachen Sie die VRAM-Nutzung - lassen Sie Spielraum für den KV Cache

Lokale Leistung

Praxisnahe Geschwindigkeit und Qualität auf Consumer-Hardware

Die tatsächliche Leistung variiert je nach Hardware, Quantisierung und Kontextlänge. Hier erfahren Sie, was Sie auf gängigen Konfigurationen erwarten können.

Die lokale Inferenzgeschwindigkeit hängt von GPU, RAM, Quantisierungsstufe und Kontextlänge ab. Diese Werte zeigen typische Leistung auf gängiger Consumer-Hardware.

Lokale Gemma 4 Leistung auf verschiedenen Hardwarekonfigurationen

E2B bei 4-Bit: ~95 tok/s auf RTX 3060, ~60 tok/s auf M1 MacBook

E4B bei 4-Bit: ~40-60 tok/s auf RTX 3060, ~30 tok/s auf M1 MacBook

26B bei 4-Bit: ~8-15 tok/s auf RTX 4090, ~5 tok/s auf M4 Pro

31B bei 4-Bit: ~5-10 tok/s auf RTX 4090, ~3 tok/s auf M4 Max

Hardwareanforderungen

VRAM- und RAM-Anforderungen nach Quantisierung

Wählen Sie Ihre Quantisierungsstufe basierend auf dem verfügbaren Speicher. 4-Bit (Q4_K_M) bietet das beste Qualitäts-Speicher-Verhältnis für die meisten Nutzer.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Empfohlen
~3,2 GB~5,5 GB~16 GB~17 GB
8-bit (Q8_0)
Höhere Qualität
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
Volle Präzision
~10 GB~16 GB~48 GB~58 GB
Min GPU
Komfortabler Einsatz
Beliebige 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Empfohlener Mac
Beliebiger M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

Speicherangaben beziehen sich nur auf Modellgewichte. Rechnen Sie je nach Kontextlänge 2-4 GB für den KV Cache hinzu.

Datenschutz zuerst

Ihre Daten verlassen nie Ihr Gerät

Gemma 4 lokal auszuführen bedeutet vollständigen Datenschutz. Keine API-Aufrufe, keine Datenprotokollierung, kein Internet nach dem Download erforderlich. Verarbeiten Sie sensible Dokumente, Code und Gespräche ohne jegliche Offenlegung.

  • Keine Datenübertragung - alles bleibt auf Ihrer Hardware
  • Keine API-Schlüssel, keine Konten, kein Nutzungs-Tracking
  • Vertrauliche Dokumente und proprietären Code sicher verarbeiten
Ihre Daten verlassen nie Ihr Gerät

Browser-KI

Gemma 4 im Browser ausführen - keine Installation nötig

Die E2B- und E4B-Modelle laufen direkt in Chrome mit WebGPU über transformers.js. Kein Server, keine Installation, keine Konfiguration. Einfach eine Webseite öffnen und loschatten.

  • transformers.js ermöglicht Browser-Inferenz mit WebGPU
  • E2B und E4B für Browser-Deployment optimiert
  • Funktioniert in Chrome, Edge und anderen WebGPU-fähigen Browsern
Gemma 4 im Browser ausführen - keine Installation nötig

Entwickler-Tools

Lokales Gemma 4 in Ihren Workflow integrieren

Nutzen Sie Gemma 4 als lokalen Coding-Assistenten mit Claude Code, VS Code oder jedem Tool, das OpenAI-kompatible APIs unterstützt. Ollama und llama.cpp bieten beide kompatible Endpunkte.

  • OpenAI-kompatible API über Ollama (localhost:11434)
  • Funktioniert mit Claude Code, Continue, Cursor und anderen KI-Tools
  • Feintuning mit TRL, Unsloth oder Keras für individuelle Aufgaben
Lokales Gemma 4 in Ihren Workflow integrieren

Lokales KI-Ökosystem

Tools und Plattformen für lokales Gemma 4

Ein wachsendes Ökosystem an Tools macht das lokale Ausführen von Gemma 4 einfacher als je zuvor.

Ollama

Einfachstes lokales Deployment mit HTTP-API

Loslegen

llama.cpp

Maximale Kontrolle und Anpassung

Mehr erfahren

LM Studio

Desktop-GUI für lokale Modellverwaltung

Herunterladen

transformers.js

Browserbasierte Inferenz mit WebGPU

Ausprobieren

MLX

Für Apple Silicon optimierte Inferenz

Loslegen

vLLM

Hochdurchsatz-Serving lokal

Bereitstellen

Jetzt starten

Führen Sie Gemma 4 noch heute auf Ihrer Hardware aus

Testen Sie es erst online, dann laden Sie es für private, offline Nutzung herunter. Keine API-Schlüssel, keine Konten, keine Daten verlassen Ihr Gerät.