Gemma 4 herunterladen

Offizielle Gemma 4-Gewichte herunterladen - Apache 2.0-lizenziert

Alle vier Gemma 4-Modelle stehen auf Hugging Face, Kaggle und Ollama zum Download bereit. Instruction-Tuned- und Basis-Varianten, mehrere Quantisierungsstufen und volle kommerzielle Freiheit unter Apache 2.0.

Vor dem Download testen Alle Varianten anzeigen

Verfügbare Modelle

Alle Gemma 4-Varianten zum Download bereit

Jedes Modell gibt es als Instruction-Tuned (IT) und Basis-Variante. Wählen Sie nach Anwendungsfall: IT für Chat und Aufgaben, Basis für Feinabstimmung.

Download-Optionen

Mehrere Formate und Quantisierungsstufen

Modelle sind in BF16 (volle Präzision), GGUF (für llama.cpp/Ollama) und ONNX (für Edge-Deployment) verfügbar. Quantisierte Versionen von 4-Bit bis 8-Bit reduzieren den Speicherbedarf.

Für die meisten Nutzer empfehlen wir Ollama (wählt automatisch die richtige Quantisierung) oder Hugging Face GGUF-Dateien für llama.cpp.

Vor dem Download testen Hardware-Leitfaden

Edge - 2,3 Mrd. effektive Parameter

Gemma 4 E2B

Kleinstes Modell. 3,2 GB bei 4-Bit. Läuft auf Smartphones, IoT und günstiger Hardware.

Mit Audio-Encoder. Ideal für ultrakompaktes Deployment, wenn Speicher die Haupteinschränkung ist.

Ca. 2-10 GB Download

Hugging Face Ollama

Edge - 4,5 Mrd. effektive Parameter

Gemma 4 E4B

Empfohlenes Edge-Modell. 5,5 GB bei 4-Bit. Beste Qualität für Laptops und Desktops.

Mit Audio-Encoder. Starkes Reasoning und Coding für On-Device-Nutzung.

Ca. 4-16 GB Download

Hugging Face Ollama

Server - MoE

Gemma 4 26B A4B

Effizientes MoE-Modell. 16 GB bei 4-Bit. Nahezu 31B-Qualität bei 4B-Inferenzkosten.

128 Experten, 8 aktiv + 1 geteilt. Ideal für Hochdurchsatz-Produktionsumgebungen.

Ca. 10-48 GB Download

Hugging Face Ollama

Server - Flaggschiff

Gemma 4 31B

Maximale Qualität. 17 GB bei 4-Bit. Platz 3 auf dem Arena AI-Leaderboard.

Dense-Architektur für maximale Zuverlässigkeit. Ideal für qualitätskritische Anwendungen.

Ca. 12-58 GB Download

Hugging Face Ollama

Download-Quellen

Offizielle Download-Plattformen

Laden Sie von vertrauenswürdigen, offiziellen Quellen herunter. Alle Modelle werden von Google DeepMind verifiziert und gepflegt.

Hugging Face

Vollständige Modell-Repositories mit allen Varianten, Quantisierungen und Dokumentation. Die umfassendste Quelle für Gemma 4-Gewichte.

Kaggle

Offizielles Google-Modell-Hosting. Gewichte herunterladen und auf Notebooks für Experimente und Feinabstimmung zugreifen.

Ollama

Download und Ausführung mit einem Befehl. Ollama wählt automatisch die richtige Quantisierung für Ihre Hardware.

Google AI Studio

Kein Download nötig. Nutzen Sie Gemma 4 über eine gehostete API für Prototyping und Entwicklung.

GGUF-Format

Optimiert für llama.cpp und Ollama. Mehrere Quantisierungsstufen von Q4_K_M bis Q8_0 für verschiedene Speicherbudgets.

ONNX-Format

Plattformübergreifendes Deployment für Edge-Geräte, Mobilgeräte und Browser. Optimiert für Inferenz auf verschiedener Hardware.

Schnell-Download

Der schnellste Weg zum Start

Nutzen Sie Ollama für den schnellsten Weg vom Download zur Ausführung. Ein Befehl erledigt alles.

Ollama-Befehle

ollama pull gemma4:e2b - Edge ultrakompakt
ollama pull gemma4:e4b - Edge empfohlen
ollama pull gemma4:26b - Server MoE
ollama pull gemma4:31b - Server Flaggschiff
ollama run gemma4:e4b - Herunterladen und sofort chatten

Hugging Face CLI

pip install huggingface_hub
huggingface-cli download google/gemma-4-e4b-it
huggingface-cli download google/gemma-4-26b-a4b-it
huggingface-cli download google/gemma-4-31b-it
--revision für bestimmte Quantisierungen hinzufügen

Vor dem Download testen Alle Modelle anzeigen

Download-Größen

Dateigrößen nach Modell und Quantisierung

Wählen Sie die richtige Quantisierung für Ihre Speicher- und Arbeitsspeicher-Anforderungen. Kleinere Quantisierungen tauschen etwas Qualität gegen deutlich reduzierte Dateigröße.

Download-Größen variieren je nach Quantisierungsstufe. 4-Bit-Quantisierung (Q4_K_M) bietet für die meisten Nutzer die beste Balance zwischen Qualität und Größe.

Jetzt herunterladen Hardware-Leitfaden

Gemma 4 Download-Größenvergleich über Modelle und Quantisierungen

E2B bei 4-Bit: ca. 2 GB Download, ca. 3,2 GB im Speicher

E4B bei 4-Bit: ca. 4 GB Download, ca. 5,5 GB im Speicher

26B bei 4-Bit: ca. 10 GB Download, ca. 16 GB im Speicher

31B bei 4-Bit: ca. 12 GB Download, ca. 17 GB im Speicher

Größenvergleich

Download- und Speicheranforderungen

Dateigrößen für verschiedene Quantisierungsstufen aller Gemma 4-Modelle.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit GGUF Empfohlen	~2 GB	~4 GB	~10 GB	~12 GB
8-bit GGUF Höhere Qualität	~5 GB	~8 GB	~24 GB	~29 GB
BF16 Volle Präzision	~10 GB	~16 GB	~48 GB	~58 GB
VRAM needed Bei 4-Bit	~3.2 GB	~5.5 GB	~16 GB	~17 GB

Ungefähre Größen. Der tatsächliche Download kann je nach Quelle und Format leicht abweichen.

Apache 2.0

Volle kommerzielle Freiheit mit Apache 2.0-Lizenz

Jedes Gemma 4-Modell wird unter der Apache 2.0-Lizenz veröffentlicht. Keine MAU-Limits, keine Nutzungsbeschränkungen, keine Lizenzgebühren. Kommerziell nutzen, frei modifizieren, ohne Einschränkungen verteilen.

Volle kommerzielle Nutzung ohne Einschränkungen erlaubt
Frei modifizieren und verteilen
Keine Nutzungslimits oder Berichtspflichten

Jetzt herunterladen Lizenz anzeigen

Volle kommerzielle Freiheit mit Apache 2.0-Lizenz

Mehrere Formate

GGUF, ONNX, SafeTensors und mehr

Gemma 4 ist in mehreren Formaten für verschiedene Deployment-Ziele verfügbar. GGUF für llama.cpp/Ollama, ONNX für Edge-Geräte, SafeTensors für transformers und mehr.

GGUF: llama.cpp, Ollama, LM Studio, GPT4All
ONNX: Edge-Geräte, Mobilgeräte, Browser-Deployment
SafeTensors: Hugging Face transformers, vLLM, TGI

Hugging Face Format-Leitfaden

Verifizierte Quellen

Nur von offiziellen, verifizierten Quellen herunterladen

Alle Gemma 4-Gewichte werden von Google DeepMind auf offiziellen Plattformen veröffentlicht. Überprüfen Sie vor dem Download immer den Herausgeber, um authentische, unveränderte Gewichte zu erhalten.

Hugging Face: google/ Organisation verifiziert
Kaggle: google/ Herausgeber verifiziert
Ollama: Offizieller Bibliothekseintrag

Hugging Face Kaggle