Gemma 4 herunterladen

Offizielle Gemma 4-Gewichte herunterladen - Apache 2.0-lizenziert

Alle vier Gemma 4-Modelle stehen auf Hugging Face, Kaggle und Ollama zum Download bereit. Instruction-Tuned- und Basis-Varianten, mehrere Quantisierungsstufen und volle kommerzielle Freiheit unter Apache 2.0.

Verfügbare Modelle

Alle Gemma 4-Varianten zum Download bereit

Jedes Modell gibt es als Instruction-Tuned (IT) und Basis-Variante. Wählen Sie nach Anwendungsfall: IT für Chat und Aufgaben, Basis für Feinabstimmung.

Download-Optionen

Mehrere Formate und Quantisierungsstufen

Modelle sind in BF16 (volle Präzision), GGUF (für llama.cpp/Ollama) und ONNX (für Edge-Deployment) verfügbar. Quantisierte Versionen von 4-Bit bis 8-Bit reduzieren den Speicherbedarf.

Für die meisten Nutzer empfehlen wir Ollama (wählt automatisch die richtige Quantisierung) oder Hugging Face GGUF-Dateien für llama.cpp.

Edge - 2,3 Mrd. effektive Parameter

Gemma 4 E2B

Kleinstes Modell. 3,2 GB bei 4-Bit. Läuft auf Smartphones, IoT und günstiger Hardware.

Mit Audio-Encoder. Ideal für ultrakompaktes Deployment, wenn Speicher die Haupteinschränkung ist.

Ca. 2-10 GB Download

Edge - 4,5 Mrd. effektive Parameter

Gemma 4 E4B

Empfohlenes Edge-Modell. 5,5 GB bei 4-Bit. Beste Qualität für Laptops und Desktops.

Mit Audio-Encoder. Starkes Reasoning und Coding für On-Device-Nutzung.

Ca. 4-16 GB Download

Server - MoE

Gemma 4 26B A4B

Effizientes MoE-Modell. 16 GB bei 4-Bit. Nahezu 31B-Qualität bei 4B-Inferenzkosten.

128 Experten, 8 aktiv + 1 geteilt. Ideal für Hochdurchsatz-Produktionsumgebungen.

Ca. 10-48 GB Download

Server - Flaggschiff

Gemma 4 31B

Maximale Qualität. 17 GB bei 4-Bit. Platz 3 auf dem Arena AI-Leaderboard.

Dense-Architektur für maximale Zuverlässigkeit. Ideal für qualitätskritische Anwendungen.

Ca. 12-58 GB Download

Download-Quellen

Offizielle Download-Plattformen

Laden Sie von vertrauenswürdigen, offiziellen Quellen herunter. Alle Modelle werden von Google DeepMind verifiziert und gepflegt.

Hugging Face

Vollständige Modell-Repositories mit allen Varianten, Quantisierungen und Dokumentation. Die umfassendste Quelle für Gemma 4-Gewichte.

Kaggle

Offizielles Google-Modell-Hosting. Gewichte herunterladen und auf Notebooks für Experimente und Feinabstimmung zugreifen.

Ollama

Download und Ausführung mit einem Befehl. Ollama wählt automatisch die richtige Quantisierung für Ihre Hardware.

Google AI Studio

Kein Download nötig. Nutzen Sie Gemma 4 über eine gehostete API für Prototyping und Entwicklung.

GGUF-Format

Optimiert für llama.cpp und Ollama. Mehrere Quantisierungsstufen von Q4_K_M bis Q8_0 für verschiedene Speicherbudgets.

ONNX-Format

Plattformübergreifendes Deployment für Edge-Geräte, Mobilgeräte und Browser. Optimiert für Inferenz auf verschiedener Hardware.

Schnell-Download

Der schnellste Weg zum Start

Nutzen Sie Ollama für den schnellsten Weg vom Download zur Ausführung. Ein Befehl erledigt alles.

Ollama-Befehle

  • ollama pull gemma4:e2b - Edge ultrakompakt
  • ollama pull gemma4:e4b - Edge empfohlen
  • ollama pull gemma4:26b - Server MoE
  • ollama pull gemma4:31b - Server Flaggschiff
  • ollama run gemma4:e4b - Herunterladen und sofort chatten

Hugging Face CLI

  • pip install huggingface_hub
  • huggingface-cli download google/gemma-4-e4b-it
  • huggingface-cli download google/gemma-4-26b-a4b-it
  • huggingface-cli download google/gemma-4-31b-it
  • --revision für bestimmte Quantisierungen hinzufügen

Download-Größen

Dateigrößen nach Modell und Quantisierung

Wählen Sie die richtige Quantisierung für Ihre Speicher- und Arbeitsspeicher-Anforderungen. Kleinere Quantisierungen tauschen etwas Qualität gegen deutlich reduzierte Dateigröße.

Download-Größen variieren je nach Quantisierungsstufe. 4-Bit-Quantisierung (Q4_K_M) bietet für die meisten Nutzer die beste Balance zwischen Qualität und Größe.

Gemma 4 Download-Größenvergleich über Modelle und Quantisierungen

E2B bei 4-Bit: ca. 2 GB Download, ca. 3,2 GB im Speicher

E4B bei 4-Bit: ca. 4 GB Download, ca. 5,5 GB im Speicher

26B bei 4-Bit: ca. 10 GB Download, ca. 16 GB im Speicher

31B bei 4-Bit: ca. 12 GB Download, ca. 17 GB im Speicher

Größenvergleich

Download- und Speicheranforderungen

Dateigrößen für verschiedene Quantisierungsstufen aller Gemma 4-Modelle.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit GGUF
Empfohlen
~2 GB~4 GB~10 GB~12 GB
8-bit GGUF
Höhere Qualität
~5 GB~8 GB~24 GB~29 GB
BF16
Volle Präzision
~10 GB~16 GB~48 GB~58 GB
VRAM needed
Bei 4-Bit
~3.2 GB~5.5 GB~16 GB~17 GB

Ungefähre Größen. Der tatsächliche Download kann je nach Quelle und Format leicht abweichen.

Apache 2.0

Volle kommerzielle Freiheit mit Apache 2.0-Lizenz

Jedes Gemma 4-Modell wird unter der Apache 2.0-Lizenz veröffentlicht. Keine MAU-Limits, keine Nutzungsbeschränkungen, keine Lizenzgebühren. Kommerziell nutzen, frei modifizieren, ohne Einschränkungen verteilen.

  • Volle kommerzielle Nutzung ohne Einschränkungen erlaubt
  • Frei modifizieren und verteilen
  • Keine Nutzungslimits oder Berichtspflichten
Volle kommerzielle Freiheit mit Apache 2.0-Lizenz

Mehrere Formate

GGUF, ONNX, SafeTensors und mehr

Gemma 4 ist in mehreren Formaten für verschiedene Deployment-Ziele verfügbar. GGUF für llama.cpp/Ollama, ONNX für Edge-Geräte, SafeTensors für transformers und mehr.

  • GGUF: llama.cpp, Ollama, LM Studio, GPT4All
  • ONNX: Edge-Geräte, Mobilgeräte, Browser-Deployment
  • SafeTensors: Hugging Face transformers, vLLM, TGI
GGUF, ONNX, SafeTensors und mehr

Verifizierte Quellen

Nur von offiziellen, verifizierten Quellen herunterladen

Alle Gemma 4-Gewichte werden von Google DeepMind auf offiziellen Plattformen veröffentlicht. Überprüfen Sie vor dem Download immer den Herausgeber, um authentische, unveränderte Gewichte zu erhalten.

  • Hugging Face: google/ Organisation verifiziert
  • Kaggle: google/ Herausgeber verifiziert
  • Ollama: Offizieller Bibliothekseintrag
Nur von offiziellen, verifizierten Quellen herunterladen

Nach dem Download

Was Sie mit Ihren Gemma 4-Gewichten machen können

Gewichte heruntergeladen? Hier erfahren Sie, was Sie als Nächstes tun können.

Lokal ausführen

Vollständiger Leitfaden für lokales Deployment

Leitfaden lesen

API-Zugang

Stattdessen über gehostete API nutzen

Loslegen

Feinabstimmung

Für Ihre spezifischen Aufgaben anpassen

Mehr erfahren

Alle Modelle

Alle Gemma 4-Varianten vergleichen

Vergleichen

Community

Entwicklern beitreten, die mit Gemma bauen

Entdecken

Modellkarte

Technische Spezifikationen

Anzeigen

Loslegen

Gemma 4 herunterladen und mit dem Bauen beginnen

Erst online testen oder direkt für privates, lokales Deployment herunterladen. Apache 2.0-lizenziert für volle kommerzielle Freiheit.