Télécharger Gemma 4

Téléchargez les poids officiels de Gemma 4 - Licence Apache 2.0

Les quatre modèles Gemma 4 sont disponibles en téléchargement sur Hugging Face, Kaggle et Ollama. Variantes Instruction-Tuned et base, plusieurs niveaux de quantification et liberté commerciale totale sous Apache 2.0.

Essayer avant de télécharger Voir toutes les variantes

Modèles disponibles

Toutes les variantes Gemma 4 prêtes à télécharger

Chaque modèle existe en variante Instruction-Tuned (IT) et base. Choisissez selon votre usage : IT pour le chat et les tâches, base pour le fine-tuning.

Options de téléchargement

Plusieurs formats et niveaux de quantification

Les modèles sont disponibles en BF16 (pleine précision), GGUF (pour llama.cpp/Ollama) et ONNX (pour le déploiement edge). Les versions quantifiées de 4 bits à 8 bits réduisent les besoins en mémoire.

Pour la plupart des utilisateurs, commencez avec Ollama (sélection automatique de la bonne quantification) ou les fichiers GGUF de Hugging Face pour llama.cpp.

Essayer avant de télécharger Guide matériel

Edge - 2,3 Mrd paramètres effectifs

Gemma 4 E2B

Le plus petit modèle. 3,2 Go en 4 bits. Fonctionne sur smartphones, IoT et matériel économique.

Inclut un encodeur audio. Idéal pour un déploiement ultracompact où la mémoire est la contrainte principale.

Téléchargement de 2 à 10 Go

Hugging Face Ollama

Edge - 4,5 Mrd paramètres effectifs

Gemma 4 E4B

Modèle edge recommandé. 5,5 Go en 4 bits. Meilleure qualité pour portables et ordinateurs de bureau.

Inclut un encodeur audio. Raisonnement et programmation performants sur l'appareil.

Téléchargement de 4 à 16 Go

Hugging Face Ollama

Serveur - MoE

Gemma 4 26B A4B

Modèle MoE efficace. 16 Go en 4 bits. Qualité proche du 31B pour un coût d'inférence de 4B.

128 experts, 8 actifs + 1 partagé. Idéal pour le service en production à haut débit.

Téléchargement de 10 à 48 Go

Hugging Face Ollama

Serveur - Flagship

Gemma 4 31B

Qualité maximale. 17 Go en 4 bits. 3e sur le classement Arena AI.

Architecture Dense pour une fiabilité maximale. Idéal pour les applications critiques en qualité.

Téléchargement de 12 à 58 Go

Hugging Face Ollama

Sources de téléchargement

Plateformes de téléchargement officielles

Téléchargez depuis des sources officielles de confiance. Tous les modèles sont vérifiés et maintenus par Google DeepMind.

Hugging Face

Dépôts complets avec toutes les variantes, quantifications et documentation. La source la plus complète pour les poids Gemma 4.

Kaggle

Hébergement officiel de modèles Google. Téléchargez les poids et accédez aux notebooks pour l'expérimentation et le fine-tuning.

Ollama

Téléchargement et exécution en une commande. Ollama sélectionne automatiquement la bonne quantification pour votre matériel.

Google AI Studio

Aucun téléchargement nécessaire. Utilisez Gemma 4 via une API hébergée pour le prototypage et le développement.

Format GGUF

Optimisé pour llama.cpp et Ollama. Plusieurs niveaux de quantification de Q4_K_M à Q8_0 pour différents budgets mémoire.

Format ONNX

Déploiement multiplateforme pour appareils edge, mobiles et navigateurs. Optimisé pour l'inférence sur du matériel varié.

Téléchargement rapide

Le moyen le plus rapide de commencer

Utilisez Ollama pour le chemin le plus rapide du téléchargement à l'exécution. Une seule commande fait tout.

Commandes Ollama

ollama pull gemma4:e2b - Edge ultracompact
ollama pull gemma4:e4b - Edge recommandé
ollama pull gemma4:26b - Serveur MoE
ollama pull gemma4:31b - Serveur flagship
ollama run gemma4:e4b - Télécharger et commencer à discuter

Hugging Face CLI

pip install huggingface_hub
huggingface-cli download google/gemma-4-e4b-it
huggingface-cli download google/gemma-4-26b-a4b-it
huggingface-cli download google/gemma-4-31b-it
Ajoutez --revision pour des quantifications spécifiques

Essayer avant de télécharger Voir tous les modèles

Tailles de téléchargement

Tailles de fichiers par modèle et quantification

Choisissez la bonne quantification pour vos contraintes de stockage et de mémoire. Les quantifications plus petites sacrifient un peu de qualité pour une taille de fichier nettement réduite.

Les tailles de téléchargement varient selon le niveau de quantification. La quantification 4 bits (Q4_K_M) offre le meilleur équilibre qualité/taille pour la plupart des utilisateurs.

Télécharger maintenant Guide matériel

Comparaison des tailles de téléchargement Gemma 4 par modèle et quantification

E2B en 4 bits : environ 2 Go de téléchargement, environ 3,2 Go en mémoire

E4B en 4 bits : environ 4 Go de téléchargement, environ 5,5 Go en mémoire

26B en 4 bits : environ 10 Go de téléchargement, environ 16 Go en mémoire

31B en 4 bits : environ 12 Go de téléchargement, environ 17 Go en mémoire

Comparaison des tailles

Téléchargement et besoins en mémoire

Tailles de fichiers pour différents niveaux de quantification de tous les modèles Gemma 4.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit GGUF Recommandé	~2 GB	~4 GB	~10 GB	~12 GB
8-bit GGUF Qualité supérieure	~5 GB	~8 GB	~24 GB	~29 GB
BF16 Pleine précision	~10 GB	~16 GB	~48 GB	~58 GB
VRAM needed En 4 bits	~3.2 GB	~5.5 GB	~16 GB	~17 GB

Tailles approximatives. Le téléchargement réel peut varier légèrement selon la source et le format.

Apache 2.0

Liberté commerciale totale avec la licence Apache 2.0

Chaque modèle Gemma 4 est publié sous licence Apache 2.0. Pas de plafond MAU, pas de restrictions d'utilisation, pas de redevances. Utilisation commerciale, modification libre, distribution sans limitations.

Utilisation commerciale complète sans restrictions
Modification et distribution libres
Aucun plafond d'utilisation ni obligation de rapport

Télécharger maintenant Voir la licence

Liberté commerciale totale avec la licence Apache 2.0

Formats multiples

GGUF, ONNX, SafeTensors et plus

Gemma 4 est disponible dans plusieurs formats pour différentes cibles de déploiement. GGUF pour llama.cpp/Ollama, ONNX pour les appareils edge, SafeTensors pour transformers, et plus.

GGUF : llama.cpp, Ollama, LM Studio, GPT4All
ONNX : appareils edge, mobile, déploiement navigateur
SafeTensors : Hugging Face transformers, vLLM, TGI

Hugging Face Guide des formats

Sources vérifiées

Téléchargez uniquement depuis des sources officielles vérifiées

Tous les poids Gemma 4 sont publiés par Google DeepMind sur les plateformes officielles. Vérifiez toujours l'éditeur avant de télécharger pour obtenir des poids authentiques et non modifiés.

Hugging Face : organisation google/ vérifiée
Kaggle : éditeur google/ vérifié
Ollama : entrée officielle de la bibliothèque

Hugging Face Kaggle