Gemma 4 Local
Exécutez Gemma 4 sur votre matériel - privé, hors ligne, sans clé API
Tous les modèles Gemma 4 fonctionnent en local. Du E2B de 3,2 Go sur un téléphone au flagship 31B sur une station de travail. Ollama, llama.cpp, MLX, transformers et déploiement navigateur - choisissez votre outil et démarrez en quelques minutes.
Configuration requise
Ce qu'il faut pour exécuter chaque modèle en local
Les besoins en mémoire dépendent de la taille du modèle et du niveau de quantification. La quantification 4 bits offre le meilleur équilibre entre qualité et utilisation mémoire pour la plupart des déploiements locaux.
Guide matériel
Associez votre matériel au bon modèle
E2B fonctionne sur les téléphones et les ordinateurs portables d'entrée de gamme. E4B s'exécute confortablement sur la plupart des portables. Le 26B MoE nécessite un GPU correct. Le 31B Dense nécessite une configuration de type station de travail.
Tous les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour la fenêtre de contexte (KV cache) selon votre utilisation.
Téléphone / Portable d'entrée de gamme
E2B (3,2-10 Go)
4 bits : ~3,2 Go | 8 bits : ~5-8 Go | BF16 : ~10 Go. Fonctionne sur téléphones, Raspberry Pi et matériel d'entrée de gamme.
~95 tok/s sur GPU grand public. Le modèle le plus rapide de la famille. Idéal pour les applications en temps réel.
Portable / Bureau
E4B (5,5-16 Go)
4 bits : ~5,5-6 Go | 8 bits : ~9-12 Go | BF16 : ~16 Go. Meilleur modèle edge pour une utilisation locale quotidienne.
Bonne vitesse sur RTX 3060+ ou Mac M1+. Le point de départ recommandé pour la plupart des utilisateurs locaux.
Station de travail GPU
26B MoE (16-48 Go)
4 bits : ~16 Go | 8 bits : ~24 Go | BF16 : ~48 Go. Qualité proche du 31B sur une seule RTX 4090 ou M4 Pro.
~2-8 tok/s selon le matériel. Idéal pour le traitement par lots et les tâches locales exigeantes en qualité.
Multi-GPU / Serveur
31B Dense (17-58 Go)
4 bits : ~17 Go | 8 bits : ~29 Go | BF16 : ~58 Go. Qualité maximale pour le déploiement local.
Nécessite RTX 4090+ ou M4 Max+ pour une utilisation confortable. Idéal pour une qualité maximale sans dépendance au cloud.
Outils de déploiement
Six façons d'exécuter Gemma 4 en local
De l'installation Ollama en une commande aux builds llama.cpp personnalisés, il existe un chemin de déploiement local pour chaque niveau de compétence.
Ollama
Une commande pour installer, une commande pour exécuter. Le chemin le plus simple vers Gemma 4 en local. API HTTP incluse pour l'intégration avec d'autres outils.
llama.cpp
Contrôle maximal sur la quantification, la taille du contexte et les couches GPU. Idéal pour les utilisateurs avancés qui veulent ajuster chaque paramètre.
MLX (Apple Silicon)
Optimisé pour les Mac M1/M2/M3/M4. Exploite la mémoire unifiée pour une inférence efficace sur le matériel Apple.
transformers (Python)
Intégration complète avec l'écosystème Hugging Face. Idéal pour les développeurs Python qui veulent scripter, affiner ou construire des pipelines personnalisés.
transformers.js (Browser)
Exécutez E2B et E4B directement dans Chrome avec WebGPU. Pas d'installation, pas de serveur - ouvrez simplement une page web.
LM Studio
Gestion locale de modèles via interface graphique. Téléchargez, configurez et discutez avec Gemma 4 depuis une application de bureau.
Démarrage rapide
Opérationnel en 2 minutes avec Ollama
Le chemin le plus rapide de zéro à Gemma 4 en local. Installez Ollama, récupérez un modèle, commencez à discuter.
Installer et exécuter
- Installer : curl -fsSL https://ollama.com/install.sh | sh
- Exécuter E4B : ollama run gemma4:e4b
- Exécuter 26B : ollama run gemma4:26b
- Exécuter 31B : ollama run gemma4:31b
- API : curl http://localhost:11434/api/generate -d '{...}'
Conseils
- Commencez par E4B si vous avez 8-16 Go de RAM
- Utilisez la quantification 4 bits (Q4_K_M) pour le meilleur rapport qualité/mémoire
- Ajoutez --num-gpu-layers pour l'accélération GPU dans llama.cpp
- Définissez la taille du contexte en fonction de votre mémoire disponible
- Surveillez l'utilisation VRAM - gardez de la marge pour le KV cache
Performances locales
Vitesse et qualité réelles sur du matériel grand public
Les performances réelles varient selon le matériel, la quantification et la longueur du contexte. Voici ce à quoi vous pouvez vous attendre sur des configurations courantes.
La vitesse d'inférence locale dépend de votre GPU, RAM, niveau de quantification et longueur de contexte. Ces chiffres représentent les performances typiques sur du matériel grand public courant.


E2B en 4 bits : ~95 tok/s sur RTX 3060, ~60 tok/s sur M1 MacBook
E4B en 4 bits : ~40-60 tok/s sur RTX 3060, ~30 tok/s sur M1 MacBook
26B en 4 bits : ~8-15 tok/s sur RTX 4090, ~5 tok/s sur M4 Pro
31B en 4 bits : ~5-10 tok/s sur RTX 4090, ~3 tok/s sur M4 Max
Configuration requise
VRAM et RAM requis par quantification
Choisissez votre niveau de quantification en fonction de la mémoire disponible. Le 4 bits (Q4_K_M) offre le meilleur rapport qualité/mémoire pour la plupart des utilisateurs.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) Recommandé | ~3,2 Go | ~5,5 Go | ~16 Go | ~17 Go |
8-bit (Q8_0) Qualité supérieure | ~5-8 Go | ~9-12 Go | ~24 Go | ~29 Go |
BF16 / FP16 Pleine précision | ~10 Go | ~16 Go | ~48 Go | ~58 Go |
Min GPU Utilisation confortable | N'importe quel 4 Go+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Mac recommandé | N'importe quel M1+ | M1+ 16 Go | M4 Pro 24 Go | M4 Max 64 Go |
Les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour le KV cache selon la longueur du contexte.
Confidentialité d'abord
Vos données ne quittent jamais votre appareil
Exécuter Gemma 4 en local signifie une confidentialité totale. Pas d'appels API, pas de journalisation des données, pas d'internet requis après le téléchargement. Traitez des documents sensibles, du code et des conversations sans aucune exposition.
- Zéro transmission de données - tout reste sur votre matériel
- Pas de clés API, pas de comptes, pas de suivi d'utilisation
- Traitez en toute sécurité des documents confidentiels et du code propriétaire
IA dans le navigateur
Exécutez Gemma 4 dans votre navigateur - aucune installation requise
Les modèles E2B et E4B fonctionnent directement dans Chrome avec WebGPU via transformers.js. Pas de serveur, pas d'installation, pas de configuration. Ouvrez simplement une page web et commencez à discuter.
- transformers.js permet l'inférence dans le navigateur avec WebGPU
- E2B et E4B optimisés pour le déploiement navigateur
- Fonctionne dans Chrome, Edge et les autres navigateurs compatibles WebGPU
Outils développeur
Intégrez Gemma 4 local dans votre workflow
Utilisez Gemma 4 comme assistant de codage local avec Claude Code, VS Code ou tout outil prenant en charge les API compatibles OpenAI. Ollama et llama.cpp exposent tous deux des endpoints compatibles.
- API compatible OpenAI via Ollama (localhost:11434)
- Fonctionne avec Claude Code, Continue, Cursor et d'autres outils IA
- Affinez avec TRL, Unsloth ou Keras pour des tâches personnalisées
Démarrage rapide
Faire fonctionner Gemma 4 en local
Choisissez votre outil préféré et démarrez en quelques minutes.
Télécharger les poids
Obtenir les fichiers de modèle
Téléchargez les poids officiels depuis des sources fiables.
Avancé
Affinage et personnalisation
Personnalisez Gemma 4 pour votre cas d'utilisation spécifique.
Écosystème IA local
Outils et plateformes pour Gemma 4 en local
Un écosystème d'outils en pleine croissance rend l'exécution locale de Gemma 4 plus facile que jamais.
Commencer
Exécutez Gemma 4 sur votre matériel dès aujourd'hui
Essayez-le en ligne d'abord, puis téléchargez-le pour une utilisation privée et hors ligne. Pas de clés API, pas de comptes, aucune donnée ne quitte votre appareil.