Gemma 4 Local

Exécutez Gemma 4 sur votre matériel - privé, hors ligne, sans clé API

Tous les modèles Gemma 4 fonctionnent en local. Du E2B de 3,2 Go sur un téléphone au flagship 31B sur une station de travail. Ollama, llama.cpp, MLX, transformers et déploiement navigateur - choisissez votre outil et démarrez en quelques minutes.

Essayer en ligne d'abord Voir la configuration requise

Configuration requise

Ce qu'il faut pour exécuter chaque modèle en local

Les besoins en mémoire dépendent de la taille du modèle et du niveau de quantification. La quantification 4 bits offre le meilleur équilibre entre qualité et utilisation mémoire pour la plupart des déploiements locaux.

Guide matériel

Associez votre matériel au bon modèle

E2B fonctionne sur les téléphones et les ordinateurs portables d'entrée de gamme. E4B s'exécute confortablement sur la plupart des portables. Le 26B MoE nécessite un GPU correct. Le 31B Dense nécessite une configuration de type station de travail.

Tous les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour la fenêtre de contexte (KV cache) selon votre utilisation.

Essayer en ligne d'abord Télécharger les modèles

Téléphone / Portable d'entrée de gamme

E2B (3,2-10 Go)

4 bits : ~3,2 Go | 8 bits : ~5-8 Go | BF16 : ~10 Go. Fonctionne sur téléphones, Raspberry Pi et matériel d'entrée de gamme.

~95 tok/s sur GPU grand public. Le modèle le plus rapide de la famille. Idéal pour les applications en temps réel.

Le plus facile à exécuter

Télécharger E2B Guide d'installation

Portable / Bureau

E4B (5,5-16 Go)

4 bits : ~5,5-6 Go | 8 bits : ~9-12 Go | BF16 : ~16 Go. Meilleur modèle edge pour une utilisation locale quotidienne.

Bonne vitesse sur RTX 3060+ ou Mac M1+. Le point de départ recommandé pour la plupart des utilisateurs locaux.

Recommandé

Télécharger E4B Guide d'installation

Station de travail GPU

26B MoE (16-48 Go)

4 bits : ~16 Go | 8 bits : ~24 Go | BF16 : ~48 Go. Qualité proche du 31B sur une seule RTX 4090 ou M4 Pro.

~2-8 tok/s selon le matériel. Idéal pour le traitement par lots et les tâches locales exigeantes en qualité.

Utilisateurs avancés

Télécharger 26B Guide d'installation

Multi-GPU / Serveur

31B Dense (17-58 Go)

4 bits : ~17 Go | 8 bits : ~29 Go | BF16 : ~58 Go. Qualité maximale pour le déploiement local.

Nécessite RTX 4090+ ou M4 Max+ pour une utilisation confortable. Idéal pour une qualité maximale sans dépendance au cloud.

Qualité maximale

Télécharger 31B Guide d'installation

Outils de déploiement

Six façons d'exécuter Gemma 4 en local

De l'installation Ollama en une commande aux builds llama.cpp personnalisés, il existe un chemin de déploiement local pour chaque niveau de compétence.

Ollama

Une commande pour installer, une commande pour exécuter. Le chemin le plus simple vers Gemma 4 en local. API HTTP incluse pour l'intégration avec d'autres outils.

llama.cpp

Contrôle maximal sur la quantification, la taille du contexte et les couches GPU. Idéal pour les utilisateurs avancés qui veulent ajuster chaque paramètre.

MLX (Apple Silicon)

Optimisé pour les Mac M1/M2/M3/M4. Exploite la mémoire unifiée pour une inférence efficace sur le matériel Apple.

transformers (Python)

Intégration complète avec l'écosystème Hugging Face. Idéal pour les développeurs Python qui veulent scripter, affiner ou construire des pipelines personnalisés.

transformers.js (Browser)

Exécutez E2B et E4B directement dans Chrome avec WebGPU. Pas d'installation, pas de serveur - ouvrez simplement une page web.

LM Studio

Gestion locale de modèles via interface graphique. Téléchargez, configurez et discutez avec Gemma 4 depuis une application de bureau.

Démarrage rapide

Opérationnel en 2 minutes avec Ollama

Le chemin le plus rapide de zéro à Gemma 4 en local. Installez Ollama, récupérez un modèle, commencez à discuter.

Installer et exécuter

Installer : curl -fsSL https://ollama.com/install.sh | sh
Exécuter E4B : ollama run gemma4:e4b
Exécuter 26B : ollama run gemma4:26b
Exécuter 31B : ollama run gemma4:31b
API : curl http://localhost:11434/api/generate -d '{...}'

Conseils

Commencez par E4B si vous avez 8-16 Go de RAM
Utilisez la quantification 4 bits (Q4_K_M) pour le meilleur rapport qualité/mémoire
Ajoutez --num-gpu-layers pour l'accélération GPU dans llama.cpp
Définissez la taille du contexte en fonction de votre mémoire disponible
Surveillez l'utilisation VRAM - gardez de la marge pour le KV cache

Essayer en ligne d'abord Télécharger les modèles

Performances locales

Vitesse et qualité réelles sur du matériel grand public

Les performances réelles varient selon le matériel, la quantification et la longueur du contexte. Voici ce à quoi vous pouvez vous attendre sur des configurations courantes.

La vitesse d'inférence locale dépend de votre GPU, RAM, niveau de quantification et longueur de contexte. Ces chiffres représentent les performances typiques sur du matériel grand public courant.

Essayer en ligne d'abord Guide matériel

Performances locales de Gemma 4 sur différentes configurations matérielles

E2B en 4 bits : ~95 tok/s sur RTX 3060, ~60 tok/s sur M1 MacBook

E4B en 4 bits : ~40-60 tok/s sur RTX 3060, ~30 tok/s sur M1 MacBook

26B en 4 bits : ~8-15 tok/s sur RTX 4090, ~5 tok/s sur M4 Pro

31B en 4 bits : ~5-10 tok/s sur RTX 4090, ~3 tok/s sur M4 Max

Configuration requise

VRAM et RAM requis par quantification

Choisissez votre niveau de quantification en fonction de la mémoire disponible. Le 4 bits (Q4_K_M) offre le meilleur rapport qualité/mémoire pour la plupart des utilisateurs.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Recommandé	~3,2 Go	~5,5 Go	~16 Go	~17 Go
8-bit (Q8_0) Qualité supérieure	~5-8 Go	~9-12 Go	~24 Go	~29 Go
BF16 / FP16 Pleine précision	~10 Go	~16 Go	~48 Go	~58 Go
Min GPU Utilisation confortable	N'importe quel 4 Go+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Mac recommandé	N'importe quel M1+	M1+ 16 Go	M4 Pro 24 Go	M4 Max 64 Go

Les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour le KV cache selon la longueur du contexte.

Confidentialité d'abord

Vos données ne quittent jamais votre appareil

Exécuter Gemma 4 en local signifie une confidentialité totale. Pas d'appels API, pas de journalisation des données, pas d'internet requis après le téléchargement. Traitez des documents sensibles, du code et des conversations sans aucune exposition.

Zéro transmission de données - tout reste sur votre matériel
Pas de clés API, pas de comptes, pas de suivi d'utilisation
Traitez en toute sécurité des documents confidentiels et du code propriétaire

Télécharger maintenant Guide de confidentialité

Vos données ne quittent jamais votre appareil

IA dans le navigateur

Exécutez Gemma 4 dans votre navigateur - aucune installation requise

Les modèles E2B et E4B fonctionnent directement dans Chrome avec WebGPU via transformers.js. Pas de serveur, pas d'installation, pas de configuration. Ouvrez simplement une page web et commencez à discuter.

transformers.js permet l'inférence dans le navigateur avec WebGPU
E2B et E4B optimisés pour le déploiement navigateur
Fonctionne dans Chrome, Edge et les autres navigateurs compatibles WebGPU

Essayer dans le navigateur Documentation transformers.js

Exécutez Gemma 4 dans votre navigateur - aucune installation requise

Outils développeur

Intégrez Gemma 4 local dans votre workflow

Utilisez Gemma 4 comme assistant de codage local avec Claude Code, VS Code ou tout outil prenant en charge les API compatibles OpenAI. Ollama et llama.cpp exposent tous deux des endpoints compatibles.

API compatible OpenAI via Ollama (localhost:11434)
Fonctionne avec Claude Code, Continue, Cursor et d'autres outils IA
Affinez avec TRL, Unsloth ou Keras pour des tâches personnalisées

Guide d'intégration Documentation d'affinage

Intégrez Gemma 4 local dans votre workflow

Démarrage rapide

Faire fonctionner Gemma 4 en local

Choisissez votre outil préféré et démarrez en quelques minutes.

Essayer en ligne d'abord

Discutez avec Gemma 4 instantanément pendant que vous configurez le local

Guide Ollama

Installation en une commande pour tous les modèles Gemma 4

Guide llama.cpp

Contrôle maximal pour les utilisateurs avancés

Guide MLX

Optimisé pour les Mac Apple Silicon

Télécharger les poids

Obtenir les fichiers de modèle

Téléchargez les poids officiels depuis des sources fiables.

Hugging Face

Dépôts de modèles officiels avec toutes les quantifications

Kaggle

Téléchargement depuis Kaggle Models

Ollama Library

Téléchargement automatique via ollama pull

Avancé

Affinage et personnalisation

Personnalisez Gemma 4 pour votre cas d'utilisation spécifique.

Affinage avec TRL

Hugging Face Transformer Reinforcement Learning

Unsloth Studio

Expérience d'affinage via interface graphique

Keras

Affinage avec le framework Keras

LoRA / PEFT

Méthodes d'affinage à paramètres efficaces

Écosystème IA local