Gemma 4 Local

Exécutez Gemma 4 sur votre matériel - privé, hors ligne, sans clé API

Tous les modèles Gemma 4 fonctionnent en local. Du E2B de 3,2 Go sur un téléphone au flagship 31B sur une station de travail. Ollama, llama.cpp, MLX, transformers et déploiement navigateur - choisissez votre outil et démarrez en quelques minutes.

Configuration requise

Ce qu'il faut pour exécuter chaque modèle en local

Les besoins en mémoire dépendent de la taille du modèle et du niveau de quantification. La quantification 4 bits offre le meilleur équilibre entre qualité et utilisation mémoire pour la plupart des déploiements locaux.

Guide matériel

Associez votre matériel au bon modèle

E2B fonctionne sur les téléphones et les ordinateurs portables d'entrée de gamme. E4B s'exécute confortablement sur la plupart des portables. Le 26B MoE nécessite un GPU correct. Le 31B Dense nécessite une configuration de type station de travail.

Tous les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour la fenêtre de contexte (KV cache) selon votre utilisation.

Téléphone / Portable d'entrée de gamme

E2B (3,2-10 Go)

4 bits : ~3,2 Go | 8 bits : ~5-8 Go | BF16 : ~10 Go. Fonctionne sur téléphones, Raspberry Pi et matériel d'entrée de gamme.

~95 tok/s sur GPU grand public. Le modèle le plus rapide de la famille. Idéal pour les applications en temps réel.

Le plus facile à exécuter

Portable / Bureau

E4B (5,5-16 Go)

4 bits : ~5,5-6 Go | 8 bits : ~9-12 Go | BF16 : ~16 Go. Meilleur modèle edge pour une utilisation locale quotidienne.

Bonne vitesse sur RTX 3060+ ou Mac M1+. Le point de départ recommandé pour la plupart des utilisateurs locaux.

Recommandé

Station de travail GPU

26B MoE (16-48 Go)

4 bits : ~16 Go | 8 bits : ~24 Go | BF16 : ~48 Go. Qualité proche du 31B sur une seule RTX 4090 ou M4 Pro.

~2-8 tok/s selon le matériel. Idéal pour le traitement par lots et les tâches locales exigeantes en qualité.

Utilisateurs avancés

Multi-GPU / Serveur

31B Dense (17-58 Go)

4 bits : ~17 Go | 8 bits : ~29 Go | BF16 : ~58 Go. Qualité maximale pour le déploiement local.

Nécessite RTX 4090+ ou M4 Max+ pour une utilisation confortable. Idéal pour une qualité maximale sans dépendance au cloud.

Qualité maximale

Outils de déploiement

Six façons d'exécuter Gemma 4 en local

De l'installation Ollama en une commande aux builds llama.cpp personnalisés, il existe un chemin de déploiement local pour chaque niveau de compétence.

Ollama

Une commande pour installer, une commande pour exécuter. Le chemin le plus simple vers Gemma 4 en local. API HTTP incluse pour l'intégration avec d'autres outils.

llama.cpp

Contrôle maximal sur la quantification, la taille du contexte et les couches GPU. Idéal pour les utilisateurs avancés qui veulent ajuster chaque paramètre.

MLX (Apple Silicon)

Optimisé pour les Mac M1/M2/M3/M4. Exploite la mémoire unifiée pour une inférence efficace sur le matériel Apple.

transformers (Python)

Intégration complète avec l'écosystème Hugging Face. Idéal pour les développeurs Python qui veulent scripter, affiner ou construire des pipelines personnalisés.

transformers.js (Browser)

Exécutez E2B et E4B directement dans Chrome avec WebGPU. Pas d'installation, pas de serveur - ouvrez simplement une page web.

LM Studio

Gestion locale de modèles via interface graphique. Téléchargez, configurez et discutez avec Gemma 4 depuis une application de bureau.

Démarrage rapide

Opérationnel en 2 minutes avec Ollama

Le chemin le plus rapide de zéro à Gemma 4 en local. Installez Ollama, récupérez un modèle, commencez à discuter.

Installer et exécuter

  • Installer : curl -fsSL https://ollama.com/install.sh | sh
  • Exécuter E4B : ollama run gemma4:e4b
  • Exécuter 26B : ollama run gemma4:26b
  • Exécuter 31B : ollama run gemma4:31b
  • API : curl http://localhost:11434/api/generate -d '{...}'

Conseils

  • Commencez par E4B si vous avez 8-16 Go de RAM
  • Utilisez la quantification 4 bits (Q4_K_M) pour le meilleur rapport qualité/mémoire
  • Ajoutez --num-gpu-layers pour l'accélération GPU dans llama.cpp
  • Définissez la taille du contexte en fonction de votre mémoire disponible
  • Surveillez l'utilisation VRAM - gardez de la marge pour le KV cache

Performances locales

Vitesse et qualité réelles sur du matériel grand public

Les performances réelles varient selon le matériel, la quantification et la longueur du contexte. Voici ce à quoi vous pouvez vous attendre sur des configurations courantes.

La vitesse d'inférence locale dépend de votre GPU, RAM, niveau de quantification et longueur de contexte. Ces chiffres représentent les performances typiques sur du matériel grand public courant.

Performances locales de Gemma 4 sur différentes configurations matérielles

E2B en 4 bits : ~95 tok/s sur RTX 3060, ~60 tok/s sur M1 MacBook

E4B en 4 bits : ~40-60 tok/s sur RTX 3060, ~30 tok/s sur M1 MacBook

26B en 4 bits : ~8-15 tok/s sur RTX 4090, ~5 tok/s sur M4 Pro

31B en 4 bits : ~5-10 tok/s sur RTX 4090, ~3 tok/s sur M4 Max

Configuration requise

VRAM et RAM requis par quantification

Choisissez votre niveau de quantification en fonction de la mémoire disponible. Le 4 bits (Q4_K_M) offre le meilleur rapport qualité/mémoire pour la plupart des utilisateurs.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Recommandé
~3,2 Go~5,5 Go~16 Go~17 Go
8-bit (Q8_0)
Qualité supérieure
~5-8 Go~9-12 Go~24 Go~29 Go
BF16 / FP16
Pleine précision
~10 Go~16 Go~48 Go~58 Go
Min GPU
Utilisation confortable
N'importe quel 4 Go+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Mac recommandé
N'importe quel M1+M1+ 16 GoM4 Pro 24 GoM4 Max 64 Go

Les chiffres de mémoire concernent uniquement les poids du modèle. Ajoutez 2 à 4 Go pour le KV cache selon la longueur du contexte.

Confidentialité d'abord

Vos données ne quittent jamais votre appareil

Exécuter Gemma 4 en local signifie une confidentialité totale. Pas d'appels API, pas de journalisation des données, pas d'internet requis après le téléchargement. Traitez des documents sensibles, du code et des conversations sans aucune exposition.

  • Zéro transmission de données - tout reste sur votre matériel
  • Pas de clés API, pas de comptes, pas de suivi d'utilisation
  • Traitez en toute sécurité des documents confidentiels et du code propriétaire
Vos données ne quittent jamais votre appareil

IA dans le navigateur

Exécutez Gemma 4 dans votre navigateur - aucune installation requise

Les modèles E2B et E4B fonctionnent directement dans Chrome avec WebGPU via transformers.js. Pas de serveur, pas d'installation, pas de configuration. Ouvrez simplement une page web et commencez à discuter.

  • transformers.js permet l'inférence dans le navigateur avec WebGPU
  • E2B et E4B optimisés pour le déploiement navigateur
  • Fonctionne dans Chrome, Edge et les autres navigateurs compatibles WebGPU
Exécutez Gemma 4 dans votre navigateur - aucune installation requise

Outils développeur

Intégrez Gemma 4 local dans votre workflow

Utilisez Gemma 4 comme assistant de codage local avec Claude Code, VS Code ou tout outil prenant en charge les API compatibles OpenAI. Ollama et llama.cpp exposent tous deux des endpoints compatibles.

  • API compatible OpenAI via Ollama (localhost:11434)
  • Fonctionne avec Claude Code, Continue, Cursor et d'autres outils IA
  • Affinez avec TRL, Unsloth ou Keras pour des tâches personnalisées
Intégrez Gemma 4 local dans votre workflow

Écosystème IA local

Outils et plateformes pour Gemma 4 en local

Un écosystème d'outils en pleine croissance rend l'exécution locale de Gemma 4 plus facile que jamais.

Ollama

Déploiement local le plus simple avec API HTTP

Commencer

llama.cpp

Contrôle et personnalisation maximaux

En savoir plus

LM Studio

Interface graphique de bureau pour la gestion locale de modèles

Télécharger

transformers.js

Inférence dans le navigateur avec WebGPU

Essayer

MLX

Inférence optimisée pour Apple Silicon

Commencer

vLLM

Serving local à haut débit

Déployer

Commencer

Exécutez Gemma 4 sur votre matériel dès aujourd'hui

Essayez-le en ligne d'abord, puis téléchargez-le pour une utilisation privée et hors ligne. Pas de clés API, pas de comptes, aucune donnée ne quitte votre appareil.