Gemma 4 Local
Esegui Gemma 4 sul tuo hardware - privato, offline, senza chiavi API
Tutti i modelli Gemma 4 funzionano in locale. Dal E2B da 3,2 GB su uno smartphone al flagship 31B su una workstation. Ollama, llama.cpp, MLX, transformers e distribuzione nel browser - scegli il tuo strumento e inizia in pochi minuti.
Requisiti hardware
Cosa serve per eseguire ogni modello in locale
I requisiti di memoria dipendono dalla dimensione del modello e dal livello di quantizzazione. La quantizzazione a 4 bit offre il miglior equilibrio tra qualità e utilizzo della memoria per la maggior parte dei deployment locali.
Guida hardware
Abbina il tuo hardware al modello giusto
E2B funziona su smartphone e portatili economici. E4B gira comodamente sulla maggior parte dei portatili. Il 26B MoE richiede una GPU discreta. Il 31B Dense richiede una configurazione da workstation.
Tutti i valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per la finestra di contesto (KV cache) a seconda del tuo caso d'uso.
Smartphone / Portatile economico
E2B (3,2-10 GB)
4 bit: ~3,2 GB | 8 bit: ~5-8 GB | BF16: ~10 GB. Funziona su smartphone, Raspberry Pi e hardware economico.
~95 tok/s su GPU consumer. Il modello più veloce della famiglia. Ideale per applicazioni in tempo reale.
Portatile / Desktop
E4B (5,5-16 GB)
4 bit: ~5,5-6 GB | 8 bit: ~9-12 GB | BF16: ~16 GB. Il miglior modello edge per l'uso locale quotidiano.
Buona velocità su RTX 3060+ o Mac M1+. Il punto di partenza consigliato per la maggior parte degli utenti locali.
Workstation GPU
26B MoE (16-48 GB)
4 bit: ~16 GB | 8 bit: ~24 GB | BF16: ~48 GB. Qualità vicina al 31B su una singola RTX 4090 o M4 Pro.
~2-8 tok/s a seconda dell'hardware. Ideale per l'elaborazione batch e le attività locali che richiedono alta qualità.
Multi-GPU / Server
31B Dense (17-58 GB)
4 bit: ~17 GB | 8 bit: ~29 GB | BF16: ~58 GB. Qualità massima per il deployment locale.
Richiede RTX 4090+ o M4 Max+ per un uso confortevole. Ideale per la massima qualità senza dipendenza dal cloud.
Strumenti di deployment
Sei modi per eseguire Gemma 4 in locale
Dall'installazione Ollama con un solo comando ai build personalizzati di llama.cpp, c'è un percorso di deployment locale per ogni livello di competenza.
Ollama
Un comando per installare, un comando per eseguire. Il percorso più semplice verso Gemma 4 in locale. API HTTP inclusa per l'integrazione con altri strumenti.
llama.cpp
Controllo massimo su quantizzazione, dimensione del contesto e layer GPU. Ideale per utenti avanzati che vogliono regolare ogni parametro.
MLX (Apple Silicon)
Ottimizzato per Mac M1/M2/M3/M4. Sfrutta la memoria unificata per un'inferenza efficiente sull'hardware Apple.
transformers (Python)
Integrazione completa con l'ecosistema Hugging Face. Ideale per sviluppatori Python che vogliono creare script, fare fine-tuning o costruire pipeline personalizzate.
transformers.js (Browser)
Esegui E2B ed E4B direttamente in Chrome con WebGPU. Nessuna installazione, nessun server - basta aprire una pagina web.
LM Studio
Gestione locale dei modelli tramite interfaccia grafica. Scarica, configura e chatta con Gemma 4 attraverso un'applicazione desktop.
Avvio rapido
Operativo in 2 minuti con Ollama
Il percorso più veloce da zero a Gemma 4 in locale. Installa Ollama, scarica un modello, inizia a chattare.
Installa ed esegui
- Installa: curl -fsSL https://ollama.com/install.sh | sh
- Esegui E4B: ollama run gemma4:e4b
- Esegui 26B: ollama run gemma4:26b
- Esegui 31B: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
Suggerimenti
- Inizia con E4B se hai 8-16 GB di RAM
- Usa la quantizzazione a 4 bit (Q4_K_M) per il miglior rapporto qualità/memoria
- Aggiungi --num-gpu-layers per l'accelerazione GPU in llama.cpp
- Imposta la dimensione del contesto in base alla memoria disponibile
- Monitora l'utilizzo della VRAM - lascia margine per il KV cache
Prestazioni locali
Velocità e qualità reali su hardware consumer
Le prestazioni effettive variano in base a hardware, quantizzazione e lunghezza del contesto. Ecco cosa aspettarsi sulle configurazioni più comuni.
La velocità di inferenza locale dipende da GPU, RAM, livello di quantizzazione e lunghezza del contesto. Questi valori rappresentano le prestazioni tipiche su hardware consumer comune.


E2B a 4 bit: ~95 tok/s su RTX 3060, ~60 tok/s su M1 MacBook
E4B a 4 bit: ~40-60 tok/s su RTX 3060, ~30 tok/s su M1 MacBook
26B a 4 bit: ~8-15 tok/s su RTX 4090, ~5 tok/s su M4 Pro
31B a 4 bit: ~5-10 tok/s su RTX 4090, ~3 tok/s su M4 Max
Requisiti hardware
Requisiti VRAM e RAM per quantizzazione
Scegli il livello di quantizzazione in base alla memoria disponibile. Il 4 bit (Q4_K_M) offre il miglior rapporto qualità/memoria per la maggior parte degli utenti.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) Consigliato | ~3,2 GB | ~5,5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) Qualità superiore | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 Precisione piena | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU Uso confortevole | Qualsiasi 4 GB+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Mac consigliato | Qualsiasi M1+ | M1+ 16 GB | M4 Pro 24 GB | M4 Max 64 GB |
I valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per il KV cache a seconda della lunghezza del contesto.
Privacy al primo posto
I tuoi dati non lasciano mai il tuo dispositivo
Eseguire Gemma 4 in locale significa privacy completa. Nessuna chiamata API, nessuna registrazione dati, nessuna connessione internet necessaria dopo il download. Elabora documenti sensibili, codice e conversazioni senza alcuna esposizione.
- Zero trasmissione dati - tutto resta sul tuo hardware
- Nessuna chiave API, nessun account, nessun tracciamento dell'utilizzo
- Elabora in sicurezza documenti riservati e codice proprietario
IA nel browser
Esegui Gemma 4 nel browser - nessuna installazione necessaria
I modelli E2B ed E4B funzionano direttamente in Chrome con WebGPU tramite transformers.js. Nessun server, nessuna installazione, nessuna configurazione. Basta aprire una pagina web e iniziare a chattare.
- transformers.js abilita l'inferenza nel browser con WebGPU
- E2B ed E4B ottimizzati per la distribuzione nel browser
- Funziona in Chrome, Edge e altri browser compatibili con WebGPU
Strumenti per sviluppatori
Integra Gemma 4 locale nel tuo workflow
Usa Gemma 4 come assistente di codifica locale con Claude Code, VS Code o qualsiasi strumento che supporti API compatibili con OpenAI. Ollama e llama.cpp espongono entrambi endpoint compatibili.
- API compatibile OpenAI tramite Ollama (localhost:11434)
- Funziona con Claude Code, Continue, Cursor e altri strumenti IA
- Fine-tuning con TRL, Unsloth o Keras per attività personalizzate
Avvio rapido
Far funzionare Gemma 4 in locale
Scegli il tuo strumento preferito e inizia in pochi minuti.
Scarica i pesi
Ottieni i file del modello
Scarica i pesi ufficiali da fonti affidabili.
Avanzato
Fine-tuning e personalizzazione
Personalizza Gemma 4 per il tuo caso d'uso specifico.
Ecosistema IA locale
Strumenti e piattaforme per Gemma 4 in locale
Un ecosistema di strumenti in crescita rende l'esecuzione locale di Gemma 4 più semplice che mai.
Inizia ora
Esegui Gemma 4 sul tuo hardware oggi stesso
Provalo prima online, poi scaricalo per un uso privato e offline. Nessuna chiave API, nessun account, nessun dato lascia il tuo dispositivo.