Gemma 4 Local

Esegui Gemma 4 sul tuo hardware - privato, offline, senza chiavi API

Tutti i modelli Gemma 4 funzionano in locale. Dal E2B da 3,2 GB su uno smartphone al flagship 31B su una workstation. Ollama, llama.cpp, MLX, transformers e distribuzione nel browser - scegli il tuo strumento e inizia in pochi minuti.

Prova prima online Vedi i requisiti hardware

Requisiti hardware

Cosa serve per eseguire ogni modello in locale

I requisiti di memoria dipendono dalla dimensione del modello e dal livello di quantizzazione. La quantizzazione a 4 bit offre il miglior equilibrio tra qualità e utilizzo della memoria per la maggior parte dei deployment locali.

Guida hardware

Abbina il tuo hardware al modello giusto

E2B funziona su smartphone e portatili economici. E4B gira comodamente sulla maggior parte dei portatili. Il 26B MoE richiede una GPU discreta. Il 31B Dense richiede una configurazione da workstation.

Tutti i valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per la finestra di contesto (KV cache) a seconda del tuo caso d'uso.

Prova prima online Scarica i modelli

Smartphone / Portatile economico

E2B (3,2-10 GB)

4 bit: ~3,2 GB | 8 bit: ~5-8 GB | BF16: ~10 GB. Funziona su smartphone, Raspberry Pi e hardware economico.

~95 tok/s su GPU consumer. Il modello più veloce della famiglia. Ideale per applicazioni in tempo reale.

Il più facile da eseguire

Scarica E2B Guida all'installazione

Portatile / Desktop

E4B (5,5-16 GB)

4 bit: ~5,5-6 GB | 8 bit: ~9-12 GB | BF16: ~16 GB. Il miglior modello edge per l'uso locale quotidiano.

Buona velocità su RTX 3060+ o Mac M1+. Il punto di partenza consigliato per la maggior parte degli utenti locali.

Consigliato

Scarica E4B Guida all'installazione

Workstation GPU

26B MoE (16-48 GB)

4 bit: ~16 GB | 8 bit: ~24 GB | BF16: ~48 GB. Qualità vicina al 31B su una singola RTX 4090 o M4 Pro.

~2-8 tok/s a seconda dell'hardware. Ideale per l'elaborazione batch e le attività locali che richiedono alta qualità.

Utenti avanzati

Scarica 26B Guida all'installazione

Multi-GPU / Server

31B Dense (17-58 GB)

4 bit: ~17 GB | 8 bit: ~29 GB | BF16: ~58 GB. Qualità massima per il deployment locale.

Richiede RTX 4090+ o M4 Max+ per un uso confortevole. Ideale per la massima qualità senza dipendenza dal cloud.

Qualità massima

Scarica 31B Guida all'installazione

Strumenti di deployment

Sei modi per eseguire Gemma 4 in locale

Dall'installazione Ollama con un solo comando ai build personalizzati di llama.cpp, c'è un percorso di deployment locale per ogni livello di competenza.

Ollama

Un comando per installare, un comando per eseguire. Il percorso più semplice verso Gemma 4 in locale. API HTTP inclusa per l'integrazione con altri strumenti.

llama.cpp

Controllo massimo su quantizzazione, dimensione del contesto e layer GPU. Ideale per utenti avanzati che vogliono regolare ogni parametro.

MLX (Apple Silicon)

Ottimizzato per Mac M1/M2/M3/M4. Sfrutta la memoria unificata per un'inferenza efficiente sull'hardware Apple.

transformers (Python)

Integrazione completa con l'ecosistema Hugging Face. Ideale per sviluppatori Python che vogliono creare script, fare fine-tuning o costruire pipeline personalizzate.

transformers.js (Browser)

Esegui E2B ed E4B direttamente in Chrome con WebGPU. Nessuna installazione, nessun server - basta aprire una pagina web.

LM Studio

Gestione locale dei modelli tramite interfaccia grafica. Scarica, configura e chatta con Gemma 4 attraverso un'applicazione desktop.

Avvio rapido

Operativo in 2 minuti con Ollama

Il percorso più veloce da zero a Gemma 4 in locale. Installa Ollama, scarica un modello, inizia a chattare.

Installa ed esegui

Installa: curl -fsSL https://ollama.com/install.sh | sh
Esegui E4B: ollama run gemma4:e4b
Esegui 26B: ollama run gemma4:26b
Esegui 31B: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

Suggerimenti

Inizia con E4B se hai 8-16 GB di RAM
Usa la quantizzazione a 4 bit (Q4_K_M) per il miglior rapporto qualità/memoria
Aggiungi --num-gpu-layers per l'accelerazione GPU in llama.cpp
Imposta la dimensione del contesto in base alla memoria disponibile
Monitora l'utilizzo della VRAM - lascia margine per il KV cache

Prova prima online Scarica i modelli

Prestazioni locali

Velocità e qualità reali su hardware consumer

Le prestazioni effettive variano in base a hardware, quantizzazione e lunghezza del contesto. Ecco cosa aspettarsi sulle configurazioni più comuni.

La velocità di inferenza locale dipende da GPU, RAM, livello di quantizzazione e lunghezza del contesto. Questi valori rappresentano le prestazioni tipiche su hardware consumer comune.

Prova prima online Guida hardware

Prestazioni locali di Gemma 4 su diverse configurazioni hardware

E2B a 4 bit: ~95 tok/s su RTX 3060, ~60 tok/s su M1 MacBook

E4B a 4 bit: ~40-60 tok/s su RTX 3060, ~30 tok/s su M1 MacBook

26B a 4 bit: ~8-15 tok/s su RTX 4090, ~5 tok/s su M4 Pro

31B a 4 bit: ~5-10 tok/s su RTX 4090, ~3 tok/s su M4 Max

Requisiti hardware

Requisiti VRAM e RAM per quantizzazione

Scegli il livello di quantizzazione in base alla memoria disponibile. Il 4 bit (Q4_K_M) offre il miglior rapporto qualità/memoria per la maggior parte degli utenti.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Consigliato	~3,2 GB	~5,5 GB	~16 GB	~17 GB
8-bit (Q8_0) Qualità superiore	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 Precisione piena	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU Uso confortevole	Qualsiasi 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Mac consigliato	Qualsiasi M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

I valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per il KV cache a seconda della lunghezza del contesto.

Privacy al primo posto

I tuoi dati non lasciano mai il tuo dispositivo

Eseguire Gemma 4 in locale significa privacy completa. Nessuna chiamata API, nessuna registrazione dati, nessuna connessione internet necessaria dopo il download. Elabora documenti sensibili, codice e conversazioni senza alcuna esposizione.

Zero trasmissione dati - tutto resta sul tuo hardware
Nessuna chiave API, nessun account, nessun tracciamento dell'utilizzo
Elabora in sicurezza documenti riservati e codice proprietario

Scarica ora Guida alla privacy

I tuoi dati non lasciano mai il tuo dispositivo

IA nel browser

Esegui Gemma 4 nel browser - nessuna installazione necessaria

I modelli E2B ed E4B funzionano direttamente in Chrome con WebGPU tramite transformers.js. Nessun server, nessuna installazione, nessuna configurazione. Basta aprire una pagina web e iniziare a chattare.

transformers.js abilita l'inferenza nel browser con WebGPU
E2B ed E4B ottimizzati per la distribuzione nel browser
Funziona in Chrome, Edge e altri browser compatibili con WebGPU

Prova nel browser Documentazione transformers.js

Esegui Gemma 4 nel browser - nessuna installazione necessaria

Strumenti per sviluppatori

Integra Gemma 4 locale nel tuo workflow

Usa Gemma 4 come assistente di codifica locale con Claude Code, VS Code o qualsiasi strumento che supporti API compatibili con OpenAI. Ollama e llama.cpp espongono entrambi endpoint compatibili.