Gemma 4 Local

Esegui Gemma 4 sul tuo hardware - privato, offline, senza chiavi API

Tutti i modelli Gemma 4 funzionano in locale. Dal E2B da 3,2 GB su uno smartphone al flagship 31B su una workstation. Ollama, llama.cpp, MLX, transformers e distribuzione nel browser - scegli il tuo strumento e inizia in pochi minuti.

Requisiti hardware

Cosa serve per eseguire ogni modello in locale

I requisiti di memoria dipendono dalla dimensione del modello e dal livello di quantizzazione. La quantizzazione a 4 bit offre il miglior equilibrio tra qualità e utilizzo della memoria per la maggior parte dei deployment locali.

Guida hardware

Abbina il tuo hardware al modello giusto

E2B funziona su smartphone e portatili economici. E4B gira comodamente sulla maggior parte dei portatili. Il 26B MoE richiede una GPU discreta. Il 31B Dense richiede una configurazione da workstation.

Tutti i valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per la finestra di contesto (KV cache) a seconda del tuo caso d'uso.

Smartphone / Portatile economico

E2B (3,2-10 GB)

4 bit: ~3,2 GB | 8 bit: ~5-8 GB | BF16: ~10 GB. Funziona su smartphone, Raspberry Pi e hardware economico.

~95 tok/s su GPU consumer. Il modello più veloce della famiglia. Ideale per applicazioni in tempo reale.

Il più facile da eseguire

Portatile / Desktop

E4B (5,5-16 GB)

4 bit: ~5,5-6 GB | 8 bit: ~9-12 GB | BF16: ~16 GB. Il miglior modello edge per l'uso locale quotidiano.

Buona velocità su RTX 3060+ o Mac M1+. Il punto di partenza consigliato per la maggior parte degli utenti locali.

Consigliato

Workstation GPU

26B MoE (16-48 GB)

4 bit: ~16 GB | 8 bit: ~24 GB | BF16: ~48 GB. Qualità vicina al 31B su una singola RTX 4090 o M4 Pro.

~2-8 tok/s a seconda dell'hardware. Ideale per l'elaborazione batch e le attività locali che richiedono alta qualità.

Utenti avanzati

Multi-GPU / Server

31B Dense (17-58 GB)

4 bit: ~17 GB | 8 bit: ~29 GB | BF16: ~58 GB. Qualità massima per il deployment locale.

Richiede RTX 4090+ o M4 Max+ per un uso confortevole. Ideale per la massima qualità senza dipendenza dal cloud.

Qualità massima

Strumenti di deployment

Sei modi per eseguire Gemma 4 in locale

Dall'installazione Ollama con un solo comando ai build personalizzati di llama.cpp, c'è un percorso di deployment locale per ogni livello di competenza.

Ollama

Un comando per installare, un comando per eseguire. Il percorso più semplice verso Gemma 4 in locale. API HTTP inclusa per l'integrazione con altri strumenti.

llama.cpp

Controllo massimo su quantizzazione, dimensione del contesto e layer GPU. Ideale per utenti avanzati che vogliono regolare ogni parametro.

MLX (Apple Silicon)

Ottimizzato per Mac M1/M2/M3/M4. Sfrutta la memoria unificata per un'inferenza efficiente sull'hardware Apple.

transformers (Python)

Integrazione completa con l'ecosistema Hugging Face. Ideale per sviluppatori Python che vogliono creare script, fare fine-tuning o costruire pipeline personalizzate.

transformers.js (Browser)

Esegui E2B ed E4B direttamente in Chrome con WebGPU. Nessuna installazione, nessun server - basta aprire una pagina web.

LM Studio

Gestione locale dei modelli tramite interfaccia grafica. Scarica, configura e chatta con Gemma 4 attraverso un'applicazione desktop.

Avvio rapido

Operativo in 2 minuti con Ollama

Il percorso più veloce da zero a Gemma 4 in locale. Installa Ollama, scarica un modello, inizia a chattare.

Installa ed esegui

  • Installa: curl -fsSL https://ollama.com/install.sh | sh
  • Esegui E4B: ollama run gemma4:e4b
  • Esegui 26B: ollama run gemma4:26b
  • Esegui 31B: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

Suggerimenti

  • Inizia con E4B se hai 8-16 GB di RAM
  • Usa la quantizzazione a 4 bit (Q4_K_M) per il miglior rapporto qualità/memoria
  • Aggiungi --num-gpu-layers per l'accelerazione GPU in llama.cpp
  • Imposta la dimensione del contesto in base alla memoria disponibile
  • Monitora l'utilizzo della VRAM - lascia margine per il KV cache

Prestazioni locali

Velocità e qualità reali su hardware consumer

Le prestazioni effettive variano in base a hardware, quantizzazione e lunghezza del contesto. Ecco cosa aspettarsi sulle configurazioni più comuni.

La velocità di inferenza locale dipende da GPU, RAM, livello di quantizzazione e lunghezza del contesto. Questi valori rappresentano le prestazioni tipiche su hardware consumer comune.

Prestazioni locali di Gemma 4 su diverse configurazioni hardware

E2B a 4 bit: ~95 tok/s su RTX 3060, ~60 tok/s su M1 MacBook

E4B a 4 bit: ~40-60 tok/s su RTX 3060, ~30 tok/s su M1 MacBook

26B a 4 bit: ~8-15 tok/s su RTX 4090, ~5 tok/s su M4 Pro

31B a 4 bit: ~5-10 tok/s su RTX 4090, ~3 tok/s su M4 Max

Requisiti hardware

Requisiti VRAM e RAM per quantizzazione

Scegli il livello di quantizzazione in base alla memoria disponibile. Il 4 bit (Q4_K_M) offre il miglior rapporto qualità/memoria per la maggior parte degli utenti.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Consigliato
~3,2 GB~5,5 GB~16 GB~17 GB
8-bit (Q8_0)
Qualità superiore
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
Precisione piena
~10 GB~16 GB~48 GB~58 GB
Min GPU
Uso confortevole
Qualsiasi 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Mac consigliato
Qualsiasi M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

I valori di memoria si riferiscono solo ai pesi del modello. Aggiungi 2-4 GB per il KV cache a seconda della lunghezza del contesto.

Privacy al primo posto

I tuoi dati non lasciano mai il tuo dispositivo

Eseguire Gemma 4 in locale significa privacy completa. Nessuna chiamata API, nessuna registrazione dati, nessuna connessione internet necessaria dopo il download. Elabora documenti sensibili, codice e conversazioni senza alcuna esposizione.

  • Zero trasmissione dati - tutto resta sul tuo hardware
  • Nessuna chiave API, nessun account, nessun tracciamento dell'utilizzo
  • Elabora in sicurezza documenti riservati e codice proprietario
I tuoi dati non lasciano mai il tuo dispositivo

IA nel browser

Esegui Gemma 4 nel browser - nessuna installazione necessaria

I modelli E2B ed E4B funzionano direttamente in Chrome con WebGPU tramite transformers.js. Nessun server, nessuna installazione, nessuna configurazione. Basta aprire una pagina web e iniziare a chattare.

  • transformers.js abilita l'inferenza nel browser con WebGPU
  • E2B ed E4B ottimizzati per la distribuzione nel browser
  • Funziona in Chrome, Edge e altri browser compatibili con WebGPU
Esegui Gemma 4 nel browser - nessuna installazione necessaria

Strumenti per sviluppatori

Integra Gemma 4 locale nel tuo workflow

Usa Gemma 4 come assistente di codifica locale con Claude Code, VS Code o qualsiasi strumento che supporti API compatibili con OpenAI. Ollama e llama.cpp espongono entrambi endpoint compatibili.

  • API compatibile OpenAI tramite Ollama (localhost:11434)
  • Funziona con Claude Code, Continue, Cursor e altri strumenti IA
  • Fine-tuning con TRL, Unsloth o Keras per attività personalizzate
Integra Gemma 4 locale nel tuo workflow

Ecosistema IA locale

Strumenti e piattaforme per Gemma 4 in locale

Un ecosistema di strumenti in crescita rende l'esecuzione locale di Gemma 4 più semplice che mai.

Ollama

Il deployment locale più semplice con API HTTP

Inizia

llama.cpp

Controllo e personalizzazione massimi

Scopri di più

LM Studio

GUI desktop per la gestione locale dei modelli

Scarica

transformers.js

Inferenza nel browser con WebGPU

Provalo

MLX

Inferenza ottimizzata per Apple Silicon

Inizia

vLLM

Serving locale ad alto throughput

Distribuisci

Inizia ora

Esegui Gemma 4 sul tuo hardware oggi stesso

Provalo prima online, poi scaricalo per un uso privato e offline. Nessuna chiave API, nessun account, nessun dato lascia il tuo dispositivo.