Gemma 4 Recensione

Gemma 4: come un modello da 31B compete con rivali da 600B

La famiglia Gemma 4 di Google DeepMind è stata lanciata il 2 aprile 2026 con quattro modelli sotto Apache 2.0. Il 31B è al 3° posto su Arena AI, il 26B MoE gira su una singola RTX 4090, e l'E2B sta su uno smartphone. Ecco cosa funziona davvero e dove ci sono limiti.

Provalo tu stesso Vedi i benchmark

Verdetto

Il verdetto su ogni modello Gemma 4

Dopo test approfonditi su ragionamento, codifica, multimodale e deployment locale, ecco il verdetto su ogni variante.

Verdetto complessivo

La famiglia di modelli aperti più potente che puoi eseguire localmente

Gemma 4 è la migliore famiglia di modelli aperti per chi vuole IA di frontiera sul proprio hardware. Il 31B compete con modelli 20 volte più grandi in ragionamento e codifica. Il 26B MoE è il punto ottimale per la maggior parte degli usi in produzione. I modelli edge portano vera IA su smartphone e browser.

La debolezza principale: nella codifica agentiva pura (SWE-Bench), Gemma 4 è ancora dietro Qwen 3.6 e GLM-5.1. Se il tuo uso principale è l'editing autonomo del codice, considera queste alternative.

Provalo tu stesso Confronta con Qwen 3.6

Verdetto: Eccellente

31B Dense

Il modello di punta mantiene le promesse. 3° su Arena AI, ragionamento e codifica eccezionali, multimodale solido. Il miglior modello Dense aperto in questa dimensione.

Punti di forza: ragionamento, matematica, codifica, multimodale. Debolezza: SWE-Bench dietro Qwen 3.6.

Consigliato

Prova il 31B Tutti i dettagli

Verdetto: Miglior rapporto qualità-prezzo

26B MoE

Qualità vicina al 31B con una frazione del calcolo. Il punto ottimale per il deployment in produzione. Sta su una singola RTX 4090.

Punti di forza: efficienza, qualità vicina al 31B, deployment su singola GPU. Debolezza: più lento del Dense a batch bassi.

Miglior rapporto qualità-prezzo

Prova il 26B Tutti i dettagli

Verdetto: Impressionante

E4B Edge

Il modello edge consigliato. Ragionamento e codifica solidi per le sue dimensioni. L'audio nativo è un vantaggio unico rispetto ai concorrenti.

Punti di forza: supporto audio, buon ragionamento, gira su laptop. Debolezza: limitato per compiti complessi.

Scelta edge

Prova l'E4B Tutti i dettagli

Verdetto: Di nicchia ma utile

E2B Compact

Velocissimo a 95 tok/s. Utile per compiti semplici e applicazioni in tempo reale. Non adatto al ragionamento complesso.

Punti di forza: velocità, footprint minuscolo, supporto audio. Debolezza: qualità in calo sui compiti difficili.

Scelta velocità

Prova l'E2B Tutti i dettagli

Cosa funziona

Dove Gemma 4 eccelle

Dopo test su decine di compiti reali, ecco le aree dove Gemma 4 impressiona davvero.

Ragionamento matematico

89.2% su AIME 2026 non è un caso. Il modo Thinking produce soluzioni chiare e passo dopo passo. Davvero utile per il tutoraggio in matematica e la risoluzione di problemi.

Generazione di codice

80% su LiveCodeBench v6 si traduce in assistenza pratica alla codifica. Implementazione di funzioni, debugging e code review sono tutti solidi.

Comprensione multimodale

Analisi di immagini, parsing di documenti e comprensione di grafici funzionano bene. Il supporto a risoluzione variabile gestisce elegantemente diversi tipi di immagini.

Deployment locale

La gamma da 3.2 GB a 17 GB (a 4 bit) significa che c'è un modello per ogni livello di hardware. L'installazione di Ollama richiede meno di 2 minuti.

Function calling

Il function calling nativo è affidabile. L'output JSON è ben formato, la selezione degli strumenti è precisa, e i workflow di agenti multi-step funzionano in modo coerente.

Multilingue

Il supporto per 140+ lingue è reale. La qualità si mantiene bene nelle principali lingue, non solo in inglese.

Valutazione onesta

Dove Gemma 4 mostra limiti

Nessun modello è perfetto. Ecco dove Gemma 4 può migliorare.

Debolezze

SWE-Bench: 52% vs 73.4% di Qwen 3.6 - divario significativo nella codifica autonoma
Nessun audio nativo su 26B e 31B - solo i modelli edge hanno encoder audio
Il 26B MoE è più lento del previsto a batch bassi
La qualità dell'E2B cala notevolmente sui compiti di ragionamento complessi
Le prestazioni in contesto lungo degradano oltre ~100K token nella pratica

Concorrenza

Qwen 3.6 35B A3B: Migliore nella codifica agentiva (SWE-Bench, Terminal-Bench)
GLM-5.1: Più forte su alcuni compiti in cinese
Llama 4: Opzioni di finestra di contesto più grandi
DeepSeek V4: Competitivo sui benchmark di ragionamento
Mistral Small 4: Inferenza più veloce a livelli di qualità simili

Provalo tu stesso Confronta con Qwen 3.6

Benchmark

Benchmark ufficiali vs esperienza reale

Come si traducono i numeri ufficiali nell'uso reale? Ecco la nostra valutazione dopo test approfonditi.

I benchmark ufficiali raccontano solo una parte della storia. I test reali rivelano dove i numeri corrispondono all'esperienza e dove no.

Provalo tu stesso Vedi la scheda modello

Prestazioni benchmark di Gemma 4 su tutti i modelli

Ragionamento matematico: i benchmark corrispondono alla realtà - il modo Thinking aiuta davvero

Codifica: forte nella generazione, più debole nell'editing autonomo (divario SWE-Bench)

Multimodale: la comprensione delle immagini è solida, l'OCR dei documenti funziona bene

Velocità: l'E2B è davvero veloce (~95 tok/s), il 26B è più lento del previsto in locale

Verifica delle prestazioni

Gemma 4 vs la concorrenza

Come Gemma 4 31B si confronta con altri modelli aperti leader sui benchmark chiave.

Benchmark	Gemma 4 31B In evidenza	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

Dati benchmark dalle schede modello ufficiali e test indipendenti. I punteggi possono variare in base alla metodologia di valutazione.

Ragionamento

Ragionamento matematico e scientifico: davvero impressionante

Il modo Thinking del modello 31B produce soluzioni chiare e passo dopo passo, facili da seguire e verificare. 89.2% su AIME 2026 si traduce in vera capacità di tutoraggio matematico.

Il modo Thinking mostra catene di ragionamento chiare
Gestisce problemi multi-step con buona precisione
Il ragionamento scientifico (GPQA Diamond 84.3%) è solido

Testa il ragionamento Vedi i benchmark

Ragionamento matematico e scientifico: davvero impressionante

Codifica

Generazione di codice solida, editing autonomo più debole

Gemma 4 eccelle nella generazione di codice, debugging e spiegazione. Ma sui compiti di editing autonomo del codice (SWE-Bench), è nettamente dietro Qwen 3.6. Se hai bisogno di un agente di codifica IA, Qwen 3.6 è attualmente migliore.

Generazione di codice e debugging: eccellente (80% LiveCodeBench)
Function calling per agenti: affidabile e ben formato
Editing autonomo del codice: più debole (52% vs 73.4% di Qwen su SWE-Bench)

Testa la codifica Confronta con Qwen 3.6

Generazione di codice solida, editing autonomo più debole

Uso locale

La migliore famiglia di modelli aperti per il deployment locale

Nessun'altra famiglia di modelli copre la gamma dallo smartphone alla workstation come Gemma 4. L'E2B gira a 95 tok/s su hardware consumer, e il 26B sta su una singola RTX 4090 con qualità vicina al 31B.

E2B: velocissimo, sta sugli smartphone, ma limitato per compiti complessi
E4B: il punto ottimale per utenti laptop, buona qualità complessiva
26B: qualità vicina al 31B su una singola GPU, ma più lento del previsto

Esegui localmente Guida hardware