Gemma 4 Recensione

Gemma 4: come un modello da 31B compete con rivali da 600B

La famiglia Gemma 4 di Google DeepMind è stata lanciata il 2 aprile 2026 con quattro modelli sotto Apache 2.0. Il 31B è al 3° posto su Arena AI, il 26B MoE gira su una singola RTX 4090, e l'E2B sta su uno smartphone. Ecco cosa funziona davvero e dove ci sono limiti.

Verdetto

Il verdetto su ogni modello Gemma 4

Dopo test approfonditi su ragionamento, codifica, multimodale e deployment locale, ecco il verdetto su ogni variante.

Verdetto complessivo

La famiglia di modelli aperti più potente che puoi eseguire localmente

Gemma 4 è la migliore famiglia di modelli aperti per chi vuole IA di frontiera sul proprio hardware. Il 31B compete con modelli 20 volte più grandi in ragionamento e codifica. Il 26B MoE è il punto ottimale per la maggior parte degli usi in produzione. I modelli edge portano vera IA su smartphone e browser.

La debolezza principale: nella codifica agentiva pura (SWE-Bench), Gemma 4 è ancora dietro Qwen 3.6 e GLM-5.1. Se il tuo uso principale è l'editing autonomo del codice, considera queste alternative.

Verdetto: Eccellente

31B Dense

Il modello di punta mantiene le promesse. 3° su Arena AI, ragionamento e codifica eccezionali, multimodale solido. Il miglior modello Dense aperto in questa dimensione.

Punti di forza: ragionamento, matematica, codifica, multimodale. Debolezza: SWE-Bench dietro Qwen 3.6.

Consigliato

Verdetto: Miglior rapporto qualità-prezzo

26B MoE

Qualità vicina al 31B con una frazione del calcolo. Il punto ottimale per il deployment in produzione. Sta su una singola RTX 4090.

Punti di forza: efficienza, qualità vicina al 31B, deployment su singola GPU. Debolezza: più lento del Dense a batch bassi.

Miglior rapporto qualità-prezzo

Verdetto: Impressionante

E4B Edge

Il modello edge consigliato. Ragionamento e codifica solidi per le sue dimensioni. L'audio nativo è un vantaggio unico rispetto ai concorrenti.

Punti di forza: supporto audio, buon ragionamento, gira su laptop. Debolezza: limitato per compiti complessi.

Scelta edge

Verdetto: Di nicchia ma utile

E2B Compact

Velocissimo a 95 tok/s. Utile per compiti semplici e applicazioni in tempo reale. Non adatto al ragionamento complesso.

Punti di forza: velocità, footprint minuscolo, supporto audio. Debolezza: qualità in calo sui compiti difficili.

Scelta velocità

Cosa funziona

Dove Gemma 4 eccelle

Dopo test su decine di compiti reali, ecco le aree dove Gemma 4 impressiona davvero.

Ragionamento matematico

89.2% su AIME 2026 non è un caso. Il modo Thinking produce soluzioni chiare e passo dopo passo. Davvero utile per il tutoraggio in matematica e la risoluzione di problemi.

Generazione di codice

80% su LiveCodeBench v6 si traduce in assistenza pratica alla codifica. Implementazione di funzioni, debugging e code review sono tutti solidi.

Comprensione multimodale

Analisi di immagini, parsing di documenti e comprensione di grafici funzionano bene. Il supporto a risoluzione variabile gestisce elegantemente diversi tipi di immagini.

Deployment locale

La gamma da 3.2 GB a 17 GB (a 4 bit) significa che c'è un modello per ogni livello di hardware. L'installazione di Ollama richiede meno di 2 minuti.

Function calling

Il function calling nativo è affidabile. L'output JSON è ben formato, la selezione degli strumenti è precisa, e i workflow di agenti multi-step funzionano in modo coerente.

Multilingue

Il supporto per 140+ lingue è reale. La qualità si mantiene bene nelle principali lingue, non solo in inglese.

Valutazione onesta

Dove Gemma 4 mostra limiti

Nessun modello è perfetto. Ecco dove Gemma 4 può migliorare.

Debolezze

  • SWE-Bench: 52% vs 73.4% di Qwen 3.6 - divario significativo nella codifica autonoma
  • Nessun audio nativo su 26B e 31B - solo i modelli edge hanno encoder audio
  • Il 26B MoE è più lento del previsto a batch bassi
  • La qualità dell'E2B cala notevolmente sui compiti di ragionamento complessi
  • Le prestazioni in contesto lungo degradano oltre ~100K token nella pratica

Concorrenza

  • Qwen 3.6 35B A3B: Migliore nella codifica agentiva (SWE-Bench, Terminal-Bench)
  • GLM-5.1: Più forte su alcuni compiti in cinese
  • Llama 4: Opzioni di finestra di contesto più grandi
  • DeepSeek V4: Competitivo sui benchmark di ragionamento
  • Mistral Small 4: Inferenza più veloce a livelli di qualità simili

Benchmark

Benchmark ufficiali vs esperienza reale

Come si traducono i numeri ufficiali nell'uso reale? Ecco la nostra valutazione dopo test approfonditi.

I benchmark ufficiali raccontano solo una parte della storia. I test reali rivelano dove i numeri corrispondono all'esperienza e dove no.

Prestazioni benchmark di Gemma 4 su tutti i modelli

Ragionamento matematico: i benchmark corrispondono alla realtà - il modo Thinking aiuta davvero

Codifica: forte nella generazione, più debole nell'editing autonomo (divario SWE-Bench)

Multimodale: la comprensione delle immagini è solida, l'OCR dei documenti funziona bene

Velocità: l'E2B è davvero veloce (~95 tok/s), il 26B è più lento del previsto in locale

Verifica delle prestazioni

Gemma 4 vs la concorrenza

Come Gemma 4 31B si confronta con altri modelli aperti leader sui benchmark chiave.

Benchmark
Gemma 4 31B
In evidenza
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

Dati benchmark dalle schede modello ufficiali e test indipendenti. I punteggi possono variare in base alla metodologia di valutazione.

Ragionamento

Ragionamento matematico e scientifico: davvero impressionante

Il modo Thinking del modello 31B produce soluzioni chiare e passo dopo passo, facili da seguire e verificare. 89.2% su AIME 2026 si traduce in vera capacità di tutoraggio matematico.

  • Il modo Thinking mostra catene di ragionamento chiare
  • Gestisce problemi multi-step con buona precisione
  • Il ragionamento scientifico (GPQA Diamond 84.3%) è solido
Ragionamento matematico e scientifico: davvero impressionante

Codifica

Generazione di codice solida, editing autonomo più debole

Gemma 4 eccelle nella generazione di codice, debugging e spiegazione. Ma sui compiti di editing autonomo del codice (SWE-Bench), è nettamente dietro Qwen 3.6. Se hai bisogno di un agente di codifica IA, Qwen 3.6 è attualmente migliore.

  • Generazione di codice e debugging: eccellente (80% LiveCodeBench)
  • Function calling per agenti: affidabile e ben formato
  • Editing autonomo del codice: più debole (52% vs 73.4% di Qwen su SWE-Bench)
Generazione di codice solida, editing autonomo più debole

Uso locale

La migliore famiglia di modelli aperti per il deployment locale

Nessun'altra famiglia di modelli copre la gamma dallo smartphone alla workstation come Gemma 4. L'E2B gira a 95 tok/s su hardware consumer, e il 26B sta su una singola RTX 4090 con qualità vicina al 31B.

  • E2B: velocissimo, sta sugli smartphone, ma limitato per compiti complessi
  • E4B: il punto ottimale per utenti laptop, buona qualità complessiva
  • 26B: qualità vicina al 31B su una singola GPU, ma più lento del previsto
La migliore famiglia di modelli aperti per il deployment locale

Esplora di più

Approfondisci Gemma 4

Esplora i singoli modelli, le opzioni di deployment e i confronti.

Gemma 4 31B

Recensione del modello Dense di punta

Leggi di più

Gemma 4 26B

Recensione dell'efficienza MoE

Leggi di più

Esegui localmente

Guida al deployment locale

Inizia

Confronto Qwen 3.6

Testa a testa con il principale rivale

Confronta

Accesso API

Usa tramite API ospitate

Inizia

Download

Ottieni i pesi del modello

Scarica

Provalo tu stesso

La migliore recensione è la tua esperienza

Prova tutti i modelli Gemma 4 gratuitamente. Nessuna registrazione richiesta per la chat base. Forma la tua opinione.