Gemma 4 Recensione
Gemma 4: come un modello da 31B compete con rivali da 600B
La famiglia Gemma 4 di Google DeepMind è stata lanciata il 2 aprile 2026 con quattro modelli sotto Apache 2.0. Il 31B è al 3° posto su Arena AI, il 26B MoE gira su una singola RTX 4090, e l'E2B sta su uno smartphone. Ecco cosa funziona davvero e dove ci sono limiti.
Verdetto
Il verdetto su ogni modello Gemma 4
Dopo test approfonditi su ragionamento, codifica, multimodale e deployment locale, ecco il verdetto su ogni variante.
Verdetto complessivo
La famiglia di modelli aperti più potente che puoi eseguire localmente
Gemma 4 è la migliore famiglia di modelli aperti per chi vuole IA di frontiera sul proprio hardware. Il 31B compete con modelli 20 volte più grandi in ragionamento e codifica. Il 26B MoE è il punto ottimale per la maggior parte degli usi in produzione. I modelli edge portano vera IA su smartphone e browser.
La debolezza principale: nella codifica agentiva pura (SWE-Bench), Gemma 4 è ancora dietro Qwen 3.6 e GLM-5.1. Se il tuo uso principale è l'editing autonomo del codice, considera queste alternative.
Verdetto: Eccellente
31B Dense
Il modello di punta mantiene le promesse. 3° su Arena AI, ragionamento e codifica eccezionali, multimodale solido. Il miglior modello Dense aperto in questa dimensione.
Punti di forza: ragionamento, matematica, codifica, multimodale. Debolezza: SWE-Bench dietro Qwen 3.6.
Verdetto: Miglior rapporto qualità-prezzo
26B MoE
Qualità vicina al 31B con una frazione del calcolo. Il punto ottimale per il deployment in produzione. Sta su una singola RTX 4090.
Punti di forza: efficienza, qualità vicina al 31B, deployment su singola GPU. Debolezza: più lento del Dense a batch bassi.
Verdetto: Impressionante
E4B Edge
Il modello edge consigliato. Ragionamento e codifica solidi per le sue dimensioni. L'audio nativo è un vantaggio unico rispetto ai concorrenti.
Punti di forza: supporto audio, buon ragionamento, gira su laptop. Debolezza: limitato per compiti complessi.
Verdetto: Di nicchia ma utile
E2B Compact
Velocissimo a 95 tok/s. Utile per compiti semplici e applicazioni in tempo reale. Non adatto al ragionamento complesso.
Punti di forza: velocità, footprint minuscolo, supporto audio. Debolezza: qualità in calo sui compiti difficili.
Cosa funziona
Dove Gemma 4 eccelle
Dopo test su decine di compiti reali, ecco le aree dove Gemma 4 impressiona davvero.
Ragionamento matematico
89.2% su AIME 2026 non è un caso. Il modo Thinking produce soluzioni chiare e passo dopo passo. Davvero utile per il tutoraggio in matematica e la risoluzione di problemi.
Generazione di codice
80% su LiveCodeBench v6 si traduce in assistenza pratica alla codifica. Implementazione di funzioni, debugging e code review sono tutti solidi.
Comprensione multimodale
Analisi di immagini, parsing di documenti e comprensione di grafici funzionano bene. Il supporto a risoluzione variabile gestisce elegantemente diversi tipi di immagini.
Deployment locale
La gamma da 3.2 GB a 17 GB (a 4 bit) significa che c'è un modello per ogni livello di hardware. L'installazione di Ollama richiede meno di 2 minuti.
Function calling
Il function calling nativo è affidabile. L'output JSON è ben formato, la selezione degli strumenti è precisa, e i workflow di agenti multi-step funzionano in modo coerente.
Multilingue
Il supporto per 140+ lingue è reale. La qualità si mantiene bene nelle principali lingue, non solo in inglese.
Valutazione onesta
Dove Gemma 4 mostra limiti
Nessun modello è perfetto. Ecco dove Gemma 4 può migliorare.
Debolezze
- SWE-Bench: 52% vs 73.4% di Qwen 3.6 - divario significativo nella codifica autonoma
- Nessun audio nativo su 26B e 31B - solo i modelli edge hanno encoder audio
- Il 26B MoE è più lento del previsto a batch bassi
- La qualità dell'E2B cala notevolmente sui compiti di ragionamento complessi
- Le prestazioni in contesto lungo degradano oltre ~100K token nella pratica
Concorrenza
- Qwen 3.6 35B A3B: Migliore nella codifica agentiva (SWE-Bench, Terminal-Bench)
- GLM-5.1: Più forte su alcuni compiti in cinese
- Llama 4: Opzioni di finestra di contesto più grandi
- DeepSeek V4: Competitivo sui benchmark di ragionamento
- Mistral Small 4: Inferenza più veloce a livelli di qualità simili
Benchmark
Benchmark ufficiali vs esperienza reale
Come si traducono i numeri ufficiali nell'uso reale? Ecco la nostra valutazione dopo test approfonditi.
I benchmark ufficiali raccontano solo una parte della storia. I test reali rivelano dove i numeri corrispondono all'esperienza e dove no.


Ragionamento matematico: i benchmark corrispondono alla realtà - il modo Thinking aiuta davvero
Codifica: forte nella generazione, più debole nell'editing autonomo (divario SWE-Bench)
Multimodale: la comprensione delle immagini è solida, l'OCR dei documenti funziona bene
Velocità: l'E2B è davvero veloce (~95 tok/s), il 26B è più lento del previsto in locale
Verifica delle prestazioni
Gemma 4 vs la concorrenza
Come Gemma 4 31B si confronta con altri modelli aperti leader sui benchmark chiave.
| Benchmark | Gemma 4 31B In evidenza | Gemma 4 26B | Qwen 3.6 35B | Llama 4 Scout |
|---|---|---|---|---|
MMLU Pro Knowledge | 85.2% | 82.6% | 83.1% | 74.3% |
AIME 2026 Math | 89.2% | 88.3% | 81.5% | 73.0% |
LiveCodeBench v6 Coding | 80.0% | 77.1% | 75.2% | 53.0% |
SWE-Bench Verified Agentic coding | 52.0% | - | 73.4% | - |
MMMU Pro Multimodal | 76.9% | 73.8% | 70.2% | 57.5% |
Arena AI ELO Overall | 1452 | 1441 | ~1440 | ~1380 |
Dati benchmark dalle schede modello ufficiali e test indipendenti. I punteggi possono variare in base alla metodologia di valutazione.
Ragionamento
Ragionamento matematico e scientifico: davvero impressionante
Il modo Thinking del modello 31B produce soluzioni chiare e passo dopo passo, facili da seguire e verificare. 89.2% su AIME 2026 si traduce in vera capacità di tutoraggio matematico.
- Il modo Thinking mostra catene di ragionamento chiare
- Gestisce problemi multi-step con buona precisione
- Il ragionamento scientifico (GPQA Diamond 84.3%) è solido
Codifica
Generazione di codice solida, editing autonomo più debole
Gemma 4 eccelle nella generazione di codice, debugging e spiegazione. Ma sui compiti di editing autonomo del codice (SWE-Bench), è nettamente dietro Qwen 3.6. Se hai bisogno di un agente di codifica IA, Qwen 3.6 è attualmente migliore.
- Generazione di codice e debugging: eccellente (80% LiveCodeBench)
- Function calling per agenti: affidabile e ben formato
- Editing autonomo del codice: più debole (52% vs 73.4% di Qwen su SWE-Bench)
Uso locale
La migliore famiglia di modelli aperti per il deployment locale
Nessun'altra famiglia di modelli copre la gamma dallo smartphone alla workstation come Gemma 4. L'E2B gira a 95 tok/s su hardware consumer, e il 26B sta su una singola RTX 4090 con qualità vicina al 31B.
- E2B: velocissimo, sta sugli smartphone, ma limitato per compiti complessi
- E4B: il punto ottimale per utenti laptop, buona qualità complessiva
- 26B: qualità vicina al 31B su una singola GPU, ma più lento del previsto
Provalo
Testa Gemma 4 tu stesso
La migliore recensione è la tua esperienza. Prova tutti i modelli gratuitamente.
Confronti
Come si confronta Gemma 4
Confronti dettagliati con i modelli concorrenti.
Risorse
Scopri di più
Approfondimenti sull'architettura e le capacità di Gemma 4.
Esplora di più
Approfondisci Gemma 4
Esplora i singoli modelli, le opzioni di deployment e i confronti.
Provalo tu stesso
La migliore recensione è la tua esperienza
Prova tutti i modelli Gemma 4 gratuitamente. Nessuna registrazione richiesta per la chat base. Forma la tua opinione.