Modelli Gemma 4
Quattro modelli, una famiglia - dall'edge al frontier
La famiglia Gemma 4 comprende quattro architetture: gli ultra-compatti E2B ed E4B per dispositivi edge, il 26B MoE per un deployment server efficiente e il modello di punta 31B Dense. Tutti condividono il supporto multimodale nativo, il ragionamento configurabile e la licenza Apache 2.0.
Tutti i modelli
Scegliete il Gemma 4 giusto per il vostro caso d'uso
Ogni modello della famiglia è ottimizzato per diversi scenari di deployment. I modelli edge includono il supporto audio, mentre i modelli server offrono un contesto di 256K e ragionamento di classe frontier.
Modelli Edge
E2B & E4B: Intelligenza on-device con audio
Modelli ultra-compatti con 2.3B e 4.5B parametri effettivi. Entrambi includono encoder audio nativi, contesto 128K e funzionano su smartphone, browser e dispositivi IoT.
Scegliete E2B per l'ingombro minimo (3.2 GB a 4-bit). Scegliete E4B per una qualità superiore (5.5 GB a 4-bit). Entrambi supportano input di testo, immagini, video e audio.
Modelli Server
26B MoE & 31B Dense: Prestazioni frontier
Il 26B MoE attiva solo 4B parametri per token per un serving efficiente. Il 31B Dense è il modello di punta, al 3° posto su Arena AI. Entrambi offrono contesto 256K e Function Calling nativo.
Scegliete 26B per la produzione ad alto throughput (16 GB a 4-bit). Scegliete 31B per la massima qualità (17 GB a 4-bit). Entrambi eccellono nel ragionamento, nel codice e nelle attività multimodali.
Edge - Ultra-compatto
Gemma 4 E2B
2.3B parametri effettivi. Il più piccolo Gemma 4 con supporto multimodale completo + audio.
35 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 3.2 GB VRAM a 4-bit.
Edge - Consigliato
Gemma 4 E4B
4.5B parametri effettivi. Il miglior modello edge con ragionamento solido e supporto audio.
42 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 5.5 GB VRAM a 4-bit.
Server - Efficiente
Gemma 4 26B A4B
25.2B totali, 3.8B attivi per token. Qualità vicina al 31B con una frazione del calcolo.
MoE con 128 esperti (8 attivi + 1 condiviso). Contesto 256K. 16 GB VRAM a 4-bit.
Server - Modello di punta
Gemma 4 31B
30.7B parametri dense. 3° su Arena AI. Massima intelligenza e affidabilità.
Architettura dense, contesto 256K, 140+ lingue. 17 GB VRAM a 4-bit.
Capacità condivise
Cosa può fare ogni modello Gemma 4
Tutti e quattro i modelli condividono un insieme comune di capacità che rendono la famiglia Gemma 4 straordinariamente versatile.
Multimodale nativo
Tutti i modelli elaborano testo e immagini nativamente. I modelli edge aggiungono il supporto audio e video. Nessun encoder o pipeline separato necessario.
Ragionamento configurabile
Tutti i modelli supportano modalità di ragionamento passo dopo passo. Controllate la profondità del ragionamento in base alla complessità del compito.
Function Calling
Il Function Calling integrato in tutta la famiglia abilita workflow agentici. Nessun fine-tuning necessario per l'uso degli strumenti.
Contesto esteso
128K token per i modelli edge, 256K per i modelli server. L'attention ibrida mantiene l'uso della memoria pratico.
140+ lingue
Supporto multilingue con comprensione del contesto culturale su tutte le dimensioni di modello.
Licenza Apache 2.0
Piena libertà commerciale. Nessun limite MAU, nessuna restrizione d'uso. Distribuite ovunque, modificate liberamente.
Guida alla selezione rapida
Quale modello dovreste scegliere?
Abbinate i vincoli di deployment e i requisiti di qualità alla variante Gemma 4 più adatta.
Per hardware
- Smartphone / IoT / 4 GB RAM: Gemma 4 E2B
- Laptop / 8-16 GB RAM: Gemma 4 E4B
- GPU singola / 16-24 GB VRAM: Gemma 4 26B A4B
- Multi-GPU / 24 GB+ VRAM: Gemma 4 31B
Per caso d'uso
- Assistente vocale / audio: E2B o E4B (supporto audio)
- IA nel browser: E2B o E4B (WebGPU)
- API ad alto throughput: 26B A4B (efficienza MoE)
- Massima qualità: 31B Dense (prestazioni frontier)
Prestazioni
Confronto completo dei benchmark di tutti e quattro i modelli
Ogni modello Gemma 4 fa parte di una frontiera di Pareto: ogni dimensione offre prestazioni eccezionali rispetto al proprio numero di parametri.
Dall'ultra-compatto E2B al modello di punta 31B, ogni modello è ottimizzato per il proprio livello di deployment condividendo le stesse innovazioni architetturali.


31B Dense: 3° su Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE: Qualità vicina al 31B (ELO 1441) con solo 4B parametri attivi per token
E4B: 69.4% MMLU Pro, 52% LiveCodeBench - eccellenti prestazioni edge con audio
E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB di VRAM
Confronto completo della famiglia
Tutti i modelli Gemma 4 fianco a fianco
Risultati completi dei benchmark per ragionamento, codice, multimodale e metriche di deployment.
| Benchmark | 31B Dense Modello di punta 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Compatto E2B |
|---|---|---|---|---|
Arena AI ELO Classifica generale | 1452 | 1441 | - | - |
MMLU Pro Conoscenza e ragionamento | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Matematica | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Codice | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Scienze | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodale | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Token massimi | 256K | 256K | 128K | 128K |
Audio Support Audio nativo | No | No | Yes | Yes |
VRAM (4-bit) Memoria minima | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Tutti i dati dalla scheda ufficiale Gemma 4. Punteggi Arena AI al 2 aprile 2026.
Livello Edge
E2B & E4B: L'IA che funziona sul vostro dispositivo
I modelli edge portano l'IA multimodale completa su smartphone, browser e dispositivi IoT. Entrambi includono encoder audio nativi, una capacità assente nei modelli più grandi. Scegliete E2B per l'ingombro minimo, E4B per una qualità superiore.
- E2B: 2.3B effettivi, 3.2 GB a 4-bit, 95 tok/s su hardware consumer
- E4B: 4.5B effettivi, 5.5 GB a 4-bit, ragionamento e codice solidi
- Entrambi: audio nativo, contesto 128K, supporto browser WebGPU
Livello Server
26B MoE & 31B Dense: Prestazioni frontier
I modelli server offrono ragionamento, codice e comprensione multimodale di classe frontier. Il 26B MoE offre qualità vicina al 31B con una frazione del calcolo. Il 31B Dense è il modello di punta per le massime prestazioni.
- 26B MoE: 3.8B attivi per token, ELO 1441, 88.3% AIME 2026
- 31B Dense: 30.7B completamente attivi, ELO 1452, 89.2% AIME 2026
- Entrambi: contesto 256K, Function Calling nativo, 140+ lingue
Architettura
Innovazioni condivise in tutta la famiglia
Tutti i modelli Gemma 4 condividono le innovazioni architetturali chiave della ricerca Google DeepMind. Per-Layer Embeddings, cache KV condivisa e pattern di attention ibridi massimizzano l'efficienza a ogni scala.
- Per-Layer Embeddings (PLE) per un condizionamento efficiente in parametri
- Cache KV condivisa per ridurre la memoria durante la generazione a contesto lungo
- Attention ibrida locale/globale per un compromesso ottimale memoria-qualità

Prova ora
Chattate con qualsiasi modello Gemma 4
Provate tutti i modelli istantaneamente tramite la nostra interfaccia di chat, oppure scaricateli per il deployment locale.
Scarica
Ottieni i pesi del modello
Scaricate i pesi ufficiali di qualsiasi variante Gemma 4.
Distribuisci
Deployment in produzione
Distribuite su piattaforme cloud, locali o edge.
Famiglia Gemma 4
Esplorate ogni modello nel dettaglio
Approfondite ogni variante Gemma 4 con pagine dedicate che coprono architettura, benchmark e guide al deployment.
Inizia
Trovate il vostro modello Gemma 4
Chattate gratuitamente con qualsiasi modello Gemma 4, oppure scaricate i pesi per il deployment locale. Licenza Apache 2.0 per piena libertà commerciale.