Panoramica
Rilasciato il 2 aprile 2026 sotto licenza Apache 2.0, Gemma 4 offre intelligenza multimodale di classe avanzata attraverso quattro architetture. Dai modelli edge ultra-mobili da 2B alla variante densa flagship da 31B, ogni dimensione elabora nativamente testo, immagini a risoluzione variabile, video e audio.
Modelli Edge
Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser con supporto audio nativo e contesto 128K.
Le varianti E2B ed E4B utilizzano Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri. Supportano nativamente input di testo, immagini, video e audio, rendendoli ideali per applicazioni on-device orientate alla privacy.
Modelli Server
Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile.
Entrambi i modelli dispongono di finestre di contesto da 256K, chiamata di funzioni nativa e modalità di pensiero configurabili. Il 31B raggiunge l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6, competendo con modelli molte volte più grandi.
Capacità
Tutti i modelli elaborano nativamente testo, immagini con rapporti d'aspetto variabili, video e audio. E2B ed E4B includono encoder audio per la comprensione del parlato.
L'encoder visivo utilizza posizioni 2D apprese e RoPE multidimensionale, preservando i rapporti d'aspetto originali. Le immagini possono essere codificate con diversi budget di token (70, 140, 280, 560, 1120) per compromessi ottimali velocità-qualità.
Architettura
I modelli piccoli dispongono di contesto 128K, mentre i modelli medi supportano 256K. Le configurazioni RoPE duali abilitano l'elaborazione di contesti più lunghi.
L'alternanza di layer di attenzione locale sliding-window (512-1024 token) e globale full-context ottimizza l'uso della memoria. La cache KV condivisa riduce calcolo e memoria per la generazione di contesti lunghi.
Funzionalità
Tutti i modelli supportano modalità di pensiero configurabili per compiti di ragionamento avanzato, con supporto nativo per prompt di sistema per conversazioni strutturate.
Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026 e l'84,3% su GPQA Diamond. La chiamata di funzioni integrata alimenta agenti autonomi senza fine-tuning.
Prestazioni
Il modello 31B ottiene l'80% su LiveCodeBench v6 e raggiunge 2150 ELO Codeforces. Il 26B MoE raggiunge il 77,1% con solo 4B parametri attivi.
Miglioramenti notevoli nei benchmark di coding insieme al supporto integrato per la chiamata di funzioni abilitano agenti autonomi altamente capaci. Il benchmark HLE mostra il 19,5% senza strumenti, 26,5% con ricerca.
Multimodale
Il modello 31B raggiunge il 76,9% su MMMU Pro e l'85,6% su MATH-Vision. La distanza di modifica OmniDocBench di 0,131 dimostra forti capacità OCR.
Il supporto per rapporti d'aspetto variabili e budget di token immagine configurabili consentono l'elaborazione efficiente di documenti, diagrammi e screenshot. Il modello E4B raggiunge il 52,6% su MMMU Pro nonostante le dimensioni compatte.
Integrazione
Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. I checkpoint ONNX abilitano il deployment su dispositivi edge.
La licenza Apache 2.0 consente l'uso commerciale responsabile. Disponibile su Kaggle, Hugging Face e tramite Google AI Studio. Compatibile con strumenti locali come Ollama per interazioni private e offline.
Inizia
Sperimenta gratuitamente i modelli multimodali avanzati di Google DeepMind. Nessuna carta di credito richiesta per iniziare la tua prima conversazione.
Introduzione
Scopri le quattro architetture di modelli, le capacità multimodali native e le opzioni di deployment da Google DeepMind.
Prestazioni
I modelli Gemma 4 formano una frontiera di Pareto, offrendo prestazioni eccezionali relative alle loro dimensioni. Il modello denso da 31B si classifica al 3° posto tra tutti i modelli aperti nella classifica Arena AI.
I benchmark ufficiali dimostrano prestazioni competitive con modelli molte volte più grandi. Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026, mentre il 26B MoE raggiunge qualità simile con solo 4B parametri attivi.


Il modello 31B raggiunge l'89,2% su AIME 2026 e l'85,2% su MMLU Pro, competendo con modelli oltre 100B parametri.
Le prestazioni di coding raggiungono l'80% su LiveCodeBench v6 e 2150 ELO Codeforces, superando molti modelli più grandi.
Le capacità di visione includono il 76,9% su MMMU Pro e l'85,6% su MATH-Vision, con forte OCR e comprensione documenti.
Benchmark Ufficiali
Valutazione completa su compiti di ragionamento, coding, visione, audio e contesto lungo dimostra capacità di classe avanzata.
| Benchmark | Gemma 4 31B Flagship denso 31B | Gemma 4 26B A4B MoE (4B attivi) 26B | Gemma 4 E4B Modello edge E4B | Gemma 4 E2B Ultra-compatto E2B |
|---|---|---|---|---|
MMLU Pro Conoscenza e ragionamento | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (senza strumenti) Ragionamento matematico | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond Scienza livello universitario | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 Prestazioni coding | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO Programmazione competitiva | 2150 | 1718 | 940 | 633 |
MMMU Pro Comprensione multimodale | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision Ragionamento matematico visivo | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 OCR documenti (distanza modifica) | 0.131 | 0.149 | 0.181 | 0.290 |
Context Window Token massimi | 256K | 256K | 128K | 128K |
Audio Support Input audio nativo | No | No | Sì | Sì |
Tutte le cifre provengono dalla scheda modello ufficiale Gemma 4 e dal blog Hugging Face. I benchmark E2B ed E4B dimostrano efficienza eccezionale per il loro conteggio parametri.
Modelli Server
Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile, ideale per scenari ad alto throughput.
Modelli Edge
Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser. Gli encoder audio nativi abilitano la comprensione del parlato in tempo reale on-device.
Architettura
Gemma 4 introduce innovazioni architetturali che massimizzano l'efficienza. PLE fornisce a ogni layer decoder il proprio percorso di condizionamento, mentre la cache KV condivisa riduce l'uso della memoria durante la generazione di contesti lunghi.

Multimodale
Tutti i modelli elaborano nativamente testo e immagini con rapporti d'aspetto variabili. L'encoder visivo utilizza posizioni 2D apprese e può codificare immagini con diversi budget di token (70-1120) per compromessi velocità-qualità.

Deployment
Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. E2B ed E4B funzionano nei browser con transformers.js, mentre 31B e 26B eccellono su hardware server.

FAQ
Comprendere le innovazioni tecniche di Gemma 4, dai Per-Layer Embeddings all'elaborazione multimodale.
Gemma 4 introduce supporto multimodale nativo (testo, immagine, video, audio), finestre di contesto estese (128K-256K), modalità di pensiero configurabili e chiamata di funzioni integrata. L'architettura utilizza Per-Layer Embeddings (PLE) per l'efficienza e cache KV condivisa per ridurre l'uso della memoria durante la generazione di contesti lunghi.
E2B (2,3B effettivi) ed E4B (4,5B effettivi) sono progettati per dispositivi edge, browser e mobile con supporto audio nativo. Il 26B A4B è un modello Mixture-of-Experts che attiva solo 4B parametri per token, ideale per scenari ad alto throughput. Il modello denso da 31B è il flagship per prestazioni massime su compiti di ragionamento, coding e visione.
Tutti i modelli elaborano nativamente testo e immagini con rapporti d'aspetto variabili. L'encoder visivo utilizza posizioni 2D apprese e può codificare immagini con diversi budget di token (70-1120 token) per compromessi velocità-qualità. E2B ed E4B includono encoder audio conformer in stile USM per la comprensione del parlato. Il video è supportato in tutta la famiglia elaborando frame e tracce audio.
PLE fornisce a ogni layer decoder il proprio piccolo embedding per ogni token, creando un percorso di condizionamento parallelo accanto al flusso residuo principale. Questo consente a ogni layer di ricevere informazioni specifiche del token solo quando rilevante, piuttosto che impacchettare tutto in un singolo embedding iniziale. Aggiunge specializzazione significativa per layer a costo parametrico modesto, rendendo i modelli piccoli più efficienti.
FAQ
Iniziare con Gemma 4 su diverse piattaforme, dal cloud ai dispositivi edge.
I modelli Gemma 4 sono disponibili su Kaggle e Hugging Face sotto licenza Apache 2.0. Puoi utilizzarli tramite Google AI Studio, deployarli su Vertex AI o eseguirli localmente con strumenti come Ollama, llama.cpp, MLX (per Apple Silicon), transformers e Mistral.rs. I checkpoint ONNX abilitano il deployment su browser e dispositivi edge.
E2B richiede ~9,6GB (BF16) a 3,2GB (4-bit) di VRAM. E4B necessita di ~15GB (BF16) a 5GB (4-bit). Il modello 31B richiede ~58GB (BF16) a 17GB (4-bit). Il 26B MoE necessita di ~48GB (BF16) a 16GB (4-bit). Questi sono solo i pesi base; aggiungi memoria per la finestra di contesto (cache KV) in base al tuo caso d'uso.
Sì. I modelli E2B ed E4B sono specificamente progettati per il deployment su browser e mobile. transformers.js abilita l'esecuzione di Gemma 4 direttamente nei browser con supporto WebGPU. I checkpoint ONNX funzionano su vari backend hardware edge. I modelli sono ottimizzati per dispositivi Pixel e ambienti browser Chrome.
Gemma 4 ha supporto integrato per la chiamata di funzioni senza richiedere fine-tuning. I modelli possono analizzare definizioni di strumenti, generare chiamate JSON strutturate e gestire chiamate di funzioni multimodali (ad es., analizzare un'immagine e chiamare un'API meteo). Questo alimenta agenti autonomi per compiti come esecuzione codice, navigazione web e recupero dati.
FAQ
Come Gemma 4 si confronta con altri modelli e cosa lo rende competitivo per diversi casi d'uso.
Il modello 31B si classifica al 3° posto nella classifica Arena AI tra i modelli aperti, superando Llama 3.3 70B nonostante sia meno della metà delle dimensioni. Raggiunge l'89,2% sul ragionamento matematico AIME 2026, l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6. L'efficienza deriva da innovazioni architetturali come pattern di attenzione alternati e cache KV condivisa.
Il modello 26B A4B ha 26 miliardi di parametri totali ma attiva solo 4 miliardi per token durante la generazione. Tutti i 26B parametri devono essere caricati in memoria per il routing veloce, ma il costo di inferenza è più vicino a un modello 4B. Questo raggiunge l'88,3% su AIME 2026 e l'82,6% su MMLU Pro con calcolo significativamente inferiore per token rispetto al modello denso 31B.
Sì. I modelli piccoli supportano finestre di contesto 128K, mentre i modelli medi gestiscono 256K token. L'architettura utilizza configurazioni RoPE duali (standard per layer sliding, potate per layer globali) per abilitare contesti più lunghi. La cache KV condivisa riduce il consumo di memoria durante la generazione di contesti lunghi, rendendo pratico l'elaborazione di intere codebase e articoli di ricerca.
Gemma 4 è completamente supportato in TRL (Transformer Reinforcement Learning), con esempi per risposte di strumenti multimodali e interazione con l'ambiente. Hugging Face fornisce guide di fine-tuning per Vertex AI usando SFT. Unsloth Studio offre un'esperienza di fine-tuning basata su UI. I modelli supportano metodi PEFT come LoRA per training efficiente in termini di parametri.