Gemma 4: Intelligenza Multimodale Avanzata Eseguibile Ovunque

Panoramica

Quattro Modelli, Una Famiglia: Dalle Prestazioni Edge a Quelle Server

Rilasciato il 2 aprile 2026 sotto licenza Apache 2.0, Gemma 4 offre intelligenza multimodale di classe avanzata attraverso quattro architetture. Dai modelli edge ultra-mobili da 2B alla variante densa flagship da 31B, ogni dimensione elabora nativamente testo, immagini a risoluzione variabile, video e audio.

Modelli Edge

Gemma 4 E2B & E4B: Intelligenza On-Device

Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser con supporto audio nativo e contesto 128K.

Le varianti E2B ed E4B utilizzano Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri. Supportano nativamente input di testo, immagini, video e audio, rendendoli ideali per applicazioni on-device orientate alla privacy.

Modelli Server

Gemma 4 31B Dense & 26B MoE: Prestazioni Avanzate

Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile.

Entrambi i modelli dispongono di finestre di contesto da 256K, chiamata di funzioni nativa e modalità di pensiero configurabili. Il 31B raggiunge l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6, competendo con modelli molte volte più grandi.

Capacità

Multimodale Nativo

Tutti i modelli elaborano nativamente testo, immagini con rapporti d'aspetto variabili, video e audio. E2B ed E4B includono encoder audio per la comprensione del parlato.

L'encoder visivo utilizza posizioni 2D apprese e RoPE multidimensionale, preservando i rapporti d'aspetto originali. Le immagini possono essere codificate con diversi budget di token (70, 140, 280, 560, 1120) per compromessi ottimali velocità-qualità.

Tutti i Modelli

Architettura

Finestre di Contesto Estese

I modelli piccoli dispongono di contesto 128K, mentre i modelli medi supportano 256K. Le configurazioni RoPE duali abilitano l'elaborazione di contesti più lunghi.

L'alternanza di layer di attenzione locale sliding-window (512-1024 token) e globale full-context ottimizza l'uso della memoria. La cache KV condivisa riduce calcolo e memoria per la generazione di contesti lunghi.

128K-256K

Funzionalità

Pensiero Configurabile

Tutti i modelli supportano modalità di pensiero configurabili per compiti di ragionamento avanzato, con supporto nativo per prompt di sistema per conversazioni strutturate.

Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026 e l'84,3% su GPQA Diamond. La chiamata di funzioni integrata alimenta agenti autonomi senza fine-tuning.

Tutti i Modelli

Prestazioni

Potenza di Coding & Agenti

Il modello 31B ottiene l'80% su LiveCodeBench v6 e raggiunge 2150 ELO Codeforces. Il 26B MoE raggiunge il 77,1% con solo 4B parametri attivi.

Miglioramenti notevoli nei benchmark di coding insieme al supporto integrato per la chiamata di funzioni abilitano agenti autonomi altamente capaci. Il benchmark HLE mostra il 19,5% senza strumenti, 26,5% con ricerca.

Ottimizzato

Multimodale

Visione & Analisi Documenti

Il modello 31B raggiunge il 76,9% su MMMU Pro e l'85,6% su MATH-Vision. La distanza di modifica OmniDocBench di 0,131 dimostra forti capacità OCR.

Il supporto per rapporti d'aspetto variabili e budget di token immagine configurabili consentono l'elaborazione efficiente di documenti, diagrammi e screenshot. Il modello E4B raggiunge il 52,6% su MMMU Pro nonostante le dimensioni compatte.

Tutti i Modelli

Integrazione

Deploy Ovunque

Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. I checkpoint ONNX abilitano il deployment su dispositivi edge.

La licenza Apache 2.0 consente l'uso commerciale responsabile. Disponibile su Kaggle, Hugging Face e tramite Google AI Studio. Compatibile con strumenti locali come Ollama per interazioni private e offline.

Open Source

Inizia

Inizia a Chattare con Gemma 4 Oggi

Sperimenta gratuitamente i modelli multimodali avanzati di Google DeepMind. Nessuna carta di credito richiesta per iniziare la tua prima conversazione.

Introduzione

Guarda: Introduzione Ufficiale a Gemma 4

Scopri le quattro architetture di modelli, le capacità multimodali native e le opzioni di deployment da Google DeepMind.

Prestazioni

Prestazioni Avanzate in Ragionamento, Coding e Visione

I modelli Gemma 4 formano una frontiera di Pareto, offrendo prestazioni eccezionali relative alle loro dimensioni. Il modello denso da 31B si classifica al 3° posto tra tutti i modelli aperti nella classifica Arena AI.

I benchmark ufficiali dimostrano prestazioni competitive con modelli molte volte più grandi. Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026, mentre il 26B MoE raggiunge qualità simile con solo 4B parametri attivi.

Confronto prestazioni Gemma 4 tra dimensioni di modelli e benchmark

Il modello 31B raggiunge l'89,2% su AIME 2026 e l'85,2% su MMLU Pro, competendo con modelli oltre 100B parametri.

Le prestazioni di coding raggiungono l'80% su LiveCodeBench v6 e 2150 ELO Codeforces, superando molti modelli più grandi.

Le capacità di visione includono il 76,9% su MMMU Pro e l'85,6% su MATH-Vision, con forte OCR e comprensione documenti.

Benchmark Ufficiali

Prestazioni Gemma 4 su Compiti Chiave

Valutazione completa su compiti di ragionamento, coding, visione, audio e contesto lungo dimostra capacità di classe avanzata.

Benchmark
Gemma 4 31B
Flagship denso
31B
Gemma 4 26B A4B
MoE (4B attivi)
26B
Gemma 4 E4B
Modello edge
E4B
Gemma 4 E2B
Ultra-compatto
E2B
MMLU Pro
Conoscenza e ragionamento
85.2%82.6%69.4%60.0%
AIME 2026 (senza strumenti)
Ragionamento matematico
89.2%88.3%42.5%37.5%
GPQA Diamond
Scienza livello universitario
84.3%82.3%58.6%43.4%
LiveCodeBench v6
Prestazioni coding
80.0%77.1%52.0%44.0%
Codeforces ELO
Programmazione competitiva
21501718940633
MMMU Pro
Comprensione multimodale
76.9%73.8%52.6%44.2%
MATH-Vision
Ragionamento matematico visivo
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR documenti (distanza modifica)
0.1310.1490.1810.290
Context Window
Token massimi
256K256K128K128K
Audio Support
Input audio nativo
NoNo

Tutte le cifre provengono dalla scheda modello ufficiale Gemma 4 e dal blog Hugging Face. I benchmark E2B ed E4B dimostrano efficienza eccezionale per il loro conteggio parametri.

Modelli Server

31B Dense & 26B MoE: Prestazioni Avanzate per la Produzione

Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile, ideale per scenari ad alto throughput.

  • 31B Dense: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
  • 26B MoE (4B attivi): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
  • Finestre di contesto 256K con configurazioni RoPE duali per elaborazione efficiente di contesti lunghi

Modelli Edge

E2B & E4B: Intelligenza On-Device con Supporto Audio

Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser. Gli encoder audio nativi abilitano la comprensione del parlato in tempo reale on-device.

  • E2B (2,3B effettivi, 5,1B con embeddings): 60% MMLU Pro, 44% LiveCodeBench, contesto 128K
  • E4B (4,5B effettivi, 8B con embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, contesto 128K
  • Per-Layer Embeddings (PLE) massimizzano l'efficienza dei parametri per il deployment edge

Architettura

Per-Layer Embeddings e Cache KV Condivisa

Gemma 4 introduce innovazioni architetturali che massimizzano l'efficienza. PLE fornisce a ogni layer decoder il proprio percorso di condizionamento, mentre la cache KV condivisa riduce l'uso della memoria durante la generazione di contesti lunghi.

  • Per-Layer Embeddings aggiungono specializzazione significativa a costo parametrico modesto
  • Cache KV condivisa: gli ultimi N layer riutilizzano gli stati chiave-valore, eliminando proiezioni ridondanti
  • Alternanza di attenzione locale sliding-window e globale full-context per uso ottimale della memoria
Confronto prestazioni architettura Gemma 4

Multimodale

Comprensione Nativa di Immagini, Video e Audio

Tutti i modelli elaborano nativamente testo e immagini con rapporti d'aspetto variabili. L'encoder visivo utilizza posizioni 2D apprese e può codificare immagini con diversi budget di token (70-1120) per compromessi velocità-qualità.

  • Il supporto per rapporti d'aspetto variabili preserva le dimensioni originali delle immagini
  • Budget di token immagine configurabili: 70, 140, 280, 560, 1120 token
  • E2B ed E4B includono encoder audio conformer in stile USM per l'elaborazione del parlato
Prestazioni benchmark multimodali Gemma 4

Deployment

Deploy Ovunque: Browser, Locale o Cloud

Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. E2B ed E4B funzionano nei browser con transformers.js, mentre 31B e 26B eccellono su hardware server.

  • Browser: transformers.js abilita E2B/E4B in Chrome con accelerazione WebGPU
  • Locale: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs per inferenza privata
  • Cloud: Google AI Studio, Vertex AI o self-hosted con vLLM e TGI
Opzioni di deployment e prestazioni Gemma 4

FAQ

Architettura e Capacità del Modello

Comprendere le innovazioni tecniche di Gemma 4, dai Per-Layer Embeddings all'elaborazione multimodale.

Cosa rende Gemma 4 diverso dalle versioni precedenti di Gemma?

Gemma 4 introduce supporto multimodale nativo (testo, immagine, video, audio), finestre di contesto estese (128K-256K), modalità di pensiero configurabili e chiamata di funzioni integrata. L'architettura utilizza Per-Layer Embeddings (PLE) per l'efficienza e cache KV condivisa per ridurre l'uso della memoria durante la generazione di contesti lunghi.

Quali sono le quattro dimensioni di modello Gemma 4 e quando dovrei usare ciascuna?

E2B (2,3B effettivi) ed E4B (4,5B effettivi) sono progettati per dispositivi edge, browser e mobile con supporto audio nativo. Il 26B A4B è un modello Mixture-of-Experts che attiva solo 4B parametri per token, ideale per scenari ad alto throughput. Il modello denso da 31B è il flagship per prestazioni massime su compiti di ragionamento, coding e visione.

Come gestisce Gemma 4 gli input multimodali?

Tutti i modelli elaborano nativamente testo e immagini con rapporti d'aspetto variabili. L'encoder visivo utilizza posizioni 2D apprese e può codificare immagini con diversi budget di token (70-1120 token) per compromessi velocità-qualità. E2B ed E4B includono encoder audio conformer in stile USM per la comprensione del parlato. Il video è supportato in tutta la famiglia elaborando frame e tracce audio.

Cosa sono i Per-Layer Embeddings (PLE) e perché sono importanti?

PLE fornisce a ogni layer decoder il proprio piccolo embedding per ogni token, creando un percorso di condizionamento parallelo accanto al flusso residuo principale. Questo consente a ogni layer di ricevere informazioni specifiche del token solo quando rilevante, piuttosto che impacchettare tutto in un singolo embedding iniziale. Aggiunge specializzazione significativa per layer a costo parametrico modesto, rendendo i modelli piccoli più efficienti.

FAQ

Deployment e Integrazione

Iniziare con Gemma 4 su diverse piattaforme, dal cloud ai dispositivi edge.

Dove posso scaricare ed eseguire i modelli Gemma 4?

I modelli Gemma 4 sono disponibili su Kaggle e Hugging Face sotto licenza Apache 2.0. Puoi utilizzarli tramite Google AI Studio, deployarli su Vertex AI o eseguirli localmente con strumenti come Ollama, llama.cpp, MLX (per Apple Silicon), transformers e Mistral.rs. I checkpoint ONNX abilitano il deployment su browser e dispositivi edge.

Quali sono i requisiti hardware per eseguire Gemma 4?

E2B richiede ~9,6GB (BF16) a 3,2GB (4-bit) di VRAM. E4B necessita di ~15GB (BF16) a 5GB (4-bit). Il modello 31B richiede ~58GB (BF16) a 17GB (4-bit). Il 26B MoE necessita di ~48GB (BF16) a 16GB (4-bit). Questi sono solo i pesi base; aggiungi memoria per la finestra di contesto (cache KV) in base al tuo caso d'uso.

Posso eseguire Gemma 4 nel browser o su dispositivi mobili?

Sì. I modelli E2B ed E4B sono specificamente progettati per il deployment su browser e mobile. transformers.js abilita l'esecuzione di Gemma 4 direttamente nei browser con supporto WebGPU. I checkpoint ONNX funzionano su vari backend hardware edge. I modelli sono ottimizzati per dispositivi Pixel e ambienti browser Chrome.

Come uso Gemma 4 con chiamata di funzioni e agenti?

Gemma 4 ha supporto integrato per la chiamata di funzioni senza richiedere fine-tuning. I modelli possono analizzare definizioni di strumenti, generare chiamate JSON strutturate e gestire chiamate di funzioni multimodali (ad es., analizzare un'immagine e chiamare un'API meteo). Questo alimenta agenti autonomi per compiti come esecuzione codice, navigazione web e recupero dati.

FAQ

Prestazioni e Confronti

Come Gemma 4 si confronta con altri modelli e cosa lo rende competitivo per diversi casi d'uso.

Come si confronta Gemma 4 31B con modelli più grandi come Llama 3.3 70B?

Il modello 31B si classifica al 3° posto nella classifica Arena AI tra i modelli aperti, superando Llama 3.3 70B nonostante sia meno della metà delle dimensioni. Raggiunge l'89,2% sul ragionamento matematico AIME 2026, l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6. L'efficienza deriva da innovazioni architetturali come pattern di attenzione alternati e cache KV condivisa.

Cos'è l'architettura Mixture-of-Experts (MoE) nel modello 26B?

Il modello 26B A4B ha 26 miliardi di parametri totali ma attiva solo 4 miliardi per token durante la generazione. Tutti i 26B parametri devono essere caricati in memoria per il routing veloce, ma il costo di inferenza è più vicino a un modello 4B. Questo raggiunge l'88,3% su AIME 2026 e l'82,6% su MMLU Pro con calcolo significativamente inferiore per token rispetto al modello denso 31B.

Gemma 4 può gestire documenti lunghi e contesto esteso?

Sì. I modelli piccoli supportano finestre di contesto 128K, mentre i modelli medi gestiscono 256K token. L'architettura utilizza configurazioni RoPE duali (standard per layer sliding, potate per layer globali) per abilitare contesti più lunghi. La cache KV condivisa riduce il consumo di memoria durante la generazione di contesti lunghi, rendendo pratico l'elaborazione di intere codebase e articoli di ricerca.

Dove posso trovare esempi di fine-tuning e risorse di training?

Gemma 4 è completamente supportato in TRL (Transformer Reinforcement Learning), con esempi per risposte di strumenti multimodali e interazione con l'ambiente. Hugging Face fornisce guide di fine-tuning per Vertex AI usando SFT. Unsloth Studio offre un'esperienza di fine-tuning basata su UI. I modelli supportano metodi PEFT come LoRA per training efficiente in termini di parametri.