Gemma 4: Intelligenza Multimodale Avanzata Eseguibile Ovunque

Panoramica

Quattro Modelli, Una Famiglia: Dalle Prestazioni Edge a Quelle Server

Rilasciato il 2 aprile 2026 sotto licenza Apache 2.0, Gemma 4 offre intelligenza multimodale di classe avanzata attraverso quattro architetture. Dai modelli edge ultra-mobili da 2B alla variante densa flagship da 31B, ogni dimensione elabora nativamente testo, immagini a risoluzione variabile, video e audio.

Modelli Edge

Gemma 4 E2B & E4B: Intelligenza On-Device

Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser con supporto audio nativo e contesto 128K.

Le varianti E2B ed E4B utilizzano Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri. Supportano nativamente input di testo, immagini, video e audio, rendendoli ideali per applicazioni on-device orientate alla privacy.

Prova E4B Gratis Scopri di Più

Modelli Server

Gemma 4 31B Dense & 26B MoE: Prestazioni Avanzate

Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile.

Entrambi i modelli dispongono di finestre di contesto da 256K, chiamata di funzioni nativa e modalità di pensiero configurabili. Il 31B raggiunge l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6, competendo con modelli molte volte più grandi.

Vedi Benchmark Visualizza su Hugging Face

Capacità

Multimodale Nativo

Tutti i modelli elaborano nativamente testo, immagini con rapporti d'aspetto variabili, video e audio. E2B ed E4B includono encoder audio per la comprensione del parlato.

L'encoder visivo utilizza posizioni 2D apprese e RoPE multidimensionale, preservando i rapporti d'aspetto originali. Le immagini possono essere codificate con diversi budget di token (70, 140, 280, 560, 1120) per compromessi ottimali velocità-qualità.

Tutti i Modelli

Vedi Esempi

Architettura

Finestre di Contesto Estese

I modelli piccoli dispongono di contesto 128K, mentre i modelli medi supportano 256K. Le configurazioni RoPE duali abilitano l'elaborazione di contesti più lunghi.

L'alternanza di layer di attenzione locale sliding-window (512-1024 token) e globale full-context ottimizza l'uso della memoria. La cache KV condivisa riduce calcolo e memoria per la generazione di contesti lunghi.

128K-256K

Funzionalità

Pensiero Configurabile

Tutti i modelli supportano modalità di pensiero configurabili per compiti di ragionamento avanzato, con supporto nativo per prompt di sistema per conversazioni strutturate.

Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026 e l'84,3% su GPQA Diamond. La chiamata di funzioni integrata alimenta agenti autonomi senza fine-tuning.

Tutti i Modelli

Prestazioni

Potenza di Coding & Agenti

Il modello 31B ottiene l'80% su LiveCodeBench v6 e raggiunge 2150 ELO Codeforces. Il 26B MoE raggiunge il 77,1% con solo 4B parametri attivi.

Miglioramenti notevoli nei benchmark di coding insieme al supporto integrato per la chiamata di funzioni abilitano agenti autonomi altamente capaci. Il benchmark HLE mostra il 19,5% senza strumenti, 26,5% con ricerca.

Ottimizzato

Visualizza Benchmark

Multimodale

Visione & Analisi Documenti

Il modello 31B raggiunge il 76,9% su MMMU Pro e l'85,6% su MATH-Vision. La distanza di modifica OmniDocBench di 0,131 dimostra forti capacità OCR.

Il supporto per rapporti d'aspetto variabili e budget di token immagine configurabili consentono l'elaborazione efficiente di documenti, diagrammi e screenshot. Il modello E4B raggiunge il 52,6% su MMMU Pro nonostante le dimensioni compatte.

Tutti i Modelli

Integrazione

Deploy Ovunque

Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. I checkpoint ONNX abilitano il deployment su dispositivi edge.

La licenza Apache 2.0 consente l'uso commerciale responsabile. Disponibile su Kaggle, Hugging Face e tramite Google AI Studio. Compatibile con strumenti locali come Ollama per interazioni private e offline.

Open Source

Inizia

Inizia a Chattare con Gemma 4 Oggi

Sperimenta gratuitamente i modelli multimodali avanzati di Google DeepMind. Nessuna carta di credito richiesta per iniziare la tua prima conversazione.

Inizia Chat Gratuita Visualizza Prezzi

Introduzione

Guarda: Introduzione Ufficiale a Gemma 4

Scopri le quattro architetture di modelli, le capacità multimodali native e le opzioni di deployment da Google DeepMind.

Prestazioni

Prestazioni Avanzate in Ragionamento, Coding e Visione

I modelli Gemma 4 formano una frontiera di Pareto, offrendo prestazioni eccezionali relative alle loro dimensioni. Il modello denso da 31B si classifica al 3° posto tra tutti i modelli aperti nella classifica Arena AI.

I benchmark ufficiali dimostrano prestazioni competitive con modelli molte volte più grandi. Il modello 31B raggiunge l'89,2% sul ragionamento matematico AIME 2026, mentre il 26B MoE raggiunge qualità simile con solo 4B parametri attivi.

Provalo Ora Leggi Dettagli Tecnici

Confronto prestazioni Gemma 4 tra dimensioni di modelli e benchmark

Il modello 31B raggiunge l'89,2% su AIME 2026 e l'85,2% su MMLU Pro, competendo con modelli oltre 100B parametri.

Le prestazioni di coding raggiungono l'80% su LiveCodeBench v6 e 2150 ELO Codeforces, superando molti modelli più grandi.

Le capacità di visione includono il 76,9% su MMMU Pro e l'85,6% su MATH-Vision, con forte OCR e comprensione documenti.

Benchmark Ufficiali

Prestazioni Gemma 4 su Compiti Chiave

Valutazione completa su compiti di ragionamento, coding, visione, audio e contesto lungo dimostra capacità di classe avanzata.

Benchmark	Gemma 4 31B Flagship denso 31B	Gemma 4 26B A4B MoE (4B attivi) 26B	Gemma 4 E4B Modello edge E4B	Gemma 4 E2B Ultra-compatto E2B
MMLU Pro Conoscenza e ragionamento	85.2%	82.6%	69.4%	60.0%
AIME 2026 (senza strumenti) Ragionamento matematico	89.2%	88.3%	42.5%	37.5%
GPQA Diamond Scienza livello universitario	84.3%	82.3%	58.6%	43.4%
LiveCodeBench v6 Prestazioni coding	80.0%	77.1%	52.0%	44.0%
Codeforces ELO Programmazione competitiva	2150	1718	940	633
MMMU Pro Comprensione multimodale	76.9%	73.8%	52.6%	44.2%
MATH-Vision Ragionamento matematico visivo	85.6%	82.4%	59.5%	52.4%
OmniDocBench 1.5 OCR documenti (distanza modifica)	0.131	0.149	0.181	0.290
Context Window Token massimi	256K	256K	128K	128K
Audio Support Input audio nativo	No	No	Sì	Sì

Tutte le cifre provengono dalla scheda modello ufficiale Gemma 4 e dal blog Hugging Face. I benchmark E2B ed E4B dimostrano efficienza eccezionale per il loro conteggio parametri.

Modelli Server

31B Dense & 26B MoE: Prestazioni Avanzate per la Produzione

Il modello denso da 31B si classifica al 3° posto nella classifica Arena AI con l'89,2% su AIME 2026. Il 26B MoE attiva solo 4B parametri per token mantenendo qualità simile, ideale per scenari ad alto throughput.

31B Dense: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
26B MoE (4B attivi): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
Finestre di contesto 256K con configurazioni RoPE duali per elaborazione efficiente di contesti lunghi

Prova Modello 26B Visualizza su Hugging Face

Modelli Edge

E2B & E4B: Intelligenza On-Device con Supporto Audio

Modelli ultra-compatti con 2,3B e 4,5B parametri effettivi, progettati per Pixel, Chrome e deployment browser. Gli encoder audio nativi abilitano la comprensione del parlato in tempo reale on-device.

E2B (2,3B effettivi, 5,1B con embeddings): 60% MMLU Pro, 44% LiveCodeBench, contesto 128K
E4B (4,5B effettivi, 8B con embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, contesto 128K
Per-Layer Embeddings (PLE) massimizzano l'efficienza dei parametri per il deployment edge

Prova nel Browser Demo transformers.js

Architettura

Per-Layer Embeddings e Cache KV Condivisa

Gemma 4 introduce innovazioni architetturali che massimizzano l'efficienza. PLE fornisce a ogni layer decoder il proprio percorso di condizionamento, mentre la cache KV condivisa riduce l'uso della memoria durante la generazione di contesti lunghi.

Per-Layer Embeddings aggiungono specializzazione significativa a costo parametrico modesto
Cache KV condivisa: gli ultimi N layer riutilizzano gli stati chiave-valore, eliminando proiezioni ridondanti
Alternanza di attenzione locale sliding-window e globale full-context per uso ottimale della memoria

Dettagli Tecnici

Confronto prestazioni architettura Gemma 4

Multimodale

Comprensione Nativa di Immagini, Video e Audio

Il supporto per rapporti d'aspetto variabili preserva le dimensioni originali delle immagini
Budget di token immagine configurabili: 70, 140, 280, 560, 1120 token
E2B ed E4B includono encoder audio conformer in stile USM per l'elaborazione del parlato

Prova Chat Multimodale Vedi Esempi

Prestazioni benchmark multimodali Gemma 4

Deployment

Deploy Ovunque: Browser, Locale o Cloud

Supporto dal giorno 0 per transformers, llama.cpp, MLX, WebGPU, Mistral.rs e altro. E2B ed E4B funzionano nei browser con transformers.js, mentre 31B e 26B eccellono su hardware server.

Browser: transformers.js abilita E2B/E4B in Chrome con accelerazione WebGPU
Locale: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs per inferenza privata
Cloud: Google AI Studio, Vertex AI o self-hosted con vLLM e TGI

Inizia Gratis Visualizza su GitHub

Opzioni di deployment e prestazioni Gemma 4

FAQ

Architettura e Capacità del Modello

Comprendere le innovazioni tecniche di Gemma 4, dai Per-Layer Embeddings all'elaborazione multimodale.

Cosa rende Gemma 4 diverso dalle versioni precedenti di Gemma?

Gemma 4 introduce supporto multimodale nativo (testo, immagine, video, audio), finestre di contesto estese (128K-256K), modalità di pensiero configurabili e chiamata di funzioni integrata. L'architettura utilizza Per-Layer Embeddings (PLE) per l'efficienza e cache KV condivisa per ridurre l'uso della memoria durante la generazione di contesti lunghi.

Quali sono le quattro dimensioni di modello Gemma 4 e quando dovrei usare ciascuna?

E2B (2,3B effettivi) ed E4B (4,5B effettivi) sono progettati per dispositivi edge, browser e mobile con supporto audio nativo. Il 26B A4B è un modello Mixture-of-Experts che attiva solo 4B parametri per token, ideale per scenari ad alto throughput. Il modello denso da 31B è il flagship per prestazioni massime su compiti di ragionamento, coding e visione.

Come gestisce Gemma 4 gli input multimodali?

Tutti i modelli elaborano nativamente testo e immagini con rapporti d'aspetto variabili. L'encoder visivo utilizza posizioni 2D apprese e può codificare immagini con diversi budget di token (70-1120 token) per compromessi velocità-qualità. E2B ed E4B includono encoder audio conformer in stile USM per la comprensione del parlato. Il video è supportato in tutta la famiglia elaborando frame e tracce audio.

Cosa sono i Per-Layer Embeddings (PLE) e perché sono importanti?

PLE fornisce a ogni layer decoder il proprio piccolo embedding per ogni token, creando un percorso di condizionamento parallelo accanto al flusso residuo principale. Questo consente a ogni layer di ricevere informazioni specifiche del token solo quando rilevante, piuttosto che impacchettare tutto in un singolo embedding iniziale. Aggiunge specializzazione significativa per layer a costo parametrico modesto, rendendo i modelli piccoli più efficienti.

FAQ

Deployment e Integrazione

Iniziare con Gemma 4 su diverse piattaforme, dal cloud ai dispositivi edge.

Dove posso scaricare ed eseguire i modelli Gemma 4?

I modelli Gemma 4 sono disponibili su Kaggle e Hugging Face sotto licenza Apache 2.0. Puoi utilizzarli tramite Google AI Studio, deployarli su Vertex AI o eseguirli localmente con strumenti come Ollama, llama.cpp, MLX (per Apple Silicon), transformers e Mistral.rs. I checkpoint ONNX abilitano il deployment su browser e dispositivi edge.

Quali sono i requisiti hardware per eseguire Gemma 4?

E2B richiede ~9,6GB (BF16) a 3,2GB (4-bit) di VRAM. E4B necessita di ~15GB (BF16) a 5GB (4-bit). Il modello 31B richiede ~58GB (BF16) a 17GB (4-bit). Il 26B MoE necessita di ~48GB (BF16) a 16GB (4-bit). Questi sono solo i pesi base; aggiungi memoria per la finestra di contesto (cache KV) in base al tuo caso d'uso.

Posso eseguire Gemma 4 nel browser o su dispositivi mobili?

Sì. I modelli E2B ed E4B sono specificamente progettati per il deployment su browser e mobile. transformers.js abilita l'esecuzione di Gemma 4 direttamente nei browser con supporto WebGPU. I checkpoint ONNX funzionano su vari backend hardware edge. I modelli sono ottimizzati per dispositivi Pixel e ambienti browser Chrome.

Come uso Gemma 4 con chiamata di funzioni e agenti?

Gemma 4 ha supporto integrato per la chiamata di funzioni senza richiedere fine-tuning. I modelli possono analizzare definizioni di strumenti, generare chiamate JSON strutturate e gestire chiamate di funzioni multimodali (ad es., analizzare un'immagine e chiamare un'API meteo). Questo alimenta agenti autonomi per compiti come esecuzione codice, navigazione web e recupero dati.

FAQ

Prestazioni e Confronti

Come Gemma 4 si confronta con altri modelli e cosa lo rende competitivo per diversi casi d'uso.

Come si confronta Gemma 4 31B con modelli più grandi come Llama 3.3 70B?

Il modello 31B si classifica al 3° posto nella classifica Arena AI tra i modelli aperti, superando Llama 3.3 70B nonostante sia meno della metà delle dimensioni. Raggiunge l'89,2% sul ragionamento matematico AIME 2026, l'85,2% su MMLU Pro e l'80% su LiveCodeBench v6. L'efficienza deriva da innovazioni architetturali come pattern di attenzione alternati e cache KV condivisa.

Cos'è l'architettura Mixture-of-Experts (MoE) nel modello 26B?

Il modello 26B A4B ha 26 miliardi di parametri totali ma attiva solo 4 miliardi per token durante la generazione. Tutti i 26B parametri devono essere caricati in memoria per il routing veloce, ma il costo di inferenza è più vicino a un modello 4B. Questo raggiunge l'88,3% su AIME 2026 e l'82,6% su MMLU Pro con calcolo significativamente inferiore per token rispetto al modello denso 31B.

Gemma 4 può gestire documenti lunghi e contesto esteso?

Sì. I modelli piccoli supportano finestre di contesto 128K, mentre i modelli medi gestiscono 256K token. L'architettura utilizza configurazioni RoPE duali (standard per layer sliding, potate per layer globali) per abilitare contesti più lunghi. La cache KV condivisa riduce il consumo di memoria durante la generazione di contesti lunghi, rendendo pratico l'elaborazione di intere codebase e articoli di ricerca.

Dove posso trovare esempi di fine-tuning e risorse di training?

Gemma 4 è completamente supportato in TRL (Transformer Reinforcement Learning), con esempi per risposte di strumenti multimodali e interazione con l'ambiente. Hugging Face fornisce guide di fine-tuning per Vertex AI usando SFT. Unsloth Studio offre un'esperienza di fine-tuning basata su UI. I modelli supportano metodi PEFT come LoRA per training efficiente in termini di parametri.

Gemma 4: Intelligenza Multimodale Avanzata Eseguibile Ovunque

Quattro Modelli, Una Famiglia: Dalle Prestazioni Edge a Quelle Server

Gemma 4 E2B & E4B: Intelligenza On-Device

Gemma 4 31B Dense & 26B MoE: Prestazioni Avanzate

Multimodale Nativo

Finestre di Contesto Estese

Pensiero Configurabile

Potenza di Coding & Agenti

Visione & Analisi Documenti

Deploy Ovunque

Inizia a Chattare con Gemma 4 Oggi

Guarda: Introduzione Ufficiale a Gemma 4

Gemma 4: Dall'Edge al Cloud

Prestazioni Avanzate in Ragionamento, Coding e Visione

Prestazioni Gemma 4 su Compiti Chiave

31B Dense & 26B MoE: Prestazioni Avanzate per la Produzione

E2B & E4B: Intelligenza On-Device con Supporto Audio

Per-Layer Embeddings e Cache KV Condivisa

Comprensione Nativa di Immagini, Video e Audio

Deploy Ovunque: Browser, Locale o Cloud

Architettura e Capacità del Modello

Deployment e Integrazione

Prestazioni e Confronti