Modelli Gemma 4

Quattro modelli, una famiglia - dall'edge al frontier

La famiglia Gemma 4 comprende quattro architetture: gli ultra-compatti E2B ed E4B per dispositivi edge, il 26B MoE per un deployment server efficiente e il modello di punta 31B Dense. Tutti condividono il supporto multimodale nativo, il ragionamento configurabile e la licenza Apache 2.0.

Tutti i modelli

Scegliete il Gemma 4 giusto per il vostro caso d'uso

Ogni modello della famiglia è ottimizzato per diversi scenari di deployment. I modelli edge includono il supporto audio, mentre i modelli server offrono un contesto di 256K e ragionamento di classe frontier.

Modelli Edge

E2B & E4B: Intelligenza on-device con audio

Modelli ultra-compatti con 2.3B e 4.5B parametri effettivi. Entrambi includono encoder audio nativi, contesto 128K e funzionano su smartphone, browser e dispositivi IoT.

Scegliete E2B per l'ingombro minimo (3.2 GB a 4-bit). Scegliete E4B per una qualità superiore (5.5 GB a 4-bit). Entrambi supportano input di testo, immagini, video e audio.

Modelli Server

26B MoE & 31B Dense: Prestazioni frontier

Il 26B MoE attiva solo 4B parametri per token per un serving efficiente. Il 31B Dense è il modello di punta, al 3° posto su Arena AI. Entrambi offrono contesto 256K e Function Calling nativo.

Scegliete 26B per la produzione ad alto throughput (16 GB a 4-bit). Scegliete 31B per la massima qualità (17 GB a 4-bit). Entrambi eccellono nel ragionamento, nel codice e nelle attività multimodali.

Edge - Ultra-compatto

Gemma 4 E2B

2.3B parametri effettivi. Il più piccolo Gemma 4 con supporto multimodale completo + audio.

35 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 3.2 GB VRAM a 4-bit.

Disponibile ora

Edge - Consigliato

Gemma 4 E4B

4.5B parametri effettivi. Il miglior modello edge con ragionamento solido e supporto audio.

42 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 5.5 GB VRAM a 4-bit.

Disponibile ora

Server - Efficiente

Gemma 4 26B A4B

25.2B totali, 3.8B attivi per token. Qualità vicina al 31B con una frazione del calcolo.

MoE con 128 esperti (8 attivi + 1 condiviso). Contesto 256K. 16 GB VRAM a 4-bit.

Disponibile ora

Server - Modello di punta

Gemma 4 31B

30.7B parametri dense. 3° su Arena AI. Massima intelligenza e affidabilità.

Architettura dense, contesto 256K, 140+ lingue. 17 GB VRAM a 4-bit.

Disponibile ora

Capacità condivise

Cosa può fare ogni modello Gemma 4

Tutti e quattro i modelli condividono un insieme comune di capacità che rendono la famiglia Gemma 4 straordinariamente versatile.

Multimodale nativo

Tutti i modelli elaborano testo e immagini nativamente. I modelli edge aggiungono il supporto audio e video. Nessun encoder o pipeline separato necessario.

Ragionamento configurabile

Tutti i modelli supportano modalità di ragionamento passo dopo passo. Controllate la profondità del ragionamento in base alla complessità del compito.

Function Calling

Il Function Calling integrato in tutta la famiglia abilita workflow agentici. Nessun fine-tuning necessario per l'uso degli strumenti.

Contesto esteso

128K token per i modelli edge, 256K per i modelli server. L'attention ibrida mantiene l'uso della memoria pratico.

140+ lingue

Supporto multilingue con comprensione del contesto culturale su tutte le dimensioni di modello.

Licenza Apache 2.0

Piena libertà commerciale. Nessun limite MAU, nessuna restrizione d'uso. Distribuite ovunque, modificate liberamente.

Guida alla selezione rapida

Quale modello dovreste scegliere?

Abbinate i vincoli di deployment e i requisiti di qualità alla variante Gemma 4 più adatta.

Per hardware

  • Smartphone / IoT / 4 GB RAM: Gemma 4 E2B
  • Laptop / 8-16 GB RAM: Gemma 4 E4B
  • GPU singola / 16-24 GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Per caso d'uso

  • Assistente vocale / audio: E2B o E4B (supporto audio)
  • IA nel browser: E2B o E4B (WebGPU)
  • API ad alto throughput: 26B A4B (efficienza MoE)
  • Massima qualità: 31B Dense (prestazioni frontier)

Prestazioni

Confronto completo dei benchmark di tutti e quattro i modelli

Ogni modello Gemma 4 fa parte di una frontiera di Pareto: ogni dimensione offre prestazioni eccezionali rispetto al proprio numero di parametri.

Dall'ultra-compatto E2B al modello di punta 31B, ogni modello è ottimizzato per il proprio livello di deployment condividendo le stesse innovazioni architetturali.

Confronto delle prestazioni della famiglia Gemma 4 su tutte le dimensioni di modello

31B Dense: 3° su Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualità vicina al 31B (ELO 1441) con solo 4B parametri attivi per token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - eccellenti prestazioni edge con audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB di VRAM

Confronto completo della famiglia

Tutti i modelli Gemma 4 fianco a fianco

Risultati completi dei benchmark per ragionamento, codice, multimodale e metriche di deployment.

Benchmark
31B Dense
Modello di punta
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compatto
E2B
Arena AI ELO
Classifica generale
14521441--
MMLU Pro
Conoscenza e ragionamento
85.2%82.6%69.4%60.0%
AIME 2026
Matematica
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Codice
80.0%77.1%52.0%44.0%
GPQA Diamond
Scienze
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodale
76.9%73.8%52.6%44.2%
Context Window
Token massimi
256K256K128K128K
Audio Support
Audio nativo
NoNoYesYes
VRAM (4-bit)
Memoria minima
~17 GB~16 GB~5.5 GB~3.2 GB

Tutti i dati dalla scheda ufficiale Gemma 4. Punteggi Arena AI al 2 aprile 2026.

Livello Edge

E2B & E4B: L'IA che funziona sul vostro dispositivo

I modelli edge portano l'IA multimodale completa su smartphone, browser e dispositivi IoT. Entrambi includono encoder audio nativi, una capacità assente nei modelli più grandi. Scegliete E2B per l'ingombro minimo, E4B per una qualità superiore.

  • E2B: 2.3B effettivi, 3.2 GB a 4-bit, 95 tok/s su hardware consumer
  • E4B: 4.5B effettivi, 5.5 GB a 4-bit, ragionamento e codice solidi
  • Entrambi: audio nativo, contesto 128K, supporto browser WebGPU
E2B & E4B: L'IA che funziona sul vostro dispositivo

Livello Server

26B MoE & 31B Dense: Prestazioni frontier

I modelli server offrono ragionamento, codice e comprensione multimodale di classe frontier. Il 26B MoE offre qualità vicina al 31B con una frazione del calcolo. Il 31B Dense è il modello di punta per le massime prestazioni.

  • 26B MoE: 3.8B attivi per token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: 30.7B completamente attivi, ELO 1452, 89.2% AIME 2026
  • Entrambi: contesto 256K, Function Calling nativo, 140+ lingue
26B MoE & 31B Dense: Prestazioni frontier

Architettura

Innovazioni condivise in tutta la famiglia

Tutti i modelli Gemma 4 condividono le innovazioni architetturali chiave della ricerca Google DeepMind. Per-Layer Embeddings, cache KV condivisa e pattern di attention ibridi massimizzano l'efficienza a ogni scala.

  • Per-Layer Embeddings (PLE) per un condizionamento efficiente in parametri
  • Cache KV condivisa per ridurre la memoria durante la generazione a contesto lungo
  • Attention ibrida locale/globale per un compromesso ottimale memoria-qualità
Innovazioni condivise in tutta la famiglia

Famiglia Gemma 4

Esplorate ogni modello nel dettaglio

Approfondite ogni variante Gemma 4 con pagine dedicate che coprono architettura, benchmark e guide al deployment.

Gemma 4 E2B

Modello edge ultra-compatto 2.3B con audio

Esplora

Gemma 4 E4B

Modello edge consigliato 4.5B con audio

Esplora

Gemma 4 26B

MoE efficiente con 4B parametri attivi

Esplora

Gemma 4 31B

Modello dense di punta, 3° su Arena AI

Esplora

Esecuzione locale

Guida all'esecuzione di Gemma 4 sul vostro hardware

Leggi la guida

Accesso API

Utilizzate Gemma 4 tramite API ospitate

Inizia

Inizia

Trovate il vostro modello Gemma 4

Chattate gratuitamente con qualsiasi modello Gemma 4, oppure scaricate i pesi per il deployment locale. Licenza Apache 2.0 per piena libertà commerciale.