Modelli Gemma 4

Quattro modelli, una famiglia - dall'edge al frontier

La famiglia Gemma 4 comprende quattro architetture: gli ultra-compatti E2B ed E4B per dispositivi edge, il 26B MoE per un deployment server efficiente e il modello di punta 31B Dense. Tutti condividono il supporto multimodale nativo, il ragionamento configurabile e la licenza Apache 2.0.

Inizia a chattare Confronta i benchmark

Tutti i modelli

Scegliete il Gemma 4 giusto per il vostro caso d'uso

Ogni modello della famiglia è ottimizzato per diversi scenari di deployment. I modelli edge includono il supporto audio, mentre i modelli server offrono un contesto di 256K e ragionamento di classe frontier.

Modelli Edge

E2B & E4B: Intelligenza on-device con audio

Modelli ultra-compatti con 2.3B e 4.5B parametri effettivi. Entrambi includono encoder audio nativi, contesto 128K e funzionano su smartphone, browser e dispositivi IoT.

Scegliete E2B per l'ingombro minimo (3.2 GB a 4-bit). Scegliete E4B per una qualità superiore (5.5 GB a 4-bit). Entrambi supportano input di testo, immagini, video e audio.

Prova E4B gratis Confronta E2B vs E4B

Modelli Server

26B MoE & 31B Dense: Prestazioni frontier

Il 26B MoE attiva solo 4B parametri per token per un serving efficiente. Il 31B Dense è il modello di punta, al 3° posto su Arena AI. Entrambi offrono contesto 256K e Function Calling nativo.

Scegliete 26B per la produzione ad alto throughput (16 GB a 4-bit). Scegliete 31B per la massima qualità (17 GB a 4-bit). Entrambi eccellono nel ragionamento, nel codice e nelle attività multimodali.

Prova 26B gratis Vedi i benchmark

Edge - Ultra-compatto

Gemma 4 E2B

2.3B parametri effettivi. Il più piccolo Gemma 4 con supporto multimodale completo + audio.

35 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 3.2 GB VRAM a 4-bit.

Disponibile ora

Scopri di più Scarica

Edge - Consigliato

Gemma 4 E4B

4.5B parametri effettivi. Il miglior modello edge con ragionamento solido e supporto audio.

42 livelli, architettura PLE, ~150M vision + ~300M encoder audio. 5.5 GB VRAM a 4-bit.

Disponibile ora

Scopri di più Scarica

Server - Efficiente

Gemma 4 26B A4B

25.2B totali, 3.8B attivi per token. Qualità vicina al 31B con una frazione del calcolo.

MoE con 128 esperti (8 attivi + 1 condiviso). Contesto 256K. 16 GB VRAM a 4-bit.

Disponibile ora

Scopri di più Scarica

Server - Modello di punta

Gemma 4 31B

30.7B parametri dense. 3° su Arena AI. Massima intelligenza e affidabilità.

Architettura dense, contesto 256K, 140+ lingue. 17 GB VRAM a 4-bit.

Disponibile ora

Scopri di più Scarica

Capacità condivise

Cosa può fare ogni modello Gemma 4

Tutti e quattro i modelli condividono un insieme comune di capacità che rendono la famiglia Gemma 4 straordinariamente versatile.

Multimodale nativo

Tutti i modelli elaborano testo e immagini nativamente. I modelli edge aggiungono il supporto audio e video. Nessun encoder o pipeline separato necessario.

Ragionamento configurabile

Tutti i modelli supportano modalità di ragionamento passo dopo passo. Controllate la profondità del ragionamento in base alla complessità del compito.

Function Calling

Il Function Calling integrato in tutta la famiglia abilita workflow agentici. Nessun fine-tuning necessario per l'uso degli strumenti.

Contesto esteso

128K token per i modelli edge, 256K per i modelli server. L'attention ibrida mantiene l'uso della memoria pratico.

140+ lingue

Supporto multilingue con comprensione del contesto culturale su tutte le dimensioni di modello.

Licenza Apache 2.0

Piena libertà commerciale. Nessun limite MAU, nessuna restrizione d'uso. Distribuite ovunque, modificate liberamente.

Guida alla selezione rapida

Quale modello dovreste scegliere?

Abbinate i vincoli di deployment e i requisiti di qualità alla variante Gemma 4 più adatta.

Per hardware

Smartphone / IoT / 4 GB RAM: Gemma 4 E2B
Laptop / 8-16 GB RAM: Gemma 4 E4B
GPU singola / 16-24 GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Per caso d'uso

Assistente vocale / audio: E2B o E4B (supporto audio)
IA nel browser: E2B o E4B (WebGPU)
API ad alto throughput: 26B A4B (efficienza MoE)
Massima qualità: 31B Dense (prestazioni frontier)

Inizia a chattare Vedi tutti i benchmark

Prestazioni

Confronto completo dei benchmark di tutti e quattro i modelli

Ogni modello Gemma 4 fa parte di una frontiera di Pareto: ogni dimensione offre prestazioni eccezionali rispetto al proprio numero di parametri.

Dall'ultra-compatto E2B al modello di punta 31B, ogni modello è ottimizzato per il proprio livello di deployment condividendo le stesse innovazioni architetturali.

Inizia a chattare Vedi la scheda modello

Confronto delle prestazioni della famiglia Gemma 4 su tutte le dimensioni di modello

31B Dense: 3° su Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualità vicina al 31B (ELO 1441) con solo 4B parametri attivi per token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - eccellenti prestazioni edge con audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB di VRAM

Confronto completo della famiglia

Tutti i modelli Gemma 4 fianco a fianco

Risultati completi dei benchmark per ragionamento, codice, multimodale e metriche di deployment.

Benchmark	31B Dense Modello di punta 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compatto E2B
Arena AI ELO Classifica generale	1452	1441	-	-
MMLU Pro Conoscenza e ragionamento	85.2%	82.6%	69.4%	60.0%
AIME 2026 Matematica	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Codice	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Scienze	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodale	76.9%	73.8%	52.6%	44.2%
Context Window Token massimi	256K	256K	128K	128K
Audio Support Audio nativo	No	No	Yes	Yes
VRAM (4-bit) Memoria minima	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Tutti i dati dalla scheda ufficiale Gemma 4. Punteggi Arena AI al 2 aprile 2026.

Livello Edge

E2B & E4B: L'IA che funziona sul vostro dispositivo

I modelli edge portano l'IA multimodale completa su smartphone, browser e dispositivi IoT. Entrambi includono encoder audio nativi, una capacità assente nei modelli più grandi. Scegliete E2B per l'ingombro minimo, E4B per una qualità superiore.

E2B: 2.3B effettivi, 3.2 GB a 4-bit, 95 tok/s su hardware consumer
E4B: 4.5B effettivi, 5.5 GB a 4-bit, ragionamento e codice solidi
Entrambi: audio nativo, contesto 128K, supporto browser WebGPU

Prova E4B Confronta E2B vs E4B

E2B & E4B: L'IA che funziona sul vostro dispositivo

Livello Server

26B MoE & 31B Dense: Prestazioni frontier

I modelli server offrono ragionamento, codice e comprensione multimodale di classe frontier. Il 26B MoE offre qualità vicina al 31B con una frazione del calcolo. Il 31B Dense è il modello di punta per le massime prestazioni.

26B MoE: 3.8B attivi per token, ELO 1441, 88.3% AIME 2026
31B Dense: 30.7B completamente attivi, ELO 1452, 89.2% AIME 2026
Entrambi: contesto 256K, Function Calling nativo, 140+ lingue

Prova 26B Confronta 26B vs 31B

26B MoE & 31B Dense: Prestazioni frontier

Architettura

Innovazioni condivise in tutta la famiglia

Tutti i modelli Gemma 4 condividono le innovazioni architetturali chiave della ricerca Google DeepMind. Per-Layer Embeddings, cache KV condivisa e pattern di attention ibridi massimizzano l'efficienza a ogni scala.

Per-Layer Embeddings (PLE) per un condizionamento efficiente in parametri
Cache KV condivisa per ridurre la memoria durante la generazione a contesto lungo
Attention ibrida locale/globale per un compromesso ottimale memoria-qualità

Leggi i dettagli tecnici Vedi la scheda modello

Innovazioni condivise in tutta la famiglia

Prova ora

Chattate con qualsiasi modello Gemma 4

Provate tutti i modelli istantaneamente tramite la nostra interfaccia di chat, oppure scaricateli per il deployment locale.

Inizia a chattare

Chattate con i modelli Gemma 4 istantaneamente, senza configurazione

Guarda la panoramica

Video ufficiale di presentazione della famiglia Gemma 4

Scheda modello

Specifiche tecniche complete per tutte le varianti

Documentazione

Guide all'integrazione e best practice

Scarica

Ottieni i pesi del modello

Scaricate i pesi ufficiali di qualsiasi variante Gemma 4.

Hugging Face

Tutti i repository dei modelli Gemma 4

Kaggle

Scarica da Kaggle Models

Ollama

Esegui qualsiasi variante localmente con Ollama

Distribuisci

Deployment in produzione

Distribuite su piattaforme cloud, locali o edge.

Google AI Studio

Accesso API ospitato a tutti i modelli

Vertex AI

Deployment enterprise su Google Cloud

Ollama

Deployment locale per tutte le varianti

transformers.js

Deployment nel browser per i modelli edge

Famiglia Gemma 4