Gemma 4 E2B

Il più piccolo Gemma 4 - intelligenza multimodale completa in 2,3 miliardi di parametri

Gemma 4 E2B racchiude la comprensione di testo, immagini e audio in soli 2,3 miliardi di parametri effettivi. Con un contesto da 128K e appena 4 GB di RAM, porta vere capacità di IA su telefoni, dispositivi IoT e i budget hardware più ridotti.

Inizia a chattare Vedi i benchmark

Varianti del modello

Modello Instruction-Tuned ultra-compatto

Gemma 4 E2B utilizza i Per-Layer Embeddings (PLE) per ottenere il massimo delle capacità dal minimo dei parametri.

Architettura Per-Layer Embeddings

2,3 miliardi di parametri effettivi, 5,1 miliardi totali con embeddings

Gemma 4 E2B utilizza il PLE per dare a ciascuno dei suoi 35 layer decoder un proprio percorso di condizionamento. Con un encoder visivo da ~150M e un encoder audio da ~300M, gestisce nativamente testo, immagini e audio con un costo computazionale minimo.

Il punto di ingresso più accessibile a Gemma 4. Ideale per telefoni, IoT, Raspberry Pi e qualsiasi deployment dove la memoria è il vincolo principale.

Inizia a chattare Scopri le capacità

Instruction-Tuned

E2B Instruct

Ottimizzato per l'IA conversazionale on-device con comprensione audio

Affinato per seguire le istruzioni con supporto multimodale nativo

Disponibile ora

Inizia a chattare Scarica i pesi

Pre-addestrato

E2B Base

Modello base per il fine-tuning di applicazioni edge ultra-compatte

Pre-addestrato su dati multimodali diversificati per la massima flessibilità nella dimensione minima

Disponibile ora

Vedi su HuggingFace Guida al fine-tuning

Capacità

Vere capacità di IA alla scala più piccola

Gemma 4 E2B dimostra che un'IA utile non richiede hardware massiccio. Audio, visione, ragionamento e programmazione in un modello che sta su un telefono.

Input audio nativo

L'encoder audio Conformer in stile USM elabora voce e clip audio fino a 30 secondi. Assistenti vocali e analisi audio sui dispositivi più piccoli.

Ragionamento pratico

60% su MMLU Pro e 37,5% su AIME 2026 in matematica. Modalità di pensiero configurabile per la risoluzione di problemi passo dopo passo sul dispositivo.

Assistenza alla programmazione

44% su LiveCodeBench v6 e 633 Codeforces ELO. Generazione di codice e debug utili anche su hardware limitato.

Finestra di contesto da 128K

Elaborazione di documenti lunghi e conversazioni estese sul dispositivo. L'attenzione ibrida mantiene l'uso della memoria a livelli pratici.

Comprensione visiva

44,2% su MMMU Pro. Supporto per rapporti d'aspetto variabili per analisi documenti, OCR e analisi immagini sul dispositivo.

Ingombro minimo

Appena 3,2 GB di VRAM con quantizzazione a 4 bit. Funziona su telefoni, Raspberry Pi e laptop economici.

Punti chiave

Metriche di prestazione del modello ultra-compatto

Gemma 4 E2B offre risultati significativi su compiti diversificati, adattandosi all'hardware più vincolato.

Risultati principali

60% su MMLU Pro in conoscenza e ragionamento
44% su LiveCodeBench v6 in programmazione
43,4% su GPQA Diamond in conoscenze scientifiche
44,2% su MMMU Pro in ragionamento multimodale
Finestra di contesto da 128K token

Specifiche tecniche

2,3 miliardi di parametri effettivi (5,1 miliardi con embeddings)
35 layer decoder con Per-Layer Embeddings
Encoder visivo ~150M + encoder audio ~300M
Input nativo per testo, immagini, video e audio
3,2-4 GB di VRAM con quantizzazione a 4 bit

Inizia a chattare Vedi la scheda modello

Prestazioni

IA significativa alla scala più piccola

Gemma 4 E2B raggiunge il 60% su MMLU Pro e il 44% su LiveCodeBench v6 con soli 2,3 miliardi di parametri effettivi - la prova che un'IA utile sta nella tua tasca.

Gemma 4 E2B dimostra che anche i modelli più piccoli della famiglia offrono valore pratico nel ragionamento, nella programmazione e nei compiti multimodali.

Inizia a chattare Vedi la scheda modello

Grafico di confronto delle prestazioni di Gemma 4 E2B

60% su MMLU Pro - solide conoscenze e ragionamento per un modello ultra-compatto

44% su LiveCodeBench v6 - aiuto pratico alla programmazione su hardware minimo

43,4% su GPQA Diamond - comprensione scientifica in 2,3 miliardi di parametri

44,2% su MMMU Pro - ragionamento multimodale sul dispositivo

95 token/secondo su hardware consumer - inferenza ultraveloce

Confronto benchmark

E2B vs E4B e la famiglia Gemma 4

Gemma 4 E2B è il modello più piccolo della famiglia. Passa a E4B per una qualità superiore, o a 26B/31B per prestazioni di frontiera.

Benchmark	Gemma 4 E2B IT Thinking In evidenza	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Conoscenza e ragionamento	60.0%	69.4%	82.6%	85.2%
AIME 2026 Matematica Senza strumenti	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Conoscenze scientifiche	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programmazione competitiva	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programmazione competitiva	633	940	1718	2150
MMMU Pro Ragionamento multimodale	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Memoria minima	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Input audio nativo	Sì	Sì	No	No

Risultati benchmark dalla scheda ufficiale Gemma 4. I benchmark E2B dimostrano capacità pratiche con un numero minimo di parametri.

Ultra-compatto

IA multimodale completa nel pacchetto Gemma 4 più piccolo

Gemma 4 E2B non è un modello ridotto. Ha la stessa architettura multimodale dei fratelli maggiori - input di testo, immagini, video e audio - in un pacchetto da 2,3 miliardi di parametri effettivi.

Stesse modalità di E4B: input di testo, immagini, video e audio
Stessa finestra di contesto da 128K del modello edge più grande
3,2 GB di VRAM a 4 bit - compatibile con telefoni e hardware economico

Inizia a chattare Confronta con E4B

IA multimodale completa nel pacchetto Gemma 4 più piccolo

Ultraveloce

95 token al secondo su hardware consumer

Il modello più piccolo della famiglia è anche il più veloce. Gemma 4 E2B offre risposte quasi istantanee su hardware consumer, ideale per applicazioni in tempo reale ed esperienze interattive.

~95 token/secondo su GPU consumer
Latenza del primo token inferiore a un secondo sulla maggior parte dell'hardware
Ideale per chat in tempo reale, assistenti vocali e strumenti interattivi

Prova la velocità Guida hardware

95 token al secondo su hardware consumer

IoT & Edge

IA per dispositivi che stanno nel palmo della mano

Gemma 4 E2B è progettato per l'edge. Eseguilo su telefoni Pixel, Raspberry Pi, browser Chrome e qualsiasi dispositivo dove privacy e latenza contano più dei punteggi benchmark.