Gemma 4 E2B
Il più piccolo Gemma 4 - intelligenza multimodale completa in 2,3 miliardi di parametri
Gemma 4 E2B racchiude la comprensione di testo, immagini e audio in soli 2,3 miliardi di parametri effettivi. Con un contesto da 128K e appena 4 GB di RAM, porta vere capacità di IA su telefoni, dispositivi IoT e i budget hardware più ridotti.
Varianti del modello
Modello Instruction-Tuned ultra-compatto
Gemma 4 E2B utilizza i Per-Layer Embeddings (PLE) per ottenere il massimo delle capacità dal minimo dei parametri.
Architettura Per-Layer Embeddings
2,3 miliardi di parametri effettivi, 5,1 miliardi totali con embeddings
Gemma 4 E2B utilizza il PLE per dare a ciascuno dei suoi 35 layer decoder un proprio percorso di condizionamento. Con un encoder visivo da ~150M e un encoder audio da ~300M, gestisce nativamente testo, immagini e audio con un costo computazionale minimo.
Il punto di ingresso più accessibile a Gemma 4. Ideale per telefoni, IoT, Raspberry Pi e qualsiasi deployment dove la memoria è il vincolo principale.
Instruction-Tuned
E2B Instruct
Ottimizzato per l'IA conversazionale on-device con comprensione audio
Affinato per seguire le istruzioni con supporto multimodale nativo
Pre-addestrato
E2B Base
Modello base per il fine-tuning di applicazioni edge ultra-compatte
Pre-addestrato su dati multimodali diversificati per la massima flessibilità nella dimensione minima
Capacità
Vere capacità di IA alla scala più piccola
Gemma 4 E2B dimostra che un'IA utile non richiede hardware massiccio. Audio, visione, ragionamento e programmazione in un modello che sta su un telefono.
Input audio nativo
L'encoder audio Conformer in stile USM elabora voce e clip audio fino a 30 secondi. Assistenti vocali e analisi audio sui dispositivi più piccoli.
Ragionamento pratico
60% su MMLU Pro e 37,5% su AIME 2026 in matematica. Modalità di pensiero configurabile per la risoluzione di problemi passo dopo passo sul dispositivo.
Assistenza alla programmazione
44% su LiveCodeBench v6 e 633 Codeforces ELO. Generazione di codice e debug utili anche su hardware limitato.
Finestra di contesto da 128K
Elaborazione di documenti lunghi e conversazioni estese sul dispositivo. L'attenzione ibrida mantiene l'uso della memoria a livelli pratici.
Comprensione visiva
44,2% su MMMU Pro. Supporto per rapporti d'aspetto variabili per analisi documenti, OCR e analisi immagini sul dispositivo.
Ingombro minimo
Appena 3,2 GB di VRAM con quantizzazione a 4 bit. Funziona su telefoni, Raspberry Pi e laptop economici.
Punti chiave
Metriche di prestazione del modello ultra-compatto
Gemma 4 E2B offre risultati significativi su compiti diversificati, adattandosi all'hardware più vincolato.
Risultati principali
- 60% su MMLU Pro in conoscenza e ragionamento
- 44% su LiveCodeBench v6 in programmazione
- 43,4% su GPQA Diamond in conoscenze scientifiche
- 44,2% su MMMU Pro in ragionamento multimodale
- Finestra di contesto da 128K token
Specifiche tecniche
- 2,3 miliardi di parametri effettivi (5,1 miliardi con embeddings)
- 35 layer decoder con Per-Layer Embeddings
- Encoder visivo ~150M + encoder audio ~300M
- Input nativo per testo, immagini, video e audio
- 3,2-4 GB di VRAM con quantizzazione a 4 bit
Prestazioni
IA significativa alla scala più piccola
Gemma 4 E2B raggiunge il 60% su MMLU Pro e il 44% su LiveCodeBench v6 con soli 2,3 miliardi di parametri effettivi - la prova che un'IA utile sta nella tua tasca.
Gemma 4 E2B dimostra che anche i modelli più piccoli della famiglia offrono valore pratico nel ragionamento, nella programmazione e nei compiti multimodali.


60% su MMLU Pro - solide conoscenze e ragionamento per un modello ultra-compatto
44% su LiveCodeBench v6 - aiuto pratico alla programmazione su hardware minimo
43,4% su GPQA Diamond - comprensione scientifica in 2,3 miliardi di parametri
44,2% su MMMU Pro - ragionamento multimodale sul dispositivo
95 token/secondo su hardware consumer - inferenza ultraveloce
Confronto benchmark
E2B vs E4B e la famiglia Gemma 4
Gemma 4 E2B è il modello più piccolo della famiglia. Passa a E4B per una qualità superiore, o a 26B/31B per prestazioni di frontiera.
| Benchmark | Gemma 4 E2B IT Thinking In evidenza | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Conoscenza e ragionamento | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Matematica Senza strumenti | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Conoscenze scientifiche | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programmazione competitiva | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programmazione competitiva | 633 | 940 | 1718 | 2150 |
MMMU Pro Ragionamento multimodale | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Memoria minima | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Input audio nativo | Sì | Sì | No | No |
Risultati benchmark dalla scheda ufficiale Gemma 4. I benchmark E2B dimostrano capacità pratiche con un numero minimo di parametri.
Ultra-compatto
IA multimodale completa nel pacchetto Gemma 4 più piccolo
Gemma 4 E2B non è un modello ridotto. Ha la stessa architettura multimodale dei fratelli maggiori - input di testo, immagini, video e audio - in un pacchetto da 2,3 miliardi di parametri effettivi.
- Stesse modalità di E4B: input di testo, immagini, video e audio
- Stessa finestra di contesto da 128K del modello edge più grande
- 3,2 GB di VRAM a 4 bit - compatibile con telefoni e hardware economico
Ultraveloce
95 token al secondo su hardware consumer
Il modello più piccolo della famiglia è anche il più veloce. Gemma 4 E2B offre risposte quasi istantanee su hardware consumer, ideale per applicazioni in tempo reale ed esperienze interattive.
- ~95 token/secondo su GPU consumer
- Latenza del primo token inferiore a un secondo sulla maggior parte dell'hardware
- Ideale per chat in tempo reale, assistenti vocali e strumenti interattivi
IoT & Edge
IA per dispositivi che stanno nel palmo della mano
Gemma 4 E2B è progettato per l'edge. Eseguilo su telefoni Pixel, Raspberry Pi, browser Chrome e qualsiasi dispositivo dove privacy e latenza contano più dei punteggi benchmark.
- Checkpoint ONNX per il deployment edge multipiattaforma
- Supporto WebGPU per l'inferenza nel browser
- Progettato per ambienti Pixel, Chrome e IoT
Per iniziare
Prova Gemma 4 E2B ora
Inizia subito a chattare o scarica per un deployment ultra-compatto.
Scarica i pesi
Deployment ultra-compatto
Scarica i pesi ufficiali del modello per il deployment più compatto possibile.
Piattaforme edge
Deployment su telefono, browser e IoT
Deployment sui dispositivi più piccoli con runtime ottimizzati.
Famiglia Gemma 4
Il modello più piccolo di una famiglia all'avanguardia
Gemma 4 E2B è il punto di ingresso alla famiglia Gemma 4. Passa a E4B per una qualità superiore, o a 26B/31B per prestazioni di frontiera.
Per iniziare
Pronto a eseguire l'IA sui dispositivi più piccoli?
Inizia a chattare gratuitamente o scarica Gemma 4 E2B per un deployment ultra-compatto, privato e on-device.