Gemma 4 E2B

Il più piccolo Gemma 4 - intelligenza multimodale completa in 2,3 miliardi di parametri

Gemma 4 E2B racchiude la comprensione di testo, immagini e audio in soli 2,3 miliardi di parametri effettivi. Con un contesto da 128K e appena 4 GB di RAM, porta vere capacità di IA su telefoni, dispositivi IoT e i budget hardware più ridotti.

Varianti del modello

Modello Instruction-Tuned ultra-compatto

Gemma 4 E2B utilizza i Per-Layer Embeddings (PLE) per ottenere il massimo delle capacità dal minimo dei parametri.

Architettura Per-Layer Embeddings

2,3 miliardi di parametri effettivi, 5,1 miliardi totali con embeddings

Gemma 4 E2B utilizza il PLE per dare a ciascuno dei suoi 35 layer decoder un proprio percorso di condizionamento. Con un encoder visivo da ~150M e un encoder audio da ~300M, gestisce nativamente testo, immagini e audio con un costo computazionale minimo.

Il punto di ingresso più accessibile a Gemma 4. Ideale per telefoni, IoT, Raspberry Pi e qualsiasi deployment dove la memoria è il vincolo principale.

Instruction-Tuned

E2B Instruct

Ottimizzato per l'IA conversazionale on-device con comprensione audio

Affinato per seguire le istruzioni con supporto multimodale nativo

Disponibile ora

Pre-addestrato

E2B Base

Modello base per il fine-tuning di applicazioni edge ultra-compatte

Pre-addestrato su dati multimodali diversificati per la massima flessibilità nella dimensione minima

Disponibile ora

Capacità

Vere capacità di IA alla scala più piccola

Gemma 4 E2B dimostra che un'IA utile non richiede hardware massiccio. Audio, visione, ragionamento e programmazione in un modello che sta su un telefono.

Input audio nativo

L'encoder audio Conformer in stile USM elabora voce e clip audio fino a 30 secondi. Assistenti vocali e analisi audio sui dispositivi più piccoli.

Ragionamento pratico

60% su MMLU Pro e 37,5% su AIME 2026 in matematica. Modalità di pensiero configurabile per la risoluzione di problemi passo dopo passo sul dispositivo.

Assistenza alla programmazione

44% su LiveCodeBench v6 e 633 Codeforces ELO. Generazione di codice e debug utili anche su hardware limitato.

Finestra di contesto da 128K

Elaborazione di documenti lunghi e conversazioni estese sul dispositivo. L'attenzione ibrida mantiene l'uso della memoria a livelli pratici.

Comprensione visiva

44,2% su MMMU Pro. Supporto per rapporti d'aspetto variabili per analisi documenti, OCR e analisi immagini sul dispositivo.

Ingombro minimo

Appena 3,2 GB di VRAM con quantizzazione a 4 bit. Funziona su telefoni, Raspberry Pi e laptop economici.

Punti chiave

Metriche di prestazione del modello ultra-compatto

Gemma 4 E2B offre risultati significativi su compiti diversificati, adattandosi all'hardware più vincolato.

Risultati principali

  • 60% su MMLU Pro in conoscenza e ragionamento
  • 44% su LiveCodeBench v6 in programmazione
  • 43,4% su GPQA Diamond in conoscenze scientifiche
  • 44,2% su MMMU Pro in ragionamento multimodale
  • Finestra di contesto da 128K token

Specifiche tecniche

  • 2,3 miliardi di parametri effettivi (5,1 miliardi con embeddings)
  • 35 layer decoder con Per-Layer Embeddings
  • Encoder visivo ~150M + encoder audio ~300M
  • Input nativo per testo, immagini, video e audio
  • 3,2-4 GB di VRAM con quantizzazione a 4 bit

Prestazioni

IA significativa alla scala più piccola

Gemma 4 E2B raggiunge il 60% su MMLU Pro e il 44% su LiveCodeBench v6 con soli 2,3 miliardi di parametri effettivi - la prova che un'IA utile sta nella tua tasca.

Gemma 4 E2B dimostra che anche i modelli più piccoli della famiglia offrono valore pratico nel ragionamento, nella programmazione e nei compiti multimodali.

Grafico di confronto delle prestazioni di Gemma 4 E2B

60% su MMLU Pro - solide conoscenze e ragionamento per un modello ultra-compatto

44% su LiveCodeBench v6 - aiuto pratico alla programmazione su hardware minimo

43,4% su GPQA Diamond - comprensione scientifica in 2,3 miliardi di parametri

44,2% su MMMU Pro - ragionamento multimodale sul dispositivo

95 token/secondo su hardware consumer - inferenza ultraveloce

Confronto benchmark

E2B vs E4B e la famiglia Gemma 4

Gemma 4 E2B è il modello più piccolo della famiglia. Passa a E4B per una qualità superiore, o a 26B/31B per prestazioni di frontiera.

Benchmark
Gemma 4 E2B IT
Thinking
In evidenza
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Conoscenza e ragionamento
60.0%69.4%82.6%85.2%
AIME 2026
Matematica
Senza strumenti
37.5%42.5%88.3%89.2%
GPQA Diamond
Conoscenze scientifiche
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Programmazione competitiva
44.0%52.0%77.1%80.0%
Codeforces ELO
Programmazione competitiva
63394017182150
MMMU Pro
Ragionamento multimodale
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Memoria minima
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Input audio nativo
NoNo

Risultati benchmark dalla scheda ufficiale Gemma 4. I benchmark E2B dimostrano capacità pratiche con un numero minimo di parametri.

Ultra-compatto

IA multimodale completa nel pacchetto Gemma 4 più piccolo

Gemma 4 E2B non è un modello ridotto. Ha la stessa architettura multimodale dei fratelli maggiori - input di testo, immagini, video e audio - in un pacchetto da 2,3 miliardi di parametri effettivi.

  • Stesse modalità di E4B: input di testo, immagini, video e audio
  • Stessa finestra di contesto da 128K del modello edge più grande
  • 3,2 GB di VRAM a 4 bit - compatibile con telefoni e hardware economico
IA multimodale completa nel pacchetto Gemma 4 più piccolo

Ultraveloce

95 token al secondo su hardware consumer

Il modello più piccolo della famiglia è anche il più veloce. Gemma 4 E2B offre risposte quasi istantanee su hardware consumer, ideale per applicazioni in tempo reale ed esperienze interattive.

  • ~95 token/secondo su GPU consumer
  • Latenza del primo token inferiore a un secondo sulla maggior parte dell'hardware
  • Ideale per chat in tempo reale, assistenti vocali e strumenti interattivi
95 token al secondo su hardware consumer

IoT & Edge

IA per dispositivi che stanno nel palmo della mano

Gemma 4 E2B è progettato per l'edge. Eseguilo su telefoni Pixel, Raspberry Pi, browser Chrome e qualsiasi dispositivo dove privacy e latenza contano più dei punteggi benchmark.

  • Checkpoint ONNX per il deployment edge multipiattaforma
  • Supporto WebGPU per l'inferenza nel browser
  • Progettato per ambienti Pixel, Chrome e IoT
IA per dispositivi che stanno nel palmo della mano

Famiglia Gemma 4

Il modello più piccolo di una famiglia all'avanguardia

Gemma 4 E2B è il punto di ingresso alla famiglia Gemma 4. Passa a E4B per una qualità superiore, o a 26B/31B per prestazioni di frontiera.

Gemma 4 E4B

Modello edge più potente con 4,5 miliardi di parametri effettivi

Confronta

Gemma 4 26B

Modello MoE con qualità vicina al 31B a un costo di inferenza di 4B

Scopri di più

Gemma 4 31B

Modello dense di punta per le massime prestazioni

Scopri di più

Documentazione

Guide complete per integrazione e deployment

Leggi i docs

Community

Unisciti agli sviluppatori che costruiscono con Gemma

Esplora

Scheda modello

Specifiche tecniche e risultati di valutazione

Vedi i dettagli

Per iniziare

Pronto a eseguire l'IA sui dispositivi più piccoli?

Inizia a chattare gratuitamente o scarica Gemma 4 E2B per un deployment ultra-compatto, privato e on-device.