Gemma 4 E4B

4,5 miliardi di parametri di intelligenza on-device con audio nativo

Gemma 4 E4B racchiude 4,5 miliardi di parametri effettivi in un modello che funziona su laptop, smartphone e browser. Con comprensione nativa di audio, immagini e testo e una finestra di contesto da 128K, porta l'IA multimodale di frontiera direttamente sui tuoi dispositivi.

Inizia a chattare Vedi i benchmark

Varianti del modello

Ottimizzato con istruzioni per il deployment edge

Gemma 4 E4B utilizza Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri, offrendo prestazioni elevate da un'architettura compatta.

Architettura Per-Layer Embeddings

4,5 miliardi di parametri effettivi, 8 miliardi totali con embeddings

Gemma 4 E4B utilizza PLE per assegnare a ogni livello del decoder un proprio percorso di condizionamento. Con 42 livelli, un encoder visivo da ~150M e un encoder audio da ~300M, elabora testo, immagini e audio in modo nativo.

Ideale per il deployment on-device, l'IA nel browser e le applicazioni incentrate sulla privacy, dove i dati non lasciano mai il dispositivo dell'utente.

Inizia a chattare Scopri le funzionalità

Ottimizzato con istruzioni

E4B Instruct

Ottimizzato per IA conversazionale, comprensione audio e completamento di attività on-device

Affinato per seguire istruzioni con supporto multimodale nativo, incluso l'input audio

Disponibile ora

Inizia a chattare Scarica i pesi

Pre-addestrato

E4B Base

Modello base per il fine-tuning di applicazioni edge e mobile

Pre-addestrato su dati multimodali diversificati, incluso l'audio, per la massima flessibilità

Disponibile ora

Vedi su HuggingFace Guida al fine-tuning

Funzionalità

Intelligenza da desktop su hardware edge

Gemma 4 E4B porta comprensione multimodale, assistenza alla programmazione e ragionamento su dispositivi che stanno nel palmo della mano.

Input audio nativo

L'encoder audio conformer in stile USM elabora voce e clip audio fino a 30 secondi direttamente, senza bisogno di una pipeline di trascrizione.

Ragionamento avanzato

Modalità di pensiero configurabile con il 42,5% su AIME 2026 in matematica e il 58,6% su GPQA Diamond in scienze di livello universitario avanzato.

Programmazione efficace

52% su LiveCodeBench v6 e 940 Codeforces ELO. Le chiamate a funzioni native abilitano flussi di lavoro agentici on-device.

Finestra di contesto da 128K

Elabora documenti lunghi, intere codebase e conversazioni estese on-device con attenzione ibrida locale/globale.

Comprensione visiva

52,6% su MMMU Pro e 59,5% su MATH-Vision. Supporto per proporzioni variabili con budget di token per immagine configurabili.

Funziona ovunque

Funziona nei browser tramite WebGPU, sugli smartphone tramite ONNX e sui laptop tramite Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.

Punti chiave

Metriche di prestazione edge

Gemma 4 E4B offre risultati eccellenti su diversi benchmark, il tutto su hardware consumer.

Risultati principali

69,4% su MMLU Pro per conoscenza e ragionamento
52% su LiveCodeBench v6 per la programmazione
58,6% su GPQA Diamond per conoscenze scientifiche
52,6% su MMMU Pro per ragionamento multimodale
Finestra di contesto da 128K token

Specifiche tecniche

4,5 miliardi di parametri effettivi (8 miliardi con embeddings)
42 livelli decoder con Per-Layer Embeddings
Encoder visivo da ~150M + encoder audio da ~300M
Input nativo per testo, immagini, video e audio
5,5-6 GB di VRAM con quantizzazione a 4 bit

Inizia a chattare Vedi la scheda del modello

Prestazioni

Prestazioni ben oltre la sua categoria

Gemma 4 E4B raggiunge il 69,4% su MMLU Pro e il 52% su LiveCodeBench v6 con soli 4,5 miliardi di parametri effettivi, superando molti modelli di dimensioni doppie.

Gemma 4 E4B dimostra che i modelli edge possono offrire prestazioni significative nel ragionamento, nella programmazione e nelle attività multimodali.

Inizia a chattare Vedi la scheda del modello

Grafico comparativo delle prestazioni di Gemma 4 E4B

69,4% su MMLU Pro - conoscenza e ragionamento eccellenti per un modello edge

52% su LiveCodeBench v6 - assistenza pratica alla programmazione on-device

58,6% su GPQA Diamond - comprensione scientifica di livello universitario avanzato

52,6% su MMMU Pro - ragionamento multimodale con immagini

940 Codeforces ELO - capacità di programmazione competitiva

Confronto benchmark

E4B a confronto con la famiglia Gemma 4 e Gemma 3

Gemma 4 E4B offre prestazioni edge eccellenti, mentre i modelli più grandi gestiscono carichi di lavoro più pesanti.

Benchmark	Gemma 4 E4B IT Thinking In evidenza	Gemma 4 E2B IT Thinking	Gemma 4 31B IT Thinking	Gemma 3 27B IT
MMLU Pro Conoscenza e ragionamento	69.4%	60.0%	85.2%	67.6%
AIME 2026 Matematica Senza strumenti	42.5%	37.5%	89.2%	20.8%
GPQA Diamond Conoscenze scientifiche	58.6%	43.4%	84.3%	42.4%
LiveCodeBench v6 Programmazione competitiva	52.0%	44.0%	80.0%	29.1%
Codeforces ELO Programmazione competitiva	940	633	2150	-
MMMU Pro Ragionamento multimodale	52.6%	44.2%	76.9%	49.7%
MATH-Vision Ragionamento matematico visivo	59.5%	52.4%	85.6%	-
Audio Support Input audio nativo	Sì	Sì	No	No
Context Window Token massimi	128K	128K	256K	128K

Risultati dei benchmark dalla scheda ufficiale del modello Gemma 4. I benchmark di E4B dimostrano un'efficienza eccezionale per il suo numero di parametri.

Audio nativo

Comprensione vocale senza pipeline di trascrizione

Gemma 4 E4B include un encoder audio conformer in stile USM che elabora voce e audio direttamente. Nessun modello ASR separato necessario: basta fornire l'audio e ottenere risposte intelligenti.

Encoder audio conformer da ~300M di parametri integrato nel modello
Elabora clip audio fino a 30 secondi direttamente
Ideale per assistenti vocali, analisi audio e strumenti di accessibilità

Prova l'input audio Vedi la documentazione

Comprensione vocale senza pipeline di trascrizione

Deployment edge

Dal browser allo smartphone al Raspberry Pi

Gemma 4 E4B è progettato per funzionare ovunque. Eseguilo in Chrome con WebGPU tramite transformers.js, sugli smartphone con ONNX o sui laptop con Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.

Browser: transformers.js con accelerazione WebGPU in Chrome
Mobile: checkpoint ONNX per il deployment su iOS e Android
Locale: Ollama, llama.cpp, MLX per inferenza privata on-device

Prova nel browser Scarica per uso locale

Dal browser allo smartphone al Raspberry Pi

Visione e documenti

Comprensione di immagini e analisi documenti on-device

L'encoder visivo da ~150M elabora immagini con proporzioni variabili e budget di token configurabili. OCR avanzato e comprensione documentale lo rendono pratico per l'analisi di documenti on-device.

52,6% su MMMU Pro per ragionamento multimodale
Risoluzione immagine variabile: da 70 a 1120 token per immagine
Analisi documenti, OCR, comprensione di grafici on-device

Prova le attività visive Vedi gli esempi

Comprensione di immagini e analisi documenti on-device

Per iniziare

Prova Gemma 4 E4B ora

Inizia a chattare subito o scarica il modello per il deployment on-device.

Inizia a chattare

Chatta con Gemma 4 E4B subito, senza configurazione

Guarda la panoramica

Video ufficiale di presentazione di Gemma 4

Scheda del modello

Specifiche tecniche complete e benchmark

Documentazione

Guide all'integrazione e best practice

Scarica i pesi

Deployment on-device

Scarica i pesi ufficiali del modello per il deployment edge e locale.

Hugging Face

Repository ufficiale del modello Gemma 4 E4B

Kaggle

Scarica da Kaggle Models

Ollama

Esegui in locale con Ollama

Piattaforme edge

Deployment su browser e mobile

Distribuisci su dispositivi edge, browser e piattaforme mobile.

transformers.js

Esegui nei browser con accelerazione WebGPU

ONNX Runtime

Deployment edge multipiattaforma

MLX

Ottimizzato per Apple Silicon

llama.cpp

Inferenza efficiente su CPU e GPU

Parte di Gemma 4

Il modello edge in una famiglia di frontiera

Gemma 4 E4B è il modello edge consigliato nella famiglia Gemma 4. Passa al 26B MoE o al 31B Dense quando hai bisogno di più potenza, oppure scendi all'E2B per l'ingombro minimo.

Esplora tutti i modelli Pagina ufficiale

Gemma 4 E2B

Modello ultra-compatto da 2,3 miliardi per i vincoli hardware più stringenti

Confronta

Gemma 4 26B

Modello MoE con qualità vicina al 31B a un costo di inferenza di 4B

Scopri di più

Gemma 4 31B

Modello denso di punta per le massime prestazioni

Scopri di più

Documentazione

Guide complete per integrazione e deployment

Leggi la documentazione

Community

Unisciti agli sviluppatori che costruiscono con Gemma

Esplora

Scheda del modello

Specifiche tecniche e risultati delle valutazioni

Vedi i dettagli

Per iniziare

Pronto a eseguire l'IA on-device con Gemma 4 E4B?

Inizia a chattare gratuitamente o scarica il modello per un deployment privato on-device. Nessun dato lascia il tuo dispositivo.

Inizia a chattare gratis Scarica i pesi

4,5 miliardi di parametri di intelligenza on-device con audio nativo

Intelligenza multimodale che sta in tasca

Ottimizzato con istruzioni per il deployment edge

4,5 miliardi di parametri effettivi, 8 miliardi totali con embeddings

E4B Instruct

E4B Base

Intelligenza da desktop su hardware edge

Input audio nativo

Ragionamento avanzato

Programmazione efficace

Finestra di contesto da 128K

Comprensione visiva

Funziona ovunque

Metriche di prestazione edge

Prestazioni ben oltre la sua categoria

E4B a confronto con la famiglia Gemma 4 e Gemma 3

Comprensione vocale senza pipeline di trascrizione

Dal browser allo smartphone al Raspberry Pi

Comprensione di immagini e analisi documenti on-device

Prova Gemma 4 E4B ora

Deployment on-device

Deployment su browser e mobile

Il modello edge in una famiglia di frontiera

Gemma 4 E2B

Gemma 4 26B

Gemma 4 31B

Documentazione

Community

Scheda del modello

Pronto a eseguire l'IA on-device con Gemma 4 E4B?