Gemma 4 E4B
4,5 miliardi di parametri di intelligenza on-device con audio nativo
Gemma 4 E4B racchiude 4,5 miliardi di parametri effettivi in un modello che funziona su laptop, smartphone e browser. Con comprensione nativa di audio, immagini e testo e una finestra di contesto da 128K, porta l'IA multimodale di frontiera direttamente sui tuoi dispositivi.
Varianti del modello
Ottimizzato con istruzioni per il deployment edge
Gemma 4 E4B utilizza Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri, offrendo prestazioni elevate da un'architettura compatta.
Architettura Per-Layer Embeddings
4,5 miliardi di parametri effettivi, 8 miliardi totali con embeddings
Gemma 4 E4B utilizza PLE per assegnare a ogni livello del decoder un proprio percorso di condizionamento. Con 42 livelli, un encoder visivo da ~150M e un encoder audio da ~300M, elabora testo, immagini e audio in modo nativo.
Ideale per il deployment on-device, l'IA nel browser e le applicazioni incentrate sulla privacy, dove i dati non lasciano mai il dispositivo dell'utente.
Ottimizzato con istruzioni
E4B Instruct
Ottimizzato per IA conversazionale, comprensione audio e completamento di attività on-device
Affinato per seguire istruzioni con supporto multimodale nativo, incluso l'input audio
Pre-addestrato
E4B Base
Modello base per il fine-tuning di applicazioni edge e mobile
Pre-addestrato su dati multimodali diversificati, incluso l'audio, per la massima flessibilità
Funzionalità
Intelligenza da desktop su hardware edge
Gemma 4 E4B porta comprensione multimodale, assistenza alla programmazione e ragionamento su dispositivi che stanno nel palmo della mano.
Input audio nativo
L'encoder audio conformer in stile USM elabora voce e clip audio fino a 30 secondi direttamente, senza bisogno di una pipeline di trascrizione.
Ragionamento avanzato
Modalità di pensiero configurabile con il 42,5% su AIME 2026 in matematica e il 58,6% su GPQA Diamond in scienze di livello universitario avanzato.
Programmazione efficace
52% su LiveCodeBench v6 e 940 Codeforces ELO. Le chiamate a funzioni native abilitano flussi di lavoro agentici on-device.
Finestra di contesto da 128K
Elabora documenti lunghi, intere codebase e conversazioni estese on-device con attenzione ibrida locale/globale.
Comprensione visiva
52,6% su MMMU Pro e 59,5% su MATH-Vision. Supporto per proporzioni variabili con budget di token per immagine configurabili.
Funziona ovunque
Funziona nei browser tramite WebGPU, sugli smartphone tramite ONNX e sui laptop tramite Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.
Punti chiave
Metriche di prestazione edge
Gemma 4 E4B offre risultati eccellenti su diversi benchmark, il tutto su hardware consumer.
Risultati principali
- 69,4% su MMLU Pro per conoscenza e ragionamento
- 52% su LiveCodeBench v6 per la programmazione
- 58,6% su GPQA Diamond per conoscenze scientifiche
- 52,6% su MMMU Pro per ragionamento multimodale
- Finestra di contesto da 128K token
Specifiche tecniche
- 4,5 miliardi di parametri effettivi (8 miliardi con embeddings)
- 42 livelli decoder con Per-Layer Embeddings
- Encoder visivo da ~150M + encoder audio da ~300M
- Input nativo per testo, immagini, video e audio
- 5,5-6 GB di VRAM con quantizzazione a 4 bit
Prestazioni
Prestazioni ben oltre la sua categoria
Gemma 4 E4B raggiunge il 69,4% su MMLU Pro e il 52% su LiveCodeBench v6 con soli 4,5 miliardi di parametri effettivi, superando molti modelli di dimensioni doppie.
Gemma 4 E4B dimostra che i modelli edge possono offrire prestazioni significative nel ragionamento, nella programmazione e nelle attività multimodali.


69,4% su MMLU Pro - conoscenza e ragionamento eccellenti per un modello edge
52% su LiveCodeBench v6 - assistenza pratica alla programmazione on-device
58,6% su GPQA Diamond - comprensione scientifica di livello universitario avanzato
52,6% su MMMU Pro - ragionamento multimodale con immagini
940 Codeforces ELO - capacità di programmazione competitiva
Confronto benchmark
E4B a confronto con la famiglia Gemma 4 e Gemma 3
Gemma 4 E4B offre prestazioni edge eccellenti, mentre i modelli più grandi gestiscono carichi di lavoro più pesanti.
| Benchmark | Gemma 4 E4B IT Thinking In evidenza | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Conoscenza e ragionamento | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 Matematica Senza strumenti | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond Conoscenze scientifiche | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 Programmazione competitiva | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO Programmazione competitiva | 940 | 633 | 2150 | - |
MMMU Pro Ragionamento multimodale | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision Ragionamento matematico visivo | 59.5% | 52.4% | 85.6% | - |
Audio Support Input audio nativo | Sì | Sì | No | No |
Context Window Token massimi | 128K | 128K | 256K | 128K |
Risultati dei benchmark dalla scheda ufficiale del modello Gemma 4. I benchmark di E4B dimostrano un'efficienza eccezionale per il suo numero di parametri.
Audio nativo
Comprensione vocale senza pipeline di trascrizione
Gemma 4 E4B include un encoder audio conformer in stile USM che elabora voce e audio direttamente. Nessun modello ASR separato necessario: basta fornire l'audio e ottenere risposte intelligenti.
- Encoder audio conformer da ~300M di parametri integrato nel modello
- Elabora clip audio fino a 30 secondi direttamente
- Ideale per assistenti vocali, analisi audio e strumenti di accessibilità
Deployment edge
Dal browser allo smartphone al Raspberry Pi
Gemma 4 E4B è progettato per funzionare ovunque. Eseguilo in Chrome con WebGPU tramite transformers.js, sugli smartphone con ONNX o sui laptop con Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.
- Browser: transformers.js con accelerazione WebGPU in Chrome
- Mobile: checkpoint ONNX per il deployment su iOS e Android
- Locale: Ollama, llama.cpp, MLX per inferenza privata on-device
Visione e documenti
Comprensione di immagini e analisi documenti on-device
L'encoder visivo da ~150M elabora immagini con proporzioni variabili e budget di token configurabili. OCR avanzato e comprensione documentale lo rendono pratico per l'analisi di documenti on-device.
- 52,6% su MMMU Pro per ragionamento multimodale
- Risoluzione immagine variabile: da 70 a 1120 token per immagine
- Analisi documenti, OCR, comprensione di grafici on-device
Per iniziare
Prova Gemma 4 E4B ora
Inizia a chattare subito o scarica il modello per il deployment on-device.
Scarica i pesi
Deployment on-device
Scarica i pesi ufficiali del modello per il deployment edge e locale.
Piattaforme edge
Deployment su browser e mobile
Distribuisci su dispositivi edge, browser e piattaforme mobile.
Parte di Gemma 4
Il modello edge in una famiglia di frontiera
Gemma 4 E4B è il modello edge consigliato nella famiglia Gemma 4. Passa al 26B MoE o al 31B Dense quando hai bisogno di più potenza, oppure scendi all'E2B per l'ingombro minimo.
Per iniziare
Pronto a eseguire l'IA on-device con Gemma 4 E4B?
Inizia a chattare gratuitamente o scarica il modello per un deployment privato on-device. Nessun dato lascia il tuo dispositivo.