Gemma 4 E4B

4,5 miliardi di parametri di intelligenza on-device con audio nativo

Gemma 4 E4B racchiude 4,5 miliardi di parametri effettivi in un modello che funziona su laptop, smartphone e browser. Con comprensione nativa di audio, immagini e testo e una finestra di contesto da 128K, porta l'IA multimodale di frontiera direttamente sui tuoi dispositivi.

Varianti del modello

Ottimizzato con istruzioni per il deployment edge

Gemma 4 E4B utilizza Per-Layer Embeddings (PLE) per massimizzare l'efficienza dei parametri, offrendo prestazioni elevate da un'architettura compatta.

Architettura Per-Layer Embeddings

4,5 miliardi di parametri effettivi, 8 miliardi totali con embeddings

Gemma 4 E4B utilizza PLE per assegnare a ogni livello del decoder un proprio percorso di condizionamento. Con 42 livelli, un encoder visivo da ~150M e un encoder audio da ~300M, elabora testo, immagini e audio in modo nativo.

Ideale per il deployment on-device, l'IA nel browser e le applicazioni incentrate sulla privacy, dove i dati non lasciano mai il dispositivo dell'utente.

Ottimizzato con istruzioni

E4B Instruct

Ottimizzato per IA conversazionale, comprensione audio e completamento di attività on-device

Affinato per seguire istruzioni con supporto multimodale nativo, incluso l'input audio

Disponibile ora

Pre-addestrato

E4B Base

Modello base per il fine-tuning di applicazioni edge e mobile

Pre-addestrato su dati multimodali diversificati, incluso l'audio, per la massima flessibilità

Disponibile ora

Funzionalità

Intelligenza da desktop su hardware edge

Gemma 4 E4B porta comprensione multimodale, assistenza alla programmazione e ragionamento su dispositivi che stanno nel palmo della mano.

Input audio nativo

L'encoder audio conformer in stile USM elabora voce e clip audio fino a 30 secondi direttamente, senza bisogno di una pipeline di trascrizione.

Ragionamento avanzato

Modalità di pensiero configurabile con il 42,5% su AIME 2026 in matematica e il 58,6% su GPQA Diamond in scienze di livello universitario avanzato.

Programmazione efficace

52% su LiveCodeBench v6 e 940 Codeforces ELO. Le chiamate a funzioni native abilitano flussi di lavoro agentici on-device.

Finestra di contesto da 128K

Elabora documenti lunghi, intere codebase e conversazioni estese on-device con attenzione ibrida locale/globale.

Comprensione visiva

52,6% su MMMU Pro e 59,5% su MATH-Vision. Supporto per proporzioni variabili con budget di token per immagine configurabili.

Funziona ovunque

Funziona nei browser tramite WebGPU, sugli smartphone tramite ONNX e sui laptop tramite Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.

Punti chiave

Metriche di prestazione edge

Gemma 4 E4B offre risultati eccellenti su diversi benchmark, il tutto su hardware consumer.

Risultati principali

  • 69,4% su MMLU Pro per conoscenza e ragionamento
  • 52% su LiveCodeBench v6 per la programmazione
  • 58,6% su GPQA Diamond per conoscenze scientifiche
  • 52,6% su MMMU Pro per ragionamento multimodale
  • Finestra di contesto da 128K token

Specifiche tecniche

  • 4,5 miliardi di parametri effettivi (8 miliardi con embeddings)
  • 42 livelli decoder con Per-Layer Embeddings
  • Encoder visivo da ~150M + encoder audio da ~300M
  • Input nativo per testo, immagini, video e audio
  • 5,5-6 GB di VRAM con quantizzazione a 4 bit

Prestazioni

Prestazioni ben oltre la sua categoria

Gemma 4 E4B raggiunge il 69,4% su MMLU Pro e il 52% su LiveCodeBench v6 con soli 4,5 miliardi di parametri effettivi, superando molti modelli di dimensioni doppie.

Gemma 4 E4B dimostra che i modelli edge possono offrire prestazioni significative nel ragionamento, nella programmazione e nelle attività multimodali.

Grafico comparativo delle prestazioni di Gemma 4 E4B

69,4% su MMLU Pro - conoscenza e ragionamento eccellenti per un modello edge

52% su LiveCodeBench v6 - assistenza pratica alla programmazione on-device

58,6% su GPQA Diamond - comprensione scientifica di livello universitario avanzato

52,6% su MMMU Pro - ragionamento multimodale con immagini

940 Codeforces ELO - capacità di programmazione competitiva

Confronto benchmark

E4B a confronto con la famiglia Gemma 4 e Gemma 3

Gemma 4 E4B offre prestazioni edge eccellenti, mentre i modelli più grandi gestiscono carichi di lavoro più pesanti.

Benchmark
Gemma 4 E4B IT
Thinking
In evidenza
Gemma 4 E2B IT
Thinking
Gemma 4 31B IT
Thinking
Gemma 3 27B IT
MMLU Pro
Conoscenza e ragionamento
69.4%60.0%85.2%67.6%
AIME 2026
Matematica
Senza strumenti
42.5%37.5%89.2%20.8%
GPQA Diamond
Conoscenze scientifiche
58.6%43.4%84.3%42.4%
LiveCodeBench v6
Programmazione competitiva
52.0%44.0%80.0%29.1%
Codeforces ELO
Programmazione competitiva
9406332150-
MMMU Pro
Ragionamento multimodale
52.6%44.2%76.9%49.7%
MATH-Vision
Ragionamento matematico visivo
59.5%52.4%85.6%-
Audio Support
Input audio nativo
NoNo
Context Window
Token massimi
128K128K256K128K

Risultati dei benchmark dalla scheda ufficiale del modello Gemma 4. I benchmark di E4B dimostrano un'efficienza eccezionale per il suo numero di parametri.

Audio nativo

Comprensione vocale senza pipeline di trascrizione

Gemma 4 E4B include un encoder audio conformer in stile USM che elabora voce e audio direttamente. Nessun modello ASR separato necessario: basta fornire l'audio e ottenere risposte intelligenti.

  • Encoder audio conformer da ~300M di parametri integrato nel modello
  • Elabora clip audio fino a 30 secondi direttamente
  • Ideale per assistenti vocali, analisi audio e strumenti di accessibilità
Comprensione vocale senza pipeline di trascrizione

Deployment edge

Dal browser allo smartphone al Raspberry Pi

Gemma 4 E4B è progettato per funzionare ovunque. Eseguilo in Chrome con WebGPU tramite transformers.js, sugli smartphone con ONNX o sui laptop con Ollama. Bastano 5,5 GB di VRAM con quantizzazione a 4 bit.

  • Browser: transformers.js con accelerazione WebGPU in Chrome
  • Mobile: checkpoint ONNX per il deployment su iOS e Android
  • Locale: Ollama, llama.cpp, MLX per inferenza privata on-device
Dal browser allo smartphone al Raspberry Pi

Visione e documenti

Comprensione di immagini e analisi documenti on-device

L'encoder visivo da ~150M elabora immagini con proporzioni variabili e budget di token configurabili. OCR avanzato e comprensione documentale lo rendono pratico per l'analisi di documenti on-device.

  • 52,6% su MMMU Pro per ragionamento multimodale
  • Risoluzione immagine variabile: da 70 a 1120 token per immagine
  • Analisi documenti, OCR, comprensione di grafici on-device
Comprensione di immagini e analisi documenti on-device

Parte di Gemma 4

Il modello edge in una famiglia di frontiera

Gemma 4 E4B è il modello edge consigliato nella famiglia Gemma 4. Passa al 26B MoE o al 31B Dense quando hai bisogno di più potenza, oppure scendi all'E2B per l'ingombro minimo.

Gemma 4 E2B

Modello ultra-compatto da 2,3 miliardi per i vincoli hardware più stringenti

Confronta

Gemma 4 26B

Modello MoE con qualità vicina al 31B a un costo di inferenza di 4B

Scopri di più

Gemma 4 31B

Modello denso di punta per le massime prestazioni

Scopri di più

Documentazione

Guide complete per integrazione e deployment

Leggi la documentazione

Community

Unisciti agli sviluppatori che costruiscono con Gemma

Esplora

Scheda del modello

Specifiche tecniche e risultati delle valutazioni

Vedi i dettagli

Per iniziare

Pronto a eseguire l'IA on-device con Gemma 4 E4B?

Inizia a chattare gratuitamente o scarica il modello per un deployment privato on-device. Nessun dato lascia il tuo dispositivo.