Gemma 4 E2B

El Gemma 4 más pequeño: inteligencia multimodal completa en 2,300 millones de parámetros

Gemma 4 E2B concentra la comprensión de texto, imagen y audio en solo 2,300 millones de parámetros efectivos. Con un contexto de 128K y tan solo 4 GB de RAM, lleva capacidades reales de IA a celulares, dispositivos IoT y los presupuestos de hardware más ajustados.

Comenzar a chatear Ver benchmarks

Variantes del modelo

Modelo Instruction-Tuned ultracompacto

Gemma 4 E2B usa Per-Layer Embeddings (PLE) para sacar el máximo rendimiento del mínimo de parámetros.

Arquitectura Per-Layer Embeddings

2,300 millones de parámetros efectivos, 5,100 millones en total con embeddings

Gemma 4 E2B usa PLE para darle a cada una de sus 35 capas de decodificador su propia vía de condicionamiento. Con un codificador de visión de ~150M y un codificador de audio de ~300M, procesa texto, imágenes y audio de forma nativa con un costo computacional mínimo.

El punto de entrada más fácil a Gemma 4. Ideal para celulares, IoT, Raspberry Pi y cualquier implementación donde la memoria sea la principal limitante.

Comenzar a chatear Ver capacidades

Instruction-Tuned

E2B Instruct

Optimizado para IA conversacional en dispositivo con comprensión de audio

Ajustado para seguir instrucciones con soporte multimodal nativo

Disponible ahora

Comenzar a chatear Descargar pesos

Pre-entrenado

E2B Base

Modelo base para el ajuste fino de aplicaciones edge ultracompactas

Pre-entrenado con datos multimodales diversos para máxima flexibilidad en el tamaño mínimo

Disponible ahora

Ver en HuggingFace Guía de ajuste fino

Capacidades

Capacidades reales de IA en la escala más pequeña

Gemma 4 E2B demuestra que una IA útil no necesita hardware enorme. Audio, visión, razonamiento y programación en un modelo que cabe en un celular.

Entrada de audio nativa

El codificador de audio Conformer tipo USM procesa voz y clips de audio de hasta 30 segundos. Asistentes de voz y análisis de audio en los dispositivos más pequeños.

Razonamiento práctico

60% en MMLU Pro y 37.5% en AIME 2026 en matemáticas. Modo de pensamiento configurable para resolver problemas paso a paso en el dispositivo.

Asistencia en programación

44% en LiveCodeBench v6 y 633 Codeforces ELO. Generación de código y depuración útiles incluso en hardware limitado.

Ventana de contexto de 128K

Procesamiento de documentos largos y conversaciones extendidas en el dispositivo. La atención híbrida mantiene el uso de memoria en niveles prácticos.

Comprensión visual

44.2% en MMMU Pro. Soporte de relaciones de aspecto variables para análisis de documentos, OCR y análisis de imágenes en el dispositivo.

Huella mínima

Tan solo 3.2 GB de VRAM con cuantización de 4 bits. Corre en celulares, Raspberry Pi y laptops económicas.

Puntos clave

Métricas de rendimiento del modelo ultracompacto

Gemma 4 E2B entrega resultados significativos en tareas diversas, adaptándose al hardware más limitado.

Logros principales

60% en MMLU Pro en conocimiento y razonamiento
44% en LiveCodeBench v6 en programación
43.4% en GPQA Diamond en conocimiento científico
44.2% en MMMU Pro en razonamiento multimodal
Ventana de contexto de 128K tokens

Especificaciones técnicas

2,300 millones de parámetros efectivos (5,100 millones con embeddings)
35 capas de decodificador con Per-Layer Embeddings
Codificador de visión ~150M + codificador de audio ~300M
Entrada nativa de texto, imagen, video y audio
3.2-4 GB de VRAM con cuantización de 4 bits

Comenzar a chatear Ver ficha del modelo

Rendimiento

IA significativa en la escala más pequeña

Gemma 4 E2B alcanza 60% en MMLU Pro y 44% en LiveCodeBench v6 con solo 2,300 millones de parámetros efectivos, demostrando que una IA útil cabe en tu bolsillo.

Gemma 4 E2B demuestra que incluso los modelos más pequeños de la familia entregan valor práctico en razonamiento, programación y tareas multimodales.

Comenzar a chatear Ver ficha del modelo

Gráfica de comparación de rendimiento de Gemma 4 E2B

60% en MMLU Pro - conocimiento y razonamiento sólidos para un modelo ultracompacto

44% en LiveCodeBench v6 - ayuda práctica en programación con hardware mínimo

43.4% en GPQA Diamond - comprensión científica en 2,300 millones de parámetros

44.2% en MMMU Pro - razonamiento multimodal en el dispositivo

95 tokens/segundo en hardware de consumo - inferencia ultrarrápida

Comparación de benchmarks

E2B vs E4B y la familia Gemma 4

Gemma 4 E2B es el modelo más pequeño de la familia. Sube a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.

Benchmark	Gemma 4 E2B IT Thinking Destacado	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Conocimiento y razonamiento	60.0%	69.4%	82.6%	85.2%
AIME 2026 Matemáticas Sin herramientas	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Conocimiento científico	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programación competitiva	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programación competitiva	633	940	1718	2150
MMMU Pro Razonamiento multimodal	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Memoria mínima	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Entrada de audio nativa	Sí	Sí	No	No

Resultados de benchmarks de la ficha oficial de Gemma 4. Los benchmarks de E2B demuestran capacidad práctica con un número mínimo de parámetros.

Ultracompacto

IA multimodal completa en el paquete Gemma 4 más pequeño

Gemma 4 E2B no es un modelo recortado. Tiene la misma arquitectura multimodal que sus hermanos mayores - entrada de texto, imagen, video y audio - en un paquete de 2,300 millones de parámetros efectivos.

Mismas modalidades que E4B: entrada de texto, imagen, video y audio
Misma ventana de contexto de 128K que el modelo edge más grande
3.2 GB de VRAM a 4 bits - compatible con celulares y hardware económico

Comenzar a chatear Comparar con E4B

IA multimodal completa en el paquete Gemma 4 más pequeño

Ultrarrápido

95 tokens por segundo en hardware de consumo

El modelo más pequeño de la familia también es el más rápido. Gemma 4 E2B entrega respuestas casi instantáneas en hardware de consumo, ideal para aplicaciones en tiempo real y experiencias interactivas.

~95 tokens/segundo en GPUs de consumo
Latencia del primer token menor a un segundo en la mayoría del hardware
Ideal para chat en tiempo real, asistentes de voz y herramientas interactivas

Probar la velocidad Guía de hardware

95 tokens por segundo en hardware de consumo

IoT & Edge

IA para dispositivos que caben en tu mano

Gemma 4 E2B está diseñado para el edge. Córrelo en celulares Pixel, Raspberry Pi, navegadores Chrome y cualquier dispositivo donde la privacidad y la latencia importen más que los puntajes de benchmark.