Gemma 4 E2B

El Gemma 4 más pequeño: inteligencia multimodal completa en 2300 millones de parámetros

Gemma 4 E2B concentra la comprensión de texto, imagen y audio en solo 2300 millones de parámetros efectivos. Con un contexto de 128K y tan solo 4 GB de RAM, lleva capacidades reales de IA a móviles, dispositivos IoT y los presupuestos de hardware más ajustados.

Empezar a chatear Ver benchmarks

Variantes del modelo

Modelo Instruction-Tuned ultracompacto

Gemma 4 E2B utiliza Per-Layer Embeddings (PLE) para extraer el máximo rendimiento del mínimo de parámetros.

Arquitectura Per-Layer Embeddings

2300 millones de parámetros efectivos, 5100 millones en total con embeddings

Gemma 4 E2B utiliza PLE para dotar a cada una de sus 35 capas de decodificador de su propia vía de condicionamiento. Con un codificador de visión de ~150M y un codificador de audio de ~300M, procesa texto, imágenes y audio de forma nativa con un coste computacional mínimo.

El punto de entrada más accesible a Gemma 4. Ideal para móviles, IoT, Raspberry Pi y cualquier despliegue donde la memoria sea la principal limitación.

Empezar a chatear Ver capacidades

Instruction-Tuned

E2B Instruct

Optimizado para IA conversacional en dispositivo con comprensión de audio

Ajustado para seguir instrucciones con soporte multimodal nativo

Disponible ahora

Empezar a chatear Descargar pesos

Pre-entrenado

E2B Base

Modelo base para el ajuste fino de aplicaciones edge ultracompactas

Pre-entrenado con datos multimodales diversos para máxima flexibilidad en el tamaño mínimo

Disponible ahora

Ver en HuggingFace Guía de ajuste fino

Capacidades

Capacidades reales de IA a la escala más pequeña

Gemma 4 E2B demuestra que una IA útil no requiere hardware masivo. Audio, visión, razonamiento y programación en un modelo que cabe en un móvil.

Entrada de audio nativa

El codificador de audio Conformer de tipo USM procesa voz y clips de audio de hasta 30 segundos. Asistentes de voz y análisis de audio en los dispositivos más pequeños.

Razonamiento práctico

60 % en MMLU Pro y 37,5 % en AIME 2026 en matemáticas. Modo de pensamiento configurable para la resolución de problemas paso a paso en el dispositivo.

Asistencia en programación

44 % en LiveCodeBench v6 y 633 Codeforces ELO. Generación de código y depuración útiles incluso en hardware limitado.

Ventana de contexto de 128K

Procesamiento de documentos largos y conversaciones prolongadas en el dispositivo. La atención híbrida mantiene el uso de memoria en niveles prácticos.

Comprensión visual

44,2 % en MMMU Pro. Soporte de relaciones de aspecto variables para análisis de documentos, OCR y análisis de imágenes en el dispositivo.

Huella mínima

Tan solo 3,2 GB de VRAM con cuantización de 4 bits. Funciona en móviles, Raspberry Pi y portátiles económicos.

Aspectos destacados

Métricas de rendimiento del modelo ultracompacto

Gemma 4 E2B ofrece resultados significativos en tareas diversas, adaptándose al hardware más limitado.

Logros principales

60 % en MMLU Pro en conocimiento y razonamiento
44 % en LiveCodeBench v6 en programación
43,4 % en GPQA Diamond en conocimiento científico
44,2 % en MMMU Pro en razonamiento multimodal
Ventana de contexto de 128K tokens

Especificaciones técnicas

2300 millones de parámetros efectivos (5100 millones con embeddings)
35 capas de decodificador con Per-Layer Embeddings
Codificador de visión ~150M + codificador de audio ~300M
Entrada nativa de texto, imagen, vídeo y audio
3,2-4 GB de VRAM con cuantización de 4 bits

Empezar a chatear Ver ficha del modelo

Rendimiento

IA significativa a la escala más pequeña

Gemma 4 E2B alcanza un 60 % en MMLU Pro y un 44 % en LiveCodeBench v6 con solo 2300 millones de parámetros efectivos, demostrando que una IA útil cabe en tu bolsillo.

Gemma 4 E2B demuestra que incluso los modelos más pequeños de la familia ofrecen valor práctico en razonamiento, programación y tareas multimodales.

Empezar a chatear Ver ficha del modelo

Gráfico de comparación de rendimiento de Gemma 4 E2B

60 % en MMLU Pro - conocimiento y razonamiento sólidos para un modelo ultracompacto

44 % en LiveCodeBench v6 - ayuda práctica en programación con hardware mínimo

43,4 % en GPQA Diamond - comprensión científica en 2300 millones de parámetros

44,2 % en MMMU Pro - razonamiento multimodal en el dispositivo

95 tokens/segundo en hardware de consumo - inferencia ultrarrápida

Comparación de benchmarks

E2B vs E4B y la familia Gemma 4

Gemma 4 E2B es el modelo más pequeño de la familia. Pasa a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.

Benchmark	Gemma 4 E2B IT Thinking Destacado	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Conocimiento y razonamiento	60.0%	69.4%	82.6%	85.2%
AIME 2026 Matemáticas Sin herramientas	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Conocimiento científico	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programación competitiva	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programación competitiva	633	940	1718	2150
MMMU Pro Razonamiento multimodal	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Memoria mínima	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Entrada de audio nativa	Sí	Sí	No	No

Resultados de benchmarks de la ficha oficial de Gemma 4. Los benchmarks de E2B demuestran capacidad práctica con un número mínimo de parámetros.

Ultracompacto

IA multimodal completa en el paquete Gemma 4 más pequeño

Gemma 4 E2B no es un modelo recortado. Tiene la misma arquitectura multimodal que sus hermanos mayores - entrada de texto, imagen, vídeo y audio - en un paquete de 2300 millones de parámetros efectivos.

Mismas modalidades que E4B: entrada de texto, imagen, vídeo y audio
Misma ventana de contexto de 128K que el modelo edge más grande
3,2 GB de VRAM a 4 bits - compatible con móviles y hardware económico

Empezar a chatear Comparar con E4B

IA multimodal completa en el paquete Gemma 4 más pequeño

Ultrarrápido

95 tokens por segundo en hardware de consumo

El modelo más pequeño de la familia es también el más rápido. Gemma 4 E2B ofrece respuestas casi instantáneas en hardware de consumo, ideal para aplicaciones en tiempo real y experiencias interactivas.

~95 tokens/segundo en GPU de consumo
Latencia del primer token inferior a un segundo en la mayoría del hardware
Ideal para chat en tiempo real, asistentes de voz y herramientas interactivas

Probar la velocidad Guía de hardware

95 tokens por segundo en hardware de consumo

IoT & Edge

IA para dispositivos que caben en tu mano

Gemma 4 E2B está diseñado para el edge. Ejecútalo en móviles Pixel, Raspberry Pi, navegadores Chrome y cualquier dispositivo donde la privacidad y la latencia importen más que las puntuaciones de benchmark.