Gemma 4 E2B
El Gemma 4 más pequeño: inteligencia multimodal completa en 2,300 millones de parámetros
Gemma 4 E2B concentra la comprensión de texto, imagen y audio en solo 2,300 millones de parámetros efectivos. Con un contexto de 128K y tan solo 4 GB de RAM, lleva capacidades reales de IA a celulares, dispositivos IoT y los presupuestos de hardware más ajustados.
Variantes del modelo
Modelo Instruction-Tuned ultracompacto
Gemma 4 E2B usa Per-Layer Embeddings (PLE) para sacar el máximo rendimiento del mínimo de parámetros.
Arquitectura Per-Layer Embeddings
2,300 millones de parámetros efectivos, 5,100 millones en total con embeddings
Gemma 4 E2B usa PLE para darle a cada una de sus 35 capas de decodificador su propia vía de condicionamiento. Con un codificador de visión de ~150M y un codificador de audio de ~300M, procesa texto, imágenes y audio de forma nativa con un costo computacional mínimo.
El punto de entrada más fácil a Gemma 4. Ideal para celulares, IoT, Raspberry Pi y cualquier implementación donde la memoria sea la principal limitante.
Instruction-Tuned
E2B Instruct
Optimizado para IA conversacional en dispositivo con comprensión de audio
Ajustado para seguir instrucciones con soporte multimodal nativo
Pre-entrenado
E2B Base
Modelo base para el ajuste fino de aplicaciones edge ultracompactas
Pre-entrenado con datos multimodales diversos para máxima flexibilidad en el tamaño mínimo
Capacidades
Capacidades reales de IA en la escala más pequeña
Gemma 4 E2B demuestra que una IA útil no necesita hardware enorme. Audio, visión, razonamiento y programación en un modelo que cabe en un celular.
Entrada de audio nativa
El codificador de audio Conformer tipo USM procesa voz y clips de audio de hasta 30 segundos. Asistentes de voz y análisis de audio en los dispositivos más pequeños.
Razonamiento práctico
60% en MMLU Pro y 37.5% en AIME 2026 en matemáticas. Modo de pensamiento configurable para resolver problemas paso a paso en el dispositivo.
Asistencia en programación
44% en LiveCodeBench v6 y 633 Codeforces ELO. Generación de código y depuración útiles incluso en hardware limitado.
Ventana de contexto de 128K
Procesamiento de documentos largos y conversaciones extendidas en el dispositivo. La atención híbrida mantiene el uso de memoria en niveles prácticos.
Comprensión visual
44.2% en MMMU Pro. Soporte de relaciones de aspecto variables para análisis de documentos, OCR y análisis de imágenes en el dispositivo.
Huella mínima
Tan solo 3.2 GB de VRAM con cuantización de 4 bits. Corre en celulares, Raspberry Pi y laptops económicas.
Puntos clave
Métricas de rendimiento del modelo ultracompacto
Gemma 4 E2B entrega resultados significativos en tareas diversas, adaptándose al hardware más limitado.
Logros principales
- 60% en MMLU Pro en conocimiento y razonamiento
- 44% en LiveCodeBench v6 en programación
- 43.4% en GPQA Diamond en conocimiento científico
- 44.2% en MMMU Pro en razonamiento multimodal
- Ventana de contexto de 128K tokens
Especificaciones técnicas
- 2,300 millones de parámetros efectivos (5,100 millones con embeddings)
- 35 capas de decodificador con Per-Layer Embeddings
- Codificador de visión ~150M + codificador de audio ~300M
- Entrada nativa de texto, imagen, video y audio
- 3.2-4 GB de VRAM con cuantización de 4 bits
Rendimiento
IA significativa en la escala más pequeña
Gemma 4 E2B alcanza 60% en MMLU Pro y 44% en LiveCodeBench v6 con solo 2,300 millones de parámetros efectivos, demostrando que una IA útil cabe en tu bolsillo.
Gemma 4 E2B demuestra que incluso los modelos más pequeños de la familia entregan valor práctico en razonamiento, programación y tareas multimodales.


60% en MMLU Pro - conocimiento y razonamiento sólidos para un modelo ultracompacto
44% en LiveCodeBench v6 - ayuda práctica en programación con hardware mínimo
43.4% en GPQA Diamond - comprensión científica en 2,300 millones de parámetros
44.2% en MMMU Pro - razonamiento multimodal en el dispositivo
95 tokens/segundo en hardware de consumo - inferencia ultrarrápida
Comparación de benchmarks
E2B vs E4B y la familia Gemma 4
Gemma 4 E2B es el modelo más pequeño de la familia. Sube a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.
| Benchmark | Gemma 4 E2B IT Thinking Destacado | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Conocimiento y razonamiento | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Matemáticas Sin herramientas | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Conocimiento científico | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programación competitiva | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programación competitiva | 633 | 940 | 1718 | 2150 |
MMMU Pro Razonamiento multimodal | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Memoria mínima | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Entrada de audio nativa | Sí | Sí | No | No |
Resultados de benchmarks de la ficha oficial de Gemma 4. Los benchmarks de E2B demuestran capacidad práctica con un número mínimo de parámetros.
Ultracompacto
IA multimodal completa en el paquete Gemma 4 más pequeño
Gemma 4 E2B no es un modelo recortado. Tiene la misma arquitectura multimodal que sus hermanos mayores - entrada de texto, imagen, video y audio - en un paquete de 2,300 millones de parámetros efectivos.
- Mismas modalidades que E4B: entrada de texto, imagen, video y audio
- Misma ventana de contexto de 128K que el modelo edge más grande
- 3.2 GB de VRAM a 4 bits - compatible con celulares y hardware económico
Ultrarrápido
95 tokens por segundo en hardware de consumo
El modelo más pequeño de la familia también es el más rápido. Gemma 4 E2B entrega respuestas casi instantáneas en hardware de consumo, ideal para aplicaciones en tiempo real y experiencias interactivas.
- ~95 tokens/segundo en GPUs de consumo
- Latencia del primer token menor a un segundo en la mayoría del hardware
- Ideal para chat en tiempo real, asistentes de voz y herramientas interactivas
IoT & Edge
IA para dispositivos que caben en tu mano
Gemma 4 E2B está diseñado para el edge. Córrelo en celulares Pixel, Raspberry Pi, navegadores Chrome y cualquier dispositivo donde la privacidad y la latencia importen más que los puntajes de benchmark.
- Checkpoints ONNX para implementación edge multiplataforma
- Soporte WebGPU para inferencia en el navegador
- Diseñado para entornos Pixel, Chrome e IoT
Primeros pasos
Prueba Gemma 4 E2B ahora
Comienza a chatear al instante o descarga para una implementación ultracompacta.
Descargar pesos
Implementación ultracompacta
Descarga los pesos oficiales del modelo para la implementación más compacta posible.
Plataformas edge
Implementación en celular, navegador e IoT
Implementa en los dispositivos más pequeños con entornos de ejecución optimizados.
Familia Gemma 4
El modelo más pequeño de una familia de vanguardia
Gemma 4 E2B es el punto de entrada a la familia Gemma 4. Sube a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.
Primeros pasos
¿Listo para correr IA en los dispositivos más pequeños?
Comienza a chatear gratis o descarga Gemma 4 E2B para una implementación ultracompacta, privada y en el dispositivo.