Gemma 4 E2B
El Gemma 4 más pequeño: inteligencia multimodal completa en 2300 millones de parámetros
Gemma 4 E2B concentra la comprensión de texto, imagen y audio en solo 2300 millones de parámetros efectivos. Con un contexto de 128K y tan solo 4 GB de RAM, lleva capacidades reales de IA a móviles, dispositivos IoT y los presupuestos de hardware más ajustados.
Variantes del modelo
Modelo Instruction-Tuned ultracompacto
Gemma 4 E2B utiliza Per-Layer Embeddings (PLE) para extraer el máximo rendimiento del mínimo de parámetros.
Arquitectura Per-Layer Embeddings
2300 millones de parámetros efectivos, 5100 millones en total con embeddings
Gemma 4 E2B utiliza PLE para dotar a cada una de sus 35 capas de decodificador de su propia vía de condicionamiento. Con un codificador de visión de ~150M y un codificador de audio de ~300M, procesa texto, imágenes y audio de forma nativa con un coste computacional mínimo.
El punto de entrada más accesible a Gemma 4. Ideal para móviles, IoT, Raspberry Pi y cualquier despliegue donde la memoria sea la principal limitación.
Instruction-Tuned
E2B Instruct
Optimizado para IA conversacional en dispositivo con comprensión de audio
Ajustado para seguir instrucciones con soporte multimodal nativo
Pre-entrenado
E2B Base
Modelo base para el ajuste fino de aplicaciones edge ultracompactas
Pre-entrenado con datos multimodales diversos para máxima flexibilidad en el tamaño mínimo
Capacidades
Capacidades reales de IA a la escala más pequeña
Gemma 4 E2B demuestra que una IA útil no requiere hardware masivo. Audio, visión, razonamiento y programación en un modelo que cabe en un móvil.
Entrada de audio nativa
El codificador de audio Conformer de tipo USM procesa voz y clips de audio de hasta 30 segundos. Asistentes de voz y análisis de audio en los dispositivos más pequeños.
Razonamiento práctico
60 % en MMLU Pro y 37,5 % en AIME 2026 en matemáticas. Modo de pensamiento configurable para la resolución de problemas paso a paso en el dispositivo.
Asistencia en programación
44 % en LiveCodeBench v6 y 633 Codeforces ELO. Generación de código y depuración útiles incluso en hardware limitado.
Ventana de contexto de 128K
Procesamiento de documentos largos y conversaciones prolongadas en el dispositivo. La atención híbrida mantiene el uso de memoria en niveles prácticos.
Comprensión visual
44,2 % en MMMU Pro. Soporte de relaciones de aspecto variables para análisis de documentos, OCR y análisis de imágenes en el dispositivo.
Huella mínima
Tan solo 3,2 GB de VRAM con cuantización de 4 bits. Funciona en móviles, Raspberry Pi y portátiles económicos.
Aspectos destacados
Métricas de rendimiento del modelo ultracompacto
Gemma 4 E2B ofrece resultados significativos en tareas diversas, adaptándose al hardware más limitado.
Logros principales
- 60 % en MMLU Pro en conocimiento y razonamiento
- 44 % en LiveCodeBench v6 en programación
- 43,4 % en GPQA Diamond en conocimiento científico
- 44,2 % en MMMU Pro en razonamiento multimodal
- Ventana de contexto de 128K tokens
Especificaciones técnicas
- 2300 millones de parámetros efectivos (5100 millones con embeddings)
- 35 capas de decodificador con Per-Layer Embeddings
- Codificador de visión ~150M + codificador de audio ~300M
- Entrada nativa de texto, imagen, vídeo y audio
- 3,2-4 GB de VRAM con cuantización de 4 bits
Rendimiento
IA significativa a la escala más pequeña
Gemma 4 E2B alcanza un 60 % en MMLU Pro y un 44 % en LiveCodeBench v6 con solo 2300 millones de parámetros efectivos, demostrando que una IA útil cabe en tu bolsillo.
Gemma 4 E2B demuestra que incluso los modelos más pequeños de la familia ofrecen valor práctico en razonamiento, programación y tareas multimodales.


60 % en MMLU Pro - conocimiento y razonamiento sólidos para un modelo ultracompacto
44 % en LiveCodeBench v6 - ayuda práctica en programación con hardware mínimo
43,4 % en GPQA Diamond - comprensión científica en 2300 millones de parámetros
44,2 % en MMMU Pro - razonamiento multimodal en el dispositivo
95 tokens/segundo en hardware de consumo - inferencia ultrarrápida
Comparación de benchmarks
E2B vs E4B y la familia Gemma 4
Gemma 4 E2B es el modelo más pequeño de la familia. Pasa a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.
| Benchmark | Gemma 4 E2B IT Thinking Destacado | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Conocimiento y razonamiento | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Matemáticas Sin herramientas | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Conocimiento científico | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programación competitiva | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programación competitiva | 633 | 940 | 1718 | 2150 |
MMMU Pro Razonamiento multimodal | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Memoria mínima | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Entrada de audio nativa | Sí | Sí | No | No |
Resultados de benchmarks de la ficha oficial de Gemma 4. Los benchmarks de E2B demuestran capacidad práctica con un número mínimo de parámetros.
Ultracompacto
IA multimodal completa en el paquete Gemma 4 más pequeño
Gemma 4 E2B no es un modelo recortado. Tiene la misma arquitectura multimodal que sus hermanos mayores - entrada de texto, imagen, vídeo y audio - en un paquete de 2300 millones de parámetros efectivos.
- Mismas modalidades que E4B: entrada de texto, imagen, vídeo y audio
- Misma ventana de contexto de 128K que el modelo edge más grande
- 3,2 GB de VRAM a 4 bits - compatible con móviles y hardware económico
Ultrarrápido
95 tokens por segundo en hardware de consumo
El modelo más pequeño de la familia es también el más rápido. Gemma 4 E2B ofrece respuestas casi instantáneas en hardware de consumo, ideal para aplicaciones en tiempo real y experiencias interactivas.
- ~95 tokens/segundo en GPU de consumo
- Latencia del primer token inferior a un segundo en la mayoría del hardware
- Ideal para chat en tiempo real, asistentes de voz y herramientas interactivas
IoT & Edge
IA para dispositivos que caben en tu mano
Gemma 4 E2B está diseñado para el edge. Ejecútalo en móviles Pixel, Raspberry Pi, navegadores Chrome y cualquier dispositivo donde la privacidad y la latencia importen más que las puntuaciones de benchmark.
- Checkpoints ONNX para despliegue edge multiplataforma
- Compatibilidad con WebGPU para inferencia en el navegador
- Diseñado para entornos Pixel, Chrome e IoT
Primeros pasos
Prueba Gemma 4 E2B ahora
Empieza a chatear al instante o descarga para un despliegue ultracompacto.
Descargar pesos
Despliegue ultracompacto
Descarga los pesos oficiales del modelo para el despliegue más compacto posible.
Plataformas edge
Despliegue en móvil, navegador e IoT
Despliega en los dispositivos más pequeños con entornos de ejecución optimizados.
Familia Gemma 4
El modelo más pequeño de una familia de vanguardia
Gemma 4 E2B es el punto de entrada a la familia Gemma 4. Pasa a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.
Primeros pasos
¿Listo para ejecutar IA en los dispositivos más pequeños?
Empieza a chatear gratis o descarga Gemma 4 E2B para un despliegue ultracompacto, privado y en el dispositivo.