Gemma 4 E2B

El Gemma 4 más pequeño: inteligencia multimodal completa en 2,300 millones de parámetros

Gemma 4 E2B concentra la comprensión de texto, imagen y audio en solo 2,300 millones de parámetros efectivos. Con un contexto de 128K y tan solo 4 GB de RAM, lleva capacidades reales de IA a celulares, dispositivos IoT y los presupuestos de hardware más ajustados.

Variantes del modelo

Modelo Instruction-Tuned ultracompacto

Gemma 4 E2B usa Per-Layer Embeddings (PLE) para sacar el máximo rendimiento del mínimo de parámetros.

Arquitectura Per-Layer Embeddings

2,300 millones de parámetros efectivos, 5,100 millones en total con embeddings

Gemma 4 E2B usa PLE para darle a cada una de sus 35 capas de decodificador su propia vía de condicionamiento. Con un codificador de visión de ~150M y un codificador de audio de ~300M, procesa texto, imágenes y audio de forma nativa con un costo computacional mínimo.

El punto de entrada más fácil a Gemma 4. Ideal para celulares, IoT, Raspberry Pi y cualquier implementación donde la memoria sea la principal limitante.

Instruction-Tuned

E2B Instruct

Optimizado para IA conversacional en dispositivo con comprensión de audio

Ajustado para seguir instrucciones con soporte multimodal nativo

Disponible ahora

Pre-entrenado

E2B Base

Modelo base para el ajuste fino de aplicaciones edge ultracompactas

Pre-entrenado con datos multimodales diversos para máxima flexibilidad en el tamaño mínimo

Disponible ahora

Capacidades

Capacidades reales de IA en la escala más pequeña

Gemma 4 E2B demuestra que una IA útil no necesita hardware enorme. Audio, visión, razonamiento y programación en un modelo que cabe en un celular.

Entrada de audio nativa

El codificador de audio Conformer tipo USM procesa voz y clips de audio de hasta 30 segundos. Asistentes de voz y análisis de audio en los dispositivos más pequeños.

Razonamiento práctico

60% en MMLU Pro y 37.5% en AIME 2026 en matemáticas. Modo de pensamiento configurable para resolver problemas paso a paso en el dispositivo.

Asistencia en programación

44% en LiveCodeBench v6 y 633 Codeforces ELO. Generación de código y depuración útiles incluso en hardware limitado.

Ventana de contexto de 128K

Procesamiento de documentos largos y conversaciones extendidas en el dispositivo. La atención híbrida mantiene el uso de memoria en niveles prácticos.

Comprensión visual

44.2% en MMMU Pro. Soporte de relaciones de aspecto variables para análisis de documentos, OCR y análisis de imágenes en el dispositivo.

Huella mínima

Tan solo 3.2 GB de VRAM con cuantización de 4 bits. Corre en celulares, Raspberry Pi y laptops económicas.

Puntos clave

Métricas de rendimiento del modelo ultracompacto

Gemma 4 E2B entrega resultados significativos en tareas diversas, adaptándose al hardware más limitado.

Logros principales

  • 60% en MMLU Pro en conocimiento y razonamiento
  • 44% en LiveCodeBench v6 en programación
  • 43.4% en GPQA Diamond en conocimiento científico
  • 44.2% en MMMU Pro en razonamiento multimodal
  • Ventana de contexto de 128K tokens

Especificaciones técnicas

  • 2,300 millones de parámetros efectivos (5,100 millones con embeddings)
  • 35 capas de decodificador con Per-Layer Embeddings
  • Codificador de visión ~150M + codificador de audio ~300M
  • Entrada nativa de texto, imagen, video y audio
  • 3.2-4 GB de VRAM con cuantización de 4 bits

Rendimiento

IA significativa en la escala más pequeña

Gemma 4 E2B alcanza 60% en MMLU Pro y 44% en LiveCodeBench v6 con solo 2,300 millones de parámetros efectivos, demostrando que una IA útil cabe en tu bolsillo.

Gemma 4 E2B demuestra que incluso los modelos más pequeños de la familia entregan valor práctico en razonamiento, programación y tareas multimodales.

Gráfica de comparación de rendimiento de Gemma 4 E2B

60% en MMLU Pro - conocimiento y razonamiento sólidos para un modelo ultracompacto

44% en LiveCodeBench v6 - ayuda práctica en programación con hardware mínimo

43.4% en GPQA Diamond - comprensión científica en 2,300 millones de parámetros

44.2% en MMMU Pro - razonamiento multimodal en el dispositivo

95 tokens/segundo en hardware de consumo - inferencia ultrarrápida

Comparación de benchmarks

E2B vs E4B y la familia Gemma 4

Gemma 4 E2B es el modelo más pequeño de la familia. Sube a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.

Benchmark
Gemma 4 E2B IT
Thinking
Destacado
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Conocimiento y razonamiento
60.0%69.4%82.6%85.2%
AIME 2026
Matemáticas
Sin herramientas
37.5%42.5%88.3%89.2%
GPQA Diamond
Conocimiento científico
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Programación competitiva
44.0%52.0%77.1%80.0%
Codeforces ELO
Programación competitiva
63394017182150
MMMU Pro
Razonamiento multimodal
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Memoria mínima
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Entrada de audio nativa
NoNo

Resultados de benchmarks de la ficha oficial de Gemma 4. Los benchmarks de E2B demuestran capacidad práctica con un número mínimo de parámetros.

Ultracompacto

IA multimodal completa en el paquete Gemma 4 más pequeño

Gemma 4 E2B no es un modelo recortado. Tiene la misma arquitectura multimodal que sus hermanos mayores - entrada de texto, imagen, video y audio - en un paquete de 2,300 millones de parámetros efectivos.

  • Mismas modalidades que E4B: entrada de texto, imagen, video y audio
  • Misma ventana de contexto de 128K que el modelo edge más grande
  • 3.2 GB de VRAM a 4 bits - compatible con celulares y hardware económico
IA multimodal completa en el paquete Gemma 4 más pequeño

Ultrarrápido

95 tokens por segundo en hardware de consumo

El modelo más pequeño de la familia también es el más rápido. Gemma 4 E2B entrega respuestas casi instantáneas en hardware de consumo, ideal para aplicaciones en tiempo real y experiencias interactivas.

  • ~95 tokens/segundo en GPUs de consumo
  • Latencia del primer token menor a un segundo en la mayoría del hardware
  • Ideal para chat en tiempo real, asistentes de voz y herramientas interactivas
95 tokens por segundo en hardware de consumo

IoT & Edge

IA para dispositivos que caben en tu mano

Gemma 4 E2B está diseñado para el edge. Córrelo en celulares Pixel, Raspberry Pi, navegadores Chrome y cualquier dispositivo donde la privacidad y la latencia importen más que los puntajes de benchmark.

  • Checkpoints ONNX para implementación edge multiplataforma
  • Soporte WebGPU para inferencia en el navegador
  • Diseñado para entornos Pixel, Chrome e IoT
IA para dispositivos que caben en tu mano

Descargar pesos

Implementación ultracompacta

Descarga los pesos oficiales del modelo para la implementación más compacta posible.

Plataformas edge

Implementación en celular, navegador e IoT

Implementa en los dispositivos más pequeños con entornos de ejecución optimizados.

Familia Gemma 4

El modelo más pequeño de una familia de vanguardia

Gemma 4 E2B es el punto de entrada a la familia Gemma 4. Sube a E4B para mayor calidad, o a 26B/31B para rendimiento de vanguardia.

Gemma 4 E4B

Modelo edge más potente con 4,500 millones de parámetros efectivos

Comparar

Gemma 4 26B

Modelo MoE con calidad cercana al 31B a un costo de inferencia de 4B

Más información

Gemma 4 31B

Modelo denso insignia para el máximo rendimiento

Más información

Documentación

Guías completas de integración e implementación

Leer docs

Comunidad

Únete a los desarrolladores que construyen con Gemma

Explorar

Ficha del modelo

Especificaciones técnicas y resultados de evaluación

Ver detalles

Primeros pasos

¿Listo para correr IA en los dispositivos más pequeños?

Comienza a chatear gratis o descarga Gemma 4 E2B para una implementación ultracompacta, privada y en el dispositivo.