Gemma 4 E4B

4500 millones de parámetros de inteligencia on-device con audio nativo

Gemma 4 E4B concentra 4500 millones de parámetros efectivos en un modelo que funciona en laptops, celulares y navegadores. Con comprensión nativa de audio, imagen y texto, además de una ventana de contexto de 128K, lleva la IA multimodal de vanguardia al edge.

Variantes del modelo

Ajustado con instrucciones para despliegue edge

Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros, ofreciendo un rendimiento sólido desde una arquitectura compacta.

Arquitectura Per-Layer Embeddings

4500 millones de parámetros efectivos, 8000 millones en total con embeddings

Gemma 4 E4B utiliza PLE para dar a cada capa del decodificador su propia vía de condicionamiento. Con 42 capas, un encoder de visión de ~150M y un encoder de audio de ~300M, procesa texto, imágenes y audio de forma nativa.

Ideal para despliegue on-device, IA en el navegador y aplicaciones enfocadas en la privacidad donde los datos nunca salen del dispositivo del usuario.

Ajustado con instrucciones

E4B Instruct

Optimizado para IA conversacional, comprensión de audio y realización de tareas on-device

Ajustado para seguir instrucciones con soporte multimodal nativo, incluyendo entrada de audio

Disponible ahora

Preentrenado

E4B Base

Modelo base para el ajuste fino de aplicaciones edge y móviles

Preentrenado con datos multimodales diversos, incluyendo audio, para máxima flexibilidad

Disponible ahora

Capacidades

Inteligencia de escritorio en hardware edge

Gemma 4 E4B lleva comprensión multimodal, asistencia en programación y razonamiento a dispositivos que caben en la palma de tu mano.

Entrada de audio nativa

El encoder de audio conformer estilo USM procesa voz y clips de audio de hasta 30 segundos directamente, sin necesidad de pipeline de transcripción.

Razonamiento avanzado

Modo de pensamiento configurable con un 42.5% en AIME 2026 en matemáticas y un 58.6% en GPQA Diamond en ciencias de nivel de posgrado.

Programación eficaz

52% en LiveCodeBench v6 y 940 Codeforces ELO. Las llamadas a funciones nativas permiten flujos de trabajo agénticos on-device.

Ventana de contexto de 128K

Procesa documentos largos, bases de código completas y conversaciones extensas on-device con atención híbrida local/global.

Comprensión visual

52.6% en MMMU Pro y 59.5% en MATH-Vision. Soporte de relación de aspecto variable con presupuestos de tokens por imagen configurables.

Funciona en cualquier lugar

Funciona en navegadores con WebGPU, en celulares con ONNX y en laptops con Ollama. Solo 5.5 GB de VRAM con cuantización de 4 bits.

Puntos clave

Métricas de rendimiento edge

Gemma 4 E4B ofrece resultados sólidos en diversos benchmarks, todo en hardware de consumo.

Logros principales

  • 69.4% en MMLU Pro en conocimiento y razonamiento
  • 52% en LiveCodeBench v6 en programación
  • 58.6% en GPQA Diamond en conocimiento científico
  • 52.6% en MMMU Pro en razonamiento multimodal
  • Ventana de contexto de 128K tokens

Especificaciones técnicas

  • 4500 millones de parámetros efectivos (8000 millones con embeddings)
  • 42 capas de decodificador con Per-Layer Embeddings
  • Encoder de visión de ~150M + encoder de audio de ~300M
  • Entrada nativa de texto, imagen, video y audio
  • 5.5-6 GB de VRAM con cuantización de 4 bits

Rendimiento

Rinde muy por encima de su categoría

Gemma 4 E4B alcanza un 69.4% en MMLU Pro y un 52% en LiveCodeBench v6 con solo 4500 millones de parámetros efectivos, superando a muchos modelos del doble de tamaño.

Gemma 4 E4B demuestra que los modelos edge pueden ofrecer un rendimiento significativo en razonamiento, programación y tareas multimodales.

Gráfico comparativo de rendimiento de Gemma 4 E4B

69.4% en MMLU Pro - conocimiento y razonamiento sólidos para un modelo edge

52% en LiveCodeBench v6 - asistencia práctica en programación on-device

58.6% en GPQA Diamond - comprensión científica de nivel de posgrado

52.6% en MMMU Pro - razonamiento multimodal con imágenes

940 Codeforces ELO - capacidad de programación competitiva

Comparación de benchmarks

E4B frente a la familia Gemma 4 y Gemma 3

Gemma 4 E4B ofrece un rendimiento edge sólido, mientras que los modelos más grandes manejan cargas de trabajo más pesadas.

Benchmark
Gemma 4 E4B IT
Thinking
Destacado
Gemma 4 E2B IT
Thinking
Gemma 4 31B IT
Thinking
Gemma 3 27B IT
MMLU Pro
Conocimiento y razonamiento
69.4%60.0%85.2%67.6%
AIME 2026
Matemáticas
Sin herramientas
42.5%37.5%89.2%20.8%
GPQA Diamond
Conocimiento científico
58.6%43.4%84.3%42.4%
LiveCodeBench v6
Programación competitiva
52.0%44.0%80.0%29.1%
Codeforces ELO
Programación competitiva
9406332150-
MMMU Pro
Razonamiento multimodal
52.6%44.2%76.9%49.7%
MATH-Vision
Razonamiento matemático visual
59.5%52.4%85.6%-
Audio Support
Entrada de audio nativa
NoNo
Context Window
Tokens máximos
128K128K256K128K

Resultados de benchmarks de la ficha oficial del modelo Gemma 4. Los benchmarks de E4B demuestran una eficiencia excepcional para su número de parámetros.

Audio nativo

Comprensión del habla sin pipeline de transcripción

Gemma 4 E4B incluye un encoder de audio conformer estilo USM que procesa voz y audio directamente. No necesitas un modelo ASR separado: solo proporciona el audio y obtén respuestas inteligentes.

  • Encoder de audio conformer de ~300M de parámetros integrado en el modelo
  • Procesa clips de audio de hasta 30 segundos directamente
  • Ideal para asistentes de voz, análisis de audio y herramientas de accesibilidad
Comprensión del habla sin pipeline de transcripción

Despliegue edge

Del navegador al celular y al Raspberry Pi

Gemma 4 E4B está diseñado para desplegarse en cualquier lugar. Ejecútalo en Chrome con WebGPU usando transformers.js, en celulares con ONNX o en laptops con Ollama. Solo 5.5 GB de VRAM con cuantización de 4 bits.

  • Navegador: transformers.js con aceleración WebGPU en Chrome
  • Móvil: checkpoints ONNX para despliegue en iOS y Android
  • Local: Ollama, llama.cpp, MLX para inferencia privada on-device
Del navegador al celular y al Raspberry Pi

Visión y documentos

Comprensión de imágenes y análisis de documentos on-device

El encoder de visión de ~150M procesa imágenes con relaciones de aspecto variables y presupuestos de tokens configurables. Un OCR potente y comprensión documental lo hacen práctico para el análisis de documentos on-device.

  • 52.6% en MMMU Pro en razonamiento multimodal
  • Resolución de imagen variable: de 70 a 1120 tokens por imagen
  • Análisis de documentos, OCR, comprensión de gráficos on-device
Comprensión de imágenes y análisis de documentos on-device

Parte de Gemma 4

El modelo edge en una familia de vanguardia

Gemma 4 E4B es el modelo edge recomendado en la familia Gemma 4. Sube al 26B MoE o al 31B Dense cuando necesites más potencia, o baja al E2B para la huella más reducida.

Gemma 4 E2B

Modelo ultracompacto de 2300 millones para las restricciones de hardware más exigentes

Comparar

Gemma 4 26B

Modelo MoE con calidad cercana al 31B a un costo de inferencia de 4B

Más información

Gemma 4 31B

Modelo denso insignia para el máximo rendimiento

Más información

Documentación

Guías completas de integración y despliegue

Leer documentación

Comunidad

Únete a los desarrolladores que construyen con Gemma

Explorar

Ficha del modelo

Especificaciones técnicas y resultados de evaluación

Ver detalles

Para comenzar

¿Listo para ejecutar IA on-device con Gemma 4 E4B?

Comienza a chatear gratis o descarga el modelo para un despliegue privado on-device. Ningún dato sale de tu dispositivo.