Gemma 4 E4B

4500 millones de parámetros de inteligencia on-device con audio nativo

Gemma 4 E4B concentra 4500 millones de parámetros efectivos en un modelo que funciona en laptops, celulares y navegadores. Con comprensión nativa de audio, imagen y texto, además de una ventana de contexto de 128K, lleva la IA multimodal de vanguardia al edge.

Comenzar a chatear Ver benchmarks

Variantes del modelo

Ajustado con instrucciones para despliegue edge

Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros, ofreciendo un rendimiento sólido desde una arquitectura compacta.

Arquitectura Per-Layer Embeddings

4500 millones de parámetros efectivos, 8000 millones en total con embeddings

Gemma 4 E4B utiliza PLE para dar a cada capa del decodificador su propia vía de condicionamiento. Con 42 capas, un encoder de visión de ~150M y un encoder de audio de ~300M, procesa texto, imágenes y audio de forma nativa.

Ideal para despliegue on-device, IA en el navegador y aplicaciones enfocadas en la privacidad donde los datos nunca salen del dispositivo del usuario.

Comenzar a chatear Ver capacidades

Ajustado con instrucciones

E4B Instruct

Optimizado para IA conversacional, comprensión de audio y realización de tareas on-device

Ajustado para seguir instrucciones con soporte multimodal nativo, incluyendo entrada de audio

Disponible ahora

Comenzar a chatear Descargar pesos

Preentrenado

E4B Base

Modelo base para el ajuste fino de aplicaciones edge y móviles

Preentrenado con datos multimodales diversos, incluyendo audio, para máxima flexibilidad

Disponible ahora

Ver en HuggingFace Guía de fine-tuning

Capacidades

Inteligencia de escritorio en hardware edge

Gemma 4 E4B lleva comprensión multimodal, asistencia en programación y razonamiento a dispositivos que caben en la palma de tu mano.

Entrada de audio nativa

El encoder de audio conformer estilo USM procesa voz y clips de audio de hasta 30 segundos directamente, sin necesidad de pipeline de transcripción.

Razonamiento avanzado

Modo de pensamiento configurable con un 42.5% en AIME 2026 en matemáticas y un 58.6% en GPQA Diamond en ciencias de nivel de posgrado.

Programación eficaz

52% en LiveCodeBench v6 y 940 Codeforces ELO. Las llamadas a funciones nativas permiten flujos de trabajo agénticos on-device.

Ventana de contexto de 128K

Procesa documentos largos, bases de código completas y conversaciones extensas on-device con atención híbrida local/global.

Comprensión visual

52.6% en MMMU Pro y 59.5% en MATH-Vision. Soporte de relación de aspecto variable con presupuestos de tokens por imagen configurables.

Funciona en cualquier lugar

Funciona en navegadores con WebGPU, en celulares con ONNX y en laptops con Ollama. Solo 5.5 GB de VRAM con cuantización de 4 bits.

Puntos clave

Métricas de rendimiento edge

Gemma 4 E4B ofrece resultados sólidos en diversos benchmarks, todo en hardware de consumo.

Logros principales

69.4% en MMLU Pro en conocimiento y razonamiento
52% en LiveCodeBench v6 en programación
58.6% en GPQA Diamond en conocimiento científico
52.6% en MMMU Pro en razonamiento multimodal
Ventana de contexto de 128K tokens

Especificaciones técnicas

4500 millones de parámetros efectivos (8000 millones con embeddings)
42 capas de decodificador con Per-Layer Embeddings
Encoder de visión de ~150M + encoder de audio de ~300M
Entrada nativa de texto, imagen, video y audio
5.5-6 GB de VRAM con cuantización de 4 bits

Comenzar a chatear Ver ficha del modelo

Rendimiento

Rinde muy por encima de su categoría

Gemma 4 E4B alcanza un 69.4% en MMLU Pro y un 52% en LiveCodeBench v6 con solo 4500 millones de parámetros efectivos, superando a muchos modelos del doble de tamaño.

Gemma 4 E4B demuestra que los modelos edge pueden ofrecer un rendimiento significativo en razonamiento, programación y tareas multimodales.

Comenzar a chatear Ver ficha del modelo

Gráfico comparativo de rendimiento de Gemma 4 E4B

69.4% en MMLU Pro - conocimiento y razonamiento sólidos para un modelo edge

52% en LiveCodeBench v6 - asistencia práctica en programación on-device

58.6% en GPQA Diamond - comprensión científica de nivel de posgrado

52.6% en MMMU Pro - razonamiento multimodal con imágenes

940 Codeforces ELO - capacidad de programación competitiva

Comparación de benchmarks

E4B frente a la familia Gemma 4 y Gemma 3

Gemma 4 E4B ofrece un rendimiento edge sólido, mientras que los modelos más grandes manejan cargas de trabajo más pesadas.

Benchmark	Gemma 4 E4B IT Thinking Destacado	Gemma 4 E2B IT Thinking	Gemma 4 31B IT Thinking	Gemma 3 27B IT
MMLU Pro Conocimiento y razonamiento	69.4%	60.0%	85.2%	67.6%
AIME 2026 Matemáticas Sin herramientas	42.5%	37.5%	89.2%	20.8%
GPQA Diamond Conocimiento científico	58.6%	43.4%	84.3%	42.4%
LiveCodeBench v6 Programación competitiva	52.0%	44.0%	80.0%	29.1%
Codeforces ELO Programación competitiva	940	633	2150	-
MMMU Pro Razonamiento multimodal	52.6%	44.2%	76.9%	49.7%
MATH-Vision Razonamiento matemático visual	59.5%	52.4%	85.6%	-
Audio Support Entrada de audio nativa	Sí	Sí	No	No
Context Window Tokens máximos	128K	128K	256K	128K

Resultados de benchmarks de la ficha oficial del modelo Gemma 4. Los benchmarks de E4B demuestran una eficiencia excepcional para su número de parámetros.

Audio nativo

Comprensión del habla sin pipeline de transcripción

Gemma 4 E4B incluye un encoder de audio conformer estilo USM que procesa voz y audio directamente. No necesitas un modelo ASR separado: solo proporciona el audio y obtén respuestas inteligentes.

Encoder de audio conformer de ~300M de parámetros integrado en el modelo
Procesa clips de audio de hasta 30 segundos directamente
Ideal para asistentes de voz, análisis de audio y herramientas de accesibilidad

Probar entrada de audio Ver documentación

Comprensión del habla sin pipeline de transcripción

Despliegue edge

Del navegador al celular y al Raspberry Pi

Gemma 4 E4B está diseñado para desplegarse en cualquier lugar. Ejecútalo en Chrome con WebGPU usando transformers.js, en celulares con ONNX o en laptops con Ollama. Solo 5.5 GB de VRAM con cuantización de 4 bits.

Navegador: transformers.js con aceleración WebGPU en Chrome
Móvil: checkpoints ONNX para despliegue en iOS y Android
Local: Ollama, llama.cpp, MLX para inferencia privada on-device

Probar en el navegador Descargar para uso local

Del navegador al celular y al Raspberry Pi

Visión y documentos

Comprensión de imágenes y análisis de documentos on-device

El encoder de visión de ~150M procesa imágenes con relaciones de aspecto variables y presupuestos de tokens configurables. Un OCR potente y comprensión documental lo hacen práctico para el análisis de documentos on-device.

52.6% en MMMU Pro en razonamiento multimodal
Resolución de imagen variable: de 70 a 1120 tokens por imagen
Análisis de documentos, OCR, comprensión de gráficos on-device

Probar tareas de visión Ver ejemplos

Comprensión de imágenes y análisis de documentos on-device

Para comenzar

Prueba Gemma 4 E4B ahora

Comienza a chatear al instante o descarga el modelo para despliegue on-device.

Comenzar a chatear

Chatea con Gemma 4 E4B al instante, sin configuración

Ver la presentación

Video oficial de presentación de Gemma 4

Ficha del modelo

Especificaciones técnicas completas y benchmarks

Documentación

Guías de integración y buenas prácticas

Descargar pesos

Despliegue on-device

Descarga los pesos oficiales del modelo para despliegue edge y local.

Hugging Face

Repositorio oficial del modelo Gemma 4 E4B

Kaggle

Descargar desde Kaggle Models

Ollama

Ejecutar en local con Ollama

Plataformas edge

Despliegue en navegador y móvil

Despliega en dispositivos edge, navegadores y plataformas móviles.

transformers.js

Ejecutar en navegadores con aceleración WebGPU

ONNX Runtime

Despliegue edge multiplataforma

MLX

Optimizado para Apple Silicon

llama.cpp

Inferencia eficiente en CPU y GPU

Parte de Gemma 4

El modelo edge en una familia de vanguardia

Gemma 4 E4B es el modelo edge recomendado en la familia Gemma 4. Sube al 26B MoE o al 31B Dense cuando necesites más potencia, o baja al E2B para la huella más reducida.

Explorar todos los modelos Página oficial

Gemma 4 E2B

Modelo ultracompacto de 2300 millones para las restricciones de hardware más exigentes

Comparar

Gemma 4 26B

Modelo MoE con calidad cercana al 31B a un costo de inferencia de 4B

Más información

Gemma 4 31B

Modelo denso insignia para el máximo rendimiento

Más información

Documentación

Guías completas de integración y despliegue

Leer documentación

Comunidad

Únete a los desarrolladores que construyen con Gemma

Explorar

Ficha del modelo

Especificaciones técnicas y resultados de evaluación

Ver detalles

Para comenzar

¿Listo para ejecutar IA on-device con Gemma 4 E4B?

Comienza a chatear gratis o descarga el modelo para un despliegue privado on-device. Ningún dato sale de tu dispositivo.

Comenzar a chatear gratis Descargar pesos

4500 millones de parámetros de inteligencia on-device con audio nativo

Inteligencia multimodal que cabe en tu bolsillo

Ajustado con instrucciones para despliegue edge

4500 millones de parámetros efectivos, 8000 millones en total con embeddings

E4B Instruct

E4B Base

Inteligencia de escritorio en hardware edge

Entrada de audio nativa

Razonamiento avanzado

Programación eficaz

Ventana de contexto de 128K

Comprensión visual

Funciona en cualquier lugar

Métricas de rendimiento edge

Rinde muy por encima de su categoría

E4B frente a la familia Gemma 4 y Gemma 3

Comprensión del habla sin pipeline de transcripción

Del navegador al celular y al Raspberry Pi

Comprensión de imágenes y análisis de documentos on-device

Prueba Gemma 4 E4B ahora

Despliegue on-device

Despliegue en navegador y móvil

El modelo edge en una familia de vanguardia

Gemma 4 E2B

Gemma 4 26B

Gemma 4 31B

Documentación

Comunidad

Ficha del modelo

¿Listo para ejecutar IA on-device con Gemma 4 E4B?