Gemma 4 E4B
4500 millones de parámetros de inteligencia on-device con audio nativo
Gemma 4 E4B concentra 4500 millones de parámetros efectivos en un modelo que funciona en portátiles, móviles y navegadores. Con comprensión nativa de audio, imagen y texto, además de una ventana de contexto de 128K, lleva la IA multimodal de vanguardia al edge.
Variantes del modelo
Ajustado con instrucciones para despliegue edge
Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros, ofreciendo un rendimiento sólido desde una arquitectura compacta.
Arquitectura Per-Layer Embeddings
4500 millones de parámetros efectivos, 8000 millones en total con embeddings
Gemma 4 E4B utiliza PLE para dar a cada capa del decodificador su propia vía de condicionamiento. Con 42 capas, un encoder de visión de ~150M y un encoder de audio de ~300M, procesa texto, imágenes y audio de forma nativa.
Ideal para despliegue on-device, IA en el navegador y aplicaciones centradas en la privacidad donde los datos nunca salen del dispositivo del usuario.
Ajustado con instrucciones
E4B Instruct
Optimizado para IA conversacional, comprensión de audio y realización de tareas on-device
Ajustado para seguir instrucciones con soporte multimodal nativo, incluida la entrada de audio
Preentrenado
E4B Base
Modelo base para el ajuste fino de aplicaciones edge y móviles
Preentrenado con datos multimodales diversos, incluido audio, para máxima flexibilidad
Capacidades
Inteligencia de sobremesa en hardware edge
Gemma 4 E4B lleva comprensión multimodal, asistencia en programación y razonamiento a dispositivos que caben en la palma de tu mano.
Entrada de audio nativa
El encoder de audio conformer estilo USM procesa voz y clips de audio de hasta 30 segundos directamente, sin necesidad de pipeline de transcripción.
Razonamiento avanzado
Modo de pensamiento configurable con un 42,5 % en AIME 2026 en matemáticas y un 58,6 % en GPQA Diamond en ciencias de nivel de posgrado.
Programación eficaz
52 % en LiveCodeBench v6 y 940 Codeforces ELO. Las llamadas a funciones nativas permiten flujos de trabajo agénticos on-device.
Ventana de contexto de 128K
Procesa documentos largos, bases de código completas y conversaciones extensas on-device con atención híbrida local/global.
Comprensión visual
52,6 % en MMMU Pro y 59,5 % en MATH-Vision. Soporte de relación de aspecto variable con presupuestos de tokens por imagen configurables.
Funciona en cualquier sitio
Funciona en navegadores mediante WebGPU, en móviles mediante ONNX y en portátiles mediante Ollama. Solo 5,5 GB de VRAM con cuantización de 4 bits.
Aspectos destacados
Métricas de rendimiento edge
Gemma 4 E4B ofrece resultados sólidos en diversos benchmarks, todo ello en hardware de consumo.
Logros principales
- 69,4 % en MMLU Pro en conocimiento y razonamiento
- 52 % en LiveCodeBench v6 en programación
- 58,6 % en GPQA Diamond en conocimiento científico
- 52,6 % en MMMU Pro en razonamiento multimodal
- Ventana de contexto de 128K tokens
Especificaciones técnicas
- 4500 millones de parámetros efectivos (8000 millones con embeddings)
- 42 capas de decodificador con Per-Layer Embeddings
- Encoder de visión de ~150M + encoder de audio de ~300M
- Entrada nativa de texto, imagen, vídeo y audio
- 5,5-6 GB de VRAM con cuantización de 4 bits
Rendimiento
Rinde muy por encima de su categoría
Gemma 4 E4B alcanza un 69,4 % en MMLU Pro y un 52 % en LiveCodeBench v6 con solo 4500 millones de parámetros efectivos, superando a muchos modelos del doble de tamaño.
Gemma 4 E4B demuestra que los modelos edge pueden ofrecer un rendimiento significativo en razonamiento, programación y tareas multimodales.


69,4 % en MMLU Pro - conocimiento y razonamiento sólidos para un modelo edge
52 % en LiveCodeBench v6 - asistencia práctica en programación on-device
58,6 % en GPQA Diamond - comprensión científica de nivel de posgrado
52,6 % en MMMU Pro - razonamiento multimodal con imágenes
940 Codeforces ELO - capacidad de programación competitiva
Comparación de benchmarks
E4B frente a la familia Gemma 4 y Gemma 3
Gemma 4 E4B ofrece un rendimiento edge sólido, mientras que los modelos más grandes gestionan cargas de trabajo más pesadas.
| Benchmark | Gemma 4 E4B IT Thinking Destacado | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Conocimiento y razonamiento | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 Matemáticas Sin herramientas | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond Conocimiento científico | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 Programación competitiva | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO Programación competitiva | 940 | 633 | 2150 | - |
MMMU Pro Razonamiento multimodal | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision Razonamiento matemático visual | 59.5% | 52.4% | 85.6% | - |
Audio Support Entrada de audio nativa | Sí | Sí | No | No |
Context Window Tokens máximos | 128K | 128K | 256K | 128K |
Resultados de benchmarks de la ficha oficial del modelo Gemma 4. Los benchmarks de E4B demuestran una eficiencia excepcional para su número de parámetros.
Audio nativo
Comprensión del habla sin pipeline de transcripción
Gemma 4 E4B incluye un encoder de audio conformer estilo USM que procesa voz y audio directamente. No necesitáis un modelo ASR separado: simplemente proporcionad el audio y obtened respuestas inteligentes.
- Encoder de audio conformer de ~300M de parámetros integrado en el modelo
- Procesa clips de audio de hasta 30 segundos directamente
- Ideal para asistentes de voz, análisis de audio y herramientas de accesibilidad
Despliegue edge
Del navegador al móvil y al Raspberry Pi
Gemma 4 E4B está diseñado para desplegarse en cualquier lugar. Ejecutadlo en Chrome con WebGPU mediante transformers.js, en móviles con ONNX o en portátiles con Ollama. Solo 5,5 GB de VRAM con cuantización de 4 bits.
- Navegador: transformers.js con aceleración WebGPU en Chrome
- Móvil: checkpoints ONNX para despliegue en iOS y Android
- Local: Ollama, llama.cpp, MLX para inferencia privada on-device
Visión y documentos
Comprensión de imágenes y análisis de documentos on-device
El encoder de visión de ~150M procesa imágenes con relaciones de aspecto variables y presupuestos de tokens configurables. Un OCR potente y comprensión documental lo hacen práctico para el análisis de documentos on-device.
- 52,6 % en MMMU Pro en razonamiento multimodal
- Resolución de imagen variable: de 70 a 1120 tokens por imagen
- Análisis de documentos, OCR, comprensión de gráficos on-device
Primeros pasos
Prueba Gemma 4 E4B ahora
Empieza a chatear al instante o descarga el modelo para despliegue on-device.
Descargar pesos
Despliegue on-device
Descarga los pesos oficiales del modelo para despliegue edge y local.
Plataformas edge
Despliegue en navegador y móvil
Despliega en dispositivos edge, navegadores y plataformas móviles.
Parte de Gemma 4
El modelo edge en una familia de vanguardia
Gemma 4 E4B es el modelo edge recomendado en la familia Gemma 4. Subid al 26B MoE o al 31B Dense cuando necesitéis más potencia, o bajad al E2B para la huella más reducida.
Gemma 4 E2B
Modelo ultracompacto de 2300 millones para las restricciones de hardware más exigentes
CompararPrimeros pasos
¿Preparado para ejecutar IA on-device con Gemma 4 E4B?
Empieza a chatear gratis o descarga el modelo para un despliegue privado on-device. Ningún dato sale de tu dispositivo.