Modelos Gemma 4
Cuatro modelos, una familia - del edge al frontier
La familia Gemma 4 abarca cuatro arquitecturas: los ultracompactos E2B y E4B para dispositivos edge, el 26B MoE para despliegue eficiente en servidores y el modelo insignia 31B Dense. Todos comparten soporte multimodal nativo, razonamiento configurable y licencia Apache 2.0.
Todos los modelos
Elige el Gemma 4 ideal para tu caso de uso
Cada modelo de la familia está optimizado para diferentes escenarios de despliegue. Los modelos edge incluyen soporte de audio, mientras que los modelos de servidor ofrecen contexto de 256K y razonamiento de clase frontier.
Modelos Edge
E2B & E4B: Inteligencia en el dispositivo con audio
Modelos ultracompactos con 2.3B y 4.5B parámetros efectivos. Ambos incluyen codificadores de audio nativos, contexto de 128K y corren en teléfonos, navegadores y dispositivos IoT.
Elige E2B para el menor tamaño (3.2 GB a 4-bit). Elige E4B para mejor calidad (5.5 GB a 4-bit). Ambos soportan entrada de texto, imagen, video y audio.
Modelos de servidor
26B MoE & 31B Dense: Rendimiento frontier
El 26B MoE activa solo 4B parámetros por token para un serving eficiente. El 31B Dense es el modelo insignia con el puesto #3 en Arena AI. Ambos ofrecen contexto de 256K y Function Calling nativo.
Elige 26B para producción de alto rendimiento (16 GB a 4-bit). Elige 31B para la máxima calidad (17 GB a 4-bit). Ambos destacan en razonamiento, programación y tareas multimodales.
Edge - Ultracompacto
Gemma 4 E2B
2.3B parámetros efectivos. El Gemma 4 más pequeño con soporte multimodal completo + audio.
35 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 3.2 GB VRAM a 4-bit.
Edge - Recomendado
Gemma 4 E4B
4.5B parámetros efectivos. El mejor modelo edge con razonamiento sólido y soporte de audio.
42 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 5.5 GB VRAM a 4-bit.
Servidor - Eficiente
Gemma 4 26B A4B
25.2B en total, 3.8B activos por token. Calidad cercana al 31B con una fracción del cómputo.
MoE con 128 expertos (8 activos + 1 compartido). Contexto 256K. 16 GB VRAM a 4-bit.
Servidor - Modelo insignia
Gemma 4 31B
30.7B parámetros dense. #3 en Arena AI. Máxima inteligencia y confiabilidad.
Arquitectura dense, contexto 256K, más de 140 idiomas. 17 GB VRAM a 4-bit.
Capacidades compartidas
Qué puede hacer cada modelo Gemma 4
Los cuatro modelos comparten un conjunto común de capacidades que hacen de la familia Gemma 4 algo excepcionalmente versátil.
Multimodal nativo
Todos los modelos procesan texto e imágenes de forma nativa. Los modelos edge agregan soporte de audio y video. No se necesitan codificadores ni pipelines separados.
Razonamiento configurable
Todos los modelos soportan modos de razonamiento paso a paso. Controla la profundidad del razonamiento según la complejidad de la tarea.
Function Calling
El Function Calling integrado en toda la familia permite flujos de trabajo agénticos. No se requiere fine-tuning para el uso de herramientas.
Contexto extendido
128K tokens para modelos edge, 256K para modelos de servidor. La atención híbrida mantiene el uso de memoria práctico.
Más de 140 idiomas
Soporte multilingüe con comprensión del contexto cultural en todos los tamaños de modelo.
Licencia Apache 2.0
Libertad comercial total. Sin límites de MAU, sin restricciones de uso. Despliega donde quieras, modifica libremente.
Guía de selección rápida
¿Qué modelo deberías elegir?
Haz coincidir tus restricciones de despliegue y requisitos de calidad con la variante Gemma 4 adecuada.
Por hardware
- Teléfono / IoT / 4 GB RAM: Gemma 4 E2B
- Laptop / 8-16 GB RAM: Gemma 4 E4B
- GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
- Multi-GPU / 24 GB+ VRAM: Gemma 4 31B
Por caso de uso
- Asistente de voz / audio: E2B o E4B (soporte de audio)
- IA en el navegador: E2B o E4B (WebGPU)
- API de alto rendimiento: 26B A4B (eficiencia MoE)
- Máxima calidad: 31B Dense (rendimiento frontier)
Rendimiento
Comparación completa de benchmarks de los cuatro modelos
Cada modelo Gemma 4 forma parte de una frontera de Pareto: cada tamaño ofrece un rendimiento excepcional en relación con su número de parámetros.
Desde el ultracompacto E2B hasta el modelo insignia 31B, cada modelo está optimizado para su nivel de despliegue mientras comparte las mismas innovaciones arquitectónicas.


31B Dense: #3 en Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE: Calidad cercana al 31B (ELO 1441) con solo 4B parámetros activos por token
E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente rendimiento edge con audio
E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB de VRAM
Comparación completa de la familia
Todos los modelos Gemma 4 lado a lado
Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.
| Benchmark | 31B Dense Modelo insignia 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Compacto E2B |
|---|---|---|---|---|
Arena AI ELO Clasificación general | 1452 | 1441 | - | - |
MMLU Pro Conocimiento y razonamiento | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Matemáticas | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Programación | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Ciencia | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Tokens máximos | 256K | 256K | 128K | 128K |
Audio Support Audio nativo | No | No | Yes | Yes |
VRAM (4-bit) Memoria mínima | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Todas las cifras de la ficha oficial de Gemma 4. Puntuaciones de Arena AI al 2 de abril de 2026.
Nivel Edge
E2B & E4B: IA que corre en tu dispositivo
Los modelos edge llevan la IA multimodal completa a teléfonos, navegadores y dispositivos IoT. Ambos incluyen codificadores de audio nativos, una capacidad que los modelos más grandes no tienen. Elige E2B para el menor tamaño, E4B para mejor calidad.
- E2B: 2.3B efectivos, 3.2 GB a 4-bit, 95 tok/s en hardware de consumo
- E4B: 4.5B efectivos, 5.5 GB a 4-bit, razonamiento y programación sólidos
- Ambos: audio nativo, contexto 128K, soporte de navegador WebGPU
Nivel Servidor
26B MoE & 31B Dense: Rendimiento frontier
Los modelos de servidor ofrecen razonamiento, programación y comprensión multimodal de clase frontier. El 26B MoE ofrece calidad cercana al 31B con una fracción del cómputo. El 31B Dense es el modelo insignia para el máximo rendimiento.
- 26B MoE: 3.8B activos por token, ELO 1441, 88.3% AIME 2026
- 31B Dense: 30.7B completamente activos, ELO 1452, 89.2% AIME 2026
- Ambos: contexto 256K, Function Calling nativo, más de 140 idiomas
Arquitectura
Innovaciones compartidas en toda la familia
Todos los modelos Gemma 4 comparten innovaciones arquitectónicas clave de la investigación de Google DeepMind. Per-Layer Embeddings, caché KV compartida y patrones de atención híbridos maximizan la eficiencia a cada escala.
- Per-Layer Embeddings (PLE) para condicionamiento eficiente en parámetros
- Caché KV compartida para reducir la memoria durante la generación de contexto largo
- Atención híbrida local/global para un balance óptimo entre memoria y calidad

Probar ahora
Chatea con cualquier modelo Gemma 4
Prueba todos los modelos al instante a través de nuestra interfaz de chat, o descárgalos para despliegue local.
Descargar
Obtener los pesos del modelo
Descarga los pesos oficiales de cualquier variante Gemma 4.
Desplegar
Despliegue en producción
Despliega en plataformas en la nube, locales o edge.
Familia Gemma 4
Explora cada modelo a detalle
Profundiza en cada variante Gemma 4 con páginas dedicadas que cubren arquitectura, benchmarks y guías de despliegue.
Comenzar
Encuentra tu modelo Gemma 4
Chatea gratis con cualquier modelo Gemma 4, o descarga los pesos para despliegue local. Licencia Apache 2.0 para total libertad comercial.