Modelos Gemma 4

Cuatro modelos, una familia - del edge al frontier

La familia Gemma 4 abarca cuatro arquitecturas: los ultracompactos E2B y E4B para dispositivos edge, el 26B MoE para despliegue eficiente en servidores y el modelo insignia 31B Dense. Todos comparten soporte multimodal nativo, razonamiento configurable y licencia Apache 2.0.

Todos los modelos

Elige el Gemma 4 ideal para tu caso de uso

Cada modelo de la familia está optimizado para diferentes escenarios de despliegue. Los modelos edge incluyen soporte de audio, mientras que los modelos de servidor ofrecen contexto de 256K y razonamiento de clase frontier.

Modelos Edge

E2B & E4B: Inteligencia en el dispositivo con audio

Modelos ultracompactos con 2.3B y 4.5B parámetros efectivos. Ambos incluyen codificadores de audio nativos, contexto de 128K y corren en teléfonos, navegadores y dispositivos IoT.

Elige E2B para el menor tamaño (3.2 GB a 4-bit). Elige E4B para mejor calidad (5.5 GB a 4-bit). Ambos soportan entrada de texto, imagen, video y audio.

Modelos de servidor

26B MoE & 31B Dense: Rendimiento frontier

El 26B MoE activa solo 4B parámetros por token para un serving eficiente. El 31B Dense es el modelo insignia con el puesto #3 en Arena AI. Ambos ofrecen contexto de 256K y Function Calling nativo.

Elige 26B para producción de alto rendimiento (16 GB a 4-bit). Elige 31B para la máxima calidad (17 GB a 4-bit). Ambos destacan en razonamiento, programación y tareas multimodales.

Edge - Ultracompacto

Gemma 4 E2B

2.3B parámetros efectivos. El Gemma 4 más pequeño con soporte multimodal completo + audio.

35 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 3.2 GB VRAM a 4-bit.

Disponible ahora

Edge - Recomendado

Gemma 4 E4B

4.5B parámetros efectivos. El mejor modelo edge con razonamiento sólido y soporte de audio.

42 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 5.5 GB VRAM a 4-bit.

Disponible ahora

Servidor - Eficiente

Gemma 4 26B A4B

25.2B en total, 3.8B activos por token. Calidad cercana al 31B con una fracción del cómputo.

MoE con 128 expertos (8 activos + 1 compartido). Contexto 256K. 16 GB VRAM a 4-bit.

Disponible ahora

Servidor - Modelo insignia

Gemma 4 31B

30.7B parámetros dense. #3 en Arena AI. Máxima inteligencia y confiabilidad.

Arquitectura dense, contexto 256K, más de 140 idiomas. 17 GB VRAM a 4-bit.

Disponible ahora

Capacidades compartidas

Qué puede hacer cada modelo Gemma 4

Los cuatro modelos comparten un conjunto común de capacidades que hacen de la familia Gemma 4 algo excepcionalmente versátil.

Multimodal nativo

Todos los modelos procesan texto e imágenes de forma nativa. Los modelos edge agregan soporte de audio y video. No se necesitan codificadores ni pipelines separados.

Razonamiento configurable

Todos los modelos soportan modos de razonamiento paso a paso. Controla la profundidad del razonamiento según la complejidad de la tarea.

Function Calling

El Function Calling integrado en toda la familia permite flujos de trabajo agénticos. No se requiere fine-tuning para el uso de herramientas.

Contexto extendido

128K tokens para modelos edge, 256K para modelos de servidor. La atención híbrida mantiene el uso de memoria práctico.

Más de 140 idiomas

Soporte multilingüe con comprensión del contexto cultural en todos los tamaños de modelo.

Licencia Apache 2.0

Libertad comercial total. Sin límites de MAU, sin restricciones de uso. Despliega donde quieras, modifica libremente.

Guía de selección rápida

¿Qué modelo deberías elegir?

Haz coincidir tus restricciones de despliegue y requisitos de calidad con la variante Gemma 4 adecuada.

Por hardware

  • Teléfono / IoT / 4 GB RAM: Gemma 4 E2B
  • Laptop / 8-16 GB RAM: Gemma 4 E4B
  • GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de uso

  • Asistente de voz / audio: E2B o E4B (soporte de audio)
  • IA en el navegador: E2B o E4B (WebGPU)
  • API de alto rendimiento: 26B A4B (eficiencia MoE)
  • Máxima calidad: 31B Dense (rendimiento frontier)

Rendimiento

Comparación completa de benchmarks de los cuatro modelos

Cada modelo Gemma 4 forma parte de una frontera de Pareto: cada tamaño ofrece un rendimiento excepcional en relación con su número de parámetros.

Desde el ultracompacto E2B hasta el modelo insignia 31B, cada modelo está optimizado para su nivel de despliegue mientras comparte las mismas innovaciones arquitectónicas.

Comparación de rendimiento de la familia Gemma 4 en todos los tamaños de modelo

31B Dense: #3 en Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Calidad cercana al 31B (ELO 1441) con solo 4B parámetros activos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente rendimiento edge con audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB de VRAM

Comparación completa de la familia

Todos los modelos Gemma 4 lado a lado

Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.

Benchmark
31B Dense
Modelo insignia
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compacto
E2B
Arena AI ELO
Clasificación general
14521441--
MMLU Pro
Conocimiento y razonamiento
85.2%82.6%69.4%60.0%
AIME 2026
Matemáticas
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Programación
80.0%77.1%52.0%44.0%
GPQA Diamond
Ciencia
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodal
76.9%73.8%52.6%44.2%
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Audio nativo
NoNoYesYes
VRAM (4-bit)
Memoria mínima
~17 GB~16 GB~5.5 GB~3.2 GB

Todas las cifras de la ficha oficial de Gemma 4. Puntuaciones de Arena AI al 2 de abril de 2026.

Nivel Edge

E2B & E4B: IA que corre en tu dispositivo

Los modelos edge llevan la IA multimodal completa a teléfonos, navegadores y dispositivos IoT. Ambos incluyen codificadores de audio nativos, una capacidad que los modelos más grandes no tienen. Elige E2B para el menor tamaño, E4B para mejor calidad.

  • E2B: 2.3B efectivos, 3.2 GB a 4-bit, 95 tok/s en hardware de consumo
  • E4B: 4.5B efectivos, 5.5 GB a 4-bit, razonamiento y programación sólidos
  • Ambos: audio nativo, contexto 128K, soporte de navegador WebGPU
E2B & E4B: IA que corre en tu dispositivo

Nivel Servidor

26B MoE & 31B Dense: Rendimiento frontier

Los modelos de servidor ofrecen razonamiento, programación y comprensión multimodal de clase frontier. El 26B MoE ofrece calidad cercana al 31B con una fracción del cómputo. El 31B Dense es el modelo insignia para el máximo rendimiento.

  • 26B MoE: 3.8B activos por token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: 30.7B completamente activos, ELO 1452, 89.2% AIME 2026
  • Ambos: contexto 256K, Function Calling nativo, más de 140 idiomas
26B MoE & 31B Dense: Rendimiento frontier

Arquitectura

Innovaciones compartidas en toda la familia

Todos los modelos Gemma 4 comparten innovaciones arquitectónicas clave de la investigación de Google DeepMind. Per-Layer Embeddings, caché KV compartida y patrones de atención híbridos maximizan la eficiencia a cada escala.

  • Per-Layer Embeddings (PLE) para condicionamiento eficiente en parámetros
  • Caché KV compartida para reducir la memoria durante la generación de contexto largo
  • Atención híbrida local/global para un balance óptimo entre memoria y calidad
Innovaciones compartidas en toda la familia

Familia Gemma 4

Explora cada modelo a detalle

Profundiza en cada variante Gemma 4 con páginas dedicadas que cubren arquitectura, benchmarks y guías de despliegue.

Gemma 4 E2B

Modelo edge ultracompacto 2.3B con audio

Explorar

Gemma 4 E4B

Modelo edge recomendado 4.5B con audio

Explorar

Gemma 4 26B

MoE eficiente con 4B parámetros activos

Explorar

Gemma 4 31B

Modelo dense insignia, #3 en Arena AI

Explorar

Correr localmente

Guía para correr Gemma 4 en tu hardware

Leer guía

Acceso API

Usa Gemma 4 a través de APIs alojadas

Comenzar

Comenzar

Encuentra tu modelo Gemma 4

Chatea gratis con cualquier modelo Gemma 4, o descarga los pesos para despliegue local. Licencia Apache 2.0 para total libertad comercial.