Modelos Gemma 4

Cuatro modelos, una familia - del edge al frontier

La familia Gemma 4 abarca cuatro arquitecturas: los ultracompactos E2B y E4B para dispositivos edge, el 26B MoE para despliegue eficiente en servidores y el modelo insignia 31B Dense. Todos comparten soporte multimodal nativo, razonamiento configurable y licencia Apache 2.0.

Empezar a chatear Comparar benchmarks

Todos los modelos

Elige el Gemma 4 ideal para tu caso de uso

Cada modelo de la familia está optimizado para diferentes escenarios de despliegue. Los modelos edge incluyen soporte de audio, mientras que los modelos de servidor ofrecen contexto de 256K y razonamiento de clase frontier.

Modelos Edge

E2B & E4B: Inteligencia en el dispositivo con audio

Modelos ultracompactos con 2.3B y 4.5B parámetros efectivos. Ambos incluyen codificadores de audio nativos, contexto de 128K y corren en teléfonos, navegadores y dispositivos IoT.

Elige E2B para el menor tamaño (3.2 GB a 4-bit). Elige E4B para mejor calidad (5.5 GB a 4-bit). Ambos soportan entrada de texto, imagen, video y audio.

Prueba E4B gratis Comparar E2B vs E4B

Modelos de servidor

26B MoE & 31B Dense: Rendimiento frontier

El 26B MoE activa solo 4B parámetros por token para un serving eficiente. El 31B Dense es el modelo insignia con el puesto #3 en Arena AI. Ambos ofrecen contexto de 256K y Function Calling nativo.

Elige 26B para producción de alto rendimiento (16 GB a 4-bit). Elige 31B para la máxima calidad (17 GB a 4-bit). Ambos destacan en razonamiento, programación y tareas multimodales.

Prueba 26B gratis Ver benchmarks

Edge - Ultracompacto

Gemma 4 E2B

2.3B parámetros efectivos. El Gemma 4 más pequeño con soporte multimodal completo + audio.

35 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 3.2 GB VRAM a 4-bit.

Disponible ahora

Más información Descargar

Edge - Recomendado

Gemma 4 E4B

4.5B parámetros efectivos. El mejor modelo edge con razonamiento sólido y soporte de audio.

42 capas, arquitectura PLE, ~150M visión + ~300M codificador de audio. 5.5 GB VRAM a 4-bit.

Disponible ahora

Más información Descargar

Servidor - Eficiente

Gemma 4 26B A4B

25.2B en total, 3.8B activos por token. Calidad cercana al 31B con una fracción del cómputo.

MoE con 128 expertos (8 activos + 1 compartido). Contexto 256K. 16 GB VRAM a 4-bit.

Disponible ahora

Más información Descargar

Servidor - Modelo insignia

Gemma 4 31B

30.7B parámetros dense. #3 en Arena AI. Máxima inteligencia y confiabilidad.

Arquitectura dense, contexto 256K, más de 140 idiomas. 17 GB VRAM a 4-bit.

Disponible ahora

Más información Descargar

Capacidades compartidas

Qué puede hacer cada modelo Gemma 4

Los cuatro modelos comparten un conjunto común de capacidades que hacen de la familia Gemma 4 algo excepcionalmente versátil.

Multimodal nativo

Todos los modelos procesan texto e imágenes de forma nativa. Los modelos edge agregan soporte de audio y video. No se necesitan codificadores ni pipelines separados.

Razonamiento configurable

Todos los modelos soportan modos de razonamiento paso a paso. Controla la profundidad del razonamiento según la complejidad de la tarea.

Function Calling

El Function Calling integrado en toda la familia permite flujos de trabajo agénticos. No se requiere fine-tuning para el uso de herramientas.

Contexto extendido

128K tokens para modelos edge, 256K para modelos de servidor. La atención híbrida mantiene el uso de memoria práctico.

Más de 140 idiomas

Soporte multilingüe con comprensión del contexto cultural en todos los tamaños de modelo.

Licencia Apache 2.0

Libertad comercial total. Sin límites de MAU, sin restricciones de uso. Despliega donde quieras, modifica libremente.

Guía de selección rápida

¿Qué modelo deberías elegir?

Haz coincidir tus restricciones de despliegue y requisitos de calidad con la variante Gemma 4 adecuada.

Por hardware

Teléfono / IoT / 4 GB RAM: Gemma 4 E2B
Laptop / 8-16 GB RAM: Gemma 4 E4B
GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de uso

Asistente de voz / audio: E2B o E4B (soporte de audio)
IA en el navegador: E2B o E4B (WebGPU)
API de alto rendimiento: 26B A4B (eficiencia MoE)
Máxima calidad: 31B Dense (rendimiento frontier)

Empezar a chatear Ver todos los benchmarks

Rendimiento

Comparación completa de benchmarks de los cuatro modelos

Cada modelo Gemma 4 forma parte de una frontera de Pareto: cada tamaño ofrece un rendimiento excepcional en relación con su número de parámetros.

Desde el ultracompacto E2B hasta el modelo insignia 31B, cada modelo está optimizado para su nivel de despliegue mientras comparte las mismas innovaciones arquitectónicas.

Empezar a chatear Ver ficha del modelo

Comparación de rendimiento de la familia Gemma 4 en todos los tamaños de modelo

31B Dense: #3 en Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Calidad cercana al 31B (ELO 1441) con solo 4B parámetros activos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente rendimiento edge con audio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa con 3.2 GB de VRAM

Comparación completa de la familia

Todos los modelos Gemma 4 lado a lado

Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.

Benchmark	31B Dense Modelo insignia 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compacto E2B
Arena AI ELO Clasificación general	1452	1441	-	-
MMLU Pro Conocimiento y razonamiento	85.2%	82.6%	69.4%	60.0%
AIME 2026 Matemáticas	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Programación	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Ciencia	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodal	76.9%	73.8%	52.6%	44.2%
Context Window Tokens máximos	256K	256K	128K	128K
Audio Support Audio nativo	No	No	Yes	Yes
VRAM (4-bit) Memoria mínima	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Todas las cifras de la ficha oficial de Gemma 4. Puntuaciones de Arena AI al 2 de abril de 2026.

Nivel Edge

E2B & E4B: IA que corre en tu dispositivo

Los modelos edge llevan la IA multimodal completa a teléfonos, navegadores y dispositivos IoT. Ambos incluyen codificadores de audio nativos, una capacidad que los modelos más grandes no tienen. Elige E2B para el menor tamaño, E4B para mejor calidad.

E2B: 2.3B efectivos, 3.2 GB a 4-bit, 95 tok/s en hardware de consumo
E4B: 4.5B efectivos, 5.5 GB a 4-bit, razonamiento y programación sólidos
Ambos: audio nativo, contexto 128K, soporte de navegador WebGPU

Probar E4B Comparar E2B vs E4B

E2B & E4B: IA que corre en tu dispositivo

Nivel Servidor

26B MoE & 31B Dense: Rendimiento frontier

Los modelos de servidor ofrecen razonamiento, programación y comprensión multimodal de clase frontier. El 26B MoE ofrece calidad cercana al 31B con una fracción del cómputo. El 31B Dense es el modelo insignia para el máximo rendimiento.

26B MoE: 3.8B activos por token, ELO 1441, 88.3% AIME 2026
31B Dense: 30.7B completamente activos, ELO 1452, 89.2% AIME 2026
Ambos: contexto 256K, Function Calling nativo, más de 140 idiomas

Probar 26B Comparar 26B vs 31B

26B MoE & 31B Dense: Rendimiento frontier

Arquitectura

Innovaciones compartidas en toda la familia

Todos los modelos Gemma 4 comparten innovaciones arquitectónicas clave de la investigación de Google DeepMind. Per-Layer Embeddings, caché KV compartida y patrones de atención híbridos maximizan la eficiencia a cada escala.

Per-Layer Embeddings (PLE) para condicionamiento eficiente en parámetros
Caché KV compartida para reducir la memoria durante la generación de contexto largo
Atención híbrida local/global para un balance óptimo entre memoria y calidad

Leer detalles técnicos Ver ficha del modelo