Gemma 4: Inteligencia Multimodal de Vanguardia que Puedes Ejecutar en Cualquier Lugar

Resumen

Cuatro Modelos, Una Familia: Desde Edge hasta Rendimiento de Grado Servidor

Lanzado el 2 de abril de 2026 bajo Apache 2.0, Gemma 4 ofrece inteligencia multimodal de clase vanguardista en cuatro arquitecturas. Desde modelos edge ultra-móviles de 2B hasta la variante densa insignia de 31B, cada tamaño procesa texto, imágenes con resolución variable, video y audio de forma nativa.

Modelos Edge

Gemma 4 E2B y E4B: Inteligencia en el Dispositivo

Modelos ultra-compactos con 2.3B y 4.5B parámetros efectivos, diseñados para Pixel, Chrome y despliegue en navegador con soporte de audio nativo y contexto de 128K.

Las variantes E2B y E4B utilizan Per-Layer Embeddings (PLE) para maximizar la eficiencia de parámetros. Soportan entradas de texto, imagen, video y audio de forma nativa, haciéndolos ideales para aplicaciones en el dispositivo enfocadas en privacidad.

Modelos de Servidor

Gemma 4 31B Denso y 26B MoE: Rendimiento de Vanguardia

El modelo denso de 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI con 89.2% en AIME 2026. El 26B MoE activa solo 4B parámetros por token mientras mantiene calidad similar.

Ambos modelos cuentan con ventanas de contexto de 256K, llamadas de función nativas y modos de pensamiento configurables. El 31B logra 85.2% en MMLU Pro y 80% en LiveCodeBench v6, compitiendo con modelos muchas veces más grandes.

Capacidades

Multimodal Nativo

Todos los modelos procesan texto, imágenes con relaciones de aspecto variables, video y audio de forma nativa. E2B y E4B incluyen codificadores de audio para comprensión del habla.

El codificador de visión utiliza posiciones 2D aprendidas y RoPE multidimensional, preservando las relaciones de aspecto originales. Las imágenes pueden codificarse en diferentes presupuestos de tokens (70, 140, 280, 560, 1120) para compensaciones óptimas de velocidad-calidad.

Todos los Modelos

Arquitectura

Ventanas de Contexto Extendidas

Los modelos pequeños cuentan con contexto de 128K, mientras que los modelos medianos soportan 256K. Las configuraciones duales de RoPE permiten procesamiento de contexto más largo.

Las capas de atención alternadas de ventana deslizante local (512-1024 tokens) y contexto completo global optimizan el uso de memoria. El KV cache compartido reduce el cómputo y la memoria para generación de contexto largo.

128K-256K

Características

Pensamiento Configurable

Todos los modelos soportan modos de pensamiento configurables para tareas de razonamiento avanzado, con soporte nativo de prompts del sistema para conversaciones estructuradas.

El modelo 31B logra 89.2% en razonamiento matemático AIME 2026 y 84.3% en GPQA Diamond. Las llamadas de función integradas potencian agentes autónomos sin ajuste fino.

Todos los Modelos

Rendimiento

Poder de Codificación y Agéntico

El modelo 31B obtiene 80% en LiveCodeBench v6 y alcanza 2150 ELO en Codeforces. El 26B MoE logra 77.1% con solo 4B parámetros activos.

Mejoras notables en benchmarks de codificación junto con soporte integrado de llamadas de función permiten agentes autónomos altamente capaces. El benchmark HLE muestra 19.5% sin herramientas, 26.5% con búsqueda.

Optimizado

Multimodal

Visión y Análisis de Documentos

El modelo 31B logra 76.9% en MMMU Pro y 85.6% en MATH-Vision. La distancia de edición de 0.131 en OmniDocBench demuestra fuertes capacidades de OCR.

El soporte de relación de aspecto variable y presupuestos de tokens de imagen configurables permiten procesamiento eficiente de documentos, diagramas y capturas de pantalla. El modelo E4B alcanza 52.6% en MMMU Pro a pesar de su tamaño compacto.

Todos los Modelos

Integración

Despliega en Cualquier Lugar

Soporte desde el día 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs y más. Los checkpoints ONNX permiten despliegue en dispositivos edge.

La licencia Apache 2.0 permite uso comercial responsable. Disponible en Kaggle, Hugging Face y a través de Google AI Studio. Compatible con herramientas locales como Ollama para interacciones privadas y sin conexión.

Código Abierto

Comenzar

Comienza a Chatear con Gemma 4 Hoy

Experimenta los modelos multimodales de vanguardia de Google DeepMind gratis. No se requiere tarjeta de crédito para iniciar tu primera conversación.

Introducción

Mira: Introducción Oficial de Gemma 4

Conoce las cuatro arquitecturas de modelos, capacidades multimodales nativas y opciones de despliegue de Google DeepMind.

Rendimiento

Rendimiento de Vanguardia en Razonamiento, Codificación y Visión

Los modelos Gemma 4 forman una frontera de Pareto, ofreciendo rendimiento excepcional en relación a su tamaño. El modelo denso de 31B ocupa el puesto #3 entre todos los modelos abiertos en la tabla de clasificación de Arena AI.

Los benchmarks oficiales demuestran rendimiento competitivo con modelos muchas veces más grandes. El modelo 31B logra 89.2% en razonamiento matemático AIME 2026, mientras que el 26B MoE alcanza calidad similar con solo 4B parámetros activos.

Comparación de rendimiento de Gemma 4 entre tamaños de modelo y benchmarks

El modelo 31B logra 89.2% en AIME 2026 y 85.2% en MMLU Pro, compitiendo con modelos de más de 100B parámetros.

El rendimiento de codificación alcanza 80% en LiveCodeBench v6 y 2150 ELO en Codeforces, superando a muchos modelos más grandes.

Las capacidades de visión incluyen 76.9% en MMMU Pro y 85.6% en MATH-Vision, con fuerte comprensión de OCR y documentos.

Benchmarks Oficiales

Rendimiento de Gemma 4 en Tareas Clave

La evaluación completa en tareas de razonamiento, codificación, visión, audio y contexto largo demuestra capacidades de clase vanguardista.

Benchmark
Gemma 4 31B
Insignia denso
31B
Gemma 4 26B A4B
MoE (4B activo)
26B
Gemma 4 E4B
Modelo edge
E4B
Gemma 4 E2B
Ultra-compacto
E2B
MMLU Pro
Conocimiento y razonamiento
85.2%82.6%69.4%60.0%
AIME 2026 (sin herramientas)
Razonamiento matemático
89.2%88.3%42.5%37.5%
GPQA Diamond
Ciencia de nivel posgrado
84.3%82.3%58.6%43.4%
LiveCodeBench v6
Rendimiento de codificación
80.0%77.1%52.0%44.0%
Codeforces ELO
Programación competitiva
21501718940633
MMMU Pro
Comprensión multimodal
76.9%73.8%52.6%44.2%
MATH-Vision
Razonamiento matemático visual
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR de documentos (distancia de edición)
0.1310.1490.1810.290
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Entrada de audio nativa
NoNoYesYes

Todas las cifras provienen de la tarjeta oficial del modelo Gemma 4 y el blog de Hugging Face. Los benchmarks de E2B y E4B demuestran eficiencia excepcional para su conteo de parámetros.

Modelos de Servidor

31B Denso y 26B MoE: Rendimiento de Vanguardia para Producción

El modelo denso de 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI con 89.2% en AIME 2026. El 26B MoE activa solo 4B parámetros por token mientras mantiene calidad similar, ideal para escenarios de alto rendimiento.

  • 31B Denso: 89.2% AIME 2026, 85.2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO en Codeforces
  • 26B MoE (4B activo): 88.3% AIME 2026, 82.6% MMLU Pro, 77.1% LiveCodeBench v6
  • Ventanas de contexto de 256K con configuraciones duales de RoPE para procesamiento eficiente de contexto largo

Modelos Edge

E2B y E4B: Inteligencia en el Dispositivo con Soporte de Audio

Modelos ultra-compactos con 2.3B y 4.5B parámetros efectivos, diseñados para Pixel, Chrome y despliegue en navegador. Los codificadores de audio nativos permiten comprensión del habla en tiempo real en el dispositivo.

  • E2B (2.3B efectivo, 5.1B con embeddings): 60% MMLU Pro, 44% LiveCodeBench, contexto de 128K
  • E4B (4.5B efectivo, 8B con embeddings): 69.4% MMLU Pro, 52% LiveCodeBench, contexto de 128K
  • Per-Layer Embeddings (PLE) maximizan la eficiencia de parámetros para despliegue edge

Arquitectura

Per-Layer Embeddings y KV Cache Compartido

Gemma 4 introduce innovaciones arquitectónicas que maximizan la eficiencia. PLE le da a cada capa de decodificador su propia vía de condicionamiento, mientras que el KV cache compartido reduce el uso de memoria durante la generación de contexto largo.

  • Per-Layer Embeddings agregan especialización significativa a un costo modesto de parámetros
  • KV cache compartido: las últimas N capas reutilizan estados clave-valor, eliminando proyecciones redundantes
  • Atención alternada de ventana deslizante local y contexto completo global para uso óptimo de memoria
Comparación de rendimiento de arquitectura de Gemma 4

Multimodal

Comprensión Nativa de Imagen, Video y Audio

Todos los modelos procesan texto e imágenes con relaciones de aspecto variables de forma nativa. El codificador de visión utiliza posiciones 2D aprendidas y puede codificar imágenes en diferentes presupuestos de tokens (70-1120) para compensaciones de velocidad-calidad.

  • El soporte de relación de aspecto variable preserva las dimensiones originales de la imagen
  • Presupuestos de tokens de imagen configurables: 70, 140, 280, 560, 1120 tokens
  • E2B y E4B incluyen codificadores de audio conformer estilo USM para procesamiento del habla
Rendimiento de benchmark multimodal de Gemma 4

Despliegue

Despliega en Cualquier Lugar: Navegador, Local o Nube

Soporte desde el día 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs y más. E2B y E4B se ejecutan en navegadores con transformers.js, mientras que 31B y 26B sobresalen en hardware de servidor.

  • Navegador: transformers.js permite E2B/E4B en Chrome con aceleración WebGPU
  • Local: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs para inferencia privada
  • Nube: Google AI Studio, Vertex AI o auto-hospedado con vLLM y TGI
Opciones de despliegue y rendimiento de Gemma 4

FAQ

Arquitectura y Capacidades del Modelo

Comprendiendo las innovaciones técnicas de Gemma 4, desde Per-Layer Embeddings hasta procesamiento multimodal.

¿Qué hace diferente a Gemma 4 de las versiones anteriores de Gemma?

Gemma 4 introduce soporte multimodal nativo (texto, imagen, video, audio), ventanas de contexto extendidas (128K-256K), modos de pensamiento configurables y llamadas de función integradas. La arquitectura utiliza Per-Layer Embeddings (PLE) para eficiencia y KV cache compartido para reducir el uso de memoria durante la generación de contexto largo.

¿Cuáles son los cuatro tamaños de modelo de Gemma 4 y cuándo debo usar cada uno?

E2B (2.3B efectivo) y E4B (4.5B efectivo) están diseñados para dispositivos edge, navegadores y móviles con soporte de audio nativo. El 26B A4B es un modelo Mixture-of-Experts que activa solo 4B parámetros por token, ideal para escenarios de alto rendimiento. El modelo denso de 31B es el insignia para máximo rendimiento en tareas de razonamiento, codificación y visión.

¿Cómo maneja Gemma 4 las entradas multimodales?

Todos los modelos procesan texto e imágenes con relaciones de aspecto variables de forma nativa. El codificador de visión utiliza posiciones 2D aprendidas y puede codificar imágenes en diferentes presupuestos de tokens (70-1120 tokens) para compensaciones de velocidad-calidad. E2B y E4B incluyen codificadores de audio conformer estilo USM para comprensión del habla. El video es soportado en toda la familia procesando cuadros y pistas de audio.

¿Qué es Per-Layer Embeddings (PLE) y por qué importa?

PLE le da a cada capa de decodificador su propio pequeño embedding para cada token, creando una vía de condicionamiento paralela junto al flujo residual principal. Esto permite que cada capa reciba información específica del token solo cuando es relevante, en lugar de empacar todo en un solo embedding inicial. Agrega especialización significativa por capa a un costo modesto de parámetros, haciendo que los modelos pequeños sean más eficientes.

FAQ

Despliegue e Integración

Comenzando con Gemma 4 en diferentes plataformas, desde la nube hasta dispositivos edge.

¿Dónde puedo descargar y ejecutar los modelos Gemma 4?

Los modelos Gemma 4 están disponibles en Kaggle y Hugging Face bajo licencia Apache 2.0. Puedes usarlos a través de Google AI Studio, desplegar en Vertex AI o ejecutar localmente con herramientas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers y Mistral.rs. Los checkpoints ONNX permiten despliegue en navegador y dispositivos edge.

¿Cuáles son los requisitos de hardware para ejecutar Gemma 4?

E2B requiere ~9.6GB (BF16) a 3.2GB (4-bit) de VRAM. E4B necesita ~15GB (BF16) a 5GB (4-bit). El modelo 31B requiere ~58GB (BF16) a 17GB (4-bit). El 26B MoE necesita ~48GB (BF16) a 16GB (4-bit). Estos son solo los pesos base; agrega memoria para la ventana de contexto (KV cache) según tu caso de uso.

¿Puedo ejecutar Gemma 4 en el navegador o en dispositivos móviles?

Sí. Los modelos E2B y E4B están específicamente diseñados para despliegue en navegador y móvil. transformers.js permite ejecutar Gemma 4 directamente en navegadores con soporte WebGPU. Los checkpoints ONNX funcionan en varios backends de hardware edge. Los modelos están optimizados para dispositivos Pixel y entornos de navegador Chrome.

¿Cómo uso Gemma 4 con llamadas de función y agentes?

Gemma 4 tiene soporte integrado de llamadas de función sin requerir ajuste fino. Los modelos pueden analizar definiciones de herramientas, generar llamadas JSON estructuradas y manejar llamadas de función multimodales (por ejemplo, analizar una imagen y llamar a una API del clima). Esto potencia agentes autónomos para tareas como ejecución de código, navegación web y recuperación de datos.

FAQ

Rendimiento y Comparaciones

Cómo se compara Gemma 4 con otros modelos y qué lo hace competitivo para diferentes casos de uso.

¿Cómo se compara Gemma 4 31B con modelos más grandes como Llama 3.3 70B?

El modelo 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI entre modelos abiertos, superando a Llama 3.3 70B a pesar de ser menos de la mitad del tamaño. Logra 89.2% en razonamiento matemático AIME 2026, 85.2% en MMLU Pro y 80% en LiveCodeBench v6. La eficiencia proviene de innovaciones arquitectónicas como patrones de atención alternados y KV cache compartido.

¿Qué es la arquitectura Mixture-of-Experts (MoE) en el modelo 26B?

El modelo 26B A4B tiene 26 mil millones de parámetros totales pero activa solo 4 mil millones por token durante la generación. Todos los 26B parámetros deben cargarse en memoria para enrutamiento rápido, pero el costo de inferencia es más cercano a un modelo de 4B. Esto logra 88.3% en AIME 2026 y 82.6% en MMLU Pro con significativamente menor cómputo por token que el modelo denso de 31B.

¿Puede Gemma 4 manejar documentos largos y contexto extendido?

Sí. Los modelos pequeños soportan ventanas de contexto de 128K, mientras que los modelos medianos manejan 256K tokens. La arquitectura utiliza configuraciones duales de RoPE (estándar para capas deslizantes, podado para capas globales) para permitir contexto más largo. El KV cache compartido reduce el consumo de memoria durante la generación de contexto largo, haciéndolo práctico para procesar bases de código completas y artículos de investigación.

¿Dónde puedo encontrar ejemplos de ajuste fino y recursos de entrenamiento?

Gemma 4 está completamente soportado en TRL (Transformer Reinforcement Learning), con ejemplos para respuestas de herramientas multimodales e interacción con el entorno. Hugging Face proporciona guías de ajuste fino para Vertex AI usando SFT. Unsloth Studio ofrece una experiencia de ajuste fino basada en UI. Los modelos soportan métodos PEFT como LoRA para entrenamiento eficiente en parámetros.