Visión General
Lanzado el 2 de abril de 2026 bajo Apache 2.0, Gemma 4 ofrece inteligencia multimodal de clase vanguardista en cuatro arquitecturas. Desde modelos edge ultra-móviles de 2B hasta la variante densa insignia de 31B, cada tamaño procesa texto, imágenes con resolución variable, video y audio de forma nativa.
Modelos Edge
Modelos ultra-compactos con 2.3B y 4.5B parámetros efectivos, diseñados para Pixel, Chrome y despliegue en navegador con soporte de audio nativo y contexto de 128K.
Las variantes E2B y E4B utilizan Per-Layer Embeddings (PLE) para maximizar la eficiencia de parámetros. Soportan entradas de texto, imagen, video y audio de forma nativa, haciéndolos ideales para aplicaciones en el dispositivo enfocadas en privacidad.
Modelos de Servidor
El modelo denso de 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI con 89.2% en AIME 2026. El 26B MoE activa solo 4B parámetros por token mientras mantiene calidad similar.
Ambos modelos cuentan con ventanas de contexto de 256K, llamadas de función nativas y modos de pensamiento configurables. El 31B logra 85.2% en MMLU Pro y 80% en LiveCodeBench v6, compitiendo con modelos muchas veces más grandes.
Capacidades
Todos los modelos procesan texto, imágenes con relaciones de aspecto variables, video y audio de forma nativa. E2B y E4B incluyen codificadores de audio para comprensión del habla.
El codificador de visión utiliza posiciones 2D aprendidas y RoPE multidimensional, preservando las relaciones de aspecto originales. Las imágenes pueden codificarse en diferentes presupuestos de tokens (70, 140, 280, 560, 1120) para compensaciones óptimas de velocidad-calidad.
Arquitectura
Los modelos pequeños cuentan con contexto de 128K, mientras que los modelos medianos soportan 256K. Las configuraciones duales de RoPE permiten procesamiento de contexto más largo.
Las capas de atención alternadas de ventana deslizante local (512-1024 tokens) y contexto completo global optimizan el uso de memoria. El KV cache compartido reduce el cómputo y la memoria para generación de contexto largo.
Características
Todos los modelos soportan modos de pensamiento configurables para tareas de razonamiento avanzado, con soporte nativo de prompts del sistema para conversaciones estructuradas.
El modelo 31B logra 89.2% en razonamiento matemático AIME 2026 y 84.3% en GPQA Diamond. Las llamadas de función integradas potencian agentes autónomos sin ajuste fino.
Rendimiento
El modelo 31B obtiene 80% en LiveCodeBench v6 y alcanza 2150 ELO en Codeforces. El 26B MoE logra 77.1% con solo 4B parámetros activos.
Mejoras notables en benchmarks de codificación junto con soporte integrado de llamadas de función permiten agentes autónomos altamente capaces. El benchmark HLE muestra 19.5% sin herramientas, 26.5% con búsqueda.
Multimodal
El modelo 31B logra 76.9% en MMMU Pro y 85.6% en MATH-Vision. La distancia de edición de 0.131 en OmniDocBench demuestra fuertes capacidades de OCR.
El soporte de relación de aspecto variable y presupuestos de tokens de imagen configurables permiten procesamiento eficiente de documentos, diagramas y capturas de pantalla. El modelo E4B alcanza 52.6% en MMMU Pro a pesar de su tamaño compacto.
Integración
Soporte desde el día 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs y más. Los checkpoints ONNX permiten despliegue en dispositivos edge.
La licencia Apache 2.0 permite uso comercial responsable. Disponible en Kaggle, Hugging Face y a través de Google AI Studio. Compatible con herramientas locales como Ollama para interacciones privadas y sin conexión.
Comenzar
Experimentad los modelos multimodales de vanguardia de Google DeepMind gratis. No se requiere tarjeta de crédito para comenzar vuestra primera conversación.
Introducción
Aprended sobre las cuatro arquitecturas de modelos, capacidades multimodales nativas y opciones de despliegue de Google DeepMind.
Rendimiento
Los modelos Gemma 4 forman una frontera de Pareto, ofreciendo rendimiento excepcional en relación a su tamaño. El modelo denso de 31B ocupa el puesto #3 entre todos los modelos abiertos en la tabla de clasificación de Arena AI.
Los benchmarks oficiales demuestran rendimiento competitivo con modelos muchas veces más grandes. El modelo 31B logra 89.2% en razonamiento matemático AIME 2026, mientras que el 26B MoE alcanza calidad similar con solo 4B parámetros activos.


El modelo 31B logra 89.2% en AIME 2026 y 85.2% en MMLU Pro, compitiendo con modelos de más de 100B parámetros.
El rendimiento de codificación alcanza 80% en LiveCodeBench v6 y 2150 ELO en Codeforces, superando a muchos modelos más grandes.
Las capacidades de visión incluyen 76.9% en MMMU Pro y 85.6% en MATH-Vision, con fuerte comprensión de OCR y documentos.
Benchmarks Oficiales
La evaluación completa en tareas de razonamiento, codificación, visión, audio y contexto largo demuestra capacidades de clase vanguardista.
| Benchmark | Gemma 4 31B Insignia denso 31B | Gemma 4 26B A4B MoE (4B activo) 26B | Gemma 4 E4B Modelo edge E4B | Gemma 4 E2B Ultra-compacto E2B |
|---|---|---|---|---|
MMLU Pro Conocimiento y razonamiento | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (sin herramientas) Razonamiento matemático | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond Ciencia de nivel posgrado | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 Rendimiento de codificación | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO Programación competitiva | 2150 | 1718 | 940 | 633 |
MMMU Pro Comprensión multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision Razonamiento matemático visual | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 OCR de documentos (distancia de edición) | 0.131 | 0.149 | 0.181 | 0.290 |
Context Window Tokens máximos | 256K | 256K | 128K | 128K |
Audio Support Entrada de audio nativa | No | No | Sí | Sí |
Todas las cifras provienen de la tarjeta oficial del modelo Gemma 4 y el blog de Hugging Face. Los benchmarks de E2B y E4B demuestran eficiencia excepcional para su conteo de parámetros.
Modelos de Servidor
El modelo denso de 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI con 89.2% en AIME 2026. El 26B MoE activa solo 4B parámetros por token mientras mantiene calidad similar, ideal para escenarios de alto rendimiento.
Modelos Edge
Modelos ultra-compactos con 2.3B y 4.5B parámetros efectivos, diseñados para Pixel, Chrome y despliegue en navegador. Los codificadores de audio nativos permiten comprensión del habla en tiempo real en el dispositivo.
Arquitectura
Gemma 4 introduce innovaciones arquitectónicas que maximizan la eficiencia. PLE le da a cada capa de decodificador su propia vía de condicionamiento, mientras que el KV cache compartido reduce el uso de memoria durante la generación de contexto largo.

Multimodal
Todos los modelos procesan texto e imágenes con relaciones de aspecto variables de forma nativa. El codificador de visión utiliza posiciones 2D aprendidas y puede codificar imágenes en diferentes presupuestos de tokens (70-1120) para compensaciones de velocidad-calidad.

Despliegue
Soporte desde el día 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs y más. E2B y E4B se ejecutan en navegadores con transformers.js, mientras que 31B y 26B sobresalen en hardware de servidor.

FAQ
Comprendiendo las innovaciones técnicas de Gemma 4, desde Per-Layer Embeddings hasta procesamiento multimodal.
Gemma 4 introduce soporte multimodal nativo (texto, imagen, video, audio), ventanas de contexto extendidas (128K-256K), modos de pensamiento configurables y llamadas de función integradas. La arquitectura utiliza Per-Layer Embeddings (PLE) para eficiencia y KV cache compartido para reducir el uso de memoria durante la generación de contexto largo.
E2B (2.3B efectivo) y E4B (4.5B efectivo) están diseñados para dispositivos edge, navegadores y móviles con soporte de audio nativo. El 26B A4B es un modelo Mixture-of-Experts que activa solo 4B parámetros por token, ideal para escenarios de alto rendimiento. El modelo denso de 31B es el insignia para máximo rendimiento en tareas de razonamiento, codificación y visión.
Todos los modelos procesan texto e imágenes con relaciones de aspecto variables de forma nativa. El codificador de visión utiliza posiciones 2D aprendidas y puede codificar imágenes en diferentes presupuestos de tokens (70-1120 tokens) para compensaciones de velocidad-calidad. E2B y E4B incluyen codificadores de audio conformer estilo USM para comprensión del habla. El video es soportado en toda la familia procesando cuadros y pistas de audio.
PLE le da a cada capa de decodificador su propio pequeño embedding para cada token, creando una vía de condicionamiento paralela junto al flujo residual principal. Esto permite que cada capa reciba información específica del token solo cuando es relevante, en lugar de empacar todo en un solo embedding inicial. Agrega especialización significativa por capa a un costo modesto de parámetros, haciendo que los modelos pequeños sean más eficientes.
FAQ
Comenzando con Gemma 4 en diferentes plataformas, desde la nube hasta dispositivos edge.
Los modelos Gemma 4 están disponibles en Kaggle y Hugging Face bajo licencia Apache 2.0. Puedes usarlos a través de Google AI Studio, desplegar en Vertex AI o ejecutar localmente con herramientas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers y Mistral.rs. Los checkpoints ONNX permiten despliegue en navegador y dispositivos edge.
E2B requiere ~9.6GB (BF16) a 3.2GB (4-bit) de VRAM. E4B necesita ~15GB (BF16) a 5GB (4-bit). El modelo 31B requiere ~58GB (BF16) a 17GB (4-bit). El 26B MoE necesita ~48GB (BF16) a 16GB (4-bit). Estos son solo los pesos base; agrega memoria para la ventana de contexto (KV cache) según tu caso de uso.
Sí. Los modelos E2B y E4B están específicamente diseñados para despliegue en navegador y móvil. transformers.js permite ejecutar Gemma 4 directamente en navegadores con soporte WebGPU. Los checkpoints ONNX funcionan en varios backends de hardware edge. Los modelos están optimizados para dispositivos Pixel y entornos de navegador Chrome.
Gemma 4 tiene soporte integrado de llamadas de función sin requerir ajuste fino. Los modelos pueden analizar definiciones de herramientas, generar llamadas JSON estructuradas y manejar llamadas de función multimodales (por ejemplo, analizar una imagen y llamar a una API del clima). Esto potencia agentes autónomos para tareas como ejecución de código, navegación web y recuperación de datos.
FAQ
Cómo se compara Gemma 4 con otros modelos y qué lo hace competitivo para diferentes casos de uso.
El modelo 31B ocupa el puesto #3 en la tabla de clasificación de Arena AI entre modelos abiertos, superando a Llama 3.3 70B a pesar de ser menos de la mitad del tamaño. Logra 89.2% en razonamiento matemático AIME 2026, 85.2% en MMLU Pro y 80% en LiveCodeBench v6. La eficiencia proviene de innovaciones arquitectónicas como patrones de atención alternados y KV cache compartido.
El modelo 26B A4B tiene 26 mil millones de parámetros totales pero activa solo 4 mil millones por token durante la generación. Todos los 26B parámetros deben cargarse en memoria para enrutamiento rápido, pero el costo de inferencia es más cercano a un modelo de 4B. Esto logra 88.3% en AIME 2026 y 82.6% en MMLU Pro con significativamente menor cómputo por token que el modelo denso de 31B.
Sí. Los modelos pequeños soportan ventanas de contexto de 128K, mientras que los modelos medianos manejan 256K tokens. La arquitectura utiliza configuraciones duales de RoPE (estándar para capas deslizantes, podado para capas globales) para permitir contexto más largo. El KV cache compartido reduce el consumo de memoria durante la generación de contexto largo, haciéndolo práctico para procesar bases de código completas y artículos de investigación.
Gemma 4 está completamente soportado en TRL (Transformer Reinforcement Learning), con ejemplos para respuestas de herramientas multimodales e interacción con el entorno. Hugging Face proporciona guías de ajuste fino para Vertex AI usando SFT. Unsloth Studio ofrece una experiencia de ajuste fino basada en UI. Los modelos soportan métodos PEFT como LoRA para entrenamiento eficiente en parámetros.