Gemma 4 Análisis

Gemma 4: cómo un modelo de 31B compite con rivales de 600B

La familia Gemma 4 de Google DeepMind se lanzó el 2 de abril de 2026 con cuatro modelos bajo Apache 2.0. El 31B ocupa el puesto 3 en Arena AI, el 26B MoE funciona en una sola RTX 4090, y el E2B cabe en un móvil. Esto es lo que realmente funciona y dónde se queda corto.

Pruébalo tú mismo Ver benchmarks

Veredicto

El veredicto de cada modelo Gemma 4

Tras pruebas exhaustivas en razonamiento, codificación, multimodal y despliegue local, aquí está el veredicto de cada variante.

Veredicto general

La familia de modelos abiertos más potente que puedes ejecutar localmente

Gemma 4 es la mejor familia de modelos abiertos para quienes quieren IA de vanguardia en su propio hardware. El 31B compite con modelos 20 veces más grandes en razonamiento y codificación. El 26B MoE es el punto óptimo para la mayoría de usos en producción. Los modelos edge llevan IA real a móviles y navegadores.

La principal debilidad: en codificación agéntica pura (SWE-Bench), Gemma 4 aún va por detrás de Qwen 3.6 y GLM-5.1. Si tu uso principal es la edición autónoma de código, considera esas alternativas.

Pruébalo tú mismo Comparar con Qwen 3.6

Veredicto: Excelente

31B Dense

El buque insignia cumple su promesa. Puesto 3 en Arena AI, razonamiento y codificación excepcionales, multimodal sólido. El mejor modelo Dense abierto en este tamaño.

Fortalezas: razonamiento, matemáticas, codificación, multimodal. Debilidad: SWE-Bench por detrás de Qwen 3.6.

Recomendado

Probar 31B Todos los detalles

Veredicto: Mejor relación calidad-precio

26B MoE

Calidad cercana al 31B con una fracción del cómputo. El punto óptimo para despliegue en producción. Cabe en una sola RTX 4090.

Fortalezas: eficiencia, calidad cercana al 31B, despliegue en una sola GPU. Debilidad: más lento que Dense a batch bajo.

Mejor relación calidad-precio

Probar 26B Todos los detalles

Veredicto: Impresionante

E4B Edge

El modelo edge recomendado. Razonamiento y codificación sólidos para su tamaño. El audio nativo es una ventaja única frente a competidores.

Fortalezas: soporte de audio, buen razonamiento, funciona en portátiles. Debilidad: limitado para tareas complejas.

Elección edge

Probar E4B Todos los detalles

Veredicto: Nicho pero útil

E2B Compact

Ultrarrápido a 95 tok/s. Útil para tareas sencillas y aplicaciones en tiempo real. No apto para razonamiento complejo.

Fortalezas: velocidad, huella mínima, soporte de audio. Debilidad: la calidad baja en tareas difíciles.

Elección velocidad

Probar E2B Todos los detalles

Lo que funciona

Dónde destaca Gemma 4

Tras probar decenas de tareas reales, estas son las áreas donde Gemma 4 realmente impresiona.

Razonamiento matemático

89.2% en AIME 2026 no es casualidad. El modo Thinking produce soluciones claras paso a paso. Realmente útil para tutoría de matemáticas y resolución de problemas.

Generación de código

80% en LiveCodeBench v6 se traduce en asistencia práctica de codificación. Implementación de funciones, depuración y revisión de código son sólidos.

Comprensión multimodal

El análisis de imágenes, el parsing de documentos y la comprensión de gráficos funcionan bien. El soporte de resolución variable maneja elegantemente diferentes tipos de imágenes.

Despliegue local

El rango de 3.2 GB a 17 GB (a 4 bits) significa que hay un modelo para cada nivel de hardware. La configuración de Ollama lleva menos de 2 minutos.

Function calling

El function calling nativo es fiable. La salida JSON está bien formada, la selección de herramientas es precisa, y los flujos de trabajo de agentes multi-paso funcionan de forma consistente.

Multilingüe

El soporte de más de 140 idiomas es real. La calidad se mantiene bien en los principales idiomas, no solo en inglés.

Evaluación honesta

Dónde Gemma 4 se queda corto

Ningún modelo es perfecto. Aquí es donde Gemma 4 tiene margen de mejora.

Debilidades

SWE-Bench: 52% vs 73.4% de Qwen 3.6 - brecha significativa en codificación autónoma
Sin audio nativo en 26B y 31B - solo los modelos edge tienen codificadores de audio
El 26B MoE es más lento de lo esperado a batch bajo
La calidad del E2B baja notablemente en tareas de razonamiento complejas
El rendimiento en contexto largo se degrada más allá de ~100K tokens en la práctica

Competencia

Qwen 3.6 35B A3B: Mejor en codificación agéntica (SWE-Bench, Terminal-Bench)
GLM-5.1: Más fuerte en algunas tareas en chino
Llama 4: Opciones de ventana de contexto más grandes
DeepSeek V4: Competitivo en benchmarks de razonamiento
Mistral Small 4: Inferencia más rápida a niveles de calidad similares

Pruébalo tú mismo Comparar con Qwen 3.6

Benchmarks

Benchmarks oficiales vs experiencia real

¿Cómo se traducen los números oficiales al uso real? Aquí nuestra evaluación tras pruebas exhaustivas.

Los benchmarks oficiales cuentan parte de la historia. Las pruebas reales revelan dónde los números coinciden con la experiencia y dónde no.

Pruébalo tú mismo Ver ficha del modelo

Rendimiento benchmark de Gemma 4 en todos los modelos

Razonamiento matemático: los benchmarks coinciden con la realidad - el modo Thinking realmente ayuda

Codificación: fuerte en generación, más débil en edición autónoma (brecha SWE-Bench)

Multimodal: la comprensión de imágenes es sólida, el OCR de documentos funciona bien

Velocidad: el E2B es realmente rápido (~95 tok/s), el 26B es más lento de lo esperado en local

Verificación de rendimiento

Gemma 4 vs la competencia

Cómo Gemma 4 31B se compara con otros modelos abiertos líderes en benchmarks clave.

Benchmark	Gemma 4 31B Destacado	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

Datos de benchmark de fichas de modelo oficiales y pruebas independientes. Las puntuaciones pueden variar según la metodología de evaluación.

Razonamiento

Razonamiento matemático y científico: realmente impresionante

El modo Thinking del modelo 31B produce soluciones claras y paso a paso, fáciles de seguir y verificar. 89.2% en AIME 2026 se traduce en capacidad real de tutoría matemática.

El modo Thinking muestra cadenas de razonamiento claras
Maneja problemas multi-paso con buena precisión
El razonamiento científico (GPQA Diamond 84.3%) es sólido

Probar razonamiento Ver benchmarks

Razonamiento matemático y científico: realmente impresionante

Codificación

Generación de código sólida, edición autónoma más débil

Gemma 4 destaca en generación de código, depuración y explicación. Pero en tareas de edición autónoma de código (SWE-Bench), queda significativamente por detrás de Qwen 3.6. Si necesitas un agente de codificación IA, Qwen 3.6 es actualmente mejor.

Generación de código y depuración: excelente (80% LiveCodeBench)
Function calling para agentes: fiable y bien formado
Edición autónoma de código: más débil (52% vs 73.4% de Qwen en SWE-Bench)

Probar codificación Comparar con Qwen 3.6

Generación de código sólida, edición autónoma más débil

Uso local

La mejor familia de modelos abiertos para despliegue local

Ninguna otra familia de modelos cubre el rango del móvil a la estación de trabajo tan bien como Gemma 4. El E2B funciona a 95 tok/s en hardware de consumo, y el 26B cabe en una sola RTX 4090 con calidad cercana al 31B.

E2B: ultrarrápido, cabe en móviles, pero limitado para tareas complejas
E4B: el punto óptimo para usuarios de portátiles, buena calidad general
26B: calidad cercana al 31B en una sola GPU, pero más lento de lo esperado

Ejecutar localmente Guía de hardware