Gemma 4 Reseña

Gemma 4: cómo un modelo de 31B compite con rivales de 600B

La familia Gemma 4 de Google DeepMind se lanzó el 2 de abril de 2026 con cuatro modelos bajo Apache 2.0. El 31B ocupa el puesto 3 en Arena AI, el 26B MoE funciona en una sola RTX 4090, y el E2B cabe en un celular. Esto es lo que realmente funciona y dónde se queda corto.

Veredicto

El veredicto de cada modelo Gemma 4

Después de pruebas exhaustivas en razonamiento, codificación, multimodal y despliegue local, aquí está el veredicto de cada variante.

Veredicto general

La familia de modelos abiertos más potente que puedes ejecutar localmente

Gemma 4 es la mejor familia de modelos abiertos para quienes quieren IA de vanguardia en su propio hardware. El 31B compite con modelos 20 veces más grandes en razonamiento y codificación. El 26B MoE es el punto óptimo para la mayoría de usos en producción. Los modelos edge llevan IA real a celulares y navegadores.

La principal debilidad: en codificación agéntica pura (SWE-Bench), Gemma 4 todavía va detrás de Qwen 3.6 y GLM-5.1. Si tu uso principal es la edición autónoma de código, considera esas alternativas.

Veredicto: Excelente

31B Dense

El modelo insignia cumple su promesa. Puesto 3 en Arena AI, razonamiento y codificación excepcionales, multimodal sólido. El mejor modelo Dense abierto en este tamaño.

Fortalezas: razonamiento, matemáticas, codificación, multimodal. Debilidad: SWE-Bench detrás de Qwen 3.6.

Recomendado

Veredicto: Mejor relación calidad-precio

26B MoE

Calidad cercana al 31B con una fracción del cómputo. El punto óptimo para despliegue en producción. Cabe en una sola RTX 4090.

Fortalezas: eficiencia, calidad cercana al 31B, despliegue en una sola GPU. Debilidad: más lento que Dense a batch bajo.

Mejor relación calidad-precio

Veredicto: Impresionante

E4B Edge

El modelo edge recomendado. Razonamiento y codificación sólidos para su tamaño. El audio nativo es una ventaja única frente a competidores.

Fortalezas: soporte de audio, buen razonamiento, funciona en laptops. Debilidad: limitado para tareas complejas.

Elección edge

Veredicto: Nicho pero útil

E2B Compact

Ultrarrápido a 95 tok/s. Útil para tareas sencillas y aplicaciones en tiempo real. No apto para razonamiento complejo.

Fortalezas: velocidad, huella mínima, soporte de audio. Debilidad: la calidad baja en tareas difíciles.

Elección velocidad

Lo que funciona

Dónde destaca Gemma 4

Después de probar decenas de tareas reales, estas son las áreas donde Gemma 4 realmente impresiona.

Razonamiento matemático

89.2% en AIME 2026 no es casualidad. El modo Thinking produce soluciones claras paso a paso. Realmente útil para tutoría de matemáticas y resolución de problemas.

Generación de código

80% en LiveCodeBench v6 se traduce en asistencia práctica de codificación. Implementación de funciones, depuración y revisión de código son sólidos.

Comprensión multimodal

El análisis de imágenes, el parsing de documentos y la comprensión de gráficos funcionan bien. El soporte de resolución variable maneja elegantemente diferentes tipos de imágenes.

Despliegue local

El rango de 3.2 GB a 17 GB (a 4 bits) significa que hay un modelo para cada nivel de hardware. La configuración de Ollama toma menos de 2 minutos.

Function calling

El function calling nativo es confiable. La salida JSON está bien formada, la selección de herramientas es precisa, y los flujos de trabajo de agentes multi-paso funcionan de forma consistente.

Multilingüe

El soporte de más de 140 idiomas es real. La calidad se mantiene bien en los principales idiomas, no solo en inglés.

Evaluación honesta

Dónde Gemma 4 se queda corto

Ningún modelo es perfecto. Aquí es donde Gemma 4 tiene margen de mejora.

Debilidades

  • SWE-Bench: 52% vs 73.4% de Qwen 3.6 - brecha significativa en codificación autónoma
  • Sin audio nativo en 26B y 31B - solo los modelos edge tienen codificadores de audio
  • El 26B MoE es más lento de lo esperado a batch bajo
  • La calidad del E2B baja notablemente en tareas de razonamiento complejas
  • El rendimiento en contexto largo se degrada más allá de ~100K tokens en la práctica

Competencia

  • Qwen 3.6 35B A3B: Mejor en codificación agéntica (SWE-Bench, Terminal-Bench)
  • GLM-5.1: Más fuerte en algunas tareas en chino
  • Llama 4: Opciones de ventana de contexto más grandes
  • DeepSeek V4: Competitivo en benchmarks de razonamiento
  • Mistral Small 4: Inferencia más rápida a niveles de calidad similares

Benchmarks

Benchmarks oficiales vs experiencia real

¿Cómo se traducen los números oficiales al uso real? Aquí nuestra evaluación después de pruebas exhaustivas.

Los benchmarks oficiales cuentan parte de la historia. Las pruebas reales revelan dónde los números coinciden con la experiencia y dónde no.

Rendimiento benchmark de Gemma 4 en todos los modelos

Razonamiento matemático: los benchmarks coinciden con la realidad - el modo Thinking realmente ayuda

Codificación: fuerte en generación, más débil en edición autónoma (brecha SWE-Bench)

Multimodal: la comprensión de imágenes es sólida, el OCR de documentos funciona bien

Velocidad: el E2B es realmente rápido (~95 tok/s), el 26B es más lento de lo esperado en local

Verificación de rendimiento

Gemma 4 vs la competencia

Cómo Gemma 4 31B se compara con otros modelos abiertos líderes en benchmarks clave.

Benchmark
Gemma 4 31B
Destacado
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

Datos de benchmark de fichas de modelo oficiales y pruebas independientes. Las puntuaciones pueden variar según la metodología de evaluación.

Razonamiento

Razonamiento matemático y científico: realmente impresionante

El modo Thinking del modelo 31B produce soluciones claras y paso a paso, fáciles de seguir y verificar. 89.2% en AIME 2026 se traduce en capacidad real de tutoría matemática.

  • El modo Thinking muestra cadenas de razonamiento claras
  • Maneja problemas multi-paso con buena precisión
  • El razonamiento científico (GPQA Diamond 84.3%) es sólido
Razonamiento matemático y científico: realmente impresionante

Codificación

Generación de código sólida, edición autónoma más débil

Gemma 4 destaca en generación de código, depuración y explicación. Pero en tareas de edición autónoma de código (SWE-Bench), queda significativamente detrás de Qwen 3.6. Si necesitas un agente de codificación IA, Qwen 3.6 es actualmente mejor.

  • Generación de código y depuración: excelente (80% LiveCodeBench)
  • Function calling para agentes: confiable y bien formado
  • Edición autónoma de código: más débil (52% vs 73.4% de Qwen en SWE-Bench)
Generación de código sólida, edición autónoma más débil

Uso local

La mejor familia de modelos abiertos para despliegue local

Ninguna otra familia de modelos cubre el rango del celular a la estación de trabajo tan bien como Gemma 4. El E2B funciona a 95 tok/s en hardware de consumo, y el 26B cabe en una sola RTX 4090 con calidad cercana al 31B.

  • E2B: ultrarrápido, cabe en celulares, pero limitado para tareas complejas
  • E4B: el punto óptimo para usuarios de laptops, buena calidad general
  • 26B: calidad cercana al 31B en una sola GPU, pero más lento de lo esperado
La mejor familia de modelos abiertos para despliegue local

Explorar más

Profundiza en Gemma 4

Explora modelos individuales, opciones de despliegue y comparaciones.

Gemma 4 31B

Reseña del modelo Dense insignia

Leer más

Gemma 4 26B

Reseña de eficiencia MoE

Leer más

Ejecutar localmente

Guía de despliegue local

Empezar

Comparación Qwen 3.6

Cara a cara con el principal rival

Comparar

Acceso a la API

Usar mediante APIs alojadas

Empezar

Descarga

Obtener pesos del modelo

Descargar

Pruébalo tú mismo

La mejor reseña es tu propia experiencia

Prueba todos los modelos Gemma 4 gratis. Sin registro necesario para el chat básico. Forma tu propia opinión.