Gemma 4 Análise

Gemma 4: como um modelo de 31B compete com rivais de 600B

A família Gemma 4 da Google DeepMind foi lançada a 2 de abril de 2026 com quatro modelos sob Apache 2.0. O 31B ocupa o 3.° lugar no Arena AI, o 26B MoE funciona numa única RTX 4090, e o E2B cabe num telemóvel. Veja o que realmente funciona e onde fica aquém.

Veredito

O veredito de cada modelo Gemma 4

Após testes extensivos em raciocínio, codificação, multimodal e implementação local, eis o veredito de cada variante.

Veredito geral

A família de modelos abertos mais poderosa que pode executar localmente

O Gemma 4 é a melhor família de modelos abertos para quem quer IA de ponta no próprio hardware. O 31B compete com modelos 20x maiores em raciocínio e codificação. O 26B MoE é o ponto ideal para a maioria dos usos em produção. Os modelos edge trazem IA real para telemóveis e navegadores.

A principal fraqueza: em codificação agêntica pura (SWE-Bench), o Gemma 4 ainda fica atrás do Qwen 3.6 e GLM-5.1. Se o seu uso principal é edição autónoma de código, considere essas alternativas.

Veredito: Excelente

31B Dense

O modelo principal cumpre a sua promessa. 3.° no Arena AI, raciocínio e codificação excecionais, multimodal sólido. O melhor modelo Dense aberto neste tamanho.

Pontos fortes: raciocínio, matemática, codificação, multimodal. Fraqueza: SWE-Bench atrás do Qwen 3.6.

Recomendado

Veredito: Melhor relação qualidade-preço

26B MoE

Qualidade próxima do 31B com uma fração do processamento. O ponto ideal para implementação em produção. Cabe numa única RTX 4090.

Pontos fortes: eficiência, qualidade próxima do 31B, implementação em GPU única. Fraqueza: mais lento que Dense em batch baixo.

Melhor relação qualidade-preço

Veredito: Impressionante

E4B Edge

O modelo edge recomendado. Raciocínio e codificação sólidos para o seu tamanho. Áudio nativo é uma vantagem única sobre concorrentes.

Pontos fortes: suporte a áudio, bom raciocínio, funciona em portáteis. Fraqueza: limitado para tarefas complexas.

Escolha edge

Veredito: Nicho mas útil

E2B Compact

Ultrarrápido a 95 tok/s. Útil para tarefas simples e aplicações em tempo real. Não indicado para raciocínio complexo.

Pontos fortes: velocidade, footprint mínimo, suporte a áudio. Fraqueza: qualidade desce em tarefas difíceis.

Escolha velocidade

O que funciona

Onde o Gemma 4 se destaca

Após testar dezenas de tarefas reais, estas são as áreas onde o Gemma 4 realmente impressiona.

Raciocínio matemático

89.2% no AIME 2026 não é acaso. O modo Thinking produz soluções claras e passo a passo. Realmente útil para tutoria de matemática e resolução de problemas.

Geração de código

80% no LiveCodeBench v6 traduz-se em assistência prática de codificação. Implementação de funções, debugging e code review são todos sólidos.

Compreensão multimodal

Análise de imagens, parsing de documentos e compreensão de gráficos funcionam bem. O suporte a resolução variável lida elegantemente com diferentes tipos de imagens.

Implementação local

A gama de 3.2 GB a 17 GB (a 4 bits) significa que há um modelo para cada nível de hardware. A configuração do Ollama demora menos de 2 minutos.

Function calling

O function calling nativo é fiável. A saída JSON é bem formada, a seleção de ferramentas é precisa, e os workflows de agentes multi-step funcionam de forma consistente.

Multilingue

O suporte a 140+ línguas é real. A qualidade mantém-se bem nas principais línguas, não apenas em inglês.

Avaliação honesta

Onde o Gemma 4 fica aquém

Nenhum modelo é perfeito. Eis onde o Gemma 4 tem espaço para melhorar.

Fraquezas

  • SWE-Bench: 52% vs 73.4% do Qwen 3.6 - lacuna significativa em codificação autónoma
  • Sem áudio nativo no 26B e 31B - apenas modelos edge têm encoders de áudio
  • O 26B MoE é mais lento que o esperado em batch baixo
  • A qualidade do E2B desce notavelmente em tarefas de raciocínio complexas
  • O desempenho em contexto longo degrada além de ~100K tokens na prática

Concorrência

  • Qwen 3.6 35B A3B: Melhor em codificação agêntica (SWE-Bench, Terminal-Bench)
  • GLM-5.1: Mais forte em algumas tarefas em chinês
  • Llama 4: Opções de janela de contexto maiores
  • DeepSeek V4: Competitivo em benchmarks de raciocínio
  • Mistral Small 4: Inferência mais rápida em níveis de qualidade semelhantes

Benchmarks

Benchmarks oficiais vs experiência real

Como os números oficiais se traduzem na utilização real? Eis a nossa avaliação após testes extensivos.

Os benchmarks oficiais contam parte da história. Os testes reais revelam onde os números correspondem à experiência e onde não.

Desempenho benchmark do Gemma 4 em todos os modelos

Raciocínio matemático: benchmarks correspondem à realidade - o modo Thinking realmente ajuda

Codificação: forte em geração, mais fraco em edição autónoma (lacuna SWE-Bench)

Multimodal: compreensão de imagens é sólida, OCR de documentos funciona bem

Velocidade: E2B é realmente rápido (~95 tok/s), 26B é mais lento que o esperado localmente

Verificação de desempenho

Gemma 4 vs a concorrência

Como o Gemma 4 31B se compara a outros modelos abertos líderes em benchmarks chave.

Benchmark
Gemma 4 31B
Destaque
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

Dados de benchmark de fichas de modelo oficiais e testes independentes. As pontuações podem variar conforme a metodologia de avaliação.

Raciocínio

Raciocínio matemático e científico: realmente impressionante

O modo Thinking do modelo 31B produz soluções claras e passo a passo, fáceis de acompanhar e verificar. 89.2% no AIME 2026 traduz-se em capacidade real de tutoria matemática.

  • O modo Thinking mostra cadeias de raciocínio claras
  • Lida com problemas multi-step com boa precisão
  • Raciocínio científico (GPQA Diamond 84.3%) é forte
Raciocínio matemático e científico: realmente impressionante

Codificação

Geração de código sólida, edição autónoma mais fraca

O Gemma 4 destaca-se em geração de código, debugging e explicação. Mas em tarefas de edição autónoma de código (SWE-Bench), fica significativamente atrás do Qwen 3.6. Se precisa de um agente de codificação IA, o Qwen 3.6 é atualmente melhor.

  • Geração de código e debugging: excelente (80% LiveCodeBench)
  • Function calling para agentes: fiável e bem formado
  • Edição autónoma de código: mais fraca (52% vs 73.4% do Qwen no SWE-Bench)
Geração de código sólida, edição autónoma mais fraca

Uso local

A melhor família de modelos abertos para implementação local

Nenhuma outra família de modelos cobre a gama do telemóvel à workstation tão bem quanto o Gemma 4. O E2B funciona a 95 tok/s em hardware de consumo, e o 26B cabe numa única RTX 4090 com qualidade próxima do 31B.

  • E2B: ultrarrápido, cabe em telemóveis, mas limitado para tarefas complexas
  • E4B: o ponto ideal para utilizadores de portáteis, boa qualidade geral
  • 26B: qualidade próxima do 31B numa única GPU, mas mais lento que o esperado
A melhor família de modelos abertos para implementação local

Explorar mais

Aprofunde-se no Gemma 4

Explore modelos individuais, opções de implementação e comparações.

Gemma 4 31B

Análise do modelo Dense principal

Ler mais

Gemma 4 26B

Análise de eficiência MoE

Ler mais

Executar localmente

Guia de implementação local

Começar

Comparação Qwen 3.6

Frente a frente com o principal rival

Comparar

Acesso à API

Utilizar via APIs alojadas

Começar

Transferência

Obter pesos do modelo

Transferir

Experimente você mesmo

A melhor análise é a sua própria experiência

Teste todos os modelos Gemma 4 gratuitamente. Sem registo necessário para chat básico. Forme a sua própria opinião.