Gemma 4 Análise

Gemma 4: como um modelo de 31B compete com rivais de 600B

A família Gemma 4 da Google DeepMind foi lançada a 2 de abril de 2026 com quatro modelos sob Apache 2.0. O 31B ocupa o 3.° lugar no Arena AI, o 26B MoE funciona numa única RTX 4090, e o E2B cabe num telemóvel. Veja o que realmente funciona e onde fica aquém.

Experimente você mesmo Ver benchmarks

Veredito

O veredito de cada modelo Gemma 4

Após testes extensivos em raciocínio, codificação, multimodal e implementação local, eis o veredito de cada variante.

Veredito geral

A família de modelos abertos mais poderosa que pode executar localmente

O Gemma 4 é a melhor família de modelos abertos para quem quer IA de ponta no próprio hardware. O 31B compete com modelos 20x maiores em raciocínio e codificação. O 26B MoE é o ponto ideal para a maioria dos usos em produção. Os modelos edge trazem IA real para telemóveis e navegadores.

A principal fraqueza: em codificação agêntica pura (SWE-Bench), o Gemma 4 ainda fica atrás do Qwen 3.6 e GLM-5.1. Se o seu uso principal é edição autónoma de código, considere essas alternativas.

Experimente você mesmo Comparar com Qwen 3.6

Veredito: Excelente

31B Dense

O modelo principal cumpre a sua promessa. 3.° no Arena AI, raciocínio e codificação excecionais, multimodal sólido. O melhor modelo Dense aberto neste tamanho.

Pontos fortes: raciocínio, matemática, codificação, multimodal. Fraqueza: SWE-Bench atrás do Qwen 3.6.

Recomendado

Testar 31B Todos os detalhes

Veredito: Melhor relação qualidade-preço

26B MoE

Qualidade próxima do 31B com uma fração do processamento. O ponto ideal para implementação em produção. Cabe numa única RTX 4090.

Pontos fortes: eficiência, qualidade próxima do 31B, implementação em GPU única. Fraqueza: mais lento que Dense em batch baixo.

Melhor relação qualidade-preço

Testar 26B Todos os detalhes

Veredito: Impressionante

E4B Edge

O modelo edge recomendado. Raciocínio e codificação sólidos para o seu tamanho. Áudio nativo é uma vantagem única sobre concorrentes.

Pontos fortes: suporte a áudio, bom raciocínio, funciona em portáteis. Fraqueza: limitado para tarefas complexas.

Escolha edge

Testar E4B Todos os detalhes

Veredito: Nicho mas útil

E2B Compact

Ultrarrápido a 95 tok/s. Útil para tarefas simples e aplicações em tempo real. Não indicado para raciocínio complexo.

Pontos fortes: velocidade, footprint mínimo, suporte a áudio. Fraqueza: qualidade desce em tarefas difíceis.

Escolha velocidade

Testar E2B Todos os detalhes

O que funciona

Onde o Gemma 4 se destaca

Após testar dezenas de tarefas reais, estas são as áreas onde o Gemma 4 realmente impressiona.

Raciocínio matemático

89.2% no AIME 2026 não é acaso. O modo Thinking produz soluções claras e passo a passo. Realmente útil para tutoria de matemática e resolução de problemas.

Geração de código

80% no LiveCodeBench v6 traduz-se em assistência prática de codificação. Implementação de funções, debugging e code review são todos sólidos.

Compreensão multimodal

Análise de imagens, parsing de documentos e compreensão de gráficos funcionam bem. O suporte a resolução variável lida elegantemente com diferentes tipos de imagens.

Implementação local

A gama de 3.2 GB a 17 GB (a 4 bits) significa que há um modelo para cada nível de hardware. A configuração do Ollama demora menos de 2 minutos.

Function calling

O function calling nativo é fiável. A saída JSON é bem formada, a seleção de ferramentas é precisa, e os workflows de agentes multi-step funcionam de forma consistente.

Multilingue

O suporte a 140+ línguas é real. A qualidade mantém-se bem nas principais línguas, não apenas em inglês.

Avaliação honesta

Onde o Gemma 4 fica aquém

Nenhum modelo é perfeito. Eis onde o Gemma 4 tem espaço para melhorar.

Fraquezas

SWE-Bench: 52% vs 73.4% do Qwen 3.6 - lacuna significativa em codificação autónoma
Sem áudio nativo no 26B e 31B - apenas modelos edge têm encoders de áudio
O 26B MoE é mais lento que o esperado em batch baixo
A qualidade do E2B desce notavelmente em tarefas de raciocínio complexas
O desempenho em contexto longo degrada além de ~100K tokens na prática

Concorrência

Qwen 3.6 35B A3B: Melhor em codificação agêntica (SWE-Bench, Terminal-Bench)
GLM-5.1: Mais forte em algumas tarefas em chinês
Llama 4: Opções de janela de contexto maiores
DeepSeek V4: Competitivo em benchmarks de raciocínio
Mistral Small 4: Inferência mais rápida em níveis de qualidade semelhantes

Experimente você mesmo Comparar com Qwen 3.6

Benchmarks

Benchmarks oficiais vs experiência real

Como os números oficiais se traduzem na utilização real? Eis a nossa avaliação após testes extensivos.

Os benchmarks oficiais contam parte da história. Os testes reais revelam onde os números correspondem à experiência e onde não.

Experimente você mesmo Ver ficha do modelo

Desempenho benchmark do Gemma 4 em todos os modelos

Raciocínio matemático: benchmarks correspondem à realidade - o modo Thinking realmente ajuda

Codificação: forte em geração, mais fraco em edição autónoma (lacuna SWE-Bench)

Multimodal: compreensão de imagens é sólida, OCR de documentos funciona bem

Velocidade: E2B é realmente rápido (~95 tok/s), 26B é mais lento que o esperado localmente

Verificação de desempenho

Gemma 4 vs a concorrência

Como o Gemma 4 31B se compara a outros modelos abertos líderes em benchmarks chave.

Benchmark	Gemma 4 31B Destaque	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

Dados de benchmark de fichas de modelo oficiais e testes independentes. As pontuações podem variar conforme a metodologia de avaliação.

Raciocínio

Raciocínio matemático e científico: realmente impressionante

O modo Thinking do modelo 31B produz soluções claras e passo a passo, fáceis de acompanhar e verificar. 89.2% no AIME 2026 traduz-se em capacidade real de tutoria matemática.

O modo Thinking mostra cadeias de raciocínio claras
Lida com problemas multi-step com boa precisão
Raciocínio científico (GPQA Diamond 84.3%) é forte

Testar raciocínio Ver benchmarks

Raciocínio matemático e científico: realmente impressionante

Codificação

Geração de código sólida, edição autónoma mais fraca

O Gemma 4 destaca-se em geração de código, debugging e explicação. Mas em tarefas de edição autónoma de código (SWE-Bench), fica significativamente atrás do Qwen 3.6. Se precisa de um agente de codificação IA, o Qwen 3.6 é atualmente melhor.

Geração de código e debugging: excelente (80% LiveCodeBench)
Function calling para agentes: fiável e bem formado
Edição autónoma de código: mais fraca (52% vs 73.4% do Qwen no SWE-Bench)

Testar codificação Comparar com Qwen 3.6

$Geração de código sólida, edição autónoma mais fraca$

Uso local

A melhor família de modelos abertos para implementação local

Nenhuma outra família de modelos cobre a gama do telemóvel à workstation tão bem quanto o Gemma 4. O E2B funciona a 95 tok/s em hardware de consumo, e o 26B cabe numa única RTX 4090 com qualidade próxima do 31B.

E2B: ultrarrápido, cabe em telemóveis, mas limitado para tarefas complexas
E4B: o ponto ideal para utilizadores de portáteis, boa qualidade geral
26B: qualidade próxima do 31B numa única GPU, mas mais lento que o esperado

Executar localmente Guia de hardware