Gemma 4 Análise
Gemma 4: como um modelo de 31B compete com rivais de 600B
A família Gemma 4 da Google DeepMind foi lançada a 2 de abril de 2026 com quatro modelos sob Apache 2.0. O 31B ocupa o 3.° lugar no Arena AI, o 26B MoE funciona numa única RTX 4090, e o E2B cabe num telemóvel. Veja o que realmente funciona e onde fica aquém.
Veredito
O veredito de cada modelo Gemma 4
Após testes extensivos em raciocínio, codificação, multimodal e implementação local, eis o veredito de cada variante.
Veredito geral
A família de modelos abertos mais poderosa que pode executar localmente
O Gemma 4 é a melhor família de modelos abertos para quem quer IA de ponta no próprio hardware. O 31B compete com modelos 20x maiores em raciocínio e codificação. O 26B MoE é o ponto ideal para a maioria dos usos em produção. Os modelos edge trazem IA real para telemóveis e navegadores.
A principal fraqueza: em codificação agêntica pura (SWE-Bench), o Gemma 4 ainda fica atrás do Qwen 3.6 e GLM-5.1. Se o seu uso principal é edição autónoma de código, considere essas alternativas.
Veredito: Excelente
31B Dense
O modelo principal cumpre a sua promessa. 3.° no Arena AI, raciocínio e codificação excecionais, multimodal sólido. O melhor modelo Dense aberto neste tamanho.
Pontos fortes: raciocínio, matemática, codificação, multimodal. Fraqueza: SWE-Bench atrás do Qwen 3.6.
Veredito: Melhor relação qualidade-preço
26B MoE
Qualidade próxima do 31B com uma fração do processamento. O ponto ideal para implementação em produção. Cabe numa única RTX 4090.
Pontos fortes: eficiência, qualidade próxima do 31B, implementação em GPU única. Fraqueza: mais lento que Dense em batch baixo.
Veredito: Impressionante
E4B Edge
O modelo edge recomendado. Raciocínio e codificação sólidos para o seu tamanho. Áudio nativo é uma vantagem única sobre concorrentes.
Pontos fortes: suporte a áudio, bom raciocínio, funciona em portáteis. Fraqueza: limitado para tarefas complexas.
Veredito: Nicho mas útil
E2B Compact
Ultrarrápido a 95 tok/s. Útil para tarefas simples e aplicações em tempo real. Não indicado para raciocínio complexo.
Pontos fortes: velocidade, footprint mínimo, suporte a áudio. Fraqueza: qualidade desce em tarefas difíceis.
O que funciona
Onde o Gemma 4 se destaca
Após testar dezenas de tarefas reais, estas são as áreas onde o Gemma 4 realmente impressiona.
Raciocínio matemático
89.2% no AIME 2026 não é acaso. O modo Thinking produz soluções claras e passo a passo. Realmente útil para tutoria de matemática e resolução de problemas.
Geração de código
80% no LiveCodeBench v6 traduz-se em assistência prática de codificação. Implementação de funções, debugging e code review são todos sólidos.
Compreensão multimodal
Análise de imagens, parsing de documentos e compreensão de gráficos funcionam bem. O suporte a resolução variável lida elegantemente com diferentes tipos de imagens.
Implementação local
A gama de 3.2 GB a 17 GB (a 4 bits) significa que há um modelo para cada nível de hardware. A configuração do Ollama demora menos de 2 minutos.
Function calling
O function calling nativo é fiável. A saída JSON é bem formada, a seleção de ferramentas é precisa, e os workflows de agentes multi-step funcionam de forma consistente.
Multilingue
O suporte a 140+ línguas é real. A qualidade mantém-se bem nas principais línguas, não apenas em inglês.
Avaliação honesta
Onde o Gemma 4 fica aquém
Nenhum modelo é perfeito. Eis onde o Gemma 4 tem espaço para melhorar.
Fraquezas
- SWE-Bench: 52% vs 73.4% do Qwen 3.6 - lacuna significativa em codificação autónoma
- Sem áudio nativo no 26B e 31B - apenas modelos edge têm encoders de áudio
- O 26B MoE é mais lento que o esperado em batch baixo
- A qualidade do E2B desce notavelmente em tarefas de raciocínio complexas
- O desempenho em contexto longo degrada além de ~100K tokens na prática
Concorrência
- Qwen 3.6 35B A3B: Melhor em codificação agêntica (SWE-Bench, Terminal-Bench)
- GLM-5.1: Mais forte em algumas tarefas em chinês
- Llama 4: Opções de janela de contexto maiores
- DeepSeek V4: Competitivo em benchmarks de raciocínio
- Mistral Small 4: Inferência mais rápida em níveis de qualidade semelhantes
Benchmarks
Benchmarks oficiais vs experiência real
Como os números oficiais se traduzem na utilização real? Eis a nossa avaliação após testes extensivos.
Os benchmarks oficiais contam parte da história. Os testes reais revelam onde os números correspondem à experiência e onde não.


Raciocínio matemático: benchmarks correspondem à realidade - o modo Thinking realmente ajuda
Codificação: forte em geração, mais fraco em edição autónoma (lacuna SWE-Bench)
Multimodal: compreensão de imagens é sólida, OCR de documentos funciona bem
Velocidade: E2B é realmente rápido (~95 tok/s), 26B é mais lento que o esperado localmente
Verificação de desempenho
Gemma 4 vs a concorrência
Como o Gemma 4 31B se compara a outros modelos abertos líderes em benchmarks chave.
| Benchmark | Gemma 4 31B Destaque | Gemma 4 26B | Qwen 3.6 35B | Llama 4 Scout |
|---|---|---|---|---|
MMLU Pro Knowledge | 85.2% | 82.6% | 83.1% | 74.3% |
AIME 2026 Math | 89.2% | 88.3% | 81.5% | 73.0% |
LiveCodeBench v6 Coding | 80.0% | 77.1% | 75.2% | 53.0% |
SWE-Bench Verified Agentic coding | 52.0% | - | 73.4% | - |
MMMU Pro Multimodal | 76.9% | 73.8% | 70.2% | 57.5% |
Arena AI ELO Overall | 1452 | 1441 | ~1440 | ~1380 |
Dados de benchmark de fichas de modelo oficiais e testes independentes. As pontuações podem variar conforme a metodologia de avaliação.
Raciocínio
Raciocínio matemático e científico: realmente impressionante
O modo Thinking do modelo 31B produz soluções claras e passo a passo, fáceis de acompanhar e verificar. 89.2% no AIME 2026 traduz-se em capacidade real de tutoria matemática.
- O modo Thinking mostra cadeias de raciocínio claras
- Lida com problemas multi-step com boa precisão
- Raciocínio científico (GPQA Diamond 84.3%) é forte
Codificação
Geração de código sólida, edição autónoma mais fraca
O Gemma 4 destaca-se em geração de código, debugging e explicação. Mas em tarefas de edição autónoma de código (SWE-Bench), fica significativamente atrás do Qwen 3.6. Se precisa de um agente de codificação IA, o Qwen 3.6 é atualmente melhor.
- Geração de código e debugging: excelente (80% LiveCodeBench)
- Function calling para agentes: fiável e bem formado
- Edição autónoma de código: mais fraca (52% vs 73.4% do Qwen no SWE-Bench)
Uso local
A melhor família de modelos abertos para implementação local
Nenhuma outra família de modelos cobre a gama do telemóvel à workstation tão bem quanto o Gemma 4. O E2B funciona a 95 tok/s em hardware de consumo, e o 26B cabe numa única RTX 4090 com qualidade próxima do 31B.
- E2B: ultrarrápido, cabe em telemóveis, mas limitado para tarefas complexas
- E4B: o ponto ideal para utilizadores de portáteis, boa qualidade geral
- 26B: qualidade próxima do 31B numa única GPU, mas mais lento que o esperado
Experimente
Teste o Gemma 4 você mesmo
A melhor análise é a sua própria experiência. Teste todos os modelos gratuitamente.
Comparações
Como o Gemma 4 se compara
Comparações detalhadas com modelos concorrentes.
Recursos
Saiba mais
Análises aprofundadas da arquitetura e capacidades do Gemma 4.
Explorar mais
Aprofunde-se no Gemma 4
Explore modelos individuais, opções de implementação e comparações.
Experimente você mesmo
A melhor análise é a sua própria experiência
Teste todos os modelos Gemma 4 gratuitamente. Sem registo necessário para chat básico. Forme a sua própria opinião.