Modelos Gemma 4
Quatro modelos, uma família - do edge ao frontier
A família Gemma 4 abrange quatro arquiteturas: os ultracompactos E2B e E4B para dispositivos edge, o 26B MoE para implantação eficiente em servidores e o modelo principal 31B Dense. Todos compartilham suporte multimodal nativo, raciocínio configurável e licença Apache 2.0.
Todos os modelos
Escolha o Gemma 4 certo para o seu caso de uso
Cada modelo da família é otimizado para diferentes cenários de implantação. Os modelos edge incluem suporte a áudio, enquanto os modelos de servidor oferecem contexto de 256K e raciocínio de classe frontier.
Modelos Edge
E2B & E4B: Inteligência no dispositivo com áudio
Modelos ultracompactos com 2.3B e 4.5B parâmetros efetivos. Ambos incluem codificadores de áudio nativos, contexto de 128K e rodam em celulares, navegadores e dispositivos IoT.
Escolha E2B para o menor tamanho (3.2 GB em 4-bit). Escolha E4B para melhor qualidade (5.5 GB em 4-bit). Ambos suportam entrada de texto, imagem, vídeo e áudio.
Modelos de servidor
26B MoE & 31B Dense: Desempenho frontier
O 26B MoE ativa apenas 4B parâmetros por token para serving eficiente. O 31B Dense é o modelo principal com a posição #3 no Arena AI. Ambos oferecem contexto de 256K e Function Calling nativo.
Escolha 26B para produção de alto throughput (16 GB em 4-bit). Escolha 31B para qualidade máxima (17 GB em 4-bit). Ambos se destacam em raciocínio, programação e tarefas multimodais.
Edge - Ultracompacto
Gemma 4 E2B
2.3B parâmetros efetivos. O menor Gemma 4 com suporte multimodal completo + áudio.
35 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 3.2 GB VRAM em 4-bit.
Edge - Recomendado
Gemma 4 E4B
4.5B parâmetros efetivos. Melhor modelo edge com raciocínio forte e suporte a áudio.
42 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 5.5 GB VRAM em 4-bit.
Servidor - Eficiente
Gemma 4 26B A4B
25.2B no total, 3.8B ativos por token. Qualidade próxima ao 31B com uma fração do processamento.
MoE com 128 especialistas (8 ativos + 1 compartilhado). Contexto 256K. 16 GB VRAM em 4-bit.
Servidor - Principal
Gemma 4 31B
30.7B parâmetros dense. #3 no Arena AI. Máxima inteligência e confiabilidade.
Arquitetura dense, contexto 256K, mais de 140 idiomas. 17 GB VRAM em 4-bit.
Capacidades compartilhadas
O que cada modelo Gemma 4 pode fazer
Todos os quatro modelos compartilham um conjunto comum de capacidades que tornam a família Gemma 4 excepcionalmente versátil.
Multimodal nativo
Todos os modelos processam texto e imagens nativamente. Os modelos edge adicionam suporte a áudio e vídeo. Sem necessidade de codificadores ou pipelines separados.
Raciocínio configurável
Todos os modelos suportam modos de raciocínio passo a passo. Controle a profundidade do raciocínio com base na complexidade da tarefa.
Function Calling
Function Calling integrado em toda a família permite workflows agênticos. Sem necessidade de fine-tuning para uso de ferramentas.
Contexto estendido
128K tokens para modelos edge, 256K para modelos de servidor. Attention híbrida mantém o uso de memória prático.
Mais de 140 idiomas
Suporte multilíngue com compreensão de contexto cultural em todos os tamanhos de modelo.
Licença Apache 2.0
Liberdade comercial total. Sem limites de MAU, sem restrições de uso. Implante em qualquer lugar, modifique livremente.
Guia de seleção rápida
Qual modelo você deve escolher?
Combine suas restrições de implantação e requisitos de qualidade com a variante Gemma 4 certa.
Por hardware
- Celular / IoT / 4 GB RAM: Gemma 4 E2B
- Notebook / 8-16 GB RAM: Gemma 4 E4B
- GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
- Multi-GPU / 24 GB+ VRAM: Gemma 4 31B
Por caso de uso
- Assistente de voz / áudio: E2B ou E4B (suporte a áudio)
- IA no navegador: E2B ou E4B (WebGPU)
- API de alto throughput: 26B A4B (eficiência MoE)
- Qualidade máxima: 31B Dense (desempenho frontier)
Desempenho
Comparação completa de benchmarks dos quatro modelos
Cada modelo Gemma 4 faz parte de uma fronteira de Pareto - cada tamanho entrega desempenho excepcional em relação ao seu número de parâmetros.
Do ultracompacto E2B ao modelo principal 31B, cada modelo é otimizado para seu nível de implantação enquanto compartilha as mesmas inovações arquiteturais.


31B Dense: #3 no Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6
26B MoE: Qualidade próxima ao 31B (ELO 1441) com apenas 4B parâmetros ativos por token
E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente desempenho edge com áudio
E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa com 3.2 GB de VRAM
Comparação completa da família
Todos os modelos Gemma 4 lado a lado
Resultados completos de benchmarks em raciocínio, programação, multimodal e métricas de implantação.
| Benchmark | 31B Dense Principal 31B | 26B A4B MoE 26B | E4B Edge E4B | E2B Compacto E2B |
|---|---|---|---|---|
Arena AI ELO Classificação geral | 1452 | 1441 | - | - |
MMLU Pro Conhecimento e raciocínio | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 Matemática | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 Programação | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond Ciência | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro Multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window Tokens máximos | 256K | 256K | 128K | 128K |
Audio Support Áudio nativo | No | No | Yes | Yes |
VRAM (4-bit) Memória mínima | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
Todos os dados da ficha oficial do Gemma 4. Pontuações do Arena AI em 2 de abril de 2026.
Nível Edge
E2B & E4B: IA que roda no seu dispositivo
Os modelos edge trazem IA multimodal completa para celulares, navegadores e dispositivos IoT. Ambos incluem codificadores de áudio nativos - uma capacidade que os modelos maiores não têm. Escolha E2B para o menor tamanho, E4B para melhor qualidade.
- E2B: 2.3B efetivos, 3.2 GB em 4-bit, 95 tok/s em hardware de consumo
- E4B: 4.5B efetivos, 5.5 GB em 4-bit, raciocínio e programação fortes
- Ambos: áudio nativo, contexto 128K, suporte a navegador WebGPU
Nível Servidor
26B MoE & 31B Dense: Desempenho frontier
Os modelos de servidor entregam raciocínio, programação e compreensão multimodal de classe frontier. O 26B MoE oferece qualidade próxima ao 31B com uma fração do processamento. O 31B Dense é o modelo principal para desempenho máximo.
- 26B MoE: 3.8B ativos por token, ELO 1441, 88.3% AIME 2026
- 31B Dense: 30.7B totalmente ativos, ELO 1452, 89.2% AIME 2026
- Ambos: contexto 256K, Function Calling nativo, mais de 140 idiomas
Arquitetura
Inovações compartilhadas em toda a família
Todos os modelos Gemma 4 compartilham inovações arquiteturais chave da pesquisa do Google DeepMind. Per-Layer Embeddings, cache KV compartilhado e padrões de attention híbridos maximizam a eficiência em cada escala.
- Per-Layer Embeddings (PLE) para condicionamento eficiente em parâmetros
- Cache KV compartilhado reduz memória durante geração de contexto longo
- Attention híbrida local/global para equilíbrio ideal entre memória e qualidade

Testar agora
Converse com qualquer modelo Gemma 4
Teste todos os modelos instantaneamente pela nossa interface de chat, ou baixe para implantação local.
Baixar
Obter os pesos do modelo
Baixe os pesos oficiais de qualquer variante Gemma 4.
Implantar
Implantação em produção
Implante em plataformas de nuvem, locais ou edge.
Família Gemma 4
Explore cada modelo em detalhe
Aprofunde-se em cada variante Gemma 4 com páginas dedicadas cobrindo arquitetura, benchmarks e guias de implantação.
Começar
Encontre o seu modelo Gemma 4
Converse grátis com qualquer modelo Gemma 4, ou baixe os pesos para implantação local. Licença Apache 2.0 para total liberdade comercial.