Modelos Gemma 4

Quatro modelos, uma família - do edge ao frontier

A família Gemma 4 abrange quatro arquiteturas: os ultracompactos E2B e E4B para dispositivos edge, o 26B MoE para implantação eficiente em servidores e o modelo principal 31B Dense. Todos compartilham suporte multimodal nativo, raciocínio configurável e licença Apache 2.0.

Começar a conversar Comparar benchmarks

Todos os modelos

Escolha o Gemma 4 certo para o seu caso de uso

Cada modelo da família é otimizado para diferentes cenários de implantação. Os modelos edge incluem suporte a áudio, enquanto os modelos de servidor oferecem contexto de 256K e raciocínio de classe frontier.

Modelos Edge

E2B & E4B: Inteligência no dispositivo com áudio

Modelos ultracompactos com 2.3B e 4.5B parâmetros efetivos. Ambos incluem codificadores de áudio nativos, contexto de 128K e rodam em celulares, navegadores e dispositivos IoT.

Escolha E2B para o menor tamanho (3.2 GB em 4-bit). Escolha E4B para melhor qualidade (5.5 GB em 4-bit). Ambos suportam entrada de texto, imagem, vídeo e áudio.

Testar E4B grátis Comparar E2B vs E4B

Modelos de servidor

26B MoE & 31B Dense: Desempenho frontier

O 26B MoE ativa apenas 4B parâmetros por token para serving eficiente. O 31B Dense é o modelo principal com a posição #3 no Arena AI. Ambos oferecem contexto de 256K e Function Calling nativo.

Escolha 26B para produção de alto throughput (16 GB em 4-bit). Escolha 31B para qualidade máxima (17 GB em 4-bit). Ambos se destacam em raciocínio, programação e tarefas multimodais.

Testar 26B grátis Ver benchmarks

Edge - Ultracompacto

Gemma 4 E2B

2.3B parâmetros efetivos. O menor Gemma 4 com suporte multimodal completo + áudio.

35 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 3.2 GB VRAM em 4-bit.

Disponível agora

Saiba mais Baixar

Edge - Recomendado

Gemma 4 E4B

4.5B parâmetros efetivos. Melhor modelo edge com raciocínio forte e suporte a áudio.

42 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 5.5 GB VRAM em 4-bit.

Disponível agora

Saiba mais Baixar

Servidor - Eficiente

Gemma 4 26B A4B

25.2B no total, 3.8B ativos por token. Qualidade próxima ao 31B com uma fração do processamento.

MoE com 128 especialistas (8 ativos + 1 compartilhado). Contexto 256K. 16 GB VRAM em 4-bit.

Disponível agora

Saiba mais Baixar

Servidor - Principal

Gemma 4 31B

30.7B parâmetros dense. #3 no Arena AI. Máxima inteligência e confiabilidade.

Arquitetura dense, contexto 256K, mais de 140 idiomas. 17 GB VRAM em 4-bit.

Disponível agora

Saiba mais Baixar

Capacidades compartilhadas

O que cada modelo Gemma 4 pode fazer

Todos os quatro modelos compartilham um conjunto comum de capacidades que tornam a família Gemma 4 excepcionalmente versátil.

Multimodal nativo

Todos os modelos processam texto e imagens nativamente. Os modelos edge adicionam suporte a áudio e vídeo. Sem necessidade de codificadores ou pipelines separados.

Raciocínio configurável

Todos os modelos suportam modos de raciocínio passo a passo. Controle a profundidade do raciocínio com base na complexidade da tarefa.

Function Calling

Function Calling integrado em toda a família permite workflows agênticos. Sem necessidade de fine-tuning para uso de ferramentas.

Contexto estendido

128K tokens para modelos edge, 256K para modelos de servidor. Attention híbrida mantém o uso de memória prático.

Mais de 140 idiomas

Suporte multilíngue com compreensão de contexto cultural em todos os tamanhos de modelo.

Licença Apache 2.0

Liberdade comercial total. Sem limites de MAU, sem restrições de uso. Implante em qualquer lugar, modifique livremente.

Guia de seleção rápida

Qual modelo você deve escolher?

Combine suas restrições de implantação e requisitos de qualidade com a variante Gemma 4 certa.

Por hardware

Celular / IoT / 4 GB RAM: Gemma 4 E2B
Notebook / 8-16 GB RAM: Gemma 4 E4B
GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de uso

Assistente de voz / áudio: E2B ou E4B (suporte a áudio)
IA no navegador: E2B ou E4B (WebGPU)
API de alto throughput: 26B A4B (eficiência MoE)
Qualidade máxima: 31B Dense (desempenho frontier)

Começar a conversar Ver todos os benchmarks

Desempenho

Comparação completa de benchmarks dos quatro modelos

Cada modelo Gemma 4 faz parte de uma fronteira de Pareto - cada tamanho entrega desempenho excepcional em relação ao seu número de parâmetros.

Do ultracompacto E2B ao modelo principal 31B, cada modelo é otimizado para seu nível de implantação enquanto compartilha as mesmas inovações arquiteturais.

Começar a conversar Ver ficha do modelo

Comparação de desempenho da família Gemma 4 em todos os tamanhos de modelo

31B Dense: #3 no Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualidade próxima ao 31B (ELO 1441) com apenas 4B parâmetros ativos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente desempenho edge com áudio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa com 3.2 GB de VRAM

Comparação completa da família

Todos os modelos Gemma 4 lado a lado

Resultados completos de benchmarks em raciocínio, programação, multimodal e métricas de implantação.

Benchmark	31B Dense Principal 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compacto E2B
Arena AI ELO Classificação geral	1452	1441	-	-
MMLU Pro Conhecimento e raciocínio	85.2%	82.6%	69.4%	60.0%
AIME 2026 Matemática	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Programação	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Ciência	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodal	76.9%	73.8%	52.6%	44.2%
Context Window Tokens máximos	256K	256K	128K	128K
Audio Support Áudio nativo	No	No	Yes	Yes
VRAM (4-bit) Memória mínima	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Todos os dados da ficha oficial do Gemma 4. Pontuações do Arena AI em 2 de abril de 2026.

Nível Edge

E2B & E4B: IA que roda no seu dispositivo

Os modelos edge trazem IA multimodal completa para celulares, navegadores e dispositivos IoT. Ambos incluem codificadores de áudio nativos - uma capacidade que os modelos maiores não têm. Escolha E2B para o menor tamanho, E4B para melhor qualidade.

E2B: 2.3B efetivos, 3.2 GB em 4-bit, 95 tok/s em hardware de consumo
E4B: 4.5B efetivos, 5.5 GB em 4-bit, raciocínio e programação fortes
Ambos: áudio nativo, contexto 128K, suporte a navegador WebGPU

Testar E4B Comparar E2B vs E4B

E2B & E4B: IA que roda no seu dispositivo

Nível Servidor

26B MoE & 31B Dense: Desempenho frontier

Os modelos de servidor entregam raciocínio, programação e compreensão multimodal de classe frontier. O 26B MoE oferece qualidade próxima ao 31B com uma fração do processamento. O 31B Dense é o modelo principal para desempenho máximo.

26B MoE: 3.8B ativos por token, ELO 1441, 88.3% AIME 2026
31B Dense: 30.7B totalmente ativos, ELO 1452, 89.2% AIME 2026
Ambos: contexto 256K, Function Calling nativo, mais de 140 idiomas

Testar 26B Comparar 26B vs 31B

26B MoE & 31B Dense: Desempenho frontier

Arquitetura

Inovações compartilhadas em toda a família

Todos os modelos Gemma 4 compartilham inovações arquiteturais chave da pesquisa do Google DeepMind. Per-Layer Embeddings, cache KV compartilhado e padrões de attention híbridos maximizam a eficiência em cada escala.