Modelos Gemma 4

Quatro modelos, uma família - do edge ao frontier

A família Gemma 4 abrange quatro arquiteturas: os ultracompactos E2B e E4B para dispositivos edge, o 26B MoE para implantação eficiente em servidores e o modelo principal 31B Dense. Todos compartilham suporte multimodal nativo, raciocínio configurável e licença Apache 2.0.

Todos os modelos

Escolha o Gemma 4 certo para o seu caso de uso

Cada modelo da família é otimizado para diferentes cenários de implantação. Os modelos edge incluem suporte a áudio, enquanto os modelos de servidor oferecem contexto de 256K e raciocínio de classe frontier.

Modelos Edge

E2B & E4B: Inteligência no dispositivo com áudio

Modelos ultracompactos com 2.3B e 4.5B parâmetros efetivos. Ambos incluem codificadores de áudio nativos, contexto de 128K e rodam em celulares, navegadores e dispositivos IoT.

Escolha E2B para o menor tamanho (3.2 GB em 4-bit). Escolha E4B para melhor qualidade (5.5 GB em 4-bit). Ambos suportam entrada de texto, imagem, vídeo e áudio.

Modelos de servidor

26B MoE & 31B Dense: Desempenho frontier

O 26B MoE ativa apenas 4B parâmetros por token para serving eficiente. O 31B Dense é o modelo principal com a posição #3 no Arena AI. Ambos oferecem contexto de 256K e Function Calling nativo.

Escolha 26B para produção de alto throughput (16 GB em 4-bit). Escolha 31B para qualidade máxima (17 GB em 4-bit). Ambos se destacam em raciocínio, programação e tarefas multimodais.

Edge - Ultracompacto

Gemma 4 E2B

2.3B parâmetros efetivos. O menor Gemma 4 com suporte multimodal completo + áudio.

35 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 3.2 GB VRAM em 4-bit.

Disponível agora

Edge - Recomendado

Gemma 4 E4B

4.5B parâmetros efetivos. Melhor modelo edge com raciocínio forte e suporte a áudio.

42 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 5.5 GB VRAM em 4-bit.

Disponível agora

Servidor - Eficiente

Gemma 4 26B A4B

25.2B no total, 3.8B ativos por token. Qualidade próxima ao 31B com uma fração do processamento.

MoE com 128 especialistas (8 ativos + 1 compartilhado). Contexto 256K. 16 GB VRAM em 4-bit.

Disponível agora

Servidor - Principal

Gemma 4 31B

30.7B parâmetros dense. #3 no Arena AI. Máxima inteligência e confiabilidade.

Arquitetura dense, contexto 256K, mais de 140 idiomas. 17 GB VRAM em 4-bit.

Disponível agora

Capacidades compartilhadas

O que cada modelo Gemma 4 pode fazer

Todos os quatro modelos compartilham um conjunto comum de capacidades que tornam a família Gemma 4 excepcionalmente versátil.

Multimodal nativo

Todos os modelos processam texto e imagens nativamente. Os modelos edge adicionam suporte a áudio e vídeo. Sem necessidade de codificadores ou pipelines separados.

Raciocínio configurável

Todos os modelos suportam modos de raciocínio passo a passo. Controle a profundidade do raciocínio com base na complexidade da tarefa.

Function Calling

Function Calling integrado em toda a família permite workflows agênticos. Sem necessidade de fine-tuning para uso de ferramentas.

Contexto estendido

128K tokens para modelos edge, 256K para modelos de servidor. Attention híbrida mantém o uso de memória prático.

Mais de 140 idiomas

Suporte multilíngue com compreensão de contexto cultural em todos os tamanhos de modelo.

Licença Apache 2.0

Liberdade comercial total. Sem limites de MAU, sem restrições de uso. Implante em qualquer lugar, modifique livremente.

Guia de seleção rápida

Qual modelo você deve escolher?

Combine suas restrições de implantação e requisitos de qualidade com a variante Gemma 4 certa.

Por hardware

  • Celular / IoT / 4 GB RAM: Gemma 4 E2B
  • Notebook / 8-16 GB RAM: Gemma 4 E4B
  • GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de uso

  • Assistente de voz / áudio: E2B ou E4B (suporte a áudio)
  • IA no navegador: E2B ou E4B (WebGPU)
  • API de alto throughput: 26B A4B (eficiência MoE)
  • Qualidade máxima: 31B Dense (desempenho frontier)

Desempenho

Comparação completa de benchmarks dos quatro modelos

Cada modelo Gemma 4 faz parte de uma fronteira de Pareto - cada tamanho entrega desempenho excepcional em relação ao seu número de parâmetros.

Do ultracompacto E2B ao modelo principal 31B, cada modelo é otimizado para seu nível de implantação enquanto compartilha as mesmas inovações arquiteturais.

Comparação de desempenho da família Gemma 4 em todos os tamanhos de modelo

31B Dense: #3 no Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualidade próxima ao 31B (ELO 1441) com apenas 4B parâmetros ativos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente desempenho edge com áudio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa com 3.2 GB de VRAM

Comparação completa da família

Todos os modelos Gemma 4 lado a lado

Resultados completos de benchmarks em raciocínio, programação, multimodal e métricas de implantação.

Benchmark
31B Dense
Principal
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compacto
E2B
Arena AI ELO
Classificação geral
14521441--
MMLU Pro
Conhecimento e raciocínio
85.2%82.6%69.4%60.0%
AIME 2026
Matemática
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Programação
80.0%77.1%52.0%44.0%
GPQA Diamond
Ciência
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodal
76.9%73.8%52.6%44.2%
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Áudio nativo
NoNoYesYes
VRAM (4-bit)
Memória mínima
~17 GB~16 GB~5.5 GB~3.2 GB

Todos os dados da ficha oficial do Gemma 4. Pontuações do Arena AI em 2 de abril de 2026.

Nível Edge

E2B & E4B: IA que roda no seu dispositivo

Os modelos edge trazem IA multimodal completa para celulares, navegadores e dispositivos IoT. Ambos incluem codificadores de áudio nativos - uma capacidade que os modelos maiores não têm. Escolha E2B para o menor tamanho, E4B para melhor qualidade.

  • E2B: 2.3B efetivos, 3.2 GB em 4-bit, 95 tok/s em hardware de consumo
  • E4B: 4.5B efetivos, 5.5 GB em 4-bit, raciocínio e programação fortes
  • Ambos: áudio nativo, contexto 128K, suporte a navegador WebGPU
E2B & E4B: IA que roda no seu dispositivo

Nível Servidor

26B MoE & 31B Dense: Desempenho frontier

Os modelos de servidor entregam raciocínio, programação e compreensão multimodal de classe frontier. O 26B MoE oferece qualidade próxima ao 31B com uma fração do processamento. O 31B Dense é o modelo principal para desempenho máximo.

  • 26B MoE: 3.8B ativos por token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: 30.7B totalmente ativos, ELO 1452, 89.2% AIME 2026
  • Ambos: contexto 256K, Function Calling nativo, mais de 140 idiomas
26B MoE & 31B Dense: Desempenho frontier

Arquitetura

Inovações compartilhadas em toda a família

Todos os modelos Gemma 4 compartilham inovações arquiteturais chave da pesquisa do Google DeepMind. Per-Layer Embeddings, cache KV compartilhado e padrões de attention híbridos maximizam a eficiência em cada escala.

  • Per-Layer Embeddings (PLE) para condicionamento eficiente em parâmetros
  • Cache KV compartilhado reduz memória durante geração de contexto longo
  • Attention híbrida local/global para equilíbrio ideal entre memória e qualidade
Inovações compartilhadas em toda a família

Família Gemma 4

Explore cada modelo em detalhe

Aprofunde-se em cada variante Gemma 4 com páginas dedicadas cobrindo arquitetura, benchmarks e guias de implantação.

Gemma 4 E2B

Modelo edge ultracompacto 2.3B com áudio

Explorar

Gemma 4 E4B

Modelo edge recomendado 4.5B com áudio

Explorar

Gemma 4 26B

MoE eficiente com 4B parâmetros ativos

Explorar

Gemma 4 31B

Modelo dense principal, #3 no Arena AI

Explorar

Rodar localmente

Guia para rodar Gemma 4 no seu hardware

Ler guia

Acesso API

Use Gemma 4 através de APIs hospedadas

Começar

Começar

Encontre o seu modelo Gemma 4

Converse grátis com qualquer modelo Gemma 4, ou baixe os pesos para implantação local. Licença Apache 2.0 para total liberdade comercial.