Modelos Gemma 4

Quatro modelos, uma família - do edge ao frontier

A família Gemma 4 abrange quatro arquiteturas: os ultracompactos E2B e E4B para dispositivos edge, o 26B MoE para implementação eficiente em servidores e o modelo principal 31B Dense. Todos partilham suporte multimodal nativo, raciocínio configurável e licença Apache 2.0.

Todos os modelos

Escolha o Gemma 4 adequado ao seu caso de utilização

Cada modelo da família está otimizado para diferentes cenários de implementação. Os modelos edge incluem suporte de áudio, enquanto os modelos de servidor oferecem contexto de 256K e raciocínio de classe frontier.

Modelos Edge

E2B & E4B: Inteligência no dispositivo com áudio

Modelos ultracompactos com 2.3B e 4.5B parâmetros efetivos. Ambos incluem codificadores de áudio nativos, contexto de 128K e funcionam em telemóveis, navegadores e dispositivos IoT.

Escolha E2B para a menor pegada (3.2 GB a 4-bit). Escolha E4B para melhor qualidade (5.5 GB a 4-bit). Ambos suportam entrada de texto, imagem, vídeo e áudio.

Modelos de servidor

26B MoE & 31B Dense: Desempenho frontier

O 26B MoE ativa apenas 4B parâmetros por token para serving eficiente. O 31B Dense é o modelo principal com a posição n.º 3 no Arena AI. Ambos oferecem contexto de 256K e Function Calling nativo.

Escolha 26B para produção de alto débito (16 GB a 4-bit). Escolha 31B para qualidade máxima (17 GB a 4-bit). Ambos destacam-se em raciocínio, programação e tarefas multimodais.

Edge - Ultracompacto

Gemma 4 E2B

2.3B parâmetros efetivos. O menor Gemma 4 com suporte multimodal completo + áudio.

35 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 3.2 GB VRAM a 4-bit.

Disponível agora

Edge - Recomendado

Gemma 4 E4B

4.5B parâmetros efetivos. O melhor modelo edge com raciocínio sólido e suporte de áudio.

42 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 5.5 GB VRAM a 4-bit.

Disponível agora

Servidor - Eficiente

Gemma 4 26B A4B

25.2B no total, 3.8B ativos por token. Qualidade próxima do 31B com uma fração do processamento.

MoE com 128 especialistas (8 ativos + 1 partilhado). Contexto 256K. 16 GB VRAM a 4-bit.

Disponível agora

Servidor - Principal

Gemma 4 31B

30.7B parâmetros dense. N.º 3 no Arena AI. Máxima inteligência e fiabilidade.

Arquitetura dense, contexto 256K, mais de 140 idiomas. 17 GB VRAM a 4-bit.

Disponível agora

Capacidades partilhadas

O que cada modelo Gemma 4 consegue fazer

Os quatro modelos partilham um conjunto comum de capacidades que tornam a família Gemma 4 excecionalmente versátil.

Multimodal nativo

Todos os modelos processam texto e imagens nativamente. Os modelos edge acrescentam suporte de áudio e vídeo. Sem necessidade de codificadores ou pipelines separados.

Raciocínio configurável

Todos os modelos suportam modos de raciocínio passo a passo. Controle a profundidade do raciocínio com base na complexidade da tarefa.

Function Calling

O Function Calling integrado em toda a família permite workflows agênticos. Sem necessidade de fine-tuning para utilização de ferramentas.

Contexto alargado

128K tokens para modelos edge, 256K para modelos de servidor. A attention híbrida mantém a utilização de memória prática.

Mais de 140 idiomas

Suporte multilingue com compreensão de contexto cultural em todos os tamanhos de modelo.

Licença Apache 2.0

Liberdade comercial total. Sem limites de MAU, sem restrições de utilização. Implemente em qualquer lugar, modifique livremente.

Guia de seleção rápida

Que modelo deve escolher?

Faça corresponder as suas restrições de implementação e requisitos de qualidade à variante Gemma 4 adequada.

Por hardware

  • Telemóvel / IoT / 4 GB RAM: Gemma 4 E2B
  • Portátil / 8-16 GB RAM: Gemma 4 E4B
  • GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
  • Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de utilização

  • Assistente de voz / áudio: E2B ou E4B (suporte de áudio)
  • IA no navegador: E2B ou E4B (WebGPU)
  • API de alto débito: 26B A4B (eficiência MoE)
  • Qualidade máxima: 31B Dense (desempenho frontier)

Desempenho

Comparação completa de benchmarks dos quatro modelos

Cada modelo Gemma 4 faz parte de uma fronteira de Pareto - cada tamanho oferece desempenho excecional em relação ao seu número de parâmetros.

Do ultracompacto E2B ao modelo principal 31B, cada modelo está otimizado para o seu nível de implementação, partilhando as mesmas inovações arquiteturais.

Comparação de desempenho da família Gemma 4 em todos os tamanhos de modelo

31B Dense: N.º 3 no Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualidade próxima do 31B (ELO 1441) com apenas 4B parâmetros ativos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente desempenho edge com áudio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa com 3.2 GB de VRAM

Comparação completa da família

Todos os modelos Gemma 4 lado a lado

Resultados completos de benchmarks em raciocínio, programação, multimodal e métricas de implementação.

Benchmark
31B Dense
Principal
31B
26B A4B
MoE
26B
E4B
Edge
E4B
E2B
Compacto
E2B
Arena AI ELO
Classificação geral
14521441--
MMLU Pro
Conhecimento e raciocínio
85.2%82.6%69.4%60.0%
AIME 2026
Matemática
89.2%88.3%42.5%37.5%
LiveCodeBench v6
Programação
80.0%77.1%52.0%44.0%
GPQA Diamond
Ciência
84.3%82.3%58.6%43.4%
MMMU Pro
Multimodal
76.9%73.8%52.6%44.2%
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Áudio nativo
NoNoYesYes
VRAM (4-bit)
Memória mínima
~17 GB~16 GB~5.5 GB~3.2 GB

Todos os dados da ficha oficial do Gemma 4. Pontuações do Arena AI a 2 de abril de 2026.

Nível Edge

E2B & E4B: IA que funciona no seu dispositivo

Os modelos edge trazem IA multimodal completa para telemóveis, navegadores e dispositivos IoT. Ambos incluem codificadores de áudio nativos - uma capacidade que os modelos maiores não possuem. Escolha E2B para a menor pegada, E4B para melhor qualidade.

  • E2B: 2.3B efetivos, 3.2 GB a 4-bit, 95 tok/s em hardware de consumo
  • E4B: 4.5B efetivos, 5.5 GB a 4-bit, raciocínio e programação sólidos
  • Ambos: áudio nativo, contexto 128K, suporte de navegador WebGPU
E2B & E4B: IA que funciona no seu dispositivo

Nível Servidor

26B MoE & 31B Dense: Desempenho frontier

Os modelos de servidor oferecem raciocínio, programação e compreensão multimodal de classe frontier. O 26B MoE oferece qualidade próxima do 31B com uma fração do processamento. O 31B Dense é o modelo principal para desempenho máximo.

  • 26B MoE: 3.8B ativos por token, ELO 1441, 88.3% AIME 2026
  • 31B Dense: 30.7B totalmente ativos, ELO 1452, 89.2% AIME 2026
  • Ambos: contexto 256K, Function Calling nativo, mais de 140 idiomas
26B MoE & 31B Dense: Desempenho frontier

Arquitetura

Inovações partilhadas em toda a família

Todos os modelos Gemma 4 partilham inovações arquiteturais chave da investigação do Google DeepMind. Per-Layer Embeddings, cache KV partilhada e padrões de attention híbridos maximizam a eficiência em cada escala.

  • Per-Layer Embeddings (PLE) para condicionamento eficiente em parâmetros
  • Cache KV partilhada reduz memória durante geração de contexto longo
  • Attention híbrida local/global para equilíbrio ideal entre memória e qualidade
Inovações partilhadas em toda a família

Família Gemma 4

Explore cada modelo em detalhe

Aprofunde-se em cada variante Gemma 4 com páginas dedicadas que cobrem arquitetura, benchmarks e guias de implementação.

Gemma 4 E2B

Modelo edge ultracompacto 2.3B com áudio

Explorar

Gemma 4 E4B

Modelo edge recomendado 4.5B com áudio

Explorar

Gemma 4 26B

MoE eficiente com 4B parâmetros ativos

Explorar

Gemma 4 31B

Modelo dense principal, n.º 3 no Arena AI

Explorar

Executar localmente

Guia para executar Gemma 4 no seu hardware

Ler guia

Acesso API

Utilize Gemma 4 através de APIs alojadas

Começar

Começar

Encontre o seu modelo Gemma 4

Converse gratuitamente com qualquer modelo Gemma 4, ou transfira os pesos para implementação local. Licença Apache 2.0 para total liberdade comercial.