Modelos Gemma 4

Quatro modelos, uma família - do edge ao frontier

A família Gemma 4 abrange quatro arquiteturas: os ultracompactos E2B e E4B para dispositivos edge, o 26B MoE para implementação eficiente em servidores e o modelo principal 31B Dense. Todos partilham suporte multimodal nativo, raciocínio configurável e licença Apache 2.0.

Iniciar conversa Comparar benchmarks

Todos os modelos

Escolha o Gemma 4 adequado ao seu caso de utilização

Cada modelo da família está otimizado para diferentes cenários de implementação. Os modelos edge incluem suporte de áudio, enquanto os modelos de servidor oferecem contexto de 256K e raciocínio de classe frontier.

Modelos Edge

E2B & E4B: Inteligência no dispositivo com áudio

Modelos ultracompactos com 2.3B e 4.5B parâmetros efetivos. Ambos incluem codificadores de áudio nativos, contexto de 128K e funcionam em telemóveis, navegadores e dispositivos IoT.

Escolha E2B para a menor pegada (3.2 GB a 4-bit). Escolha E4B para melhor qualidade (5.5 GB a 4-bit). Ambos suportam entrada de texto, imagem, vídeo e áudio.

Experimentar E4B gratuitamente Comparar E2B vs E4B

Modelos de servidor

26B MoE & 31B Dense: Desempenho frontier

O 26B MoE ativa apenas 4B parâmetros por token para serving eficiente. O 31B Dense é o modelo principal com a posição n.º 3 no Arena AI. Ambos oferecem contexto de 256K e Function Calling nativo.

Escolha 26B para produção de alto débito (16 GB a 4-bit). Escolha 31B para qualidade máxima (17 GB a 4-bit). Ambos destacam-se em raciocínio, programação e tarefas multimodais.

Experimentar 26B gratuitamente Ver benchmarks

Edge - Ultracompacto

Gemma 4 E2B

2.3B parâmetros efetivos. O menor Gemma 4 com suporte multimodal completo + áudio.

35 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 3.2 GB VRAM a 4-bit.

Disponível agora

Saber mais Transferir

Edge - Recomendado

Gemma 4 E4B

4.5B parâmetros efetivos. O melhor modelo edge com raciocínio sólido e suporte de áudio.

42 camadas, arquitetura PLE, ~150M visão + ~300M codificador de áudio. 5.5 GB VRAM a 4-bit.

Disponível agora

Saber mais Transferir

Servidor - Eficiente

Gemma 4 26B A4B

25.2B no total, 3.8B ativos por token. Qualidade próxima do 31B com uma fração do processamento.

MoE com 128 especialistas (8 ativos + 1 partilhado). Contexto 256K. 16 GB VRAM a 4-bit.

Disponível agora

Saber mais Transferir

Servidor - Principal

Gemma 4 31B

30.7B parâmetros dense. N.º 3 no Arena AI. Máxima inteligência e fiabilidade.

Arquitetura dense, contexto 256K, mais de 140 idiomas. 17 GB VRAM a 4-bit.

Disponível agora

Saber mais Transferir

Capacidades partilhadas

O que cada modelo Gemma 4 consegue fazer

Os quatro modelos partilham um conjunto comum de capacidades que tornam a família Gemma 4 excecionalmente versátil.

Multimodal nativo

Todos os modelos processam texto e imagens nativamente. Os modelos edge acrescentam suporte de áudio e vídeo. Sem necessidade de codificadores ou pipelines separados.

Raciocínio configurável

Todos os modelos suportam modos de raciocínio passo a passo. Controle a profundidade do raciocínio com base na complexidade da tarefa.

Function Calling

O Function Calling integrado em toda a família permite workflows agênticos. Sem necessidade de fine-tuning para utilização de ferramentas.

Contexto alargado

128K tokens para modelos edge, 256K para modelos de servidor. A attention híbrida mantém a utilização de memória prática.

Mais de 140 idiomas

Suporte multilingue com compreensão de contexto cultural em todos os tamanhos de modelo.

Licença Apache 2.0

Liberdade comercial total. Sem limites de MAU, sem restrições de utilização. Implemente em qualquer lugar, modifique livremente.

Guia de seleção rápida

Que modelo deve escolher?

Faça corresponder as suas restrições de implementação e requisitos de qualidade à variante Gemma 4 adequada.

Por hardware

Telemóvel / IoT / 4 GB RAM: Gemma 4 E2B
Portátil / 8-16 GB RAM: Gemma 4 E4B
GPU única / 16-24 GB VRAM: Gemma 4 26B A4B
Multi-GPU / 24 GB+ VRAM: Gemma 4 31B

Por caso de utilização

Assistente de voz / áudio: E2B ou E4B (suporte de áudio)
IA no navegador: E2B ou E4B (WebGPU)
API de alto débito: 26B A4B (eficiência MoE)
Qualidade máxima: 31B Dense (desempenho frontier)

Iniciar conversa Ver todos os benchmarks

Desempenho

Comparação completa de benchmarks dos quatro modelos

Cada modelo Gemma 4 faz parte de uma fronteira de Pareto - cada tamanho oferece desempenho excecional em relação ao seu número de parâmetros.

Do ultracompacto E2B ao modelo principal 31B, cada modelo está otimizado para o seu nível de implementação, partilhando as mesmas inovações arquiteturais.

Iniciar conversa Ver ficha do modelo

Comparação de desempenho da família Gemma 4 em todos os tamanhos de modelo

31B Dense: N.º 3 no Arena AI (ELO 1452), 89.2% AIME 2026, 80% LiveCodeBench v6

26B MoE: Qualidade próxima do 31B (ELO 1441) com apenas 4B parâmetros ativos por token

E4B: 69.4% MMLU Pro, 52% LiveCodeBench - excelente desempenho edge com áudio

E2B: 60% MMLU Pro, 44% LiveCodeBench - IA significativa com 3.2 GB de VRAM

Comparação completa da família

Todos os modelos Gemma 4 lado a lado

Resultados completos de benchmarks em raciocínio, programação, multimodal e métricas de implementação.

Benchmark	31B Dense Principal 31B	26B A4B MoE 26B	E4B Edge E4B	E2B Compacto E2B
Arena AI ELO Classificação geral	1452	1441	-	-
MMLU Pro Conhecimento e raciocínio	85.2%	82.6%	69.4%	60.0%
AIME 2026 Matemática	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6 Programação	80.0%	77.1%	52.0%	44.0%
GPQA Diamond Ciência	84.3%	82.3%	58.6%	43.4%
MMMU Pro Multimodal	76.9%	73.8%	52.6%	44.2%
Context Window Tokens máximos	256K	256K	128K	128K
Audio Support Áudio nativo	No	No	Yes	Yes
VRAM (4-bit) Memória mínima	~17 GB	~16 GB	~5.5 GB	~3.2 GB

Todos os dados da ficha oficial do Gemma 4. Pontuações do Arena AI a 2 de abril de 2026.

Nível Edge

E2B & E4B: IA que funciona no seu dispositivo

Os modelos edge trazem IA multimodal completa para telemóveis, navegadores e dispositivos IoT. Ambos incluem codificadores de áudio nativos - uma capacidade que os modelos maiores não possuem. Escolha E2B para a menor pegada, E4B para melhor qualidade.

E2B: 2.3B efetivos, 3.2 GB a 4-bit, 95 tok/s em hardware de consumo
E4B: 4.5B efetivos, 5.5 GB a 4-bit, raciocínio e programação sólidos
Ambos: áudio nativo, contexto 128K, suporte de navegador WebGPU

Experimentar E4B Comparar E2B vs E4B

E2B & E4B: IA que funciona no seu dispositivo

Nível Servidor

26B MoE & 31B Dense: Desempenho frontier

Os modelos de servidor oferecem raciocínio, programação e compreensão multimodal de classe frontier. O 26B MoE oferece qualidade próxima do 31B com uma fração do processamento. O 31B Dense é o modelo principal para desempenho máximo.

26B MoE: 3.8B ativos por token, ELO 1441, 88.3% AIME 2026
31B Dense: 30.7B totalmente ativos, ELO 1452, 89.2% AIME 2026
Ambos: contexto 256K, Function Calling nativo, mais de 140 idiomas

Experimentar 26B Comparar 26B vs 31B

26B MoE & 31B Dense: Desempenho frontier

Arquitetura

Inovações partilhadas em toda a família

Todos os modelos Gemma 4 partilham inovações arquiteturais chave da investigação do Google DeepMind. Per-Layer Embeddings, cache KV partilhada e padrões de attention híbridos maximizam a eficiência em cada escala.

Per-Layer Embeddings (PLE) para condicionamento eficiente em parâmetros
Cache KV partilhada reduz memória durante geração de contexto longo
Attention híbrida local/global para equilíbrio ideal entre memória e qualidade

Ler detalhes técnicos Ver ficha do modelo

Experimentar agora

Converse com qualquer modelo Gemma 4

Experimente todos os modelos instantaneamente através da nossa interface de chat, ou transfira-os para implementação local.

Iniciar conversa

Converse com os modelos Gemma 4 instantaneamente, sem configuração

Ver apresentação

Vídeo oficial de apresentação da família Gemma 4

Ficha do modelo

Especificações técnicas completas de todas as variantes

Documentação

Guias de integração e boas práticas

Transferir

Obter os pesos do modelo

Transfira os pesos oficiais de qualquer variante Gemma 4.

Hugging Face

Todos os repositórios de modelos Gemma 4

Kaggle

Transferir do Kaggle Models

Ollama

Execute qualquer variante localmente com Ollama

Implementar

Implementação em produção

Implemente em plataformas cloud, locais ou edge.

Google AI Studio

Acesso API alojado a todos os modelos

Vertex AI

Implementação empresarial no Google Cloud

Ollama

Implementação local para todas as variantes

transformers.js

Implementação no navegador para modelos edge

Família Gemma 4