Visão Geral
Lançado em 2 de abril de 2026 sob Apache 2.0, o Gemma 4 oferece inteligência multimodal de classe de fronteira em quatro arquiteturas. De modelos edge ultra-móveis de 2B à variante densa flagship de 31B, cada tamanho processa texto, imagens com resolução variável, vídeo e áudio nativamente.
Modelos Edge
Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, construídos para implantação em Pixel, Chrome e navegador com suporte nativo a áudio e contexto de 128K.
As variantes E2B e E4B usam Per-Layer Embeddings (PLE) para maximizar a eficiência de parâmetros. Elas suportam entradas de texto, imagem, vídeo e áudio nativamente, tornando-as ideais para aplicações no dispositivo focadas em privacidade.
Modelos Servidor
O modelo denso de 31B ocupa a 3ª posição no ranking do Arena AI com 89,2% no AIME 2026. O MoE de 26B ativa apenas 4B parâmetros por token mantendo qualidade similar.
Ambos os modelos apresentam janelas de contexto de 256K, chamada de função nativa e modos de pensamento configuráveis. O 31B alcança 85,2% no MMLU Pro e 80% no LiveCodeBench v6, competindo com modelos muitas vezes maiores.
Capacidades
Todos os modelos processam texto, imagens com proporções variáveis, vídeo e áudio nativamente. E2B e E4B incluem codificadores de áudio para compreensão de fala.
O codificador de visão usa posições 2D aprendidas e RoPE multidimensional, preservando proporções originais. Imagens podem ser codificadas em diferentes orçamentos de tokens (70, 140, 280, 560, 1120) para compensações ideais entre velocidade e qualidade.
Arquitetura
Modelos pequenos apresentam contexto de 128K, enquanto modelos médios suportam 256K. Configurações duplas de RoPE permitem processamento de contexto mais longo.
Camadas de atenção alternadas de janela deslizante local (512-1024 tokens) e contexto completo global otimizam o uso de memória. KV cache compartilhado reduz computação e memória para geração de contexto longo.
Recursos
Todos os modelos suportam modos de pensamento configuráveis para tarefas avançadas de raciocínio, com suporte nativo a prompt de sistema para conversas estruturadas.
O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026 e 84,3% no GPQA Diamond. Chamada de função integrada alimenta agentes autônomos sem ajuste fino.
Desempenho
O modelo 31B pontua 80% no LiveCodeBench v6 e atinge 2150 ELO no Codeforces. O MoE de 26B alcança 77,1% com apenas 4B parâmetros ativos.
Melhorias notáveis em benchmarks de codificação junto com suporte integrado a chamada de função permitem agentes autônomos altamente capazes. Benchmark HLE mostra 19,5% sem ferramentas, 26,5% com busca.
Multimodal
O modelo 31B alcança 76,9% no MMMU Pro e 85,6% no MATH-Vision. Distância de edição de 0,131 no OmniDocBench demonstra fortes capacidades de OCR.
Suporte a proporção variável e orçamentos configuráveis de tokens de imagem permitem processamento eficiente de documentos, diagramas e capturas de tela. O modelo E4B atinge 52,6% no MMMU Pro apesar de seu tamanho compacto.
Integração
Suporte desde o dia zero para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. Checkpoints ONNX permitem implantação em dispositivos edge.
Licença Apache 2.0 permite uso comercial responsável. Disponível no Kaggle, Hugging Face e através do Google AI Studio. Compatível com ferramentas locais como Ollama para interações privadas e offline.
Começar
Experimente os modelos multimodais de fronteira do Google DeepMind gratuitamente. Não é necessário cartão de crédito para iniciar sua primeira conversa.
Introdução
Aprenda sobre as quatro arquiteturas de modelo, capacidades multimodais nativas e opções de implantação do Google DeepMind.
Desempenho
Os modelos Gemma 4 formam uma fronteira de Pareto, oferecendo desempenho excepcional em relação ao seu tamanho. O modelo denso de 31B ocupa a 3ª posição entre todos os modelos abertos no ranking do Arena AI.
Benchmarks oficiais demonstram desempenho competitivo com modelos muitas vezes maiores. O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026, enquanto o MoE de 26B atinge qualidade similar com apenas 4B parâmetros ativos.


O modelo 31B alcança 89,2% no AIME 2026 e 85,2% no MMLU Pro, competindo com modelos acima de 100B parâmetros.
Desempenho de codificação atinge 80% no LiveCodeBench v6 e 2150 ELO no Codeforces, à frente de muitos modelos maiores.
Capacidades de visão incluem 76,9% no MMMU Pro e 85,6% no MATH-Vision, com forte OCR e compreensão de documentos.
Benchmarks Oficiais
Avaliação abrangente em tarefas de raciocínio, codificação, visão, áudio e contexto longo demonstra capacidades de classe de fronteira.
| Benchmark | Gemma 4 31B Flagship denso 31B | Gemma 4 26B A4B MoE (4B ativo) 26B | Gemma 4 E4B Modelo edge E4B | Gemma 4 E2B Ultra-compacto E2B |
|---|---|---|---|---|
MMLU Pro Conhecimento & raciocínio | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (sem ferramentas) Raciocínio matemático | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond Ciência nível pós-graduação | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 Desempenho de codificação | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO Programação competitiva | 2150 | 1718 | 940 | 633 |
MMMU Pro Compreensão multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision Raciocínio matemático visual | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 OCR de documentos (distância de edição) | 0.131 | 0.149 | 0.181 | 0.290 |
Context Window Tokens máximos | 256K | 256K | 128K | 128K |
Audio Support Entrada de áudio nativa | No | No | Yes | Yes |
Todos os números dos cartões oficiais do modelo Gemma 4 e blog do Hugging Face. Benchmarks E2B e E4B demonstram eficiência excepcional para sua contagem de parâmetros.
Modelos Servidor
O modelo denso de 31B ocupa a 3ª posição no ranking do Arena AI com 89,2% no AIME 2026. O MoE de 26B ativa apenas 4B parâmetros por token mantendo qualidade similar, ideal para cenários de alto throughput.
Modelos Edge
Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, projetados para implantação em Pixel, Chrome e navegador. Codificadores de áudio nativos permitem compreensão de fala em tempo real no dispositivo.
Arquitetura
O Gemma 4 introduz inovações arquiteturais que maximizam a eficiência. PLE dá a cada camada decodificadora seu próprio caminho de condicionamento, enquanto o KV cache compartilhado reduz o uso de memória durante a geração de contexto longo.

Multimodal
Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão usa posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120) para compensações de velocidade-qualidade.

Implantação
Suporte desde o dia zero para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. E2B e E4B rodam em navegadores com transformers.js, enquanto 31B e 26B se destacam em hardware de servidor.

FAQ
Compreendendo as inovações técnicas do Gemma 4, de Per-Layer Embeddings ao processamento multimodal.
O Gemma 4 introduz suporte multimodal nativo (texto, imagem, vídeo, áudio), janelas de contexto estendidas (128K-256K), modos de pensamento configuráveis e chamada de função integrada. A arquitetura usa Per-Layer Embeddings (PLE) para eficiência e KV cache compartilhado para reduzir o uso de memória durante a geração de contexto longo.
E2B (2,3B efetivo) e E4B (4,5B efetivo) são projetados para dispositivos edge, navegadores e celular com suporte nativo a áudio. O 26B A4B é um modelo Mixture-of-Experts ativando apenas 4B parâmetros por token, ideal para cenários de alto throughput. O modelo denso de 31B é o flagship para desempenho máximo em tarefas de raciocínio, codificação e visão.
Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão usa posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120 tokens) para compensações de velocidade-qualidade. E2B e E4B incluem codificadores de áudio conformer estilo USM para compreensão de fala. Vídeo é suportado em toda a família processando quadros e faixas de áudio.
PLE dá a cada camada decodificadora seu próprio pequeno embedding para cada token, criando um caminho de condicionamento paralelo ao lado do fluxo residual principal. Isso permite que cada camada receba informações específicas do token apenas quando relevante, em vez de empacotar tudo em um único embedding inicial. Adiciona especialização significativa por camada com custo modesto de parâmetros, tornando modelos pequenos mais eficientes.
FAQ
Começando com o Gemma 4 em diferentes plataformas, da nuvem a dispositivos edge.
Os modelos Gemma 4 estão disponíveis no Kaggle e Hugging Face sob licença Apache 2.0. Você pode usá-los através do Google AI Studio, implantar no Vertex AI ou executar localmente com ferramentas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers e Mistral.rs. Checkpoints ONNX permitem implantação em navegador e dispositivos edge.
E2B requer ~9,6GB (BF16) a 3,2GB (4-bit) de VRAM. E4B precisa de ~15GB (BF16) a 5GB (4-bit). O modelo 31B requer ~58GB (BF16) a 17GB (4-bit). O MoE de 26B precisa de ~48GB (BF16) a 16GB (4-bit). Estes são apenas pesos base; adicione memória para janela de contexto (KV cache) com base no seu caso de uso.
Sim. Os modelos E2B e E4B são especificamente projetados para implantação em navegador e celular. transformers.js permite executar o Gemma 4 diretamente em navegadores com suporte WebGPU. Checkpoints ONNX funcionam em vários backends de hardware edge. Os modelos são otimizados para dispositivos Pixel e ambientes de navegador Chrome.
O Gemma 4 tem suporte integrado a chamada de função sem exigir ajuste fino. Os modelos podem analisar definições de ferramentas, gerar chamadas JSON estruturadas e lidar com chamada de função multimodal (por exemplo, analisar uma imagem e chamar uma API de clima). Isso alimenta agentes autônomos para tarefas como execução de código, navegação web e recuperação de dados.
FAQ
Como o Gemma 4 se compara a outros modelos e o que o torna competitivo para diferentes casos de uso.
O modelo 31B ocupa a 3ª posição no ranking do Arena AI entre modelos abertos, à frente do Llama 3.3 70B apesar de ter menos da metade do tamanho. Alcança 89,2% no raciocínio matemático AIME 2026, 85,2% no MMLU Pro e 80% no LiveCodeBench v6. A eficiência vem de inovações arquiteturais como padrões de atenção alternados e KV cache compartilhado.
O modelo 26B A4B tem 26 bilhões de parâmetros totais, mas ativa apenas 4 bilhões por token durante a geração. Todos os 26B parâmetros devem ser carregados na memória para roteamento rápido, mas o custo de inferência é mais próximo de um modelo 4B. Isso alcança 88,3% no AIME 2026 e 82,6% no MMLU Pro com computação significativamente menor por token do que o modelo denso de 31B.
Sim. Modelos pequenos suportam janelas de contexto de 128K, enquanto modelos médios lidam com 256K tokens. A arquitetura usa configurações duplas de RoPE (padrão para camadas deslizantes, podado para camadas globais) para permitir contexto mais longo. KV cache compartilhado reduz o consumo de memória durante a geração de contexto longo, tornando prático processar bases de código inteiras e artigos de pesquisa.
O Gemma 4 é totalmente suportado no TRL (Transformer Reinforcement Learning), com exemplos para respostas de ferramentas multimodais e interação com ambiente. O Hugging Face fornece guias de ajuste fino para Vertex AI usando SFT. O Unsloth Studio oferece uma experiência de ajuste fino baseada em UI. Os modelos suportam métodos PEFT como LoRA para treinamento eficiente em parâmetros.