Visão Geral
Lançado a 2 de abril de 2026 sob licença Apache 2.0, o Gemma 4 oferece inteligência multimodal de classe fronteiriça através de quatro arquiteturas. Desde modelos edge ultra-móveis de 2B até à variante densa principal de 31B, cada tamanho processa texto, imagens com resolução variável, vídeo e áudio nativamente.
Modelos Edge
Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, construídos para implementação em Pixel, Chrome e navegador com suporte de áudio nativo e contexto de 128K.
As variantes E2B e E4B utilizam Per-Layer Embeddings (PLE) para maximizar a eficiência de parâmetros. Suportam entradas de texto, imagem, vídeo e áudio nativamente, tornando-os ideais para aplicações no dispositivo focadas na privacidade.
Modelos Servidor
O modelo denso de 31B ocupa o 3.º lugar na tabela de classificação Arena AI com 89,2% no AIME 2026. O 26B MoE ativa apenas 4B parâmetros por token mantendo qualidade semelhante.
Ambos os modelos apresentam janelas de contexto de 256K, chamada de funções nativa e modos de pensamento configuráveis. O 31B alcança 85,2% no MMLU Pro e 80% no LiveCodeBench v6, competindo com modelos muitas vezes maiores.
Capacidades
Todos os modelos processam texto, imagens com proporções variáveis, vídeo e áudio nativamente. E2B e E4B incluem codificadores de áudio para compreensão de fala.
O codificador de visão utiliza posições 2D aprendidas e RoPE multidimensional, preservando as proporções originais. As imagens podem ser codificadas em diferentes orçamentos de tokens (70, 140, 280, 560, 1120) para compromissos ideais entre velocidade e qualidade.
Arquitetura
Os modelos pequenos apresentam contexto de 128K, enquanto os modelos médios suportam 256K. Configurações RoPE duplas permitem processamento de contexto mais longo.
Camadas de atenção alternadas de janela deslizante local (512-1024 tokens) e contexto completo global otimizam o uso de memória. A cache KV partilhada reduz computação e memória para geração de contexto longo.
Funcionalidades
Todos os modelos suportam modos de pensamento configuráveis para tarefas de raciocínio avançado, com suporte nativo de prompt de sistema para conversas estruturadas.
O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026 e 84,3% no GPQA Diamond. A chamada de funções integrada alimenta agentes autónomos sem ajuste fino.
Desempenho
O modelo 31B obtém 80% no LiveCodeBench v6 e atinge 2150 ELO no Codeforces. O 26B MoE alcança 77,1% com apenas 4B parâmetros ativos.
Melhorias notáveis em benchmarks de codificação juntamente com suporte integrado de chamada de funções permitem agentes autónomos altamente capazes. O benchmark HLE mostra 19,5% sem ferramentas, 26,5% com pesquisa.
Multimodal
O modelo 31B alcança 76,9% no MMMU Pro e 85,6% no MATH-Vision. A distância de edição OmniDocBench de 0,131 demonstra fortes capacidades de OCR.
O suporte de proporção variável e orçamentos de tokens de imagem configuráveis permitem processamento eficiente de documentos, diagramas e capturas de ecrã. O modelo E4B atinge 52,6% no MMMU Pro apesar do seu tamanho compacto.
Integração
Suporte desde o dia 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. Checkpoints ONNX permitem implementação em dispositivos edge.
A licença Apache 2.0 permite uso comercial responsável. Disponível no Kaggle, Hugging Face e através do Google AI Studio. Compatível com ferramentas locais como Ollama para interações privadas e offline.
Começar
Experimenta os modelos multimodais de fronteira da Google DeepMind gratuitamente. Não é necessário cartão de crédito para iniciar a tua primeira conversa.
Introdução
Aprende sobre as quatro arquiteturas de modelo, capacidades multimodais nativas e opções de implementação da Google DeepMind.
Desempenho
Os modelos Gemma 4 formam uma fronteira de Pareto, oferecendo desempenho excecional relativamente ao seu tamanho. O modelo denso de 31B ocupa o 3.º lugar entre todos os modelos abertos na tabela de classificação Arena AI.
Os benchmarks oficiais demonstram desempenho competitivo com modelos muitas vezes maiores. O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026, enquanto o 26B MoE atinge qualidade semelhante com apenas 4B parâmetros ativos.


O modelo 31B alcança 89,2% no AIME 2026 e 85,2% no MMLU Pro, competindo com modelos acima de 100B parâmetros.
O desempenho de codificação atinge 80% no LiveCodeBench v6 e 2150 ELO no Codeforces, à frente de muitos modelos maiores.
As capacidades de visão incluem 76,9% no MMMU Pro e 85,6% no MATH-Vision, com forte OCR e compreensão de documentos.
Benchmarks Oficiais
Avaliação abrangente em tarefas de raciocínio, codificação, visão, áudio e contexto longo demonstra capacidades de classe fronteiriça.
| Benchmark | Gemma 4 31B Denso principal 31B | Gemma 4 26B A4B MoE (4B ativo) 26B | Gemma 4 E4B Modelo edge E4B | Gemma 4 E2B Ultra-compacto E2B |
|---|---|---|---|---|
MMLU Pro Conhecimento & raciocínio | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (sem ferramentas) Raciocínio matemático | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond Ciência de nível pós-graduado | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 Desempenho de codificação | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO Programação competitiva | 2150 | 1718 | 940 | 633 |
MMMU Pro Compreensão multimodal | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision Raciocínio matemático visual | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 OCR de documentos (distância de edição) | 0.131 | 0.149 | 0.181 | 0.290 |
Context Window Tokens máximos | 256K | 256K | 128K | 128K |
Audio Support Entrada de áudio nativa | No | No | Yes | Yes |
Todos os valores do cartão oficial do modelo Gemma 4 e blog do Hugging Face. Os benchmarks E2B e E4B demonstram eficiência excecional para a sua contagem de parâmetros.
Modelos Servidor
O modelo denso de 31B ocupa o 3.º lugar na tabela de classificação Arena AI com 89,2% no AIME 2026. O 26B MoE ativa apenas 4B parâmetros por token mantendo qualidade semelhante, ideal para cenários de alto débito.
Modelos Edge
Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, concebidos para implementação em Pixel, Chrome e navegador. Codificadores de áudio nativos permitem compreensão de fala em tempo real no dispositivo.
Arquitetura
O Gemma 4 introduz inovações arquiteturais que maximizam a eficiência. O PLE dá a cada camada de descodificador o seu próprio caminho de condicionamento, enquanto a cache KV partilhada reduz o uso de memória durante a geração de contexto longo.

Multimodal
Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão utiliza posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120) para compromissos velocidade-qualidade.

Implementação
Suporte desde o dia 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. E2B e E4B executam em navegadores com transformers.js, enquanto 31B e 26B destacam-se em hardware de servidor.

FAQ
Compreender as inovações técnicas do Gemma 4, desde Per-Layer Embeddings até processamento multimodal.
O Gemma 4 introduz suporte multimodal nativo (texto, imagem, vídeo, áudio), janelas de contexto alargadas (128K-256K), modos de pensamento configuráveis e chamada de funções integrada. A arquitetura utiliza Per-Layer Embeddings (PLE) para eficiência e cache KV partilhada para reduzir o uso de memória durante a geração de contexto longo.
E2B (2,3B efetivo) e E4B (4,5B efetivo) são concebidos para dispositivos edge, navegadores e móveis com suporte de áudio nativo. O 26B A4B é um modelo Mixture-of-Experts que ativa apenas 4B parâmetros por token, ideal para cenários de alto débito. O modelo denso de 31B é o principal para desempenho máximo em tarefas de raciocínio, codificação e visão.
Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão utiliza posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120 tokens) para compromissos velocidade-qualidade. E2B e E4B incluem codificadores de áudio conformer estilo USM para compreensão de fala. O vídeo é suportado em toda a família através do processamento de frames e faixas de áudio.
O PLE dá a cada camada de descodificador o seu próprio pequeno embedding para cada token, criando um caminho de condicionamento paralelo ao lado do fluxo residual principal. Isto permite que cada camada receba informação específica do token apenas quando relevante, em vez de empacotar tudo num único embedding inicial. Adiciona especialização significativa por camada a um custo modesto de parâmetros, tornando os modelos pequenos mais eficientes.
FAQ
Começar com o Gemma 4 em diferentes plataformas, da nuvem aos dispositivos edge.
Os modelos Gemma 4 estão disponíveis no Kaggle e Hugging Face sob licença Apache 2.0. Podes usá-los através do Google AI Studio, implementar no Vertex AI ou executar localmente com ferramentas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers e Mistral.rs. Checkpoints ONNX permitem implementação em navegador e dispositivos edge.
E2B requer ~9,6GB (BF16) a 3,2GB (4-bit) VRAM. E4B precisa de ~15GB (BF16) a 5GB (4-bit). O modelo 31B requer ~58GB (BF16) a 17GB (4-bit). O 26B MoE precisa de ~48GB (BF16) a 16GB (4-bit). Estes são apenas pesos base; adiciona memória para janela de contexto (cache KV) com base no teu caso de uso.
Sim. Os modelos E2B e E4B são especificamente concebidos para implementação em navegador e móvel. O transformers.js permite executar o Gemma 4 diretamente em navegadores com suporte WebGPU. Checkpoints ONNX funcionam em vários backends de hardware edge. Os modelos são otimizados para dispositivos Pixel e ambientes de navegador Chrome.
O Gemma 4 tem suporte integrado de chamada de funções sem necessitar de ajuste fino. Os modelos podem analisar definições de ferramentas, gerar chamadas JSON estruturadas e lidar com chamada de funções multimodal (por exemplo, analisar uma imagem e chamar uma API meteorológica). Isto alimenta agentes autónomos para tarefas como execução de código, navegação web e recuperação de dados.
FAQ
Como o Gemma 4 se compara a outros modelos e o que o torna competitivo para diferentes casos de uso.
O modelo 31B ocupa o 3.º lugar na tabela de classificação Arena AI entre modelos abertos, à frente do Llama 3.3 70B apesar de ter menos de metade do tamanho. Alcança 89,2% no raciocínio matemático AIME 2026, 85,2% no MMLU Pro e 80% no LiveCodeBench v6. A eficiência vem de inovações arquiteturais como padrões de atenção alternados e cache KV partilhada.
O modelo 26B A4B tem 26 mil milhões de parâmetros totais mas ativa apenas 4 mil milhões por token durante a geração. Todos os 26B parâmetros devem ser carregados na memória para encaminhamento rápido, mas o custo de inferência é mais próximo de um modelo de 4B. Isto alcança 88,3% no AIME 2026 e 82,6% no MMLU Pro com computação significativamente menor por token do que o modelo denso de 31B.
Sim. Os modelos pequenos suportam janelas de contexto de 128K, enquanto os modelos médios lidam com 256K tokens. A arquitetura utiliza configurações RoPE duplas (padrão para camadas deslizantes, podadas para camadas globais) para permitir contexto mais longo. A cache KV partilhada reduz o consumo de memória durante a geração de contexto longo, tornando prático processar bases de código inteiras e artigos de investigação.
O Gemma 4 é totalmente suportado no TRL (Transformer Reinforcement Learning), com exemplos para respostas de ferramentas multimodais e interação com ambiente. O Hugging Face fornece guias de ajuste fino para Vertex AI usando SFT. O Unsloth Studio oferece uma experiência de ajuste fino baseada em UI. Os modelos suportam métodos PEFT como LoRA para treino eficiente em parâmetros.