Gemma 4: Inteligência Multimodal de Fronteira que Você Pode Executar em Qualquer Lugar

Visão Geral

Quatro Modelos, Uma Família: Do Edge ao Desempenho de Nível Servidor

Lançado em 2 de abril de 2026 sob Apache 2.0, o Gemma 4 oferece inteligência multimodal de classe de fronteira em quatro arquiteturas. De modelos edge ultra-móveis de 2B à variante densa flagship de 31B, cada tamanho processa texto, imagens com resolução variável, vídeo e áudio nativamente.

Modelos Edge

Gemma 4 E2B & E4B: Inteligência no Dispositivo

Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, construídos para implantação em Pixel, Chrome e navegador com suporte nativo a áudio e contexto de 128K.

As variantes E2B e E4B usam Per-Layer Embeddings (PLE) para maximizar a eficiência de parâmetros. Elas suportam entradas de texto, imagem, vídeo e áudio nativamente, tornando-as ideais para aplicações no dispositivo focadas em privacidade.

Modelos Servidor

Gemma 4 31B Denso & 26B MoE: Desempenho de Fronteira

O modelo denso de 31B ocupa a 3ª posição no ranking do Arena AI com 89,2% no AIME 2026. O MoE de 26B ativa apenas 4B parâmetros por token mantendo qualidade similar.

Ambos os modelos apresentam janelas de contexto de 256K, chamada de função nativa e modos de pensamento configuráveis. O 31B alcança 85,2% no MMLU Pro e 80% no LiveCodeBench v6, competindo com modelos muitas vezes maiores.

Capacidades

Multimodal Nativo

Todos os modelos processam texto, imagens com proporções variáveis, vídeo e áudio nativamente. E2B e E4B incluem codificadores de áudio para compreensão de fala.

O codificador de visão usa posições 2D aprendidas e RoPE multidimensional, preservando proporções originais. Imagens podem ser codificadas em diferentes orçamentos de tokens (70, 140, 280, 560, 1120) para compensações ideais entre velocidade e qualidade.

Todos os Modelos

Arquitetura

Janelas de Contexto Estendidas

Modelos pequenos apresentam contexto de 128K, enquanto modelos médios suportam 256K. Configurações duplas de RoPE permitem processamento de contexto mais longo.

Camadas de atenção alternadas de janela deslizante local (512-1024 tokens) e contexto completo global otimizam o uso de memória. KV cache compartilhado reduz computação e memória para geração de contexto longo.

128K-256K

Recursos

Pensamento Configurável

Todos os modelos suportam modos de pensamento configuráveis para tarefas avançadas de raciocínio, com suporte nativo a prompt de sistema para conversas estruturadas.

O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026 e 84,3% no GPQA Diamond. Chamada de função integrada alimenta agentes autônomos sem ajuste fino.

Todos os Modelos

Desempenho

Poder de Codificação & Agentes

O modelo 31B pontua 80% no LiveCodeBench v6 e atinge 2150 ELO no Codeforces. O MoE de 26B alcança 77,1% com apenas 4B parâmetros ativos.

Melhorias notáveis em benchmarks de codificação junto com suporte integrado a chamada de função permitem agentes autônomos altamente capazes. Benchmark HLE mostra 19,5% sem ferramentas, 26,5% com busca.

Otimizado

Multimodal

Visão & Análise de Documentos

O modelo 31B alcança 76,9% no MMMU Pro e 85,6% no MATH-Vision. Distância de edição de 0,131 no OmniDocBench demonstra fortes capacidades de OCR.

Suporte a proporção variável e orçamentos configuráveis de tokens de imagem permitem processamento eficiente de documentos, diagramas e capturas de tela. O modelo E4B atinge 52,6% no MMMU Pro apesar de seu tamanho compacto.

Todos os Modelos

Integração

Implante em Qualquer Lugar

Suporte desde o dia zero para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. Checkpoints ONNX permitem implantação em dispositivos edge.

Licença Apache 2.0 permite uso comercial responsável. Disponível no Kaggle, Hugging Face e através do Google AI Studio. Compatível com ferramentas locais como Ollama para interações privadas e offline.

Open Source

Começar

Comece a Conversar com o Gemma 4 Hoje

Experimente os modelos multimodais de fronteira do Google DeepMind gratuitamente. Não é necessário cartão de crédito para iniciar sua primeira conversa.

Introdução

Assista: Introdução Oficial do Gemma 4

Aprenda sobre as quatro arquiteturas de modelo, capacidades multimodais nativas e opções de implantação do Google DeepMind.

Desempenho

Desempenho de Fronteira em Raciocínio, Codificação e Visão

Os modelos Gemma 4 formam uma fronteira de Pareto, oferecendo desempenho excepcional em relação ao seu tamanho. O modelo denso de 31B ocupa a 3ª posição entre todos os modelos abertos no ranking do Arena AI.

Benchmarks oficiais demonstram desempenho competitivo com modelos muitas vezes maiores. O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026, enquanto o MoE de 26B atinge qualidade similar com apenas 4B parâmetros ativos.

Comparação de desempenho do Gemma 4 entre tamanhos de modelo e benchmarks

O modelo 31B alcança 89,2% no AIME 2026 e 85,2% no MMLU Pro, competindo com modelos acima de 100B parâmetros.

Desempenho de codificação atinge 80% no LiveCodeBench v6 e 2150 ELO no Codeforces, à frente de muitos modelos maiores.

Capacidades de visão incluem 76,9% no MMMU Pro e 85,6% no MATH-Vision, com forte OCR e compreensão de documentos.

Benchmarks Oficiais

Desempenho do Gemma 4 em Tarefas Principais

Avaliação abrangente em tarefas de raciocínio, codificação, visão, áudio e contexto longo demonstra capacidades de classe de fronteira.

Benchmark
Gemma 4 31B
Flagship denso
31B
Gemma 4 26B A4B
MoE (4B ativo)
26B
Gemma 4 E4B
Modelo edge
E4B
Gemma 4 E2B
Ultra-compacto
E2B
MMLU Pro
Conhecimento & raciocínio
85.2%82.6%69.4%60.0%
AIME 2026 (sem ferramentas)
Raciocínio matemático
89.2%88.3%42.5%37.5%
GPQA Diamond
Ciência nível pós-graduação
84.3%82.3%58.6%43.4%
LiveCodeBench v6
Desempenho de codificação
80.0%77.1%52.0%44.0%
Codeforces ELO
Programação competitiva
21501718940633
MMMU Pro
Compreensão multimodal
76.9%73.8%52.6%44.2%
MATH-Vision
Raciocínio matemático visual
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR de documentos (distância de edição)
0.1310.1490.1810.290
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Entrada de áudio nativa
NoNoYesYes

Todos os números dos cartões oficiais do modelo Gemma 4 e blog do Hugging Face. Benchmarks E2B e E4B demonstram eficiência excepcional para sua contagem de parâmetros.

Modelos Servidor

31B Denso & 26B MoE: Desempenho de Fronteira para Produção

O modelo denso de 31B ocupa a 3ª posição no ranking do Arena AI com 89,2% no AIME 2026. O MoE de 26B ativa apenas 4B parâmetros por token mantendo qualidade similar, ideal para cenários de alto throughput.

  • 31B Denso: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
  • 26B MoE (4B ativo): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
  • Janelas de contexto de 256K com configurações duplas de RoPE para processamento eficiente de contexto longo

Modelos Edge

E2B & E4B: Inteligência no Dispositivo com Suporte a Áudio

Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, projetados para implantação em Pixel, Chrome e navegador. Codificadores de áudio nativos permitem compreensão de fala em tempo real no dispositivo.

  • E2B (2,3B efetivo, 5,1B com embeddings): 60% MMLU Pro, 44% LiveCodeBench, contexto 128K
  • E4B (4,5B efetivo, 8B com embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, contexto 128K
  • Per-Layer Embeddings (PLE) maximizam eficiência de parâmetros para implantação edge

Arquitetura

Per-Layer Embeddings e KV Cache Compartilhado

O Gemma 4 introduz inovações arquiteturais que maximizam a eficiência. PLE dá a cada camada decodificadora seu próprio caminho de condicionamento, enquanto o KV cache compartilhado reduz o uso de memória durante a geração de contexto longo.

  • Per-Layer Embeddings adicionam especialização significativa com custo modesto de parâmetros
  • KV cache compartilhado: últimas N camadas reutilizam estados chave-valor, eliminando projeções redundantes
  • Atenção alternada de janela deslizante local e contexto completo global para uso ideal de memória
Comparação de desempenho da arquitetura Gemma 4

Multimodal

Compreensão Nativa de Imagem, Vídeo e Áudio

Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão usa posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120) para compensações de velocidade-qualidade.

  • Suporte a proporção variável preserva dimensões originais da imagem
  • Orçamentos configuráveis de tokens de imagem: 70, 140, 280, 560, 1120 tokens
  • E2B e E4B incluem codificadores de áudio conformer estilo USM para processamento de fala
Desempenho de benchmark multimodal do Gemma 4

Implantação

Implante em Qualquer Lugar: Navegador, Local ou Nuvem

Suporte desde o dia zero para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. E2B e E4B rodam em navegadores com transformers.js, enquanto 31B e 26B se destacam em hardware de servidor.

  • Navegador: transformers.js permite E2B/E4B no Chrome com aceleração WebGPU
  • Local: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs para inferência privada
  • Nuvem: Google AI Studio, Vertex AI ou auto-hospedado com vLLM e TGI
Opções de implantação e desempenho do Gemma 4

FAQ

Arquitetura e Capacidades do Modelo

Compreendendo as inovações técnicas do Gemma 4, de Per-Layer Embeddings ao processamento multimodal.

O que torna o Gemma 4 diferente das versões anteriores do Gemma?

O Gemma 4 introduz suporte multimodal nativo (texto, imagem, vídeo, áudio), janelas de contexto estendidas (128K-256K), modos de pensamento configuráveis e chamada de função integrada. A arquitetura usa Per-Layer Embeddings (PLE) para eficiência e KV cache compartilhado para reduzir o uso de memória durante a geração de contexto longo.

Quais são os quatro tamanhos de modelo Gemma 4 e quando devo usar cada um?

E2B (2,3B efetivo) e E4B (4,5B efetivo) são projetados para dispositivos edge, navegadores e celular com suporte nativo a áudio. O 26B A4B é um modelo Mixture-of-Experts ativando apenas 4B parâmetros por token, ideal para cenários de alto throughput. O modelo denso de 31B é o flagship para desempenho máximo em tarefas de raciocínio, codificação e visão.

Como o Gemma 4 lida com entradas multimodais?

Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão usa posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120 tokens) para compensações de velocidade-qualidade. E2B e E4B incluem codificadores de áudio conformer estilo USM para compreensão de fala. Vídeo é suportado em toda a família processando quadros e faixas de áudio.

O que é Per-Layer Embeddings (PLE) e por que isso importa?

PLE dá a cada camada decodificadora seu próprio pequeno embedding para cada token, criando um caminho de condicionamento paralelo ao lado do fluxo residual principal. Isso permite que cada camada receba informações específicas do token apenas quando relevante, em vez de empacotar tudo em um único embedding inicial. Adiciona especialização significativa por camada com custo modesto de parâmetros, tornando modelos pequenos mais eficientes.

FAQ

Implantação e Integração

Começando com o Gemma 4 em diferentes plataformas, da nuvem a dispositivos edge.

Onde posso baixar e executar os modelos Gemma 4?

Os modelos Gemma 4 estão disponíveis no Kaggle e Hugging Face sob licença Apache 2.0. Você pode usá-los através do Google AI Studio, implantar no Vertex AI ou executar localmente com ferramentas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers e Mistral.rs. Checkpoints ONNX permitem implantação em navegador e dispositivos edge.

Quais são os requisitos de hardware para executar o Gemma 4?

E2B requer ~9,6GB (BF16) a 3,2GB (4-bit) de VRAM. E4B precisa de ~15GB (BF16) a 5GB (4-bit). O modelo 31B requer ~58GB (BF16) a 17GB (4-bit). O MoE de 26B precisa de ~48GB (BF16) a 16GB (4-bit). Estes são apenas pesos base; adicione memória para janela de contexto (KV cache) com base no seu caso de uso.

Posso executar o Gemma 4 no navegador ou em dispositivos móveis?

Sim. Os modelos E2B e E4B são especificamente projetados para implantação em navegador e celular. transformers.js permite executar o Gemma 4 diretamente em navegadores com suporte WebGPU. Checkpoints ONNX funcionam em vários backends de hardware edge. Os modelos são otimizados para dispositivos Pixel e ambientes de navegador Chrome.

Como uso o Gemma 4 com chamada de função e agentes?

O Gemma 4 tem suporte integrado a chamada de função sem exigir ajuste fino. Os modelos podem analisar definições de ferramentas, gerar chamadas JSON estruturadas e lidar com chamada de função multimodal (por exemplo, analisar uma imagem e chamar uma API de clima). Isso alimenta agentes autônomos para tarefas como execução de código, navegação web e recuperação de dados.

FAQ

Desempenho e Comparações

Como o Gemma 4 se compara a outros modelos e o que o torna competitivo para diferentes casos de uso.

Como o Gemma 4 31B se compara a modelos maiores como Llama 3.3 70B?

O modelo 31B ocupa a 3ª posição no ranking do Arena AI entre modelos abertos, à frente do Llama 3.3 70B apesar de ter menos da metade do tamanho. Alcança 89,2% no raciocínio matemático AIME 2026, 85,2% no MMLU Pro e 80% no LiveCodeBench v6. A eficiência vem de inovações arquiteturais como padrões de atenção alternados e KV cache compartilhado.

O que é a arquitetura Mixture-of-Experts (MoE) no modelo 26B?

O modelo 26B A4B tem 26 bilhões de parâmetros totais, mas ativa apenas 4 bilhões por token durante a geração. Todos os 26B parâmetros devem ser carregados na memória para roteamento rápido, mas o custo de inferência é mais próximo de um modelo 4B. Isso alcança 88,3% no AIME 2026 e 82,6% no MMLU Pro com computação significativamente menor por token do que o modelo denso de 31B.

O Gemma 4 pode lidar com documentos longos e contexto estendido?

Sim. Modelos pequenos suportam janelas de contexto de 128K, enquanto modelos médios lidam com 256K tokens. A arquitetura usa configurações duplas de RoPE (padrão para camadas deslizantes, podado para camadas globais) para permitir contexto mais longo. KV cache compartilhado reduz o consumo de memória durante a geração de contexto longo, tornando prático processar bases de código inteiras e artigos de pesquisa.

Onde posso encontrar exemplos de ajuste fino e recursos de treinamento?

O Gemma 4 é totalmente suportado no TRL (Transformer Reinforcement Learning), com exemplos para respostas de ferramentas multimodais e interação com ambiente. O Hugging Face fornece guias de ajuste fino para Vertex AI usando SFT. O Unsloth Studio oferece uma experiência de ajuste fino baseada em UI. Os modelos suportam métodos PEFT como LoRA para treinamento eficiente em parâmetros.