Gemma 4: Inteligência Multimodal de Fronteira que Podes Executar em Qualquer Lugar

Visão Geral

Quatro Modelos, Uma Família: Do Edge ao Desempenho de Nível Servidor

Lançado a 2 de abril de 2026 sob licença Apache 2.0, o Gemma 4 oferece inteligência multimodal de classe fronteiriça através de quatro arquiteturas. Desde modelos edge ultra-móveis de 2B até à variante densa principal de 31B, cada tamanho processa texto, imagens com resolução variável, vídeo e áudio nativamente.

Modelos Edge

Gemma 4 E2B & E4B: Inteligência no Dispositivo

Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, construídos para implementação em Pixel, Chrome e navegador com suporte de áudio nativo e contexto de 128K.

As variantes E2B e E4B utilizam Per-Layer Embeddings (PLE) para maximizar a eficiência de parâmetros. Suportam entradas de texto, imagem, vídeo e áudio nativamente, tornando-os ideais para aplicações no dispositivo focadas na privacidade.

Modelos Servidor

Gemma 4 31B Denso & 26B MoE: Desempenho de Fronteira

O modelo denso de 31B ocupa o 3.º lugar na tabela de classificação Arena AI com 89,2% no AIME 2026. O 26B MoE ativa apenas 4B parâmetros por token mantendo qualidade semelhante.

Ambos os modelos apresentam janelas de contexto de 256K, chamada de funções nativa e modos de pensamento configuráveis. O 31B alcança 85,2% no MMLU Pro e 80% no LiveCodeBench v6, competindo com modelos muitas vezes maiores.

Capacidades

Multimodal Nativo

Todos os modelos processam texto, imagens com proporções variáveis, vídeo e áudio nativamente. E2B e E4B incluem codificadores de áudio para compreensão de fala.

O codificador de visão utiliza posições 2D aprendidas e RoPE multidimensional, preservando as proporções originais. As imagens podem ser codificadas em diferentes orçamentos de tokens (70, 140, 280, 560, 1120) para compromissos ideais entre velocidade e qualidade.

Todos os Modelos

Arquitetura

Janelas de Contexto Alargadas

Os modelos pequenos apresentam contexto de 128K, enquanto os modelos médios suportam 256K. Configurações RoPE duplas permitem processamento de contexto mais longo.

Camadas de atenção alternadas de janela deslizante local (512-1024 tokens) e contexto completo global otimizam o uso de memória. A cache KV partilhada reduz computação e memória para geração de contexto longo.

128K-256K

Funcionalidades

Pensamento Configurável

Todos os modelos suportam modos de pensamento configuráveis para tarefas de raciocínio avançado, com suporte nativo de prompt de sistema para conversas estruturadas.

O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026 e 84,3% no GPQA Diamond. A chamada de funções integrada alimenta agentes autónomos sem ajuste fino.

Todos os Modelos

Desempenho

Poder de Codificação & Agentes

O modelo 31B obtém 80% no LiveCodeBench v6 e atinge 2150 ELO no Codeforces. O 26B MoE alcança 77,1% com apenas 4B parâmetros ativos.

Melhorias notáveis em benchmarks de codificação juntamente com suporte integrado de chamada de funções permitem agentes autónomos altamente capazes. O benchmark HLE mostra 19,5% sem ferramentas, 26,5% com pesquisa.

Otimizado

Multimodal

Visão & Análise de Documentos

O modelo 31B alcança 76,9% no MMMU Pro e 85,6% no MATH-Vision. A distância de edição OmniDocBench de 0,131 demonstra fortes capacidades de OCR.

O suporte de proporção variável e orçamentos de tokens de imagem configuráveis permitem processamento eficiente de documentos, diagramas e capturas de ecrã. O modelo E4B atinge 52,6% no MMMU Pro apesar do seu tamanho compacto.

Todos os Modelos

Integração

Implementar em Qualquer Lugar

Suporte desde o dia 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. Checkpoints ONNX permitem implementação em dispositivos edge.

A licença Apache 2.0 permite uso comercial responsável. Disponível no Kaggle, Hugging Face e através do Google AI Studio. Compatível com ferramentas locais como Ollama para interações privadas e offline.

Open Source

Começar

Começa a Conversar com o Gemma 4 Hoje

Experimenta os modelos multimodais de fronteira da Google DeepMind gratuitamente. Não é necessário cartão de crédito para iniciar a tua primeira conversa.

Introdução

Ver: Introdução Oficial ao Gemma 4

Aprende sobre as quatro arquiteturas de modelo, capacidades multimodais nativas e opções de implementação da Google DeepMind.

Desempenho

Desempenho de Fronteira em Raciocínio, Codificação e Visão

Os modelos Gemma 4 formam uma fronteira de Pareto, oferecendo desempenho excecional relativamente ao seu tamanho. O modelo denso de 31B ocupa o 3.º lugar entre todos os modelos abertos na tabela de classificação Arena AI.

Os benchmarks oficiais demonstram desempenho competitivo com modelos muitas vezes maiores. O modelo 31B alcança 89,2% no raciocínio matemático AIME 2026, enquanto o 26B MoE atinge qualidade semelhante com apenas 4B parâmetros ativos.

Comparação de desempenho do Gemma 4 entre tamanhos de modelo e benchmarks

O modelo 31B alcança 89,2% no AIME 2026 e 85,2% no MMLU Pro, competindo com modelos acima de 100B parâmetros.

O desempenho de codificação atinge 80% no LiveCodeBench v6 e 2150 ELO no Codeforces, à frente de muitos modelos maiores.

As capacidades de visão incluem 76,9% no MMMU Pro e 85,6% no MATH-Vision, com forte OCR e compreensão de documentos.

Benchmarks Oficiais

Desempenho do Gemma 4 em Tarefas-Chave

Avaliação abrangente em tarefas de raciocínio, codificação, visão, áudio e contexto longo demonstra capacidades de classe fronteiriça.

Benchmark
Gemma 4 31B
Denso principal
31B
Gemma 4 26B A4B
MoE (4B ativo)
26B
Gemma 4 E4B
Modelo edge
E4B
Gemma 4 E2B
Ultra-compacto
E2B
MMLU Pro
Conhecimento & raciocínio
85.2%82.6%69.4%60.0%
AIME 2026 (sem ferramentas)
Raciocínio matemático
89.2%88.3%42.5%37.5%
GPQA Diamond
Ciência de nível pós-graduado
84.3%82.3%58.6%43.4%
LiveCodeBench v6
Desempenho de codificação
80.0%77.1%52.0%44.0%
Codeforces ELO
Programação competitiva
21501718940633
MMMU Pro
Compreensão multimodal
76.9%73.8%52.6%44.2%
MATH-Vision
Raciocínio matemático visual
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR de documentos (distância de edição)
0.1310.1490.1810.290
Context Window
Tokens máximos
256K256K128K128K
Audio Support
Entrada de áudio nativa
NoNoYesYes

Todos os valores do cartão oficial do modelo Gemma 4 e blog do Hugging Face. Os benchmarks E2B e E4B demonstram eficiência excecional para a sua contagem de parâmetros.

Modelos Servidor

31B Denso & 26B MoE: Desempenho de Fronteira para Produção

O modelo denso de 31B ocupa o 3.º lugar na tabela de classificação Arena AI com 89,2% no AIME 2026. O 26B MoE ativa apenas 4B parâmetros por token mantendo qualidade semelhante, ideal para cenários de alto débito.

  • 31B Denso: 89,2% AIME 2026, 85,2% MMLU Pro, 80% LiveCodeBench v6, 2150 ELO Codeforces
  • 26B MoE (4B ativo): 88,3% AIME 2026, 82,6% MMLU Pro, 77,1% LiveCodeBench v6
  • Janelas de contexto de 256K com configurações RoPE duplas para processamento eficiente de contexto longo

Modelos Edge

E2B & E4B: Inteligência no Dispositivo com Suporte de Áudio

Modelos ultra-compactos com 2,3B e 4,5B parâmetros efetivos, concebidos para implementação em Pixel, Chrome e navegador. Codificadores de áudio nativos permitem compreensão de fala em tempo real no dispositivo.

  • E2B (2,3B efetivo, 5,1B com embeddings): 60% MMLU Pro, 44% LiveCodeBench, contexto 128K
  • E4B (4,5B efetivo, 8B com embeddings): 69,4% MMLU Pro, 52% LiveCodeBench, contexto 128K
  • Per-Layer Embeddings (PLE) maximizam a eficiência de parâmetros para implementação edge

Arquitetura

Per-Layer Embeddings e Cache KV Partilhada

O Gemma 4 introduz inovações arquiteturais que maximizam a eficiência. O PLE dá a cada camada de descodificador o seu próprio caminho de condicionamento, enquanto a cache KV partilhada reduz o uso de memória durante a geração de contexto longo.

  • Per-Layer Embeddings adicionam especialização significativa a um custo modesto de parâmetros
  • Cache KV partilhada: as últimas N camadas reutilizam estados chave-valor, eliminando projeções redundantes
  • Atenção alternada de janela deslizante local e contexto completo global para uso ideal de memória
Comparação de desempenho da arquitetura Gemma 4

Multimodal

Compreensão Nativa de Imagem, Vídeo e Áudio

Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão utiliza posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120) para compromissos velocidade-qualidade.

  • Suporte de proporção variável preserva as dimensões originais da imagem
  • Orçamentos de tokens de imagem configuráveis: 70, 140, 280, 560, 1120 tokens
  • E2B e E4B incluem codificadores de áudio conformer estilo USM para processamento de fala
Desempenho de benchmark multimodal do Gemma 4

Implementação

Implementar em Qualquer Lugar: Navegador, Local ou Nuvem

Suporte desde o dia 0 para transformers, llama.cpp, MLX, WebGPU, Mistral.rs e mais. E2B e E4B executam em navegadores com transformers.js, enquanto 31B e 26B destacam-se em hardware de servidor.

  • Navegador: transformers.js permite E2B/E4B no Chrome com aceleração WebGPU
  • Local: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs para inferência privada
  • Nuvem: Google AI Studio, Vertex AI ou auto-hospedado com vLLM e TGI
Opções de implementação e desempenho do Gemma 4

FAQ

Arquitetura e Capacidades do Modelo

Compreender as inovações técnicas do Gemma 4, desde Per-Layer Embeddings até processamento multimodal.

O que torna o Gemma 4 diferente das versões anteriores do Gemma?

O Gemma 4 introduz suporte multimodal nativo (texto, imagem, vídeo, áudio), janelas de contexto alargadas (128K-256K), modos de pensamento configuráveis e chamada de funções integrada. A arquitetura utiliza Per-Layer Embeddings (PLE) para eficiência e cache KV partilhada para reduzir o uso de memória durante a geração de contexto longo.

Quais são os quatro tamanhos de modelo Gemma 4 e quando devo usar cada um?

E2B (2,3B efetivo) e E4B (4,5B efetivo) são concebidos para dispositivos edge, navegadores e móveis com suporte de áudio nativo. O 26B A4B é um modelo Mixture-of-Experts que ativa apenas 4B parâmetros por token, ideal para cenários de alto débito. O modelo denso de 31B é o principal para desempenho máximo em tarefas de raciocínio, codificação e visão.

Como é que o Gemma 4 lida com entradas multimodais?

Todos os modelos processam texto e imagens com proporções variáveis nativamente. O codificador de visão utiliza posições 2D aprendidas e pode codificar imagens em diferentes orçamentos de tokens (70-1120 tokens) para compromissos velocidade-qualidade. E2B e E4B incluem codificadores de áudio conformer estilo USM para compreensão de fala. O vídeo é suportado em toda a família através do processamento de frames e faixas de áudio.

O que é Per-Layer Embeddings (PLE) e porque é importante?

O PLE dá a cada camada de descodificador o seu próprio pequeno embedding para cada token, criando um caminho de condicionamento paralelo ao lado do fluxo residual principal. Isto permite que cada camada receba informação específica do token apenas quando relevante, em vez de empacotar tudo num único embedding inicial. Adiciona especialização significativa por camada a um custo modesto de parâmetros, tornando os modelos pequenos mais eficientes.

FAQ

Implementação e Integração

Começar com o Gemma 4 em diferentes plataformas, da nuvem aos dispositivos edge.

Onde posso descarregar e executar os modelos Gemma 4?

Os modelos Gemma 4 estão disponíveis no Kaggle e Hugging Face sob licença Apache 2.0. Podes usá-los através do Google AI Studio, implementar no Vertex AI ou executar localmente com ferramentas como Ollama, llama.cpp, MLX (para Apple Silicon), transformers e Mistral.rs. Checkpoints ONNX permitem implementação em navegador e dispositivos edge.

Quais são os requisitos de hardware para executar o Gemma 4?

E2B requer ~9,6GB (BF16) a 3,2GB (4-bit) VRAM. E4B precisa de ~15GB (BF16) a 5GB (4-bit). O modelo 31B requer ~58GB (BF16) a 17GB (4-bit). O 26B MoE precisa de ~48GB (BF16) a 16GB (4-bit). Estes são apenas pesos base; adiciona memória para janela de contexto (cache KV) com base no teu caso de uso.

Posso executar o Gemma 4 no navegador ou em dispositivos móveis?

Sim. Os modelos E2B e E4B são especificamente concebidos para implementação em navegador e móvel. O transformers.js permite executar o Gemma 4 diretamente em navegadores com suporte WebGPU. Checkpoints ONNX funcionam em vários backends de hardware edge. Os modelos são otimizados para dispositivos Pixel e ambientes de navegador Chrome.

Como uso o Gemma 4 com chamada de funções e agentes?

O Gemma 4 tem suporte integrado de chamada de funções sem necessitar de ajuste fino. Os modelos podem analisar definições de ferramentas, gerar chamadas JSON estruturadas e lidar com chamada de funções multimodal (por exemplo, analisar uma imagem e chamar uma API meteorológica). Isto alimenta agentes autónomos para tarefas como execução de código, navegação web e recuperação de dados.

FAQ

Desempenho e Comparações

Como o Gemma 4 se compara a outros modelos e o que o torna competitivo para diferentes casos de uso.

Como é que o Gemma 4 31B se compara a modelos maiores como o Llama 3.3 70B?

O modelo 31B ocupa o 3.º lugar na tabela de classificação Arena AI entre modelos abertos, à frente do Llama 3.3 70B apesar de ter menos de metade do tamanho. Alcança 89,2% no raciocínio matemático AIME 2026, 85,2% no MMLU Pro e 80% no LiveCodeBench v6. A eficiência vem de inovações arquiteturais como padrões de atenção alternados e cache KV partilhada.

O que é a arquitetura Mixture-of-Experts (MoE) no modelo 26B?

O modelo 26B A4B tem 26 mil milhões de parâmetros totais mas ativa apenas 4 mil milhões por token durante a geração. Todos os 26B parâmetros devem ser carregados na memória para encaminhamento rápido, mas o custo de inferência é mais próximo de um modelo de 4B. Isto alcança 88,3% no AIME 2026 e 82,6% no MMLU Pro com computação significativamente menor por token do que o modelo denso de 31B.

O Gemma 4 pode lidar com documentos longos e contexto alargado?

Sim. Os modelos pequenos suportam janelas de contexto de 128K, enquanto os modelos médios lidam com 256K tokens. A arquitetura utiliza configurações RoPE duplas (padrão para camadas deslizantes, podadas para camadas globais) para permitir contexto mais longo. A cache KV partilhada reduz o consumo de memória durante a geração de contexto longo, tornando prático processar bases de código inteiras e artigos de investigação.

Onde posso encontrar exemplos de ajuste fino e recursos de treino?

O Gemma 4 é totalmente suportado no TRL (Transformer Reinforcement Learning), com exemplos para respostas de ferramentas multimodais e interação com ambiente. O Hugging Face fornece guias de ajuste fino para Vertex AI usando SFT. O Unsloth Studio oferece uma experiência de ajuste fino baseada em UI. Os modelos suportam métodos PEFT como LoRA para treino eficiente em parâmetros.