Gemma 4 E4B

4,5 bilhões de parâmetros de inteligência on-device com áudio nativo

Gemma 4 E4B concentra 4,5 bilhões de parâmetros efetivos em um modelo que roda em notebooks, celulares e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de ponta para o edge.

Variantes do modelo

Ajustado com instruções para implantação edge

Gemma 4 E4B usa Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, entregando alto desempenho a partir de uma arquitetura compacta.

Arquitetura Per-Layer Embeddings

4,5 bilhões de parâmetros efetivos, 8 bilhões no total com embeddings

Gemma 4 E4B usa PLE para dar a cada camada do decodificador seu próprio caminho de condicionamento. Com 42 camadas, um encoder de visão de ~150M e um encoder de áudio de ~300M, processa texto, imagens e áudio nativamente.

Ideal para implantação on-device, IA no navegador e aplicações focadas em privacidade onde os dados nunca saem do dispositivo do usuário.

Ajustado com instruções

E4B Instruct

Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device

Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio

Disponível agora

Pré-treinado

E4B Base

Modelo base para ajuste fino de aplicações edge e mobile

Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade

Disponível agora

Capacidades

Inteligência de desktop em hardware edge

Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.

Entrada de áudio nativa

O encoder de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos diretamente, sem necessidade de pipeline de transcrição.

Raciocínio avançado

Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.

Programação eficaz

52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas habilitam fluxos de trabalho agênticos on-device.

Janela de contexto de 128K

Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.

Compreensão visual

52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.

Roda em qualquer lugar

Roda em navegadores via WebGPU, em celulares via ONNX e em notebooks via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Destaques

Métricas de desempenho edge

Gemma 4 E4B entrega resultados sólidos em diversos benchmarks, tudo em hardware de consumo.

Principais conquistas

  • 69,4% no MMLU Pro em conhecimento e raciocínio
  • 52% no LiveCodeBench v6 em programação
  • 58,6% no GPQA Diamond em conhecimento científico
  • 52,6% no MMMU Pro em raciocínio multimodal
  • Janela de contexto de 128K tokens

Especificações técnicas

  • 4,5 bilhões de parâmetros efetivos (8 bilhões com embeddings)
  • 42 camadas de decodificador com Per-Layer Embeddings
  • Encoder de visão de ~150M + encoder de áudio de ~300M
  • Entrada nativa de texto, imagem, vídeo e áudio
  • 5,5-6 GB de VRAM com quantização de 4 bits

Desempenho

Desempenho muito acima da sua categoria

Gemma 4 E4B alcança 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 bilhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.

Gemma 4 E4B demonstra que modelos edge podem entregar desempenho significativo em raciocínio, programação e tarefas multimodais.

Gráfico comparativo de desempenho do Gemma 4 E4B

69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge

52% no LiveCodeBench v6 - assistência prática em programação on-device

58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação

52,6% no MMMU Pro - raciocínio multimodal com imagens

940 Codeforces ELO - capacidade de programação competitiva

Comparação de benchmarks

E4B versus a família Gemma 4 e Gemma 3

Gemma 4 E4B entrega desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.

Benchmark
Gemma 4 E4B IT
Thinking
Destaque
Gemma 4 E2B IT
Thinking
Gemma 4 31B IT
Thinking
Gemma 3 27B IT
MMLU Pro
Conhecimento e raciocínio
69.4%60.0%85.2%67.6%
AIME 2026
Matemática
Sem ferramentas
42.5%37.5%89.2%20.8%
GPQA Diamond
Conhecimento científico
58.6%43.4%84.3%42.4%
LiveCodeBench v6
Programação competitiva
52.0%44.0%80.0%29.1%
Codeforces ELO
Programação competitiva
9406332150-
MMMU Pro
Raciocínio multimodal
52.6%44.2%76.9%49.7%
MATH-Vision
Raciocínio matemático visual
59.5%52.4%85.6%-
Audio Support
Entrada de áudio nativa
SimSimNãoNão
Context Window
Tokens máximos
128K128K256K128K

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram eficiência excepcional para sua contagem de parâmetros.

Áudio nativo

Compreensão de fala sem pipeline de transcrição

Gemma 4 E4B inclui um encoder de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e receber respostas inteligentes.

  • Encoder de áudio conformer de ~300M de parâmetros integrado ao modelo
  • Processa clipes de áudio de até 30 segundos diretamente
  • Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade
Compreensão de fala sem pipeline de transcrição

Implantação edge

Do navegador ao celular e ao Raspberry Pi

Gemma 4 E4B foi projetado para implantação em qualquer lugar. Execute no Chrome com WebGPU via transformers.js, em celulares com ONNX ou em notebooks com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

  • Navegador: transformers.js com aceleração WebGPU no Chrome
  • Mobile: checkpoints ONNX para implantação em iOS e Android
  • Local: Ollama, llama.cpp, MLX para inferência privada on-device
Do navegador ao celular e ao Raspberry Pi

Visão e documentos

Compreensão de imagens e análise de documentos on-device

O encoder de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.

  • 52,6% no MMMU Pro em raciocínio multimodal
  • Resolução de imagem variável: de 70 a 1120 tokens por imagem
  • Análise de documentos, OCR, compreensão de gráficos on-device
Compreensão de imagens e análise de documentos on-device

Parte do Gemma 4

O modelo edge em uma família de ponta

Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.

Gemma 4 E2B

Modelo ultracompacto de 2,3 bilhões para as restrições de hardware mais exigentes

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima ao 31B a um custo de inferência de 4B

Saiba mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saiba mais

Documentação

Guias completos de integração e implantação

Ler documentação

Comunidade

Junte-se aos desenvolvedores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Para começar

Pronto para rodar IA on-device com o Gemma 4 E4B?

Comece a conversar de graça ou baixe o modelo para implantação privada on-device. Nenhum dado sai do seu dispositivo.