Gemma 4 E4B

4,5 mil milhões de parâmetros de inteligência on-device com áudio nativo

Gemma 4 E4B concentra 4,5 mil milhões de parâmetros efetivos num modelo que funciona em portáteis, telemóveis e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de vanguarda para o edge.

Variantes do modelo

Ajustado com instruções para implementação edge

Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, proporcionando um desempenho sólido a partir de uma arquitetura compacta.

Arquitetura Per-Layer Embeddings

4,5 mil milhões de parâmetros efetivos, 8 mil milhões no total com embeddings

Gemma 4 E4B utiliza PLE para dar a cada camada do descodificador o seu próprio caminho de condicionamento. Com 42 camadas, um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente.

Ideal para implementação on-device, IA no navegador e aplicações focadas na privacidade onde os dados nunca saem do dispositivo do utilizador.

Ajustado com instruções

E4B Instruct

Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device

Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio

Disponível agora

Pré-treinado

E4B Base

Modelo base para ajuste fino de aplicações edge e móveis

Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade

Disponível agora

Capacidades

Inteligência de secretária em hardware edge

Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.

Entrada de áudio nativa

O codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos diretamente, sem necessidade de pipeline de transcrição.

Raciocínio avançado

Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.

Programação eficaz

52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas permitem fluxos de trabalho agênticos on-device.

Janela de contexto de 128K

Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.

Compreensão visual

52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.

Funciona em qualquer lugar

Funciona em navegadores via WebGPU, em telemóveis via ONNX e em portáteis via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Destaques

Métricas de desempenho edge

Gemma 4 E4B apresenta resultados sólidos em diversos benchmarks, tudo em hardware de consumo.

Principais conquistas

  • 69,4% no MMLU Pro em conhecimento e raciocínio
  • 52% no LiveCodeBench v6 em programação
  • 58,6% no GPQA Diamond em conhecimento científico
  • 52,6% no MMMU Pro em raciocínio multimodal
  • Janela de contexto de 128K tokens

Especificações técnicas

  • 4,5 mil milhões de parâmetros efetivos (8 mil milhões com embeddings)
  • 42 camadas de descodificador com Per-Layer Embeddings
  • Codificador de visão de ~150M + codificador de áudio de ~300M
  • Entrada nativa de texto, imagem, vídeo e áudio
  • 5,5-6 GB de VRAM com quantização de 4 bits

Desempenho

Desempenho muito acima da sua categoria

Gemma 4 E4B atinge 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 mil milhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.

Gemma 4 E4B demonstra que os modelos edge podem proporcionar um desempenho significativo em raciocínio, programação e tarefas multimodais.

Gráfico comparativo de desempenho do Gemma 4 E4B

69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge

52% no LiveCodeBench v6 - assistência prática em programação on-device

58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação

52,6% no MMMU Pro - raciocínio multimodal com imagens

940 Codeforces ELO - capacidade de programação competitiva

Comparação de benchmarks

E4B versus a família Gemma 4 e Gemma 3

Gemma 4 E4B proporciona um desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.

Benchmark
Gemma 4 E4B IT
Thinking
Destaque
Gemma 4 E2B IT
Thinking
Gemma 4 31B IT
Thinking
Gemma 3 27B IT
MMLU Pro
Conhecimento e raciocínio
69.4%60.0%85.2%67.6%
AIME 2026
Matemática
Sem ferramentas
42.5%37.5%89.2%20.8%
GPQA Diamond
Conhecimento científico
58.6%43.4%84.3%42.4%
LiveCodeBench v6
Programação competitiva
52.0%44.0%80.0%29.1%
Codeforces ELO
Programação competitiva
9406332150-
MMMU Pro
Raciocínio multimodal
52.6%44.2%76.9%49.7%
MATH-Vision
Raciocínio matemático visual
59.5%52.4%85.6%-
Audio Support
Entrada de áudio nativa
SimSimNãoNão
Context Window
Tokens máximos
128K128K256K128K

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram uma eficiência excecional para a sua contagem de parâmetros.

Áudio nativo

Compreensão de fala sem pipeline de transcrição

Gemma 4 E4B inclui um codificador de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e obter respostas inteligentes.

  • Codificador de áudio conformer de ~300M de parâmetros integrado no modelo
  • Processa clipes de áudio até 30 segundos diretamente
  • Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade
Compreensão de fala sem pipeline de transcrição

Implementação edge

Do navegador ao telemóvel e ao Raspberry Pi

Gemma 4 E4B foi concebido para implementação em qualquer lugar. Execute-o no Chrome com WebGPU via transformers.js, em telemóveis com ONNX ou em portáteis com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

  • Navegador: transformers.js com aceleração WebGPU no Chrome
  • Móvel: checkpoints ONNX para implementação em iOS e Android
  • Local: Ollama, llama.cpp, MLX para inferência privada on-device
Do navegador ao telemóvel e ao Raspberry Pi

Visão e documentos

Compreensão de imagens e análise de documentos on-device

O codificador de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.

  • 52,6% no MMMU Pro em raciocínio multimodal
  • Resolução de imagem variável: de 70 a 1120 tokens por imagem
  • Análise de documentos, OCR, compreensão de gráficos on-device
Compreensão de imagens e análise de documentos on-device

Parte do Gemma 4

O modelo edge numa família de vanguarda

Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.

Gemma 4 E2B

Modelo ultracompacto de 2,3 mil milhões para as restrições de hardware mais exigentes

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima do 31B a um custo de inferência de 4B

Saber mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saber mais

Documentação

Guias completos de integração e implementação

Ler documentação

Comunidade

Junte-se aos programadores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Para começar

Pronto para executar IA on-device com o Gemma 4 E4B?

Comece a conversar gratuitamente ou transfira o modelo para implementação privada on-device. Nenhum dado sai do seu dispositivo.