Gemma 4 E4B
4,5 mil milhões de parâmetros de inteligência on-device com áudio nativo
Gemma 4 E4B concentra 4,5 mil milhões de parâmetros efetivos num modelo que funciona em portáteis, telemóveis e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de vanguarda para o edge.
Variantes do modelo
Ajustado com instruções para implementação edge
Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, proporcionando um desempenho sólido a partir de uma arquitetura compacta.
Arquitetura Per-Layer Embeddings
4,5 mil milhões de parâmetros efetivos, 8 mil milhões no total com embeddings
Gemma 4 E4B utiliza PLE para dar a cada camada do descodificador o seu próprio caminho de condicionamento. Com 42 camadas, um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente.
Ideal para implementação on-device, IA no navegador e aplicações focadas na privacidade onde os dados nunca saem do dispositivo do utilizador.
Ajustado com instruções
E4B Instruct
Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device
Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio
Pré-treinado
E4B Base
Modelo base para ajuste fino de aplicações edge e móveis
Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade
Capacidades
Inteligência de secretária em hardware edge
Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.
Entrada de áudio nativa
O codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos diretamente, sem necessidade de pipeline de transcrição.
Raciocínio avançado
Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.
Programação eficaz
52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas permitem fluxos de trabalho agênticos on-device.
Janela de contexto de 128K
Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.
Compreensão visual
52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.
Funciona em qualquer lugar
Funciona em navegadores via WebGPU, em telemóveis via ONNX e em portáteis via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.
Destaques
Métricas de desempenho edge
Gemma 4 E4B apresenta resultados sólidos em diversos benchmarks, tudo em hardware de consumo.
Principais conquistas
- 69,4% no MMLU Pro em conhecimento e raciocínio
- 52% no LiveCodeBench v6 em programação
- 58,6% no GPQA Diamond em conhecimento científico
- 52,6% no MMMU Pro em raciocínio multimodal
- Janela de contexto de 128K tokens
Especificações técnicas
- 4,5 mil milhões de parâmetros efetivos (8 mil milhões com embeddings)
- 42 camadas de descodificador com Per-Layer Embeddings
- Codificador de visão de ~150M + codificador de áudio de ~300M
- Entrada nativa de texto, imagem, vídeo e áudio
- 5,5-6 GB de VRAM com quantização de 4 bits
Desempenho
Desempenho muito acima da sua categoria
Gemma 4 E4B atinge 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 mil milhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.
Gemma 4 E4B demonstra que os modelos edge podem proporcionar um desempenho significativo em raciocínio, programação e tarefas multimodais.


69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge
52% no LiveCodeBench v6 - assistência prática em programação on-device
58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação
52,6% no MMMU Pro - raciocínio multimodal com imagens
940 Codeforces ELO - capacidade de programação competitiva
Comparação de benchmarks
E4B versus a família Gemma 4 e Gemma 3
Gemma 4 E4B proporciona um desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.
| Benchmark | Gemma 4 E4B IT Thinking Destaque | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Conhecimento e raciocínio | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 Matemática Sem ferramentas | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond Conhecimento científico | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 Programação competitiva | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO Programação competitiva | 940 | 633 | 2150 | - |
MMMU Pro Raciocínio multimodal | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision Raciocínio matemático visual | 59.5% | 52.4% | 85.6% | - |
Audio Support Entrada de áudio nativa | Sim | Sim | Não | Não |
Context Window Tokens máximos | 128K | 128K | 256K | 128K |
Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram uma eficiência excecional para a sua contagem de parâmetros.
Áudio nativo
Compreensão de fala sem pipeline de transcrição
Gemma 4 E4B inclui um codificador de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e obter respostas inteligentes.
- Codificador de áudio conformer de ~300M de parâmetros integrado no modelo
- Processa clipes de áudio até 30 segundos diretamente
- Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade
Implementação edge
Do navegador ao telemóvel e ao Raspberry Pi
Gemma 4 E4B foi concebido para implementação em qualquer lugar. Execute-o no Chrome com WebGPU via transformers.js, em telemóveis com ONNX ou em portáteis com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.
- Navegador: transformers.js com aceleração WebGPU no Chrome
- Móvel: checkpoints ONNX para implementação em iOS e Android
- Local: Ollama, llama.cpp, MLX para inferência privada on-device
Visão e documentos
Compreensão de imagens e análise de documentos on-device
O codificador de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.
- 52,6% no MMMU Pro em raciocínio multimodal
- Resolução de imagem variável: de 70 a 1120 tokens por imagem
- Análise de documentos, OCR, compreensão de gráficos on-device
Para começar
Experimente o Gemma 4 E4B agora
Comece a conversar de imediato ou transfira o modelo para implementação on-device.
Transferir pesos
Implementação on-device
Transfira os pesos oficiais do modelo para implementação edge e local.
Plataformas edge
Implementação em navegador e dispositivos móveis
Implemente em dispositivos edge, navegadores e plataformas móveis.
Parte do Gemma 4
O modelo edge numa família de vanguarda
Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.
Gemma 4 E2B
Modelo ultracompacto de 2,3 mil milhões para as restrições de hardware mais exigentes
CompararPara começar
Pronto para executar IA on-device com o Gemma 4 E4B?
Comece a conversar gratuitamente ou transfira o modelo para implementação privada on-device. Nenhum dado sai do seu dispositivo.