Gemma 4 E4B
4,5 bilhões de parâmetros de inteligência on-device com áudio nativo
Gemma 4 E4B concentra 4,5 bilhões de parâmetros efetivos em um modelo que roda em notebooks, celulares e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de ponta para o edge.
Variantes do modelo
Ajustado com instruções para implantação edge
Gemma 4 E4B usa Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, entregando alto desempenho a partir de uma arquitetura compacta.
Arquitetura Per-Layer Embeddings
4,5 bilhões de parâmetros efetivos, 8 bilhões no total com embeddings
Gemma 4 E4B usa PLE para dar a cada camada do decodificador seu próprio caminho de condicionamento. Com 42 camadas, um encoder de visão de ~150M e um encoder de áudio de ~300M, processa texto, imagens e áudio nativamente.
Ideal para implantação on-device, IA no navegador e aplicações focadas em privacidade onde os dados nunca saem do dispositivo do usuário.
Ajustado com instruções
E4B Instruct
Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device
Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio
Pré-treinado
E4B Base
Modelo base para ajuste fino de aplicações edge e mobile
Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade
Capacidades
Inteligência de desktop em hardware edge
Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.
Entrada de áudio nativa
O encoder de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos diretamente, sem necessidade de pipeline de transcrição.
Raciocínio avançado
Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.
Programação eficaz
52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas habilitam fluxos de trabalho agênticos on-device.
Janela de contexto de 128K
Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.
Compreensão visual
52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.
Roda em qualquer lugar
Roda em navegadores via WebGPU, em celulares via ONNX e em notebooks via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.
Destaques
Métricas de desempenho edge
Gemma 4 E4B entrega resultados sólidos em diversos benchmarks, tudo em hardware de consumo.
Principais conquistas
- 69,4% no MMLU Pro em conhecimento e raciocínio
- 52% no LiveCodeBench v6 em programação
- 58,6% no GPQA Diamond em conhecimento científico
- 52,6% no MMMU Pro em raciocínio multimodal
- Janela de contexto de 128K tokens
Especificações técnicas
- 4,5 bilhões de parâmetros efetivos (8 bilhões com embeddings)
- 42 camadas de decodificador com Per-Layer Embeddings
- Encoder de visão de ~150M + encoder de áudio de ~300M
- Entrada nativa de texto, imagem, vídeo e áudio
- 5,5-6 GB de VRAM com quantização de 4 bits
Desempenho
Desempenho muito acima da sua categoria
Gemma 4 E4B alcança 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 bilhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.
Gemma 4 E4B demonstra que modelos edge podem entregar desempenho significativo em raciocínio, programação e tarefas multimodais.


69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge
52% no LiveCodeBench v6 - assistência prática em programação on-device
58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação
52,6% no MMMU Pro - raciocínio multimodal com imagens
940 Codeforces ELO - capacidade de programação competitiva
Comparação de benchmarks
E4B versus a família Gemma 4 e Gemma 3
Gemma 4 E4B entrega desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.
| Benchmark | Gemma 4 E4B IT Thinking Destaque | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro Conhecimento e raciocínio | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 Matemática Sem ferramentas | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond Conhecimento científico | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 Programação competitiva | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO Programação competitiva | 940 | 633 | 2150 | - |
MMMU Pro Raciocínio multimodal | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision Raciocínio matemático visual | 59.5% | 52.4% | 85.6% | - |
Audio Support Entrada de áudio nativa | Sim | Sim | Não | Não |
Context Window Tokens máximos | 128K | 128K | 256K | 128K |
Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram eficiência excepcional para sua contagem de parâmetros.
Áudio nativo
Compreensão de fala sem pipeline de transcrição
Gemma 4 E4B inclui um encoder de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e receber respostas inteligentes.
- Encoder de áudio conformer de ~300M de parâmetros integrado ao modelo
- Processa clipes de áudio de até 30 segundos diretamente
- Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade
Implantação edge
Do navegador ao celular e ao Raspberry Pi
Gemma 4 E4B foi projetado para implantação em qualquer lugar. Execute no Chrome com WebGPU via transformers.js, em celulares com ONNX ou em notebooks com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.
- Navegador: transformers.js com aceleração WebGPU no Chrome
- Mobile: checkpoints ONNX para implantação em iOS e Android
- Local: Ollama, llama.cpp, MLX para inferência privada on-device
Visão e documentos
Compreensão de imagens e análise de documentos on-device
O encoder de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.
- 52,6% no MMMU Pro em raciocínio multimodal
- Resolução de imagem variável: de 70 a 1120 tokens por imagem
- Análise de documentos, OCR, compreensão de gráficos on-device
Para começar
Experimente o Gemma 4 E4B agora
Comece a conversar na hora ou baixe o modelo para implantação on-device.
Baixar pesos
Implantação on-device
Baixe os pesos oficiais do modelo para implantação edge e local.
Plataformas edge
Implantação em navegador e mobile
Implante em dispositivos edge, navegadores e plataformas mobile.
Parte do Gemma 4
O modelo edge em uma família de ponta
Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.
Gemma 4 E2B
Modelo ultracompacto de 2,3 bilhões para as restrições de hardware mais exigentes
CompararPara começar
Pronto para rodar IA on-device com o Gemma 4 E4B?
Comece a conversar de graça ou baixe o modelo para implantação privada on-device. Nenhum dado sai do seu dispositivo.