Gemma 4 E4B

4,5 bilhões de parâmetros de inteligência on-device com áudio nativo

Gemma 4 E4B concentra 4,5 bilhões de parâmetros efetivos em um modelo que roda em notebooks, celulares e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de ponta para o edge.

Começar a conversar Ver benchmarks

Variantes do modelo

Ajustado com instruções para implantação edge

Gemma 4 E4B usa Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, entregando alto desempenho a partir de uma arquitetura compacta.

Arquitetura Per-Layer Embeddings

4,5 bilhões de parâmetros efetivos, 8 bilhões no total com embeddings

Gemma 4 E4B usa PLE para dar a cada camada do decodificador seu próprio caminho de condicionamento. Com 42 camadas, um encoder de visão de ~150M e um encoder de áudio de ~300M, processa texto, imagens e áudio nativamente.

Ideal para implantação on-device, IA no navegador e aplicações focadas em privacidade onde os dados nunca saem do dispositivo do usuário.

Começar a conversar Ver capacidades

Ajustado com instruções

E4B Instruct

Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device

Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio

Disponível agora

Começar a conversar Baixar pesos

Pré-treinado

E4B Base

Modelo base para ajuste fino de aplicações edge e mobile

Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade

Disponível agora

Ver no HuggingFace Guia de fine-tuning

Capacidades

Inteligência de desktop em hardware edge

Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.

Entrada de áudio nativa

O encoder de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos diretamente, sem necessidade de pipeline de transcrição.

Raciocínio avançado

Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.

Programação eficaz

52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas habilitam fluxos de trabalho agênticos on-device.

Janela de contexto de 128K

Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.

Compreensão visual

52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.

Roda em qualquer lugar

Roda em navegadores via WebGPU, em celulares via ONNX e em notebooks via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Destaques

Métricas de desempenho edge

Gemma 4 E4B entrega resultados sólidos em diversos benchmarks, tudo em hardware de consumo.

Principais conquistas

69,4% no MMLU Pro em conhecimento e raciocínio
52% no LiveCodeBench v6 em programação
58,6% no GPQA Diamond em conhecimento científico
52,6% no MMMU Pro em raciocínio multimodal
Janela de contexto de 128K tokens

Especificações técnicas

4,5 bilhões de parâmetros efetivos (8 bilhões com embeddings)
42 camadas de decodificador com Per-Layer Embeddings
Encoder de visão de ~150M + encoder de áudio de ~300M
Entrada nativa de texto, imagem, vídeo e áudio
5,5-6 GB de VRAM com quantização de 4 bits

Começar a conversar Ver ficha do modelo

Desempenho

Desempenho muito acima da sua categoria

Gemma 4 E4B alcança 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 bilhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.

Gemma 4 E4B demonstra que modelos edge podem entregar desempenho significativo em raciocínio, programação e tarefas multimodais.

Começar a conversar Ver ficha do modelo

Gráfico comparativo de desempenho do Gemma 4 E4B

69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge

52% no LiveCodeBench v6 - assistência prática em programação on-device

58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação

52,6% no MMMU Pro - raciocínio multimodal com imagens

940 Codeforces ELO - capacidade de programação competitiva

Comparação de benchmarks

E4B versus a família Gemma 4 e Gemma 3

Gemma 4 E4B entrega desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.

Benchmark	Gemma 4 E4B IT Thinking Destaque	Gemma 4 E2B IT Thinking	Gemma 4 31B IT Thinking	Gemma 3 27B IT
MMLU Pro Conhecimento e raciocínio	69.4%	60.0%	85.2%	67.6%
AIME 2026 Matemática Sem ferramentas	42.5%	37.5%	89.2%	20.8%
GPQA Diamond Conhecimento científico	58.6%	43.4%	84.3%	42.4%
LiveCodeBench v6 Programação competitiva	52.0%	44.0%	80.0%	29.1%
Codeforces ELO Programação competitiva	940	633	2150	-
MMMU Pro Raciocínio multimodal	52.6%	44.2%	76.9%	49.7%
MATH-Vision Raciocínio matemático visual	59.5%	52.4%	85.6%	-
Audio Support Entrada de áudio nativa	Sim	Sim	Não	Não
Context Window Tokens máximos	128K	128K	256K	128K

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram eficiência excepcional para sua contagem de parâmetros.

Áudio nativo

Compreensão de fala sem pipeline de transcrição

Gemma 4 E4B inclui um encoder de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e receber respostas inteligentes.

Encoder de áudio conformer de ~300M de parâmetros integrado ao modelo
Processa clipes de áudio de até 30 segundos diretamente
Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade

Testar entrada de áudio Ver documentação

Compreensão de fala sem pipeline de transcrição

Implantação edge

Do navegador ao celular e ao Raspberry Pi

Gemma 4 E4B foi projetado para implantação em qualquer lugar. Execute no Chrome com WebGPU via transformers.js, em celulares com ONNX ou em notebooks com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Navegador: transformers.js com aceleração WebGPU no Chrome
Mobile: checkpoints ONNX para implantação em iOS e Android
Local: Ollama, llama.cpp, MLX para inferência privada on-device

Testar no navegador Baixar para uso local

Do navegador ao celular e ao Raspberry Pi

Visão e documentos

Compreensão de imagens e análise de documentos on-device

O encoder de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.

52,6% no MMMU Pro em raciocínio multimodal
Resolução de imagem variável: de 70 a 1120 tokens por imagem
Análise de documentos, OCR, compreensão de gráficos on-device

Testar tarefas de visão Ver exemplos

Compreensão de imagens e análise de documentos on-device

Para começar

Experimente o Gemma 4 E4B agora

Comece a conversar na hora ou baixe o modelo para implantação on-device.

Começar a conversar

Converse com o Gemma 4 E4B na hora, sem configuração

Assistir à apresentação

Vídeo oficial de apresentação do Gemma 4

Ficha do modelo

Especificações técnicas completas e benchmarks

Documentação

Guias de integração e boas práticas

Baixar pesos

Implantação on-device

Baixe os pesos oficiais do modelo para implantação edge e local.

Hugging Face

Repositório oficial do modelo Gemma 4 E4B

Kaggle

Baixar do Kaggle Models

Ollama

Executar localmente com Ollama

Plataformas edge

Implantação em navegador e mobile

Implante em dispositivos edge, navegadores e plataformas mobile.

transformers.js

Execute em navegadores com aceleração WebGPU

ONNX Runtime

Implantação edge multiplataforma

MLX

Otimizado para Apple Silicon

llama.cpp

Inferência eficiente em CPU e GPU

Parte do Gemma 4

O modelo edge em uma família de ponta

Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.

Explorar todos os modelos Página oficial

Gemma 4 E2B

Modelo ultracompacto de 2,3 bilhões para as restrições de hardware mais exigentes

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima ao 31B a um custo de inferência de 4B

Saiba mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saiba mais

Documentação

Guias completos de integração e implantação

Ler documentação

Comunidade

Junte-se aos desenvolvedores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Para começar

Pronto para rodar IA on-device com o Gemma 4 E4B?

Comece a conversar de graça ou baixe o modelo para implantação privada on-device. Nenhum dado sai do seu dispositivo.

Começar a conversar grátis Baixar pesos

4,5 bilhões de parâmetros de inteligência on-device com áudio nativo

Inteligência multimodal que cabe no seu bolso

Ajustado com instruções para implantação edge

4,5 bilhões de parâmetros efetivos, 8 bilhões no total com embeddings

E4B Instruct

E4B Base

Inteligência de desktop em hardware edge

Entrada de áudio nativa

Raciocínio avançado

Programação eficaz

Janela de contexto de 128K

Compreensão visual

Roda em qualquer lugar

Métricas de desempenho edge

Desempenho muito acima da sua categoria

E4B versus a família Gemma 4 e Gemma 3

Compreensão de fala sem pipeline de transcrição

Do navegador ao celular e ao Raspberry Pi

Compreensão de imagens e análise de documentos on-device

Experimente o Gemma 4 E4B agora

Implantação on-device

Implantação em navegador e mobile

O modelo edge em uma família de ponta

Gemma 4 E2B

Gemma 4 26B

Gemma 4 31B

Documentação

Comunidade

Ficha do modelo

Pronto para rodar IA on-device com o Gemma 4 E4B?