Gemma 4 E4B

4,5 mil milhões de parâmetros de inteligência on-device com áudio nativo

Gemma 4 E4B concentra 4,5 mil milhões de parâmetros efetivos num modelo que funciona em portáteis, telemóveis e navegadores. Com compreensão nativa de áudio, imagem e texto, além de uma janela de contexto de 128K, traz IA multimodal de vanguarda para o edge.

Começar a conversar Ver benchmarks

Variantes do modelo

Ajustado com instruções para implementação edge

Gemma 4 E4B utiliza Per-Layer Embeddings (PLE) para maximizar a eficiência dos parâmetros, proporcionando um desempenho sólido a partir de uma arquitetura compacta.

Arquitetura Per-Layer Embeddings

4,5 mil milhões de parâmetros efetivos, 8 mil milhões no total com embeddings

Gemma 4 E4B utiliza PLE para dar a cada camada do descodificador o seu próprio caminho de condicionamento. Com 42 camadas, um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente.

Ideal para implementação on-device, IA no navegador e aplicações focadas na privacidade onde os dados nunca saem do dispositivo do utilizador.

Começar a conversar Ver capacidades

Ajustado com instruções

E4B Instruct

Otimizado para IA conversacional, compreensão de áudio e execução de tarefas on-device

Ajustado para seguir instruções com suporte multimodal nativo, incluindo entrada de áudio

Disponível agora

Começar a conversar Transferir pesos

Pré-treinado

E4B Base

Modelo base para ajuste fino de aplicações edge e móveis

Pré-treinado com dados multimodais diversos, incluindo áudio, para máxima flexibilidade

Disponível agora

Ver no HuggingFace Guia de fine-tuning

Capacidades

Inteligência de secretária em hardware edge

Gemma 4 E4B traz compreensão multimodal, assistência em programação e raciocínio para dispositivos que cabem na palma da mão.

Entrada de áudio nativa

O codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos diretamente, sem necessidade de pipeline de transcrição.

Raciocínio avançado

Modo de pensamento configurável com 42,5% no AIME 2026 em matemática e 58,6% no GPQA Diamond em ciências de nível de pós-graduação.

Programação eficaz

52% no LiveCodeBench v6 e 940 Codeforces ELO. Chamadas de função nativas permitem fluxos de trabalho agênticos on-device.

Janela de contexto de 128K

Processa documentos longos, bases de código inteiras e conversas extensas on-device com atenção híbrida local/global.

Compreensão visual

52,6% no MMMU Pro e 59,5% no MATH-Vision. Suporte a proporções variáveis com orçamentos de tokens por imagem configuráveis.

Funciona em qualquer lugar

Funciona em navegadores via WebGPU, em telemóveis via ONNX e em portáteis via Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Destaques

Métricas de desempenho edge

Gemma 4 E4B apresenta resultados sólidos em diversos benchmarks, tudo em hardware de consumo.

Principais conquistas

69,4% no MMLU Pro em conhecimento e raciocínio
52% no LiveCodeBench v6 em programação
58,6% no GPQA Diamond em conhecimento científico
52,6% no MMMU Pro em raciocínio multimodal
Janela de contexto de 128K tokens

Especificações técnicas

4,5 mil milhões de parâmetros efetivos (8 mil milhões com embeddings)
42 camadas de descodificador com Per-Layer Embeddings
Codificador de visão de ~150M + codificador de áudio de ~300M
Entrada nativa de texto, imagem, vídeo e áudio
5,5-6 GB de VRAM com quantização de 4 bits

Começar a conversar Ver ficha do modelo

Desempenho

Desempenho muito acima da sua categoria

Gemma 4 E4B atinge 69,4% no MMLU Pro e 52% no LiveCodeBench v6 com apenas 4,5 mil milhões de parâmetros efetivos, superando muitos modelos com o dobro do tamanho.

Gemma 4 E4B demonstra que os modelos edge podem proporcionar um desempenho significativo em raciocínio, programação e tarefas multimodais.

Começar a conversar Ver ficha do modelo

Gráfico comparativo de desempenho do Gemma 4 E4B

69,4% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo edge

52% no LiveCodeBench v6 - assistência prática em programação on-device

58,6% no GPQA Diamond - compreensão científica de nível de pós-graduação

52,6% no MMMU Pro - raciocínio multimodal com imagens

940 Codeforces ELO - capacidade de programação competitiva

Comparação de benchmarks

E4B versus a família Gemma 4 e Gemma 3

Gemma 4 E4B proporciona um desempenho edge sólido, enquanto os modelos maiores lidam com cargas de trabalho mais pesadas.

Benchmark	Gemma 4 E4B IT Thinking Destaque	Gemma 4 E2B IT Thinking	Gemma 4 31B IT Thinking	Gemma 3 27B IT
MMLU Pro Conhecimento e raciocínio	69.4%	60.0%	85.2%	67.6%
AIME 2026 Matemática Sem ferramentas	42.5%	37.5%	89.2%	20.8%
GPQA Diamond Conhecimento científico	58.6%	43.4%	84.3%	42.4%
LiveCodeBench v6 Programação competitiva	52.0%	44.0%	80.0%	29.1%
Codeforces ELO Programação competitiva	940	633	2150	-
MMMU Pro Raciocínio multimodal	52.6%	44.2%	76.9%	49.7%
MATH-Vision Raciocínio matemático visual	59.5%	52.4%	85.6%	-
Audio Support Entrada de áudio nativa	Sim	Sim	Não	Não
Context Window Tokens máximos	128K	128K	256K	128K

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E4B demonstram uma eficiência excecional para a sua contagem de parâmetros.

Áudio nativo

Compreensão de fala sem pipeline de transcrição

Gemma 4 E4B inclui um codificador de áudio conformer estilo USM que processa fala e áudio diretamente. Sem necessidade de modelo ASR separado - basta fornecer o áudio e obter respostas inteligentes.

Codificador de áudio conformer de ~300M de parâmetros integrado no modelo
Processa clipes de áudio até 30 segundos diretamente
Ideal para assistentes de voz, análise de áudio e ferramentas de acessibilidade

Experimentar entrada de áudio Ver documentação

Compreensão de fala sem pipeline de transcrição

Implementação edge

Do navegador ao telemóvel e ao Raspberry Pi

Gemma 4 E4B foi concebido para implementação em qualquer lugar. Execute-o no Chrome com WebGPU via transformers.js, em telemóveis com ONNX ou em portáteis com Ollama. Apenas 5,5 GB de VRAM com quantização de 4 bits.

Navegador: transformers.js com aceleração WebGPU no Chrome
Móvel: checkpoints ONNX para implementação em iOS e Android
Local: Ollama, llama.cpp, MLX para inferência privada on-device

Experimentar no navegador Transferir para uso local

Do navegador ao telemóvel e ao Raspberry Pi

Visão e documentos

Compreensão de imagens e análise de documentos on-device

O codificador de visão de ~150M processa imagens com proporções variáveis e orçamentos de tokens configuráveis. OCR robusto e compreensão de documentos tornam-no prático para análise de documentos on-device.

52,6% no MMMU Pro em raciocínio multimodal
Resolução de imagem variável: de 70 a 1120 tokens por imagem
Análise de documentos, OCR, compreensão de gráficos on-device

Experimentar tarefas de visão Ver exemplos

Compreensão de imagens e análise de documentos on-device

Para começar

Experimente o Gemma 4 E4B agora

Comece a conversar de imediato ou transfira o modelo para implementação on-device.

Começar a conversar

Converse com o Gemma 4 E4B de imediato, sem configuração

Ver a apresentação

Vídeo oficial de apresentação do Gemma 4

Ficha do modelo

Especificações técnicas completas e benchmarks

Documentação

Guias de integração e boas práticas

Transferir pesos

Implementação on-device

Transfira os pesos oficiais do modelo para implementação edge e local.

Hugging Face

Repositório oficial do modelo Gemma 4 E4B

Kaggle

Transferir do Kaggle Models

Ollama

Executar localmente com Ollama

Plataformas edge

Implementação em navegador e dispositivos móveis

Implemente em dispositivos edge, navegadores e plataformas móveis.

transformers.js

Execute em navegadores com aceleração WebGPU

ONNX Runtime

Implementação edge multiplataforma

MLX

Otimizado para Apple Silicon

llama.cpp

Inferência eficiente em CPU e GPU

Parte do Gemma 4

O modelo edge numa família de vanguarda

Gemma 4 E4B é o modelo edge recomendado na família Gemma 4. Suba para o 26B MoE ou 31B Dense quando precisar de mais potência, ou desça para o E2B para o menor consumo de recursos.

Explorar todos os modelos Página oficial

Gemma 4 E2B

Modelo ultracompacto de 2,3 mil milhões para as restrições de hardware mais exigentes

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima do 31B a um custo de inferência de 4B

Saber mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saber mais

Documentação

Guias completos de integração e implementação

Ler documentação

Comunidade

Junte-se aos programadores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Para começar

Pronto para executar IA on-device com o Gemma 4 E4B?

Comece a conversar gratuitamente ou transfira o modelo para implementação privada on-device. Nenhum dado sai do seu dispositivo.

Começar a conversar grátis Transferir pesos

4,5 mil milhões de parâmetros de inteligência on-device com áudio nativo

Inteligência multimodal que cabe no seu bolso

Ajustado com instruções para implementação edge

4,5 mil milhões de parâmetros efetivos, 8 mil milhões no total com embeddings

E4B Instruct

E4B Base

Inteligência de secretária em hardware edge

Entrada de áudio nativa

Raciocínio avançado

Programação eficaz

Janela de contexto de 128K

Compreensão visual

Funciona em qualquer lugar

Métricas de desempenho edge

Desempenho muito acima da sua categoria

E4B versus a família Gemma 4 e Gemma 3

Compreensão de fala sem pipeline de transcrição

Do navegador ao telemóvel e ao Raspberry Pi

Compreensão de imagens e análise de documentos on-device

Experimente o Gemma 4 E4B agora

Implementação on-device

Implementação em navegador e dispositivos móveis

O modelo edge numa família de vanguarda

Gemma 4 E2B

Gemma 4 26B

Gemma 4 31B

Documentação

Comunidade

Ficha do modelo

Pronto para executar IA on-device com o Gemma 4 E4B?