Gemma 4 E2B

O menor Gemma 4 - inteligência multimodal completa em 2,3 bilhões de parâmetros

O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3B parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, ele leva recursos reais de IA para celulares, dispositivos IoT e os orçamentos de hardware mais apertados.

Começar a conversar Ver benchmarks

Variantes do modelo

Modelo ultracompacto ajustado por instruções

O Gemma 4 E2B usa Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.

Arquitetura Per-Layer Embeddings

2,3B parâmetros efetivos, 5,1B no total com embeddings

O Gemma 4 E2B usa PLE para dar a cada uma de suas 35 camadas de decodificação seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, ele processa texto, imagens e áudio nativamente com custo computacional mínimo.

O ponto de entrada mais acessível para o Gemma 4. Ideal para celulares, IoT, Raspberry Pi e qualquer implantação onde a memória é a principal restrição.

Começar a conversar Ver capacidades

Ajustado por instruções

E2B Instruct

Otimizado para IA conversacional no dispositivo com compreensão de áudio

Ajustado para seguir instruções com suporte multimodal nativo

Disponível agora

Começar a conversar Baixar pesos

Pré-treinado

E2B Base

Modelo base para ajuste fino de aplicações de borda ultracompactas

Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho

Disponível agora

Ver no HuggingFace Guia de ajuste fino

Capacidades

Recursos reais de IA na menor escala

O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação em um modelo que cabe no celular.

Entrada de áudio nativa

Codificador de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos. Assistentes de voz e análise de áudio nos menores dispositivos.

Raciocínio prático

60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.

Assistência em programação

44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.

Janela de contexto de 128K

Processamento de documentos longos e conversas estendidas no dispositivo. Atenção híbrida mantém o uso de memória prático.

Compreensão de imagens

44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.

Pegada mínima

Apenas 3,2 GB de VRAM com quantização de 4 bits. Roda em celulares, Raspberry Pi e notebooks econômicos.

Destaques principais

Métricas de desempenho ultracompactas

O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.

Principais conquistas

60% no MMLU Pro em conhecimento e raciocínio
44% no LiveCodeBench v6 em programação
43,4% no GPQA Diamond em conhecimento científico
44,2% no MMMU Pro em raciocínio multimodal
Janela de contexto de 128K tokens

Especificações técnicas

2,3B parâmetros efetivos (5,1B com embeddings)
35 camadas de decodificação com Per-Layer Embeddings
Codificador de visão de ~150M + codificador de áudio de ~300M
Entrada nativa de texto, imagem, vídeo e áudio
3,2-4 GB de VRAM com quantização de 4 bits

Começar a conversar Ver ficha do modelo

Desempenho

IA significativa na menor escala

O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3B parâmetros efetivos - provando que IA útil cabe no seu bolso.

O Gemma 4 E2B demonstra que até os menores modelos da família entregam valor prático em raciocínio, programação e tarefas multimodais.

Começar a conversar Ver ficha do modelo

Gráfico de comparação de desempenho do Gemma 4 E2B

60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto

44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo

43,4% no GPQA Diamond - compreensão científica em 2,3B parâmetros

44,2% no MMMU Pro - raciocínio multimodal no dispositivo

95 tokens/segundo em hardware de consumo - inferência ultrarrápida

Comparação de benchmarks

E2B vs E4B e a família Gemma 4

O Gemma 4 E2B é o menor modelo da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de ponta.

Benchmark	Gemma 4 E2B IT Thinking Destaque	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Conhecimento e raciocínio	60.0%	69.4%	82.6%	85.2%
AIME 2026 Matemática Sem ferramentas	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Conhecimento científico	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programação competitiva	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programação competitiva	633	940	1718	2150
MMMU Pro Raciocínio multimodal	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Memória mínima	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Entrada de áudio nativa	Sim	Sim	Não	Não

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.

Ultracompacto

IA multimodal completa no menor pacote Gemma 4

O Gemma 4 E2B não é um modelo simplificado. Ele tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - em um pacote de 2,3B parâmetros efetivos.

Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
Mesma janela de contexto de 128K do modelo de borda maior
3,2 GB de VRAM com 4 bits - cabe em celulares e hardware econômico

Começar a conversar Comparar com E4B

IA multimodal completa no menor pacote Gemma 4

Ultrarrápido

95 tokens por segundo em hardware de consumo

O menor modelo da família também é o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.

~95 tokens/segundo em GPUs de consumo
Latência abaixo de um segundo para o primeiro token na maioria do hardware
Ideal para chat em tempo real, assistentes de voz e ferramentas interativas

Experimente a velocidade Guia de hardware

95 tokens por segundo em hardware de consumo

IoT e borda

IA para dispositivos que cabem na sua mão

O Gemma 4 E2B foi projetado para a borda. Rode em celulares Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde privacidade e latência importam mais que pontuações de benchmark.