Gemma 4 E2B

O mais pequeno Gemma 4 - inteligência multimodal completa em 2,3 mil milhões de parâmetros

O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3 mil milhões de parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, traz capacidades reais de IA para telemóveis, dispositivos IoT e os orçamentos de hardware mais reduzidos.

Começar a conversar Ver benchmarks

Variantes do modelo

Modelo ultracompacto ajustado por instruções

O Gemma 4 E2B utiliza Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.

Arquitetura Per-Layer Embeddings

2,3 mil milhões de parâmetros efetivos, 5,1 mil milhões no total com embeddings

O Gemma 4 E2B utiliza PLE para dar a cada uma das suas 35 camadas de descodificação o seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente com custo computacional mínimo.

O ponto de entrada mais acessível para o Gemma 4. Ideal para telemóveis, IoT, Raspberry Pi e qualquer implementação onde a memória é a principal restrição.

Começar a conversar Ver capacidades

Ajustado por instruções

E2B Instruct

Otimizado para IA conversacional no dispositivo com compreensão de áudio

Ajustado para seguir instruções com suporte multimodal nativo

Disponível agora

Começar a conversar Transferir pesos

Pré-treinado

E2B Base

Modelo base para ajuste fino de aplicações periféricas ultracompactas

Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho

Disponível agora

Ver no HuggingFace Guia de ajuste fino

Capacidades

Capacidades reais de IA na escala mais pequena

O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação num modelo que cabe num telemóvel.

Entrada de áudio nativa

Codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos. Assistentes de voz e análise de áudio nos dispositivos mais pequenos.

Raciocínio prático

60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.

Assistência em programação

44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.

Janela de contexto de 128K

Processamento de documentos longos e conversas prolongadas no dispositivo. Atenção híbrida mantém a utilização de memória prática.

Compreensão de imagens

44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.

Pegada mínima

Apenas 3,2 GB de VRAM com quantização de 4 bits. Funciona em telemóveis, Raspberry Pi e portáteis económicos.

Destaques principais

Métricas de desempenho ultracompactas

O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.

Principais conquistas

60% no MMLU Pro em conhecimento e raciocínio
44% no LiveCodeBench v6 em programação
43,4% no GPQA Diamond em conhecimento científico
44,2% no MMMU Pro em raciocínio multimodal
Janela de contexto de 128K tokens

Especificações técnicas

2,3 mil milhões de parâmetros efetivos (5,1 mil milhões com embeddings)
35 camadas de descodificação com Per-Layer Embeddings
Codificador de visão de ~150M + codificador de áudio de ~300M
Entrada nativa de texto, imagem, vídeo e áudio
3,2-4 GB de VRAM com quantização de 4 bits

Começar a conversar Ver ficha do modelo

Desempenho

IA significativa na escala mais pequena

O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3 mil milhões de parâmetros efetivos - provando que IA útil cabe no seu bolso.

O Gemma 4 E2B demonstra que até os modelos mais pequenos da família entregam valor prático em raciocínio, programação e tarefas multimodais.

Começar a conversar Ver ficha do modelo

Gráfico de comparação de desempenho do Gemma 4 E2B

60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto

44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo

43,4% no GPQA Diamond - compreensão científica em 2,3 mil milhões de parâmetros

44,2% no MMMU Pro - raciocínio multimodal no dispositivo

95 tokens/segundo em hardware de consumo - inferência ultrarrápida

Comparação de benchmarks

E2B vs E4B e a família Gemma 4

O Gemma 4 E2B é o modelo mais pequeno da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de topo.

Benchmark	Gemma 4 E2B IT Thinking Destaque	Gemma 4 E4B IT Thinking	Gemma 4 26B A4B IT Thinking	Gemma 4 31B IT Thinking
MMLU Pro Conhecimento e raciocínio	60.0%	69.4%	82.6%	85.2%
AIME 2026 Matemática Sem ferramentas	37.5%	42.5%	88.3%	89.2%
GPQA Diamond Conhecimento científico	43.4%	58.6%	82.3%	84.3%
LiveCodeBench v6 Programação competitiva	44.0%	52.0%	77.1%	80.0%
Codeforces ELO Programação competitiva	633	940	1718	2150
MMMU Pro Raciocínio multimodal	44.2%	52.6%	73.8%	76.9%
VRAM (4-bit) Memória mínima	~3.2 GB	~5.5 GB	~16 GB	~17 GB
Audio Support Entrada de áudio nativa	Sim	Sim	Não	Não

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.

Ultracompacto

IA multimodal completa no pacote Gemma 4 mais pequeno

O Gemma 4 E2B não é um modelo simplificado. Tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - num pacote de 2,3 mil milhões de parâmetros efetivos.

Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
Mesma janela de contexto de 128K do modelo periférico maior
3,2 GB de VRAM com 4 bits - cabe em telemóveis e hardware económico

Começar a conversar Comparar com E4B

IA multimodal completa no pacote Gemma 4 mais pequeno

Ultrarrápido

95 tokens por segundo em hardware de consumo

O modelo mais pequeno da família é também o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.

~95 tokens/segundo em GPUs de consumo
Latência inferior a um segundo para o primeiro token na maioria do hardware
Ideal para chat em tempo real, assistentes de voz e ferramentas interativas

Experimente a velocidade Guia de hardware

95 tokens por segundo em hardware de consumo

IoT e periferia

IA para dispositivos que cabem na sua mão

O Gemma 4 E2B foi concebido para a periferia. Execute-o em telemóveis Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde a privacidade e a latência importam mais do que pontuações de benchmark.