Gemma 4 E2B

O menor Gemma 4 - inteligência multimodal completa em 2,3 bilhões de parâmetros

O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3B parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, ele leva recursos reais de IA para celulares, dispositivos IoT e os orçamentos de hardware mais apertados.

Variantes do modelo

Modelo ultracompacto ajustado por instruções

O Gemma 4 E2B usa Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.

Arquitetura Per-Layer Embeddings

2,3B parâmetros efetivos, 5,1B no total com embeddings

O Gemma 4 E2B usa PLE para dar a cada uma de suas 35 camadas de decodificação seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, ele processa texto, imagens e áudio nativamente com custo computacional mínimo.

O ponto de entrada mais acessível para o Gemma 4. Ideal para celulares, IoT, Raspberry Pi e qualquer implantação onde a memória é a principal restrição.

Ajustado por instruções

E2B Instruct

Otimizado para IA conversacional no dispositivo com compreensão de áudio

Ajustado para seguir instruções com suporte multimodal nativo

Disponível agora

Pré-treinado

E2B Base

Modelo base para ajuste fino de aplicações de borda ultracompactas

Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho

Disponível agora

Capacidades

Recursos reais de IA na menor escala

O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação em um modelo que cabe no celular.

Entrada de áudio nativa

Codificador de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos. Assistentes de voz e análise de áudio nos menores dispositivos.

Raciocínio prático

60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.

Assistência em programação

44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.

Janela de contexto de 128K

Processamento de documentos longos e conversas estendidas no dispositivo. Atenção híbrida mantém o uso de memória prático.

Compreensão de imagens

44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.

Pegada mínima

Apenas 3,2 GB de VRAM com quantização de 4 bits. Roda em celulares, Raspberry Pi e notebooks econômicos.

Destaques principais

Métricas de desempenho ultracompactas

O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.

Principais conquistas

  • 60% no MMLU Pro em conhecimento e raciocínio
  • 44% no LiveCodeBench v6 em programação
  • 43,4% no GPQA Diamond em conhecimento científico
  • 44,2% no MMMU Pro em raciocínio multimodal
  • Janela de contexto de 128K tokens

Especificações técnicas

  • 2,3B parâmetros efetivos (5,1B com embeddings)
  • 35 camadas de decodificação com Per-Layer Embeddings
  • Codificador de visão de ~150M + codificador de áudio de ~300M
  • Entrada nativa de texto, imagem, vídeo e áudio
  • 3,2-4 GB de VRAM com quantização de 4 bits

Desempenho

IA significativa na menor escala

O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3B parâmetros efetivos - provando que IA útil cabe no seu bolso.

O Gemma 4 E2B demonstra que até os menores modelos da família entregam valor prático em raciocínio, programação e tarefas multimodais.

Gráfico de comparação de desempenho do Gemma 4 E2B

60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto

44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo

43,4% no GPQA Diamond - compreensão científica em 2,3B parâmetros

44,2% no MMMU Pro - raciocínio multimodal no dispositivo

95 tokens/segundo em hardware de consumo - inferência ultrarrápida

Comparação de benchmarks

E2B vs E4B e a família Gemma 4

O Gemma 4 E2B é o menor modelo da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de ponta.

Benchmark
Gemma 4 E2B IT
Thinking
Destaque
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Conhecimento e raciocínio
60.0%69.4%82.6%85.2%
AIME 2026
Matemática
Sem ferramentas
37.5%42.5%88.3%89.2%
GPQA Diamond
Conhecimento científico
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Programação competitiva
44.0%52.0%77.1%80.0%
Codeforces ELO
Programação competitiva
63394017182150
MMMU Pro
Raciocínio multimodal
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Memória mínima
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Entrada de áudio nativa
SimSimNãoNão

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.

Ultracompacto

IA multimodal completa no menor pacote Gemma 4

O Gemma 4 E2B não é um modelo simplificado. Ele tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - em um pacote de 2,3B parâmetros efetivos.

  • Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
  • Mesma janela de contexto de 128K do modelo de borda maior
  • 3,2 GB de VRAM com 4 bits - cabe em celulares e hardware econômico
IA multimodal completa no menor pacote Gemma 4

Ultrarrápido

95 tokens por segundo em hardware de consumo

O menor modelo da família também é o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.

  • ~95 tokens/segundo em GPUs de consumo
  • Latência abaixo de um segundo para o primeiro token na maioria do hardware
  • Ideal para chat em tempo real, assistentes de voz e ferramentas interativas
95 tokens por segundo em hardware de consumo

IoT e borda

IA para dispositivos que cabem na sua mão

O Gemma 4 E2B foi projetado para a borda. Rode em celulares Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde privacidade e latência importam mais que pontuações de benchmark.

  • Checkpoints ONNX para implantação de borda multiplataforma
  • Suporte a WebGPU para inferência no navegador
  • Projetado para ambientes Pixel, Chrome e IoT
IA para dispositivos que cabem na sua mão

Parte do Gemma 4

O menor modelo de uma família de ponta

O Gemma 4 E2B é o ponto de entrada da família Gemma 4. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de ponta.

Gemma 4 E4B

Modelo de borda mais potente com 4,5B parâmetros efetivos

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima ao 31B a custo de inferência de 4B

Saiba mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saiba mais

Documentação

Guias completos para integração e implantação

Ler docs

Comunidade

Junte-se aos desenvolvedores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Comece agora

Pronto para rodar IA nos menores dispositivos?

Comece a conversar de graça ou baixe o Gemma 4 E2B para implantação ultracompacta e privada no dispositivo.