Gemma 4 E2B

O mais pequeno Gemma 4 - inteligência multimodal completa em 2,3 mil milhões de parâmetros

O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3 mil milhões de parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, traz capacidades reais de IA para telemóveis, dispositivos IoT e os orçamentos de hardware mais reduzidos.

Variantes do modelo

Modelo ultracompacto ajustado por instruções

O Gemma 4 E2B utiliza Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.

Arquitetura Per-Layer Embeddings

2,3 mil milhões de parâmetros efetivos, 5,1 mil milhões no total com embeddings

O Gemma 4 E2B utiliza PLE para dar a cada uma das suas 35 camadas de descodificação o seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente com custo computacional mínimo.

O ponto de entrada mais acessível para o Gemma 4. Ideal para telemóveis, IoT, Raspberry Pi e qualquer implementação onde a memória é a principal restrição.

Ajustado por instruções

E2B Instruct

Otimizado para IA conversacional no dispositivo com compreensão de áudio

Ajustado para seguir instruções com suporte multimodal nativo

Disponível agora

Pré-treinado

E2B Base

Modelo base para ajuste fino de aplicações periféricas ultracompactas

Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho

Disponível agora

Capacidades

Capacidades reais de IA na escala mais pequena

O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação num modelo que cabe num telemóvel.

Entrada de áudio nativa

Codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos. Assistentes de voz e análise de áudio nos dispositivos mais pequenos.

Raciocínio prático

60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.

Assistência em programação

44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.

Janela de contexto de 128K

Processamento de documentos longos e conversas prolongadas no dispositivo. Atenção híbrida mantém a utilização de memória prática.

Compreensão de imagens

44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.

Pegada mínima

Apenas 3,2 GB de VRAM com quantização de 4 bits. Funciona em telemóveis, Raspberry Pi e portáteis económicos.

Destaques principais

Métricas de desempenho ultracompactas

O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.

Principais conquistas

  • 60% no MMLU Pro em conhecimento e raciocínio
  • 44% no LiveCodeBench v6 em programação
  • 43,4% no GPQA Diamond em conhecimento científico
  • 44,2% no MMMU Pro em raciocínio multimodal
  • Janela de contexto de 128K tokens

Especificações técnicas

  • 2,3 mil milhões de parâmetros efetivos (5,1 mil milhões com embeddings)
  • 35 camadas de descodificação com Per-Layer Embeddings
  • Codificador de visão de ~150M + codificador de áudio de ~300M
  • Entrada nativa de texto, imagem, vídeo e áudio
  • 3,2-4 GB de VRAM com quantização de 4 bits

Desempenho

IA significativa na escala mais pequena

O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3 mil milhões de parâmetros efetivos - provando que IA útil cabe no seu bolso.

O Gemma 4 E2B demonstra que até os modelos mais pequenos da família entregam valor prático em raciocínio, programação e tarefas multimodais.

Gráfico de comparação de desempenho do Gemma 4 E2B

60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto

44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo

43,4% no GPQA Diamond - compreensão científica em 2,3 mil milhões de parâmetros

44,2% no MMMU Pro - raciocínio multimodal no dispositivo

95 tokens/segundo em hardware de consumo - inferência ultrarrápida

Comparação de benchmarks

E2B vs E4B e a família Gemma 4

O Gemma 4 E2B é o modelo mais pequeno da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de topo.

Benchmark
Gemma 4 E2B IT
Thinking
Destaque
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
Conhecimento e raciocínio
60.0%69.4%82.6%85.2%
AIME 2026
Matemática
Sem ferramentas
37.5%42.5%88.3%89.2%
GPQA Diamond
Conhecimento científico
43.4%58.6%82.3%84.3%
LiveCodeBench v6
Programação competitiva
44.0%52.0%77.1%80.0%
Codeforces ELO
Programação competitiva
63394017182150
MMMU Pro
Raciocínio multimodal
44.2%52.6%73.8%76.9%
VRAM (4-bit)
Memória mínima
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
Entrada de áudio nativa
SimSimNãoNão

Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.

Ultracompacto

IA multimodal completa no pacote Gemma 4 mais pequeno

O Gemma 4 E2B não é um modelo simplificado. Tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - num pacote de 2,3 mil milhões de parâmetros efetivos.

  • Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
  • Mesma janela de contexto de 128K do modelo periférico maior
  • 3,2 GB de VRAM com 4 bits - cabe em telemóveis e hardware económico
IA multimodal completa no pacote Gemma 4 mais pequeno

Ultrarrápido

95 tokens por segundo em hardware de consumo

O modelo mais pequeno da família é também o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.

  • ~95 tokens/segundo em GPUs de consumo
  • Latência inferior a um segundo para o primeiro token na maioria do hardware
  • Ideal para chat em tempo real, assistentes de voz e ferramentas interativas
95 tokens por segundo em hardware de consumo

IoT e periferia

IA para dispositivos que cabem na sua mão

O Gemma 4 E2B foi concebido para a periferia. Execute-o em telemóveis Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde a privacidade e a latência importam mais do que pontuações de benchmark.

  • Checkpoints ONNX para implementação periférica multiplataforma
  • Suporte a WebGPU para inferência no navegador
  • Concebido para ambientes Pixel, Chrome e IoT
IA para dispositivos que cabem na sua mão

Transferir pesos

Implementação ultracompacta

Transfira os pesos oficiais do modelo para a implementação mais pequena possível.

Plataformas periféricas

Implementação em telemóveis, navegadores e IoT

Implemente nos dispositivos mais pequenos com runtimes otimizados.

Parte do Gemma 4

O modelo mais pequeno de uma família de topo

O Gemma 4 E2B é o ponto de entrada da família Gemma 4. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de topo.

Gemma 4 E4B

Modelo periférico mais potente com 4,5 mil milhões de parâmetros efetivos

Comparar

Gemma 4 26B

Modelo MoE com qualidade próxima do 31B a custo de inferência de 4B

Saber mais

Gemma 4 31B

Modelo denso principal para desempenho máximo

Saber mais

Documentação

Guias completos para integração e implementação

Ler docs

Comunidade

Junte-se aos programadores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas e resultados de avaliação

Ver detalhes

Comece agora

Pronto para executar IA nos dispositivos mais pequenos?

Comece a conversar gratuitamente ou transfira o Gemma 4 E2B para implementação ultracompacta e privada no dispositivo.