Gemma 4 E2B
O menor Gemma 4 - inteligência multimodal completa em 2,3 bilhões de parâmetros
O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3B parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, ele leva recursos reais de IA para celulares, dispositivos IoT e os orçamentos de hardware mais apertados.
Variantes do modelo
Modelo ultracompacto ajustado por instruções
O Gemma 4 E2B usa Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.
Arquitetura Per-Layer Embeddings
2,3B parâmetros efetivos, 5,1B no total com embeddings
O Gemma 4 E2B usa PLE para dar a cada uma de suas 35 camadas de decodificação seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, ele processa texto, imagens e áudio nativamente com custo computacional mínimo.
O ponto de entrada mais acessível para o Gemma 4. Ideal para celulares, IoT, Raspberry Pi e qualquer implantação onde a memória é a principal restrição.
Ajustado por instruções
E2B Instruct
Otimizado para IA conversacional no dispositivo com compreensão de áudio
Ajustado para seguir instruções com suporte multimodal nativo
Pré-treinado
E2B Base
Modelo base para ajuste fino de aplicações de borda ultracompactas
Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho
Capacidades
Recursos reais de IA na menor escala
O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação em um modelo que cabe no celular.
Entrada de áudio nativa
Codificador de áudio conformer estilo USM processa fala e clipes de áudio de até 30 segundos. Assistentes de voz e análise de áudio nos menores dispositivos.
Raciocínio prático
60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.
Assistência em programação
44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.
Janela de contexto de 128K
Processamento de documentos longos e conversas estendidas no dispositivo. Atenção híbrida mantém o uso de memória prático.
Compreensão de imagens
44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.
Pegada mínima
Apenas 3,2 GB de VRAM com quantização de 4 bits. Roda em celulares, Raspberry Pi e notebooks econômicos.
Destaques principais
Métricas de desempenho ultracompactas
O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.
Principais conquistas
- 60% no MMLU Pro em conhecimento e raciocínio
- 44% no LiveCodeBench v6 em programação
- 43,4% no GPQA Diamond em conhecimento científico
- 44,2% no MMMU Pro em raciocínio multimodal
- Janela de contexto de 128K tokens
Especificações técnicas
- 2,3B parâmetros efetivos (5,1B com embeddings)
- 35 camadas de decodificação com Per-Layer Embeddings
- Codificador de visão de ~150M + codificador de áudio de ~300M
- Entrada nativa de texto, imagem, vídeo e áudio
- 3,2-4 GB de VRAM com quantização de 4 bits
Desempenho
IA significativa na menor escala
O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3B parâmetros efetivos - provando que IA útil cabe no seu bolso.
O Gemma 4 E2B demonstra que até os menores modelos da família entregam valor prático em raciocínio, programação e tarefas multimodais.


60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto
44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo
43,4% no GPQA Diamond - compreensão científica em 2,3B parâmetros
44,2% no MMMU Pro - raciocínio multimodal no dispositivo
95 tokens/segundo em hardware de consumo - inferência ultrarrápida
Comparação de benchmarks
E2B vs E4B e a família Gemma 4
O Gemma 4 E2B é o menor modelo da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de ponta.
| Benchmark | Gemma 4 E2B IT Thinking Destaque | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Conhecimento e raciocínio | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Matemática Sem ferramentas | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Conhecimento científico | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programação competitiva | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programação competitiva | 633 | 940 | 1718 | 2150 |
MMMU Pro Raciocínio multimodal | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Memória mínima | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Entrada de áudio nativa | Sim | Sim | Não | Não |
Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.
Ultracompacto
IA multimodal completa no menor pacote Gemma 4
O Gemma 4 E2B não é um modelo simplificado. Ele tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - em um pacote de 2,3B parâmetros efetivos.
- Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
- Mesma janela de contexto de 128K do modelo de borda maior
- 3,2 GB de VRAM com 4 bits - cabe em celulares e hardware econômico
Ultrarrápido
95 tokens por segundo em hardware de consumo
O menor modelo da família também é o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.
- ~95 tokens/segundo em GPUs de consumo
- Latência abaixo de um segundo para o primeiro token na maioria do hardware
- Ideal para chat em tempo real, assistentes de voz e ferramentas interativas
IoT e borda
IA para dispositivos que cabem na sua mão
O Gemma 4 E2B foi projetado para a borda. Rode em celulares Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde privacidade e latência importam mais que pontuações de benchmark.
- Checkpoints ONNX para implantação de borda multiplataforma
- Suporte a WebGPU para inferência no navegador
- Projetado para ambientes Pixel, Chrome e IoT
Comece agora
Experimente o Gemma 4 E2B agora
Comece a conversar instantaneamente ou baixe para implantação ultracompacta.
Baixar pesos
Implantação ultracompacta
Baixe os pesos oficiais do modelo para a menor implantação possível.
Plataformas de borda
Implantação em celulares, navegadores e IoT
Implante nos menores dispositivos com runtimes otimizados.
Parte do Gemma 4
O menor modelo de uma família de ponta
O Gemma 4 E2B é o ponto de entrada da família Gemma 4. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de ponta.
Comece agora
Pronto para rodar IA nos menores dispositivos?
Comece a conversar de graça ou baixe o Gemma 4 E2B para implantação ultracompacta e privada no dispositivo.