Gemma 4 E2B
O mais pequeno Gemma 4 - inteligência multimodal completa em 2,3 mil milhões de parâmetros
O Gemma 4 E2B reúne compreensão de texto, imagem e áudio em apenas 2,3 mil milhões de parâmetros efetivos. Com contexto de 128K e apenas 4 GB de RAM, traz capacidades reais de IA para telemóveis, dispositivos IoT e os orçamentos de hardware mais reduzidos.
Variantes do modelo
Modelo ultracompacto ajustado por instruções
O Gemma 4 E2B utiliza Per-Layer Embeddings (PLE) para extrair o máximo de capacidade do mínimo de parâmetros.
Arquitetura Per-Layer Embeddings
2,3 mil milhões de parâmetros efetivos, 5,1 mil milhões no total com embeddings
O Gemma 4 E2B utiliza PLE para dar a cada uma das suas 35 camadas de descodificação o seu próprio caminho de condicionamento. Com um codificador de visão de ~150M e um codificador de áudio de ~300M, processa texto, imagens e áudio nativamente com custo computacional mínimo.
O ponto de entrada mais acessível para o Gemma 4. Ideal para telemóveis, IoT, Raspberry Pi e qualquer implementação onde a memória é a principal restrição.
Ajustado por instruções
E2B Instruct
Otimizado para IA conversacional no dispositivo com compreensão de áudio
Ajustado para seguir instruções com suporte multimodal nativo
Pré-treinado
E2B Base
Modelo base para ajuste fino de aplicações periféricas ultracompactas
Pré-treinado em dados multimodais diversos para máxima flexibilidade no menor tamanho
Capacidades
Capacidades reais de IA na escala mais pequena
O Gemma 4 E2B prova que IA útil não exige hardware pesado. Áudio, visão, raciocínio e programação num modelo que cabe num telemóvel.
Entrada de áudio nativa
Codificador de áudio conformer estilo USM processa fala e clipes de áudio até 30 segundos. Assistentes de voz e análise de áudio nos dispositivos mais pequenos.
Raciocínio prático
60% no MMLU Pro e 37,5% no AIME 2026 em matemática. Modo de raciocínio configurável para resolução passo a passo no dispositivo.
Assistência em programação
44% no LiveCodeBench v6 e 633 Codeforces ELO. Geração de código e depuração úteis mesmo em hardware limitado.
Janela de contexto de 128K
Processamento de documentos longos e conversas prolongadas no dispositivo. Atenção híbrida mantém a utilização de memória prática.
Compreensão de imagens
44,2% no MMMU Pro. Suporte a proporções variáveis para análise de documentos, OCR e análise de imagens no dispositivo.
Pegada mínima
Apenas 3,2 GB de VRAM com quantização de 4 bits. Funciona em telemóveis, Raspberry Pi e portáteis económicos.
Destaques principais
Métricas de desempenho ultracompactas
O Gemma 4 E2B entrega resultados significativos em tarefas diversas, cabendo no hardware mais limitado.
Principais conquistas
- 60% no MMLU Pro em conhecimento e raciocínio
- 44% no LiveCodeBench v6 em programação
- 43,4% no GPQA Diamond em conhecimento científico
- 44,2% no MMMU Pro em raciocínio multimodal
- Janela de contexto de 128K tokens
Especificações técnicas
- 2,3 mil milhões de parâmetros efetivos (5,1 mil milhões com embeddings)
- 35 camadas de descodificação com Per-Layer Embeddings
- Codificador de visão de ~150M + codificador de áudio de ~300M
- Entrada nativa de texto, imagem, vídeo e áudio
- 3,2-4 GB de VRAM com quantização de 4 bits
Desempenho
IA significativa na escala mais pequena
O Gemma 4 E2B alcança 60% no MMLU Pro e 44% no LiveCodeBench v6 com apenas 2,3 mil milhões de parâmetros efetivos - provando que IA útil cabe no seu bolso.
O Gemma 4 E2B demonstra que até os modelos mais pequenos da família entregam valor prático em raciocínio, programação e tarefas multimodais.


60% no MMLU Pro - conhecimento e raciocínio sólidos para um modelo ultracompacto
44% no LiveCodeBench v6 - ajuda prática em programação com hardware mínimo
43,4% no GPQA Diamond - compreensão científica em 2,3 mil milhões de parâmetros
44,2% no MMMU Pro - raciocínio multimodal no dispositivo
95 tokens/segundo em hardware de consumo - inferência ultrarrápida
Comparação de benchmarks
E2B vs E4B e a família Gemma 4
O Gemma 4 E2B é o modelo mais pequeno da família. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de topo.
| Benchmark | Gemma 4 E2B IT Thinking Destaque | Gemma 4 E4B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 31B IT Thinking |
|---|---|---|---|---|
MMLU Pro Conhecimento e raciocínio | 60.0% | 69.4% | 82.6% | 85.2% |
AIME 2026 Matemática Sem ferramentas | 37.5% | 42.5% | 88.3% | 89.2% |
GPQA Diamond Conhecimento científico | 43.4% | 58.6% | 82.3% | 84.3% |
LiveCodeBench v6 Programação competitiva | 44.0% | 52.0% | 77.1% | 80.0% |
Codeforces ELO Programação competitiva | 633 | 940 | 1718 | 2150 |
MMMU Pro Raciocínio multimodal | 44.2% | 52.6% | 73.8% | 76.9% |
VRAM (4-bit) Memória mínima | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Audio Support Entrada de áudio nativa | Sim | Sim | Não | Não |
Resultados de benchmarks da ficha oficial do modelo Gemma 4. Os benchmarks do E2B demonstram capacidade prática com contagem mínima de parâmetros.
Ultracompacto
IA multimodal completa no pacote Gemma 4 mais pequeno
O Gemma 4 E2B não é um modelo simplificado. Tem a mesma arquitetura multimodal dos seus irmãos maiores - entrada de texto, imagem, vídeo e áudio - num pacote de 2,3 mil milhões de parâmetros efetivos.
- Mesmas modalidades do E4B: entrada de texto, imagem, vídeo e áudio
- Mesma janela de contexto de 128K do modelo periférico maior
- 3,2 GB de VRAM com 4 bits - cabe em telemóveis e hardware económico
Ultrarrápido
95 tokens por segundo em hardware de consumo
O modelo mais pequeno da família é também o mais rápido. O Gemma 4 E2B entrega respostas quase instantâneas em hardware de consumo, ideal para aplicações em tempo real e experiências interativas.
- ~95 tokens/segundo em GPUs de consumo
- Latência inferior a um segundo para o primeiro token na maioria do hardware
- Ideal para chat em tempo real, assistentes de voz e ferramentas interativas
IoT e periferia
IA para dispositivos que cabem na sua mão
O Gemma 4 E2B foi concebido para a periferia. Execute-o em telemóveis Pixel, Raspberry Pi, navegadores Chrome e qualquer dispositivo onde a privacidade e a latência importam mais do que pontuações de benchmark.
- Checkpoints ONNX para implementação periférica multiplataforma
- Suporte a WebGPU para inferência no navegador
- Concebido para ambientes Pixel, Chrome e IoT
Comece agora
Experimente o Gemma 4 E2B agora
Comece a conversar instantaneamente ou transfira para implementação ultracompacta.
Transferir pesos
Implementação ultracompacta
Transfira os pesos oficiais do modelo para a implementação mais pequena possível.
Plataformas periféricas
Implementação em telemóveis, navegadores e IoT
Implemente nos dispositivos mais pequenos com runtimes otimizados.
Parte do Gemma 4
O modelo mais pequeno de uma família de topo
O Gemma 4 E2B é o ponto de entrada da família Gemma 4. Suba para o E4B para melhor qualidade, ou para 26B/31B para desempenho de topo.
Comece agora
Pronto para executar IA nos dispositivos mais pequenos?
Comece a conversar gratuitamente ou transfira o Gemma 4 E2B para implementação ultracompacta e privada no dispositivo.