Gemma 4 Local

Execute o Gemma 4 no seu próprio hardware - privado, offline, sem chaves de API

Todos os modelos do Gemma 4 rodam localmente. Do E2B de 3,2 GB no celular ao modelo principal de 31B em uma workstation. Ollama, llama.cpp, MLX, transformers e implantação no navegador - escolha sua ferramenta e comece em minutos.

Requisitos de hardware

O que você precisa para executar cada modelo localmente

Os requisitos de memória dependem do tamanho do modelo e do nível de quantização. A quantização de 4 bits oferece o melhor equilíbrio entre qualidade e uso de memória para a maioria das implantações locais.

Guia de hardware

Encontre o modelo certo para o seu hardware

O E2B roda em celulares e notebooks econômicos. O E4B funciona confortavelmente na maioria dos notebooks. O 26B MoE precisa de uma GPU decente. O 31B Dense requer uma configuração de workstation.

Todos os valores de memória referem-se apenas aos pesos do modelo. Adicione 2-4 GB para a janela de contexto (KV cache) dependendo do seu caso de uso.

Celular / Notebook econômico

E2B (3,2-10 GB)

4 bits: ~3,2 GB | 8 bits: ~5-8 GB | BF16: ~10 GB. Roda em celulares, Raspberry Pi e hardware econômico.

~95 tok/s em GPUs de consumo. O modelo mais rápido da família. Ideal para aplicações em tempo real.

Mais fácil de executar

Notebook / Desktop

E4B (5,5-16 GB)

4 bits: ~5,5-6 GB | 8 bits: ~9-12 GB | BF16: ~16 GB. O melhor modelo edge para uso local diário.

Boa velocidade em RTX 3060+ ou Macs M1+. O ponto de partida recomendado para a maioria dos usuários locais.

Recomendado

Workstation GPU

26B MoE (16-48 GB)

4 bits: ~16 GB | 8 bits: ~24 GB | BF16: ~48 GB. Qualidade próxima ao 31B em uma única RTX 4090 ou M4 Pro.

~2-8 tok/s dependendo do hardware. Ideal para processamento em lote e tarefas locais que exigem alta qualidade.

Usuários avançados

Multi-GPU / Servidor

31B Dense (17-58 GB)

4 bits: ~17 GB | 8 bits: ~29 GB | BF16: ~58 GB. Qualidade máxima para implantação local.

Requer RTX 4090+ ou M4 Max+ para uso confortável. Ideal para qualidade máxima sem dependência da nuvem.

Qualidade máxima

Ferramentas de implantação

Seis formas de executar o Gemma 4 localmente

Da configuração do Ollama com um único comando até builds personalizados do llama.cpp, há um caminho de implantação local para cada nível de experiência.

Ollama

Um comando para instalar, um comando para executar. O caminho mais fácil para o Gemma 4 local. API HTTP incluída para integração com outras ferramentas.

llama.cpp

Controle total sobre quantização, tamanho de contexto e camadas de GPU. Ideal para usuários avançados que querem ajustar cada parâmetro.

MLX (Apple Silicon)

Otimizado para Macs M1/M2/M3/M4. Aproveita a memória unificada para inferência eficiente em hardware Apple.

transformers (Python)

Integração completa com o ecossistema Hugging Face. Ideal para desenvolvedores Python que querem criar scripts, fazer fine-tuning ou construir pipelines personalizados.

transformers.js (Browser)

Execute o E2B e E4B diretamente no Chrome com WebGPU. Sem instalação, sem servidor - basta abrir uma página web.

LM Studio

Gerenciamento local de modelos com interface gráfica. Baixe, configure e converse com o Gemma 4 por meio de um aplicativo desktop.

Início rápido

Pronto em 2 minutos com o Ollama

O caminho mais rápido do zero ao Gemma 4 local. Instale o Ollama, baixe um modelo e comece a conversar.

Instalar e executar

  • Instalar: curl -fsSL https://ollama.com/install.sh | sh
  • Executar E4B: ollama run gemma4:e4b
  • Executar 26B: ollama run gemma4:26b
  • Executar 31B: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

Dicas

  • Comece com o E4B se você tem 8-16 GB de RAM
  • Use quantização de 4 bits (Q4_K_M) para a melhor relação qualidade/memória
  • Adicione --num-gpu-layers para aceleração de GPU no llama.cpp
  • Defina o tamanho do contexto com base na sua memória disponível
  • Monitore o uso de VRAM - deixe margem para o KV cache

Desempenho local

Velocidade e qualidade reais em hardware de consumo

O desempenho real varia conforme o hardware, a quantização e o comprimento do contexto. Veja o que esperar em configurações comuns.

A velocidade de inferência local depende da sua GPU, RAM, nível de quantização e comprimento do contexto. Esses números representam o desempenho típico em hardware de consumo comum.

Desempenho local do Gemma 4 em diferentes configurações de hardware

E2B a 4 bits: ~95 tok/s na RTX 3060, ~60 tok/s no M1 MacBook

E4B a 4 bits: ~40-60 tok/s na RTX 3060, ~30 tok/s no M1 MacBook

26B a 4 bits: ~8-15 tok/s na RTX 4090, ~5 tok/s no M4 Pro

31B a 4 bits: ~5-10 tok/s na RTX 4090, ~3 tok/s no M4 Max

Requisitos de hardware

Requisitos de VRAM e RAM por quantização

Escolha seu nível de quantização com base na memória disponível. 4 bits (Q4_K_M) oferece a melhor relação qualidade/memória para a maioria dos usuários.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Recomendado
~3,2 GB~5,5 GB~16 GB~17 GB
8-bit (Q8_0)
Maior qualidade
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
Precisão total
~10 GB~16 GB~48 GB~58 GB
Min GPU
Uso confortável
Qualquer 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Mac recomendado
Qualquer M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

Os valores de memória referem-se apenas aos pesos do modelo. Adicione 2-4 GB para o KV cache dependendo do comprimento do contexto.

Privacidade em primeiro lugar

Seus dados nunca saem do seu dispositivo

Executar o Gemma 4 localmente significa privacidade total. Sem chamadas de API, sem registro de dados, sem necessidade de internet após o download. Processe documentos sensíveis, código e conversas sem nenhuma exposição.

  • Zero transmissão de dados - tudo fica no seu hardware
  • Sem chaves de API, sem contas, sem rastreamento de uso
  • Processe com segurança documentos confidenciais e código proprietário
Seus dados nunca saem do seu dispositivo

IA no navegador

Execute o Gemma 4 no seu navegador - sem instalação

Os modelos E2B e E4B rodam diretamente no Chrome com WebGPU via transformers.js. Sem servidor, sem instalação, sem configuração. Basta abrir uma página web e começar a conversar.

  • transformers.js permite inferência no navegador com WebGPU
  • E2B e E4B otimizados para implantação no navegador
  • Funciona no Chrome, Edge e outros navegadores compatíveis com WebGPU
Execute o Gemma 4 no seu navegador - sem instalação

Ferramentas para desenvolvedores

Integre o Gemma 4 local ao seu fluxo de trabalho

Use o Gemma 4 como assistente de programação local com Claude Code, VS Code ou qualquer ferramenta compatível com APIs do OpenAI. Tanto o Ollama quanto o llama.cpp expõem endpoints compatíveis.

  • API compatível com OpenAI via Ollama (localhost:11434)
  • Funciona com Claude Code, Continue, Cursor e outras ferramentas de IA
  • Fine-tuning com TRL, Unsloth ou Keras para tarefas personalizadas
Integre o Gemma 4 local ao seu fluxo de trabalho

Ecossistema de IA local

Ferramentas e plataformas para o Gemma 4 local

Um ecossistema crescente de ferramentas torna a execução local do Gemma 4 mais fácil do que nunca.

Ollama

A implantação local mais fácil com API HTTP

Começar

llama.cpp

Controle e personalização máximos

Saiba mais

LM Studio

Interface gráfica desktop para gerenciamento local de modelos

Baixar

transformers.js

Inferência no navegador com WebGPU

Experimentar

MLX

Inferência otimizada para Apple Silicon

Começar

vLLM

Serviço local de alto desempenho

Implantar

Começar

Execute o Gemma 4 no seu hardware hoje mesmo

Experimente online primeiro e depois baixe para uso privado e offline. Sem chaves de API, sem contas, seus dados nunca saem do seu dispositivo.