Gemma 4 Local

Execute o Gemma 4 no seu próprio hardware - privado, offline, sem chaves de API

Todos os modelos do Gemma 4 funcionam localmente. Desde o E2B de 3,2 GB num telemóvel até ao modelo principal de 31B numa estação de trabalho. Ollama, llama.cpp, MLX, transformers e implementação no navegador - escolha a sua ferramenta e comece em minutos.

Experimentar online primeiro Ver requisitos de hardware

Requisitos de hardware

O que precisa para executar cada modelo localmente

Os requisitos de memória dependem do tamanho do modelo e do nível de quantização. A quantização de 4 bits oferece o melhor equilíbrio entre qualidade e utilização de memória para a maioria das implementações locais.

Guia de hardware

Encontre o modelo certo para o seu hardware

O E2B funciona em telemóveis e portáteis económicos. O E4B funciona confortavelmente na maioria dos portáteis. O 26B MoE precisa de uma GPU decente. O 31B Dense requer uma configuração de estação de trabalho.

Todos os valores de memória referem-se apenas aos pesos do modelo. Adicione 2-4 GB para a janela de contexto (KV cache) consoante o seu caso de utilização.

Experimentar online primeiro Transferir modelos

Telemóvel / Portátil económico

E2B (3,2-10 GB)

4 bits: ~3,2 GB | 8 bits: ~5-8 GB | BF16: ~10 GB. Funciona em telemóveis, Raspberry Pi e hardware económico.

~95 tok/s em GPUs de consumo. O modelo mais rápido da família. Ideal para aplicações em tempo real.

O mais fácil de executar

Transferir E2B Guia de configuração

Portátil / Desktop

E4B (5,5-16 GB)

4 bits: ~5,5-6 GB | 8 bits: ~9-12 GB | BF16: ~16 GB. O melhor modelo edge para utilização local diária.

Boa velocidade em RTX 3060+ ou Macs M1+. O ponto de partida recomendado para a maioria dos utilizadores locais.

Recomendado

Transferir E4B Guia de configuração

Estação de trabalho GPU

26B MoE (16-48 GB)

4 bits: ~16 GB | 8 bits: ~24 GB | BF16: ~48 GB. Qualidade próxima do 31B numa única RTX 4090 ou M4 Pro.

~2-8 tok/s consoante o hardware. Ideal para processamento em lote e tarefas locais que exigem alta qualidade.

Utilizadores avançados

Transferir 26B Guia de configuração

Multi-GPU / Servidor

31B Dense (17-58 GB)

4 bits: ~17 GB | 8 bits: ~29 GB | BF16: ~58 GB. Qualidade máxima para implementação local.

Requer RTX 4090+ ou M4 Max+ para utilização confortável. Ideal para qualidade máxima sem dependência da nuvem.

Qualidade máxima

Transferir 31B Guia de configuração

Ferramentas de implementação

Seis formas de executar o Gemma 4 localmente

Desde a configuração do Ollama com um único comando até builds personalizados do llama.cpp, há um caminho de implementação local para cada nível de experiência.

Ollama

Um comando para instalar, um comando para executar. O caminho mais fácil para o Gemma 4 local. API HTTP incluída para integração com outras ferramentas.

llama.cpp

Controlo total sobre quantização, tamanho de contexto e camadas de GPU. Ideal para utilizadores avançados que querem ajustar cada parâmetro.

MLX (Apple Silicon)

Otimizado para Macs M1/M2/M3/M4. Tira partido da memória unificada para inferência eficiente em hardware Apple.

transformers (Python)

Integração completa com o ecossistema Hugging Face. Ideal para programadores Python que querem criar scripts, fazer fine-tuning ou construir pipelines personalizados.

transformers.js (Browser)

Execute o E2B e E4B diretamente no Chrome com WebGPU. Sem instalação, sem servidor - basta abrir uma página web.

LM Studio

Gestão local de modelos com interface gráfica. Transfira, configure e converse com o Gemma 4 através de uma aplicação de ambiente de trabalho.

Início rápido

Pronto em 2 minutos com o Ollama

O caminho mais rápido do zero ao Gemma 4 local. Instale o Ollama, transfira um modelo e comece a conversar.

Instalar e executar

Instalar: curl -fsSL https://ollama.com/install.sh | sh
Executar E4B: ollama run gemma4:e4b
Executar 26B: ollama run gemma4:26b
Executar 31B: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

Dicas

Comece com o E4B se tiver 8-16 GB de RAM
Utilize quantização de 4 bits (Q4_K_M) para a melhor relação qualidade/memória
Adicione --num-gpu-layers para aceleração de GPU no llama.cpp
Defina o tamanho do contexto com base na sua memória disponível
Monitorize a utilização de VRAM - deixe margem para o KV cache

Experimentar online primeiro Transferir modelos

Desempenho local

Velocidade e qualidade reais em hardware de consumo

O desempenho real varia consoante o hardware, a quantização e o comprimento do contexto. Eis o que pode esperar em configurações comuns.

A velocidade de inferência local depende da sua GPU, RAM, nível de quantização e comprimento do contexto. Estes valores representam o desempenho típico em hardware de consumo comum.

Experimentar online primeiro Guia de hardware

Desempenho local do Gemma 4 em diferentes configurações de hardware

E2B a 4 bits: ~95 tok/s na RTX 3060, ~60 tok/s no M1 MacBook

E4B a 4 bits: ~40-60 tok/s na RTX 3060, ~30 tok/s no M1 MacBook

26B a 4 bits: ~8-15 tok/s na RTX 4090, ~5 tok/s no M4 Pro

31B a 4 bits: ~5-10 tok/s na RTX 4090, ~3 tok/s no M4 Max

Requisitos de hardware

Requisitos de VRAM e RAM por quantização

Escolha o seu nível de quantização com base na memória disponível. 4 bits (Q4_K_M) oferece a melhor relação qualidade/memória para a maioria dos utilizadores.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Recomendado	~3,2 GB	~5,5 GB	~16 GB	~17 GB
8-bit (Q8_0) Maior qualidade	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 Precisão total	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU Utilização confortável	Qualquer 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Mac recomendado	Qualquer M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

Os valores de memória referem-se apenas aos pesos do modelo. Adicione 2-4 GB para o KV cache consoante o comprimento do contexto.

Privacidade em primeiro lugar

Os seus dados nunca saem do seu dispositivo

Executar o Gemma 4 localmente significa privacidade total. Sem chamadas de API, sem registo de dados, sem necessidade de internet após a transferência. Processe documentos sensíveis, código e conversas sem qualquer exposição.

Zero transmissão de dados - tudo permanece no seu hardware
Sem chaves de API, sem contas, sem rastreamento de utilização
Processe com segurança documentos confidenciais e código proprietário

Transferir agora Guia de privacidade

Os seus dados nunca saem do seu dispositivo

IA no navegador

Execute o Gemma 4 no seu navegador - sem instalação

Os modelos E2B e E4B funcionam diretamente no Chrome com WebGPU via transformers.js. Sem servidor, sem instalação, sem configuração. Basta abrir uma página web e começar a conversar.

transformers.js permite inferência no navegador com WebGPU
E2B e E4B otimizados para implementação no navegador
Funciona no Chrome, Edge e outros navegadores compatíveis com WebGPU

Experimentar no navegador Documentação do transformers.js

Execute o Gemma 4 no seu navegador - sem instalação

Ferramentas para programadores

Integre o Gemma 4 local no seu fluxo de trabalho

Utilize o Gemma 4 como assistente de programação local com Claude Code, VS Code ou qualquer ferramenta compatível com APIs do OpenAI. Tanto o Ollama como o llama.cpp expõem endpoints compatíveis.

API compatível com OpenAI via Ollama (localhost:11434)
Funciona com Claude Code, Continue, Cursor e outras ferramentas de IA
Fine-tuning com TRL, Unsloth ou Keras para tarefas personalizadas

Guia de integração Documentação de fine-tuning

Integre o Gemma 4 local no seu fluxo de trabalho

Início rápido

Ponha o Gemma 4 a funcionar localmente

Escolha a sua ferramenta preferida e comece em minutos.

Experimentar online primeiro

Converse com o Gemma 4 instantaneamente enquanto configura o ambiente local

Guia do Ollama

Configuração com um único comando para todos os modelos do Gemma 4

Guia do llama.cpp

Controlo total para utilizadores avançados

Guia do MLX

Otimizado para Macs com Apple Silicon

Transferir pesos

Obter ficheiros do modelo

Transfira os pesos oficiais de fontes fidedignas.

Hugging Face

Repositórios oficiais de modelos com todas as quantizações

Kaggle

Transferência a partir do Kaggle Models

Ollama Library

Transferência automática via ollama pull

Avançado

Fine-tuning e personalização

Personalize o Gemma 4 para o seu caso de utilização específico.

Fine-tuning com TRL

Hugging Face Transformer Reinforcement Learning

Unsloth Studio

Experiência de fine-tuning com interface gráfica

Keras

Fine-tuning com o framework Keras

LoRA / PEFT

Métodos de fine-tuning eficientes em parâmetros

Ecossistema de IA local