Baixar Gemma 4
Baixe os pesos oficiais do Gemma 4 - Licença Apache 2.0
Os quatro modelos do Gemma 4 estão disponíveis para download no Hugging Face, Kaggle e Ollama. Variantes Instruction-Tuned e base, múltiplos níveis de quantização e total liberdade comercial sob Apache 2.0.
Modelos disponíveis
Todas as variantes do Gemma 4 prontas para download
Cada modelo vem em variante Instruction-Tuned (IT) e base. Escolha conforme seu caso de uso: IT para chat e tarefas, base para ajuste fino.
Opções de download
Múltiplos formatos e níveis de quantização
Os modelos estão disponíveis em BF16 (precisão total), GGUF (para llama.cpp/Ollama) e ONNX (para implantação de borda). Versões quantizadas de 4 bits a 8 bits reduzem os requisitos de memória.
Para a maioria dos usuários, recomendamos começar com Ollama (seleciona automaticamente a quantização certa) ou os arquivos GGUF do Hugging Face para llama.cpp.
Borda - 2,3B parâmetros efetivos
Gemma 4 E2B
O menor modelo. 3,2 GB em 4 bits. Roda em celulares, IoT e hardware econômico.
Inclui codificador de áudio. Ideal para implantações ultracompactas onde a memória é a restrição principal.
Borda - 4,5B parâmetros efetivos
Gemma 4 E4B
Modelo de borda recomendado. 5,5 GB em 4 bits. Melhor qualidade para notebooks e desktops.
Inclui codificador de áudio. Raciocínio e programação potentes no dispositivo.
Servidor - MoE
Gemma 4 26B A4B
Modelo MoE eficiente. 16 GB em 4 bits. Qualidade próxima ao 31B com custo de inferência de 4B.
128 especialistas, 8 ativos + 1 compartilhado. Ideal para serviço em produção de alto throughput.
Servidor - Flagship
Gemma 4 31B
Qualidade máxima. 17 GB em 4 bits. 3º no ranking Arena AI.
Arquitetura Dense para máxima confiabilidade. Ideal para aplicações onde a qualidade é crítica.
Fontes de download
Plataformas de download oficiais
Baixe de fontes oficiais confiáveis. Todos os modelos são verificados e mantidos pelo Google DeepMind.
Hugging Face
Repositórios completos com todas as variantes, quantizações e documentação. A fonte mais abrangente para os pesos do Gemma 4.
Kaggle
Hospedagem oficial de modelos do Google. Baixe pesos e acesse notebooks para experimentação e ajuste fino.
Ollama
Download e execução com um único comando. O Ollama seleciona automaticamente a quantização certa para o seu hardware.
Google AI Studio
Sem necessidade de download. Use o Gemma 4 através de uma API hospedada para prototipagem e desenvolvimento.
Formato GGUF
Otimizado para llama.cpp e Ollama. Múltiplos níveis de quantização de Q4_K_M a Q8_0 para diferentes orçamentos de memória.
Formato ONNX
Implantação multiplataforma para dispositivos de borda, mobile e navegador. Otimizado para inferência em hardware diverso.
Download rápido
A forma mais rápida de começar
Use o Ollama para o caminho mais rápido do download à execução. Um único comando faz tudo.
Comandos Ollama
- ollama pull gemma4:e2b - Borda ultracompacto
- ollama pull gemma4:e4b - Borda recomendado
- ollama pull gemma4:26b - Servidor MoE
- ollama pull gemma4:31b - Servidor flagship
- ollama run gemma4:e4b - Baixar e começar a conversar
Hugging Face CLI
- pip install huggingface_hub
- huggingface-cli download google/gemma-4-e4b-it
- huggingface-cli download google/gemma-4-26b-a4b-it
- huggingface-cli download google/gemma-4-31b-it
- Adicione --revision para quantizações específicas
Tamanhos de download
Tamanhos de arquivo por modelo e quantização
Escolha a quantização certa para suas restrições de armazenamento e memória. Quantizações menores sacrificam um pouco de qualidade por tamanhos de arquivo significativamente menores.
Os tamanhos de download variam conforme o nível de quantização. A quantização de 4 bits (Q4_K_M) oferece o melhor equilíbrio entre qualidade e tamanho para a maioria dos usuários.


E2B em 4 bits: cerca de 2 GB de download, cerca de 3,2 GB em memória
E4B em 4 bits: cerca de 4 GB de download, cerca de 5,5 GB em memória
26B em 4 bits: cerca de 10 GB de download, cerca de 16 GB em memória
31B em 4 bits: cerca de 12 GB de download, cerca de 17 GB em memória
Comparação de tamanhos
Requisitos de download e memória
Tamanhos de arquivo para diferentes níveis de quantização de todos os modelos Gemma 4.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit GGUF Recomendado | ~2 GB | ~4 GB | ~10 GB | ~12 GB |
8-bit GGUF Maior qualidade | ~5 GB | ~8 GB | ~24 GB | ~29 GB |
BF16 Precisão total | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
VRAM needed Em 4 bits | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
Tamanhos aproximados. O download real pode variar ligeiramente conforme a fonte e o formato.
Apache 2.0
Total liberdade comercial com licença Apache 2.0
Todos os modelos Gemma 4 são lançados sob licença Apache 2.0. Sem limites de MAU, sem restrições de uso, sem royalties. Uso comercial, modificação livre, distribuição sem limitações.
- Uso comercial completo sem restrições
- Modificação e distribuição livres
- Sem limites de uso ou obrigações de relatórios
Múltiplos formatos
GGUF, ONNX, SafeTensors e mais
O Gemma 4 está disponível em múltiplos formatos para diferentes alvos de implantação. GGUF para llama.cpp/Ollama, ONNX para dispositivos de borda, SafeTensors para transformers e mais.
- GGUF: llama.cpp, Ollama, LM Studio, GPT4All
- ONNX: dispositivos de borda, mobile, implantação em navegador
- SafeTensors: Hugging Face transformers, vLLM, TGI
Fontes verificadas
Baixe apenas de fontes oficiais verificadas
Todos os pesos do Gemma 4 são publicados pelo Google DeepMind em plataformas oficiais. Sempre verifique o publicador antes de baixar para garantir pesos autênticos e não modificados.
- Hugging Face: organização google/ verificada
- Kaggle: publicador google/ verificado
- Ollama: entrada oficial da biblioteca
Fontes oficiais
Baixe de plataformas verificadas
Obtenha pesos autênticos do Gemma 4 de fontes oficiais.
Guias de configuração
Começar após o download
Guias passo a passo para cada ferramenta de implantação.
Documentação
Referências técnicas
Documentação detalhada para todos os modelos.
Após o download
O que fazer com seus pesos do Gemma 4
Baixou os pesos? Veja o que você pode fazer a seguir.
Comece agora
Baixe o Gemma 4 e comece a construir
Experimente online primeiro, ou baixe diretamente para implantação local e privada. Licença Apache 2.0 para total liberdade comercial.