Baixar Gemma 4

Baixe os pesos oficiais do Gemma 4 - Licença Apache 2.0

Os quatro modelos do Gemma 4 estão disponíveis para download no Hugging Face, Kaggle e Ollama. Variantes Instruction-Tuned e base, múltiplos níveis de quantização e total liberdade comercial sob Apache 2.0.

Experimentar antes de baixar Ver todas as variantes

Modelos disponíveis

Todas as variantes do Gemma 4 prontas para download

Cada modelo vem em variante Instruction-Tuned (IT) e base. Escolha conforme seu caso de uso: IT para chat e tarefas, base para ajuste fino.

Opções de download

Múltiplos formatos e níveis de quantização

Os modelos estão disponíveis em BF16 (precisão total), GGUF (para llama.cpp/Ollama) e ONNX (para implantação de borda). Versões quantizadas de 4 bits a 8 bits reduzem os requisitos de memória.

Para a maioria dos usuários, recomendamos começar com Ollama (seleciona automaticamente a quantização certa) ou os arquivos GGUF do Hugging Face para llama.cpp.

Experimentar antes de baixar Guia de hardware

Borda - 2,3B parâmetros efetivos

Gemma 4 E2B

O menor modelo. 3,2 GB em 4 bits. Roda em celulares, IoT e hardware econômico.

Inclui codificador de áudio. Ideal para implantações ultracompactas onde a memória é a restrição principal.

Download de 2 a 10 GB

Hugging Face Ollama

Borda - 4,5B parâmetros efetivos

Gemma 4 E4B

Modelo de borda recomendado. 5,5 GB em 4 bits. Melhor qualidade para notebooks e desktops.

Inclui codificador de áudio. Raciocínio e programação potentes no dispositivo.

Download de 4 a 16 GB

Hugging Face Ollama

Servidor - MoE

Gemma 4 26B A4B

Modelo MoE eficiente. 16 GB em 4 bits. Qualidade próxima ao 31B com custo de inferência de 4B.

128 especialistas, 8 ativos + 1 compartilhado. Ideal para serviço em produção de alto throughput.

Download de 10 a 48 GB

Hugging Face Ollama

Servidor - Flagship

Gemma 4 31B

Qualidade máxima. 17 GB em 4 bits. 3º no ranking Arena AI.

Arquitetura Dense para máxima confiabilidade. Ideal para aplicações onde a qualidade é crítica.

Download de 12 a 58 GB

Hugging Face Ollama

Fontes de download

Plataformas de download oficiais

Baixe de fontes oficiais confiáveis. Todos os modelos são verificados e mantidos pelo Google DeepMind.

Hugging Face

Repositórios completos com todas as variantes, quantizações e documentação. A fonte mais abrangente para os pesos do Gemma 4.

Kaggle

Hospedagem oficial de modelos do Google. Baixe pesos e acesse notebooks para experimentação e ajuste fino.

Ollama

Download e execução com um único comando. O Ollama seleciona automaticamente a quantização certa para o seu hardware.

Google AI Studio

Sem necessidade de download. Use o Gemma 4 através de uma API hospedada para prototipagem e desenvolvimento.

Formato GGUF

Otimizado para llama.cpp e Ollama. Múltiplos níveis de quantização de Q4_K_M a Q8_0 para diferentes orçamentos de memória.

Formato ONNX

Implantação multiplataforma para dispositivos de borda, mobile e navegador. Otimizado para inferência em hardware diverso.

Download rápido

A forma mais rápida de começar

Use o Ollama para o caminho mais rápido do download à execução. Um único comando faz tudo.

Comandos Ollama

ollama pull gemma4:e2b - Borda ultracompacto
ollama pull gemma4:e4b - Borda recomendado
ollama pull gemma4:26b - Servidor MoE
ollama pull gemma4:31b - Servidor flagship
ollama run gemma4:e4b - Baixar e começar a conversar

Hugging Face CLI

pip install huggingface_hub
huggingface-cli download google/gemma-4-e4b-it
huggingface-cli download google/gemma-4-26b-a4b-it
huggingface-cli download google/gemma-4-31b-it
Adicione --revision para quantizações específicas

Experimentar antes de baixar Ver todos os modelos

Tamanhos de download

Tamanhos de arquivo por modelo e quantização

Escolha a quantização certa para suas restrições de armazenamento e memória. Quantizações menores sacrificam um pouco de qualidade por tamanhos de arquivo significativamente menores.

Os tamanhos de download variam conforme o nível de quantização. A quantização de 4 bits (Q4_K_M) oferece o melhor equilíbrio entre qualidade e tamanho para a maioria dos usuários.

Baixar agora Guia de hardware

Comparação de tamanhos de download do Gemma 4 entre modelos e quantizações

E2B em 4 bits: cerca de 2 GB de download, cerca de 3,2 GB em memória

E4B em 4 bits: cerca de 4 GB de download, cerca de 5,5 GB em memória

26B em 4 bits: cerca de 10 GB de download, cerca de 16 GB em memória

31B em 4 bits: cerca de 12 GB de download, cerca de 17 GB em memória

Comparação de tamanhos

Requisitos de download e memória

Tamanhos de arquivo para diferentes níveis de quantização de todos os modelos Gemma 4.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit GGUF Recomendado	~2 GB	~4 GB	~10 GB	~12 GB
8-bit GGUF Maior qualidade	~5 GB	~8 GB	~24 GB	~29 GB
BF16 Precisão total	~10 GB	~16 GB	~48 GB	~58 GB
VRAM needed Em 4 bits	~3.2 GB	~5.5 GB	~16 GB	~17 GB

Tamanhos aproximados. O download real pode variar ligeiramente conforme a fonte e o formato.

Apache 2.0

Total liberdade comercial com licença Apache 2.0

Todos os modelos Gemma 4 são lançados sob licença Apache 2.0. Sem limites de MAU, sem restrições de uso, sem royalties. Uso comercial, modificação livre, distribuição sem limitações.

Uso comercial completo sem restrições
Modificação e distribuição livres
Sem limites de uso ou obrigações de relatórios

Baixar agora Ver a licença

Total liberdade comercial com licença Apache 2.0

Múltiplos formatos

GGUF, ONNX, SafeTensors e mais

O Gemma 4 está disponível em múltiplos formatos para diferentes alvos de implantação. GGUF para llama.cpp/Ollama, ONNX para dispositivos de borda, SafeTensors para transformers e mais.

GGUF: llama.cpp, Ollama, LM Studio, GPT4All
ONNX: dispositivos de borda, mobile, implantação em navegador
SafeTensors: Hugging Face transformers, vLLM, TGI

Hugging Face Guia de formatos

Fontes verificadas

Baixe apenas de fontes oficiais verificadas

Todos os pesos do Gemma 4 são publicados pelo Google DeepMind em plataformas oficiais. Sempre verifique o publicador antes de baixar para garantir pesos autênticos e não modificados.

Hugging Face: organização google/ verificada
Kaggle: publicador google/ verificado
Ollama: entrada oficial da biblioteca

Hugging Face Kaggle