Transferir Gemma 4

Transfira os pesos oficiais do Gemma 4 - Licença Apache 2.0

Os quatro modelos do Gemma 4 estão disponíveis para transferência no Hugging Face, Kaggle e Ollama. Variantes Instruction-Tuned e base, múltiplos níveis de quantização e total liberdade comercial sob Apache 2.0.

Modelos disponíveis

Todas as variantes do Gemma 4 prontas para transferência

Cada modelo está disponível em variante Instruction-Tuned (IT) e base. Escolha conforme o seu caso de uso: IT para chat e tarefas, base para ajuste fino.

Opções de transferência

Múltiplos formatos e níveis de quantização

Os modelos estão disponíveis em BF16 (precisão total), GGUF (para llama.cpp/Ollama) e ONNX (para implementação periférica). Versões quantizadas de 4 bits a 8 bits reduzem os requisitos de memória.

Para a maioria dos utilizadores, recomendamos começar com o Ollama (seleciona automaticamente a quantização certa) ou os ficheiros GGUF do Hugging Face para llama.cpp.

Periferia - 2,3 mil milhões de parâmetros efetivos

Gemma 4 E2B

O modelo mais pequeno. 3,2 GB em 4 bits. Funciona em telemóveis, IoT e hardware económico.

Inclui codificador de áudio. Ideal para implementações ultracompactas onde a memória é a restrição principal.

Transferência de 2 a 10 GB

Periferia - 4,5 mil milhões de parâmetros efetivos

Gemma 4 E4B

Modelo periférico recomendado. 5,5 GB em 4 bits. Melhor qualidade para portáteis e computadores de secretária.

Inclui codificador de áudio. Raciocínio e programação potentes no dispositivo.

Transferência de 4 a 16 GB

Servidor - MoE

Gemma 4 26B A4B

Modelo MoE eficiente. 16 GB em 4 bits. Qualidade próxima do 31B com custo de inferência de 4B.

128 especialistas, 8 ativos + 1 partilhado. Ideal para serviço em produção de alto débito.

Transferência de 10 a 48 GB

Servidor - Flagship

Gemma 4 31B

Qualidade máxima. 17 GB em 4 bits. 3.º na classificação Arena AI.

Arquitetura Dense para máxima fiabilidade. Ideal para aplicações onde a qualidade é crítica.

Transferência de 12 a 58 GB

Fontes de transferência

Plataformas de transferência oficiais

Transfira de fontes oficiais de confiança. Todos os modelos são verificados e mantidos pelo Google DeepMind.

Hugging Face

Repositórios completos com todas as variantes, quantizações e documentação. A fonte mais abrangente para os pesos do Gemma 4.

Kaggle

Alojamento oficial de modelos do Google. Transfira pesos e aceda a notebooks para experimentação e ajuste fino.

Ollama

Transferência e execução com um único comando. O Ollama seleciona automaticamente a quantização certa para o seu hardware.

Google AI Studio

Sem necessidade de transferência. Utilize o Gemma 4 através de uma API alojada para prototipagem e desenvolvimento.

Formato GGUF

Otimizado para llama.cpp e Ollama. Múltiplos níveis de quantização de Q4_K_M a Q8_0 para diferentes orçamentos de memória.

Formato ONNX

Implementação multiplataforma para dispositivos periféricos, móveis e navegador. Otimizado para inferência em hardware diverso.

Transferência rápida

A forma mais rápida de começar

Utilize o Ollama para o caminho mais rápido da transferência à execução. Um único comando faz tudo.

Comandos Ollama

  • ollama pull gemma4:e2b - Periferia ultracompacto
  • ollama pull gemma4:e4b - Periferia recomendado
  • ollama pull gemma4:26b - Servidor MoE
  • ollama pull gemma4:31b - Servidor flagship
  • ollama run gemma4:e4b - Transferir e começar a conversar

Hugging Face CLI

  • pip install huggingface_hub
  • huggingface-cli download google/gemma-4-e4b-it
  • huggingface-cli download google/gemma-4-26b-a4b-it
  • huggingface-cli download google/gemma-4-31b-it
  • Adicione --revision para quantizações específicas

Tamanhos de transferência

Tamanhos de ficheiro por modelo e quantização

Escolha a quantização certa para as suas restrições de armazenamento e memória. Quantizações mais pequenas sacrificam alguma qualidade por tamanhos de ficheiro significativamente menores.

Os tamanhos de transferência variam conforme o nível de quantização. A quantização de 4 bits (Q4_K_M) oferece o melhor equilíbrio entre qualidade e tamanho para a maioria dos utilizadores.

Comparação de tamanhos de transferência do Gemma 4 entre modelos e quantizações

E2B em 4 bits: cerca de 2 GB de transferência, cerca de 3,2 GB em memória

E4B em 4 bits: cerca de 4 GB de transferência, cerca de 5,5 GB em memória

26B em 4 bits: cerca de 10 GB de transferência, cerca de 16 GB em memória

31B em 4 bits: cerca de 12 GB de transferência, cerca de 17 GB em memória

Comparação de tamanhos

Requisitos de transferência e memória

Tamanhos de ficheiro para diferentes níveis de quantização de todos os modelos Gemma 4.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit GGUF
Recomendado
~2 GB~4 GB~10 GB~12 GB
8-bit GGUF
Maior qualidade
~5 GB~8 GB~24 GB~29 GB
BF16
Precisão total
~10 GB~16 GB~48 GB~58 GB
VRAM needed
Em 4 bits
~3.2 GB~5.5 GB~16 GB~17 GB

Tamanhos aproximados. A transferência real pode variar ligeiramente conforme a fonte e o formato.

Apache 2.0

Total liberdade comercial com licença Apache 2.0

Todos os modelos Gemma 4 são lançados sob licença Apache 2.0. Sem limites de MAU, sem restrições de utilização, sem royalties. Uso comercial, modificação livre, distribuição sem limitações.

  • Uso comercial completo sem restrições
  • Modificação e distribuição livres
  • Sem limites de utilização ou obrigações de relatórios
Total liberdade comercial com licença Apache 2.0

Múltiplos formatos

GGUF, ONNX, SafeTensors e mais

O Gemma 4 está disponível em múltiplos formatos para diferentes alvos de implementação. GGUF para llama.cpp/Ollama, ONNX para dispositivos periféricos, SafeTensors para transformers e mais.

  • GGUF: llama.cpp, Ollama, LM Studio, GPT4All
  • ONNX: dispositivos periféricos, móvel, implementação em navegador
  • SafeTensors: Hugging Face transformers, vLLM, TGI
GGUF, ONNX, SafeTensors e mais

Fontes verificadas

Transfira apenas de fontes oficiais verificadas

Todos os pesos do Gemma 4 são publicados pelo Google DeepMind em plataformas oficiais. Verifique sempre o editor antes de transferir para garantir pesos autênticos e não modificados.

  • Hugging Face: organização google/ verificada
  • Kaggle: editor google/ verificado
  • Ollama: entrada oficial da biblioteca
Transfira apenas de fontes oficiais verificadas

Após a transferência

O que fazer com os seus pesos do Gemma 4

Transferiu os pesos? Veja o que pode fazer a seguir.

Execução local

Guia completo de implementação local

Ler o guia

Acesso via API

Utilize via API alojada como alternativa

Começar

Ajuste fino

Personalize para as suas tarefas específicas

Saber mais

Todos os modelos

Compare todas as variantes do Gemma 4

Comparar

Comunidade

Junte-se aos programadores que constroem com Gemma

Explorar

Ficha do modelo

Especificações técnicas

Ver

Comece agora

Transfira o Gemma 4 e comece a construir

Experimente online primeiro, ou transfira diretamente para implementação local e privada. Licença Apache 2.0 para total liberdade comercial.