Descargar Gemma 4

Descarga los pesos oficiales de Gemma 4 - Licencia Apache 2.0

Los cuatro modelos de Gemma 4 están disponibles para descargar en Hugging Face, Kaggle y Ollama. Variantes Instruction-Tuned y base, múltiples niveles de cuantización y total libertad comercial bajo Apache 2.0.

Modelos disponibles

Todas las variantes de Gemma 4 listas para descargar

Cada modelo viene en variante Instruction-Tuned (IT) y base. Elige según tu caso de uso: IT para chat y tareas, base para fine-tuning.

Opciones de descarga

Múltiples formatos y niveles de cuantización

Los modelos están disponibles en BF16 (precisión completa), GGUF (para llama.cpp/Ollama) y ONNX (para despliegue en el borde). Las versiones cuantizadas de 4 bits a 8 bits reducen los requisitos de memoria.

Para la mayoría de los usuarios, recomendamos empezar con Ollama (selecciona automáticamente la cuantización adecuada) o los archivos GGUF de Hugging Face para llama.cpp.

Edge - 2.3B parámetros efectivos

Gemma 4 E2B

El modelo más pequeño. 3.2 GB en 4 bits. Corre en celulares, IoT y hardware económico.

Incluye codificador de audio. Ideal para despliegues ultracompactos donde la memoria es la restricción principal.

Descarga de 2 a 10 GB

Edge - 4.5B parámetros efectivos

Gemma 4 E4B

Modelo edge recomendado. 5.5 GB en 4 bits. Mejor calidad para laptops y computadoras de escritorio.

Incluye codificador de audio. Razonamiento y programación potentes en el dispositivo.

Descarga de 4 a 16 GB

Servidor - MoE

Gemma 4 26B A4B

Modelo MoE eficiente. 16 GB en 4 bits. Calidad cercana al 31B con costo de inferencia de 4B.

128 expertos, 8 activos + 1 compartido. Ideal para servicio en producción de alto rendimiento.

Descarga de 10 a 48 GB

Servidor - Flagship

Gemma 4 31B

Calidad máxima. 17 GB en 4 bits. #3 en el ranking Arena AI.

Arquitectura Dense para máxima confiabilidad. Ideal para aplicaciones donde la calidad es crítica.

Descarga de 12 a 58 GB

Fuentes de descarga

Plataformas de descarga oficiales

Descarga de fuentes oficiales confiables. Todos los modelos están verificados y mantenidos por Google DeepMind.

Hugging Face

Repositorios completos con todas las variantes, cuantizaciones y documentación. La fuente más completa para los pesos de Gemma 4.

Kaggle

Hosting oficial de modelos de Google. Descarga pesos y accede a notebooks para experimentación y fine-tuning.

Ollama

Descarga y ejecución con un solo comando. Ollama selecciona automáticamente la cuantización adecuada para tu hardware.

Google AI Studio

Sin necesidad de descarga. Usa Gemma 4 a través de una API alojada para prototipado y desarrollo.

Formato GGUF

Optimizado para llama.cpp y Ollama. Múltiples niveles de cuantización de Q4_K_M a Q8_0 para diferentes presupuestos de memoria.

Formato ONNX

Despliegue multiplataforma para dispositivos edge, móviles y navegadores. Optimizado para inferencia en hardware diverso.

Descarga rápida

La forma más rápida de empezar

Usa Ollama para el camino más rápido de la descarga a la ejecución. Un solo comando lo hace todo.

Comandos Ollama

  • ollama pull gemma4:e2b - Edge ultracompacto
  • ollama pull gemma4:e4b - Edge recomendado
  • ollama pull gemma4:26b - Servidor MoE
  • ollama pull gemma4:31b - Servidor flagship
  • ollama run gemma4:e4b - Descargar y empezar a chatear

Hugging Face CLI

  • pip install huggingface_hub
  • huggingface-cli download google/gemma-4-e4b-it
  • huggingface-cli download google/gemma-4-26b-a4b-it
  • huggingface-cli download google/gemma-4-31b-it
  • Agrega --revision para cuantizaciones específicas

Tamaños de descarga

Tamaños de archivo por modelo y cuantización

Elige la cuantización adecuada para tus restricciones de almacenamiento y memoria. Las cuantizaciones más pequeñas sacrifican algo de calidad a cambio de un tamaño de archivo significativamente menor.

Los tamaños de descarga varían según el nivel de cuantización. La cuantización de 4 bits (Q4_K_M) ofrece el mejor balance entre calidad y tamaño para la mayoría de los usuarios.

Comparación de tamaños de descarga de Gemma 4 entre modelos y cuantizaciones

E2B en 4 bits: unos 2 GB de descarga, unos 3.2 GB en memoria

E4B en 4 bits: unos 4 GB de descarga, unos 5.5 GB en memoria

26B en 4 bits: unos 10 GB de descarga, unos 16 GB en memoria

31B en 4 bits: unos 12 GB de descarga, unos 17 GB en memoria

Comparación de tamaños

Requisitos de descarga y memoria

Tamaños de archivo para diferentes niveles de cuantización de todos los modelos Gemma 4.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit GGUF
Recomendado
~2 GB~4 GB~10 GB~12 GB
8-bit GGUF
Mayor calidad
~5 GB~8 GB~24 GB~29 GB
BF16
Precisión completa
~10 GB~16 GB~48 GB~58 GB
VRAM needed
En 4 bits
~3.2 GB~5.5 GB~16 GB~17 GB

Tamaños aproximados. La descarga real puede variar ligeramente según la fuente y el formato.

Apache 2.0

Total libertad comercial con licencia Apache 2.0

Todos los modelos Gemma 4 se publican bajo licencia Apache 2.0. Sin límites de MAU, sin restricciones de uso, sin regalías. Uso comercial, modificación libre, distribución sin limitaciones.

  • Uso comercial completo sin restricciones
  • Modificación y distribución libres
  • Sin límites de uso ni obligaciones de reportes
Total libertad comercial con licencia Apache 2.0

Múltiples formatos

GGUF, ONNX, SafeTensors y más

Gemma 4 está disponible en múltiples formatos para diferentes objetivos de despliegue. GGUF para llama.cpp/Ollama, ONNX para dispositivos edge, SafeTensors para transformers y más.

  • GGUF: llama.cpp, Ollama, LM Studio, GPT4All
  • ONNX: dispositivos edge, móvil, despliegue en navegador
  • SafeTensors: Hugging Face transformers, vLLM, TGI
GGUF, ONNX, SafeTensors y más

Fuentes verificadas

Descarga solo de fuentes oficiales verificadas

Todos los pesos de Gemma 4 son publicados por Google DeepMind en plataformas oficiales. Siempre verifica el editor antes de descargar para obtener pesos auténticos y sin modificar.

  • Hugging Face: organización google/ verificada
  • Kaggle: editor google/ verificado
  • Ollama: entrada oficial de la biblioteca
Descarga solo de fuentes oficiales verificadas

Tras la descarga

Qué hacer con tus pesos de Gemma 4

¿Ya descargaste los pesos? Esto es lo que puedes hacer a continuación.

Ejecución local

Guía completa de despliegue local

Leer la guía

Acceso API

Usa vía API alojada en su lugar

Empezar

Fine-tuning

Personaliza para tus tareas específicas

Saber más

Todos los modelos

Compara todas las variantes de Gemma 4

Comparar

Comunidad

Únete a los desarrolladores que construyen con Gemma

Explorar

Ficha del modelo

Especificaciones técnicas

Ver

Empezar

Descarga Gemma 4 y empieza a construir

Pruébalo en línea primero, o descarga directamente para un despliegue local y privado. Licencia Apache 2.0 para total libertad comercial.