Descargar Gemma 4

Descarga los pesos oficiales de Gemma 4 - Licencia Apache 2.0

Los cuatro modelos de Gemma 4 están disponibles para descargar en Hugging Face, Kaggle y Ollama. Variantes Instruction-Tuned y base, múltiples niveles de cuantización y total libertad comercial bajo Apache 2.0.

Probar antes de descargar Ver todas las variantes

Modelos disponibles

Todas las variantes de Gemma 4 listas para descargar

Cada modelo viene en variante Instruction-Tuned (IT) y base. Elige según tu caso de uso: IT para chat y tareas, base para fine-tuning.

Opciones de descarga

Múltiples formatos y niveles de cuantización

Los modelos están disponibles en BF16 (precisión completa), GGUF (para llama.cpp/Ollama) y ONNX (para despliegue en el borde). Las versiones cuantizadas de 4 bits a 8 bits reducen los requisitos de memoria.

Para la mayoría de los usuarios, recomendamos empezar con Ollama (selecciona automáticamente la cuantización adecuada) o los archivos GGUF de Hugging Face para llama.cpp.

Probar antes de descargar Guía de hardware

Edge - 2.3B parámetros efectivos

Gemma 4 E2B

El modelo más pequeño. 3.2 GB en 4 bits. Corre en celulares, IoT y hardware económico.

Incluye codificador de audio. Ideal para despliegues ultracompactos donde la memoria es la restricción principal.

Descarga de 2 a 10 GB

Hugging Face Ollama

Edge - 4.5B parámetros efectivos

Gemma 4 E4B

Modelo edge recomendado. 5.5 GB en 4 bits. Mejor calidad para laptops y computadoras de escritorio.

Incluye codificador de audio. Razonamiento y programación potentes en el dispositivo.

Descarga de 4 a 16 GB

Hugging Face Ollama

Servidor - MoE

Gemma 4 26B A4B

Modelo MoE eficiente. 16 GB en 4 bits. Calidad cercana al 31B con costo de inferencia de 4B.

128 expertos, 8 activos + 1 compartido. Ideal para servicio en producción de alto rendimiento.

Descarga de 10 a 48 GB

Hugging Face Ollama

Servidor - Flagship

Gemma 4 31B

Calidad máxima. 17 GB en 4 bits. #3 en el ranking Arena AI.

Arquitectura Dense para máxima confiabilidad. Ideal para aplicaciones donde la calidad es crítica.

Descarga de 12 a 58 GB

Hugging Face Ollama

Fuentes de descarga

Plataformas de descarga oficiales

Descarga de fuentes oficiales confiables. Todos los modelos están verificados y mantenidos por Google DeepMind.

Hugging Face

Repositorios completos con todas las variantes, cuantizaciones y documentación. La fuente más completa para los pesos de Gemma 4.

Kaggle

Hosting oficial de modelos de Google. Descarga pesos y accede a notebooks para experimentación y fine-tuning.

Ollama

Descarga y ejecución con un solo comando. Ollama selecciona automáticamente la cuantización adecuada para tu hardware.

Google AI Studio

Sin necesidad de descarga. Usa Gemma 4 a través de una API alojada para prototipado y desarrollo.

Formato GGUF

Optimizado para llama.cpp y Ollama. Múltiples niveles de cuantización de Q4_K_M a Q8_0 para diferentes presupuestos de memoria.

Formato ONNX

Despliegue multiplataforma para dispositivos edge, móviles y navegadores. Optimizado para inferencia en hardware diverso.

Descarga rápida

La forma más rápida de empezar

Usa Ollama para el camino más rápido de la descarga a la ejecución. Un solo comando lo hace todo.

Comandos Ollama

ollama pull gemma4:e2b - Edge ultracompacto
ollama pull gemma4:e4b - Edge recomendado
ollama pull gemma4:26b - Servidor MoE
ollama pull gemma4:31b - Servidor flagship
ollama run gemma4:e4b - Descargar y empezar a chatear

Hugging Face CLI

pip install huggingface_hub
huggingface-cli download google/gemma-4-e4b-it
huggingface-cli download google/gemma-4-26b-a4b-it
huggingface-cli download google/gemma-4-31b-it
Agrega --revision para cuantizaciones específicas

Probar antes de descargar Ver todos los modelos

Tamaños de descarga

Tamaños de archivo por modelo y cuantización

Elige la cuantización adecuada para tus restricciones de almacenamiento y memoria. Las cuantizaciones más pequeñas sacrifican algo de calidad a cambio de un tamaño de archivo significativamente menor.

Los tamaños de descarga varían según el nivel de cuantización. La cuantización de 4 bits (Q4_K_M) ofrece el mejor balance entre calidad y tamaño para la mayoría de los usuarios.

Descargar ahora Guía de hardware

Comparación de tamaños de descarga de Gemma 4 entre modelos y cuantizaciones

E2B en 4 bits: unos 2 GB de descarga, unos 3.2 GB en memoria

E4B en 4 bits: unos 4 GB de descarga, unos 5.5 GB en memoria

26B en 4 bits: unos 10 GB de descarga, unos 16 GB en memoria

31B en 4 bits: unos 12 GB de descarga, unos 17 GB en memoria

Comparación de tamaños

Requisitos de descarga y memoria

Tamaños de archivo para diferentes niveles de cuantización de todos los modelos Gemma 4.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit GGUF Recomendado	~2 GB	~4 GB	~10 GB	~12 GB
8-bit GGUF Mayor calidad	~5 GB	~8 GB	~24 GB	~29 GB
BF16 Precisión completa	~10 GB	~16 GB	~48 GB	~58 GB
VRAM needed En 4 bits	~3.2 GB	~5.5 GB	~16 GB	~17 GB

Tamaños aproximados. La descarga real puede variar ligeramente según la fuente y el formato.

Apache 2.0

Total libertad comercial con licencia Apache 2.0

Todos los modelos Gemma 4 se publican bajo licencia Apache 2.0. Sin límites de MAU, sin restricciones de uso, sin regalías. Uso comercial, modificación libre, distribución sin limitaciones.

Uso comercial completo sin restricciones
Modificación y distribución libres
Sin límites de uso ni obligaciones de reportes

Descargar ahora Ver la licencia

Total libertad comercial con licencia Apache 2.0

Múltiples formatos

GGUF, ONNX, SafeTensors y más

Gemma 4 está disponible en múltiples formatos para diferentes objetivos de despliegue. GGUF para llama.cpp/Ollama, ONNX para dispositivos edge, SafeTensors para transformers y más.

GGUF: llama.cpp, Ollama, LM Studio, GPT4All
ONNX: dispositivos edge, móvil, despliegue en navegador
SafeTensors: Hugging Face transformers, vLLM, TGI

Hugging Face Guía de formatos

Fuentes verificadas

Descarga solo de fuentes oficiales verificadas

Todos los pesos de Gemma 4 son publicados por Google DeepMind en plataformas oficiales. Siempre verifica el editor antes de descargar para obtener pesos auténticos y sin modificar.

Hugging Face: organización google/ verificada
Kaggle: editor google/ verificado
Ollama: entrada oficial de la biblioteca

Hugging Face Kaggle