Gemma 4 Local

Ejecuta Gemma 4 en tu propio hardware: privado, sin conexión, sin claves API

Todos los modelos de Gemma 4 corren en local. Desde el E2B de 3.2 GB en un celular hasta el modelo insignia de 31B en una estación de trabajo. Ollama, llama.cpp, MLX, transformers y despliegue en navegador: elige tu herramienta y comienza en minutos.

Probar en línea primero Ver requisitos de hardware

Requisitos de hardware

Qué necesitas para ejecutar cada modelo en local

Los requisitos de memoria dependen del tamaño del modelo y del nivel de cuantización. La cuantización de 4 bits ofrece el mejor balance entre calidad y uso de memoria para la mayoría de los despliegues locales.

Guía de hardware

Encuentra el modelo adecuado para tu hardware

E2B corre en celulares y laptops económicas. E4B se ejecuta cómodamente en la mayoría de las laptops. El 26B MoE necesita una GPU decente. El 31B Dense requiere una configuración de estación de trabajo.

Todas las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para la ventana de contexto (KV cache) según tu caso de uso.

Probar en línea primero Descargar modelos

Celular / Laptop económica

E2B (3.2-10 GB)

4 bits: ~3.2 GB | 8 bits: ~5-8 GB | BF16: ~10 GB. Corre en celulares, Raspberry Pi y hardware económico.

~95 tok/s en GPU de consumo. El modelo más rápido de la familia. Ideal para aplicaciones en tiempo real.

El más fácil de ejecutar

Descargar E2B Guía de configuración

Laptop / Escritorio

E4B (5.5-16 GB)

4 bits: ~5.5-6 GB | 8 bits: ~9-12 GB | BF16: ~16 GB. El mejor modelo edge para uso local diario.

Buena velocidad en RTX 3060+ o Mac M1+. El punto de partida recomendado para la mayoría de los usuarios locales.

Recomendado

Descargar E4B Guía de configuración

Estación de trabajo GPU

26B MoE (16-48 GB)

4 bits: ~16 GB | 8 bits: ~24 GB | BF16: ~48 GB. Calidad cercana al 31B en una sola RTX 4090 o M4 Pro.

~2-8 tok/s según el hardware. Ideal para procesamiento por lotes y tareas locales que exigen alta calidad.

Usuarios avanzados

Descargar 26B Guía de configuración

Multi-GPU / Servidor

31B Dense (17-58 GB)

4 bits: ~17 GB | 8 bits: ~29 GB | BF16: ~58 GB. Máxima calidad para despliegue local.

Requiere RTX 4090+ o M4 Max+ para un uso cómodo. Ideal para máxima calidad sin depender de la nube.

Máxima calidad

Descargar 31B Guía de configuración

Herramientas de despliegue

Seis formas de ejecutar Gemma 4 en local

Desde la configuración de Ollama con un solo comando hasta compilaciones personalizadas de llama.cpp, hay una ruta de despliegue local para cada nivel de experiencia.

Ollama

Un comando para instalar, un comando para ejecutar. La forma más sencilla de usar Gemma 4 en local. Incluye API HTTP para la integración con otras herramientas.

llama.cpp

Control total sobre cuantización, tamaño de contexto y capas de GPU. Ideal para usuarios avanzados que quieren ajustar cada parámetro.

MLX (Apple Silicon)

Optimizado para Mac M1/M2/M3/M4. Aprovecha la memoria unificada para una inferencia eficiente en hardware Apple.

transformers (Python)

Integración completa con el ecosistema Hugging Face. Ideal para desarrolladores Python que quieren crear scripts, ajustar modelos o construir pipelines personalizados.

transformers.js (Browser)

Ejecuta E2B y E4B directamente en Chrome con WebGPU. Sin instalación, sin servidor: solo abre una página web.

LM Studio

Gestión local de modelos con interfaz gráfica. Descarga, configura y chatea con Gemma 4 desde una aplicación de escritorio.

Inicio rápido

Listo en 2 minutos con Ollama

La forma más rápida de pasar de cero a Gemma 4 en local. Instala Ollama, descarga un modelo y comienza a chatear.

Instalar y ejecutar

Instalar: curl -fsSL https://ollama.com/install.sh | sh
Ejecutar E4B: ollama run gemma4:e4b
Ejecutar 26B: ollama run gemma4:26b
Ejecutar 31B: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

Tips

Comienza con E4B si tienes 8-16 GB de RAM
Usa cuantización de 4 bits (Q4_K_M) para la mejor relación calidad/memoria
Agrega --num-gpu-layers para aceleración GPU en llama.cpp
Ajusta el tamaño de contexto según tu memoria disponible
Monitorea el uso de VRAM: deja margen para el KV cache

Probar en línea primero Descargar modelos

Rendimiento local

Velocidad y calidad reales en hardware de consumo

El rendimiento real varía según el hardware, la cuantización y la longitud del contexto. Esto es lo que puedes esperar en configuraciones comunes.

La velocidad de inferencia local depende de tu GPU, RAM, nivel de cuantización y longitud de contexto. Estas cifras representan el rendimiento típico en hardware de consumo común.

Probar en línea primero Guía de hardware

Rendimiento local de Gemma 4 en diferentes configuraciones de hardware

E2B a 4 bits: ~95 tok/s en RTX 3060, ~60 tok/s en M1 MacBook

E4B a 4 bits: ~40-60 tok/s en RTX 3060, ~30 tok/s en M1 MacBook

26B a 4 bits: ~8-15 tok/s en RTX 4090, ~5 tok/s en M4 Pro

31B a 4 bits: ~5-10 tok/s en RTX 4090, ~3 tok/s en M4 Max

Requisitos de hardware

Requisitos de VRAM y RAM por cuantización

Elige tu nivel de cuantización según la memoria disponible. 4 bits (Q4_K_M) ofrece la mejor relación calidad/memoria para la mayoría de los usuarios.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) Recomendado	~3.2 GB	~5.5 GB	~16 GB	~17 GB
8-bit (Q8_0) Mayor calidad	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 Precisión completa	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU Uso cómodo	Cualquiera de 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Mac recomendado	Cualquier M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

Las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para el KV cache según la longitud del contexto.

Privacidad primero

Tus datos nunca salen de tu dispositivo

Ejecutar Gemma 4 en local significa privacidad total. Sin llamadas API, sin registro de datos, sin necesidad de internet después de la descarga. Procesa documentos sensibles, código y conversaciones sin ninguna exposición.

Cero transmisión de datos: todo se queda en tu hardware
Sin claves API, sin cuentas, sin rastreo de uso
Procesa de forma segura documentos confidenciales y código propietario

Descargar ahora Guía de privacidad

IA en el navegador

Ejecuta Gemma 4 en tu navegador, sin instalación

Los modelos E2B y E4B corren directamente en Chrome con WebGPU a través de transformers.js. Sin servidor, sin instalación, sin configuración. Solo abre una página web y comienza a chatear.

transformers.js permite la inferencia en el navegador con WebGPU
E2B y E4B optimizados para despliegue en navegador
Funciona en Chrome, Edge y otros navegadores compatibles con WebGPU

Probar en el navegador Documentación de transformers.js

Ejecuta Gemma 4 en tu navegador, sin instalación

Herramientas para desarrolladores

Integra Gemma 4 local en tu flujo de trabajo

Usa Gemma 4 como asistente de programación local con Claude Code, VS Code o cualquier herramienta compatible con API de OpenAI. Tanto Ollama como llama.cpp exponen endpoints compatibles.