Gemma 4 Local
Ejecuta Gemma 4 en tu propio hardware: privado, sin conexión, sin claves API
Todos los modelos de Gemma 4 corren en local. Desde el E2B de 3.2 GB en un celular hasta el modelo insignia de 31B en una estación de trabajo. Ollama, llama.cpp, MLX, transformers y despliegue en navegador: elige tu herramienta y comienza en minutos.
Requisitos de hardware
Qué necesitas para ejecutar cada modelo en local
Los requisitos de memoria dependen del tamaño del modelo y del nivel de cuantización. La cuantización de 4 bits ofrece el mejor balance entre calidad y uso de memoria para la mayoría de los despliegues locales.
Guía de hardware
Encuentra el modelo adecuado para tu hardware
E2B corre en celulares y laptops económicas. E4B se ejecuta cómodamente en la mayoría de las laptops. El 26B MoE necesita una GPU decente. El 31B Dense requiere una configuración de estación de trabajo.
Todas las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para la ventana de contexto (KV cache) según tu caso de uso.
Celular / Laptop económica
E2B (3.2-10 GB)
4 bits: ~3.2 GB | 8 bits: ~5-8 GB | BF16: ~10 GB. Corre en celulares, Raspberry Pi y hardware económico.
~95 tok/s en GPU de consumo. El modelo más rápido de la familia. Ideal para aplicaciones en tiempo real.
Laptop / Escritorio
E4B (5.5-16 GB)
4 bits: ~5.5-6 GB | 8 bits: ~9-12 GB | BF16: ~16 GB. El mejor modelo edge para uso local diario.
Buena velocidad en RTX 3060+ o Mac M1+. El punto de partida recomendado para la mayoría de los usuarios locales.
Estación de trabajo GPU
26B MoE (16-48 GB)
4 bits: ~16 GB | 8 bits: ~24 GB | BF16: ~48 GB. Calidad cercana al 31B en una sola RTX 4090 o M4 Pro.
~2-8 tok/s según el hardware. Ideal para procesamiento por lotes y tareas locales que exigen alta calidad.
Multi-GPU / Servidor
31B Dense (17-58 GB)
4 bits: ~17 GB | 8 bits: ~29 GB | BF16: ~58 GB. Máxima calidad para despliegue local.
Requiere RTX 4090+ o M4 Max+ para un uso cómodo. Ideal para máxima calidad sin depender de la nube.
Herramientas de despliegue
Seis formas de ejecutar Gemma 4 en local
Desde la configuración de Ollama con un solo comando hasta compilaciones personalizadas de llama.cpp, hay una ruta de despliegue local para cada nivel de experiencia.
Ollama
Un comando para instalar, un comando para ejecutar. La forma más sencilla de usar Gemma 4 en local. Incluye API HTTP para la integración con otras herramientas.
llama.cpp
Control total sobre cuantización, tamaño de contexto y capas de GPU. Ideal para usuarios avanzados que quieren ajustar cada parámetro.
MLX (Apple Silicon)
Optimizado para Mac M1/M2/M3/M4. Aprovecha la memoria unificada para una inferencia eficiente en hardware Apple.
transformers (Python)
Integración completa con el ecosistema Hugging Face. Ideal para desarrolladores Python que quieren crear scripts, ajustar modelos o construir pipelines personalizados.
transformers.js (Browser)
Ejecuta E2B y E4B directamente en Chrome con WebGPU. Sin instalación, sin servidor: solo abre una página web.
LM Studio
Gestión local de modelos con interfaz gráfica. Descarga, configura y chatea con Gemma 4 desde una aplicación de escritorio.
Inicio rápido
Listo en 2 minutos con Ollama
La forma más rápida de pasar de cero a Gemma 4 en local. Instala Ollama, descarga un modelo y comienza a chatear.
Instalar y ejecutar
- Instalar: curl -fsSL https://ollama.com/install.sh | sh
- Ejecutar E4B: ollama run gemma4:e4b
- Ejecutar 26B: ollama run gemma4:26b
- Ejecutar 31B: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
Tips
- Comienza con E4B si tienes 8-16 GB de RAM
- Usa cuantización de 4 bits (Q4_K_M) para la mejor relación calidad/memoria
- Agrega --num-gpu-layers para aceleración GPU en llama.cpp
- Ajusta el tamaño de contexto según tu memoria disponible
- Monitorea el uso de VRAM: deja margen para el KV cache
Rendimiento local
Velocidad y calidad reales en hardware de consumo
El rendimiento real varía según el hardware, la cuantización y la longitud del contexto. Esto es lo que puedes esperar en configuraciones comunes.
La velocidad de inferencia local depende de tu GPU, RAM, nivel de cuantización y longitud de contexto. Estas cifras representan el rendimiento típico en hardware de consumo común.


E2B a 4 bits: ~95 tok/s en RTX 3060, ~60 tok/s en M1 MacBook
E4B a 4 bits: ~40-60 tok/s en RTX 3060, ~30 tok/s en M1 MacBook
26B a 4 bits: ~8-15 tok/s en RTX 4090, ~5 tok/s en M4 Pro
31B a 4 bits: ~5-10 tok/s en RTX 4090, ~3 tok/s en M4 Max
Requisitos de hardware
Requisitos de VRAM y RAM por cuantización
Elige tu nivel de cuantización según la memoria disponible. 4 bits (Q4_K_M) ofrece la mejor relación calidad/memoria para la mayoría de los usuarios.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) Recomendado | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) Mayor calidad | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 Precisión completa | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU Uso cómodo | Cualquiera de 4 GB+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Mac recomendado | Cualquier M1+ | M1+ 16 GB | M4 Pro 24 GB | M4 Max 64 GB |
Las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para el KV cache según la longitud del contexto.
Privacidad primero
Tus datos nunca salen de tu dispositivo
Ejecutar Gemma 4 en local significa privacidad total. Sin llamadas API, sin registro de datos, sin necesidad de internet después de la descarga. Procesa documentos sensibles, código y conversaciones sin ninguna exposición.
- Cero transmisión de datos: todo se queda en tu hardware
- Sin claves API, sin cuentas, sin rastreo de uso
- Procesa de forma segura documentos confidenciales y código propietario
IA en el navegador
Ejecuta Gemma 4 en tu navegador, sin instalación
Los modelos E2B y E4B corren directamente en Chrome con WebGPU a través de transformers.js. Sin servidor, sin instalación, sin configuración. Solo abre una página web y comienza a chatear.
- transformers.js permite la inferencia en el navegador con WebGPU
- E2B y E4B optimizados para despliegue en navegador
- Funciona en Chrome, Edge y otros navegadores compatibles con WebGPU
Herramientas para desarrolladores
Integra Gemma 4 local en tu flujo de trabajo
Usa Gemma 4 como asistente de programación local con Claude Code, VS Code o cualquier herramienta compatible con API de OpenAI. Tanto Ollama como llama.cpp exponen endpoints compatibles.
- API compatible con OpenAI a través de Ollama (localhost:11434)
- Funciona con Claude Code, Continue, Cursor y otras herramientas de IA
- Ajuste fino con TRL, Unsloth o Keras para tareas personalizadas
Inicio rápido
Pon Gemma 4 a funcionar en local
Elige tu herramienta preferida y comienza en minutos.
Descargar pesos
Obtener archivos del modelo
Descarga los pesos oficiales desde fuentes confiables.
Avanzado
Ajuste fino y personalización
Personaliza Gemma 4 para tu caso de uso específico.
Ecosistema de IA local
Herramientas y plataformas para Gemma 4 en local
Un ecosistema de herramientas en crecimiento hace que ejecutar Gemma 4 en local sea más fácil que nunca.
Comenzar
Ejecuta Gemma 4 en tu hardware hoy mismo
Pruébalo en línea primero y luego descárgalo para uso privado y sin conexión. Sin claves API, sin cuentas, tus datos nunca salen de tu dispositivo.