Gemma 4 Local

Ejecuta Gemma 4 en tu propio hardware: privado, sin conexión, sin claves API

Todos los modelos de Gemma 4 corren en local. Desde el E2B de 3.2 GB en un celular hasta el modelo insignia de 31B en una estación de trabajo. Ollama, llama.cpp, MLX, transformers y despliegue en navegador: elige tu herramienta y comienza en minutos.

Requisitos de hardware

Qué necesitas para ejecutar cada modelo en local

Los requisitos de memoria dependen del tamaño del modelo y del nivel de cuantización. La cuantización de 4 bits ofrece el mejor balance entre calidad y uso de memoria para la mayoría de los despliegues locales.

Guía de hardware

Encuentra el modelo adecuado para tu hardware

E2B corre en celulares y laptops económicas. E4B se ejecuta cómodamente en la mayoría de las laptops. El 26B MoE necesita una GPU decente. El 31B Dense requiere una configuración de estación de trabajo.

Todas las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para la ventana de contexto (KV cache) según tu caso de uso.

Celular / Laptop económica

E2B (3.2-10 GB)

4 bits: ~3.2 GB | 8 bits: ~5-8 GB | BF16: ~10 GB. Corre en celulares, Raspberry Pi y hardware económico.

~95 tok/s en GPU de consumo. El modelo más rápido de la familia. Ideal para aplicaciones en tiempo real.

El más fácil de ejecutar

Laptop / Escritorio

E4B (5.5-16 GB)

4 bits: ~5.5-6 GB | 8 bits: ~9-12 GB | BF16: ~16 GB. El mejor modelo edge para uso local diario.

Buena velocidad en RTX 3060+ o Mac M1+. El punto de partida recomendado para la mayoría de los usuarios locales.

Recomendado

Estación de trabajo GPU

26B MoE (16-48 GB)

4 bits: ~16 GB | 8 bits: ~24 GB | BF16: ~48 GB. Calidad cercana al 31B en una sola RTX 4090 o M4 Pro.

~2-8 tok/s según el hardware. Ideal para procesamiento por lotes y tareas locales que exigen alta calidad.

Usuarios avanzados

Multi-GPU / Servidor

31B Dense (17-58 GB)

4 bits: ~17 GB | 8 bits: ~29 GB | BF16: ~58 GB. Máxima calidad para despliegue local.

Requiere RTX 4090+ o M4 Max+ para un uso cómodo. Ideal para máxima calidad sin depender de la nube.

Máxima calidad

Herramientas de despliegue

Seis formas de ejecutar Gemma 4 en local

Desde la configuración de Ollama con un solo comando hasta compilaciones personalizadas de llama.cpp, hay una ruta de despliegue local para cada nivel de experiencia.

Ollama

Un comando para instalar, un comando para ejecutar. La forma más sencilla de usar Gemma 4 en local. Incluye API HTTP para la integración con otras herramientas.

llama.cpp

Control total sobre cuantización, tamaño de contexto y capas de GPU. Ideal para usuarios avanzados que quieren ajustar cada parámetro.

MLX (Apple Silicon)

Optimizado para Mac M1/M2/M3/M4. Aprovecha la memoria unificada para una inferencia eficiente en hardware Apple.

transformers (Python)

Integración completa con el ecosistema Hugging Face. Ideal para desarrolladores Python que quieren crear scripts, ajustar modelos o construir pipelines personalizados.

transformers.js (Browser)

Ejecuta E2B y E4B directamente en Chrome con WebGPU. Sin instalación, sin servidor: solo abre una página web.

LM Studio

Gestión local de modelos con interfaz gráfica. Descarga, configura y chatea con Gemma 4 desde una aplicación de escritorio.

Inicio rápido

Listo en 2 minutos con Ollama

La forma más rápida de pasar de cero a Gemma 4 en local. Instala Ollama, descarga un modelo y comienza a chatear.

Instalar y ejecutar

  • Instalar: curl -fsSL https://ollama.com/install.sh | sh
  • Ejecutar E4B: ollama run gemma4:e4b
  • Ejecutar 26B: ollama run gemma4:26b
  • Ejecutar 31B: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

Tips

  • Comienza con E4B si tienes 8-16 GB de RAM
  • Usa cuantización de 4 bits (Q4_K_M) para la mejor relación calidad/memoria
  • Agrega --num-gpu-layers para aceleración GPU en llama.cpp
  • Ajusta el tamaño de contexto según tu memoria disponible
  • Monitorea el uso de VRAM: deja margen para el KV cache

Rendimiento local

Velocidad y calidad reales en hardware de consumo

El rendimiento real varía según el hardware, la cuantización y la longitud del contexto. Esto es lo que puedes esperar en configuraciones comunes.

La velocidad de inferencia local depende de tu GPU, RAM, nivel de cuantización y longitud de contexto. Estas cifras representan el rendimiento típico en hardware de consumo común.

Rendimiento local de Gemma 4 en diferentes configuraciones de hardware

E2B a 4 bits: ~95 tok/s en RTX 3060, ~60 tok/s en M1 MacBook

E4B a 4 bits: ~40-60 tok/s en RTX 3060, ~30 tok/s en M1 MacBook

26B a 4 bits: ~8-15 tok/s en RTX 4090, ~5 tok/s en M4 Pro

31B a 4 bits: ~5-10 tok/s en RTX 4090, ~3 tok/s en M4 Max

Requisitos de hardware

Requisitos de VRAM y RAM por cuantización

Elige tu nivel de cuantización según la memoria disponible. 4 bits (Q4_K_M) ofrece la mejor relación calidad/memoria para la mayoría de los usuarios.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
Recomendado
~3.2 GB~5.5 GB~16 GB~17 GB
8-bit (Q8_0)
Mayor calidad
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
Precisión completa
~10 GB~16 GB~48 GB~58 GB
Min GPU
Uso cómodo
Cualquiera de 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Mac recomendado
Cualquier M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

Las cifras de memoria corresponden únicamente a los pesos del modelo. Agrega 2-4 GB para el KV cache según la longitud del contexto.

Privacidad primero

Tus datos nunca salen de tu dispositivo

Ejecutar Gemma 4 en local significa privacidad total. Sin llamadas API, sin registro de datos, sin necesidad de internet después de la descarga. Procesa documentos sensibles, código y conversaciones sin ninguna exposición.

  • Cero transmisión de datos: todo se queda en tu hardware
  • Sin claves API, sin cuentas, sin rastreo de uso
  • Procesa de forma segura documentos confidenciales y código propietario
Tus datos nunca salen de tu dispositivo

IA en el navegador

Ejecuta Gemma 4 en tu navegador, sin instalación

Los modelos E2B y E4B corren directamente en Chrome con WebGPU a través de transformers.js. Sin servidor, sin instalación, sin configuración. Solo abre una página web y comienza a chatear.

  • transformers.js permite la inferencia en el navegador con WebGPU
  • E2B y E4B optimizados para despliegue en navegador
  • Funciona en Chrome, Edge y otros navegadores compatibles con WebGPU
Ejecuta Gemma 4 en tu navegador, sin instalación

Herramientas para desarrolladores

Integra Gemma 4 local en tu flujo de trabajo

Usa Gemma 4 como asistente de programación local con Claude Code, VS Code o cualquier herramienta compatible con API de OpenAI. Tanto Ollama como llama.cpp exponen endpoints compatibles.

  • API compatible con OpenAI a través de Ollama (localhost:11434)
  • Funciona con Claude Code, Continue, Cursor y otras herramientas de IA
  • Ajuste fino con TRL, Unsloth o Keras para tareas personalizadas
Integra Gemma 4 local en tu flujo de trabajo

Ecosistema de IA local

Herramientas y plataformas para Gemma 4 en local

Un ecosistema de herramientas en crecimiento hace que ejecutar Gemma 4 en local sea más fácil que nunca.

Ollama

El despliegue local más sencillo con API HTTP

Comenzar

llama.cpp

Control y personalización máximos

Más información

LM Studio

Interfaz gráfica de escritorio para gestión local de modelos

Descargar

transformers.js

Inferencia en el navegador con WebGPU

Probar

MLX

Inferencia optimizada para Apple Silicon

Comenzar

vLLM

Servicio local de alto rendimiento

Desplegar

Comenzar

Ejecuta Gemma 4 en tu hardware hoy mismo

Pruébalo en línea primero y luego descárgalo para uso privado y sin conexión. Sin claves API, sin cuentas, tus datos nunca salen de tu dispositivo.