Gemma 4 Local

내 하드웨어에서 Gemma 4 실행 - 프라이빗, 오프라인, API 키 불필요

모든 Gemma 4 모델을 로컬에서 실행할 수 있습니다. 스마트폰에서 동작하는 3.2GB E2B부터 워크스테이션용 31B 플래그십까지. Ollama, llama.cpp, MLX, transformers, 브라우저 배포 - 도구를 선택하고 몇 분 만에 시작하세요.

먼저 온라인으로 체험 하드웨어 요구사항 보기

하드웨어 요구사항

각 모델의 로컬 실행에 필요한 것

메모리 요구사항은 모델 크기와 양자화 수준에 따라 다릅니다. 4-bit 양자화는 대부분의 로컬 배포에서 품질과 메모리 사용량의 최적 균형을 제공합니다.

하드웨어 가이드

하드웨어에 맞는 모델 선택

E2B는 스마트폰과 저가형 노트북에서 실행됩니다. E4B는 대부분의 노트북에서 쾌적하게 동작합니다. 26B MoE에는 적절한 GPU가 필요합니다. 31B Dense에는 워크스테이션급 환경이 필요합니다.

모든 메모리 수치는 모델 가중치만을 기준으로 합니다. 사용 사례에 따라 컨텍스트 윈도우(KV cache)용으로 2-4GB를 추가하세요.

먼저 온라인으로 체험 모델 다운로드

스마트폰 / 저가형 노트북

E2B (3.2-10GB)

4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB. 스마트폰, Raspberry Pi, 저가형 하드웨어에서 실행.

소비자용 GPU에서 ~95 tok/s. 패밀리 내 가장 빠른 모델. 실시간 애플리케이션에 이상적.

가장 쉽게 실행 가능

E2B 다운로드 설정 가이드

노트북 / 데스크톱

E4B (5.5-16GB)

4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB. 일상적인 로컬 사용에 최적의 엣지 모델.

RTX 3060 이상 또는 M1 이상 Mac에서 양호한 속도. 대부분의 로컬 사용자에게 권장하는 시작점.

권장

E4B 다운로드 설정 가이드

GPU 워크스테이션

26B MoE (16-48GB)

4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB. 단일 RTX 4090 또는 M4 Pro에서 31B에 근접한 품질.

하드웨어에 따라 ~2-8 tok/s. 배치 처리 및 품질 중시 로컬 작업에 최적.

파워 유저

26B 다운로드 설정 가이드

멀티 GPU / 서버

31B Dense (17-58GB)

4-bit: ~17GB | 8-bit: ~29GB | BF16: ~58GB. 로컬 배포 최고 품질.

쾌적한 사용을 위해 RTX 4090 이상 또는 M4 Max 이상 필요. 클라우드 의존 없이 최고 품질을 원하는 분에게 최적.

최고 품질

31B 다운로드 설정 가이드

배포 도구

Gemma 4를 로컬에서 실행하는 6가지 방법

원커맨드 Ollama 설정부터 커스텀 llama.cpp 빌드까지, 모든 수준의 사용자를 위한 로컬 배포 방법이 있습니다.

Ollama

설치도 실행도 명령어 하나면 충분합니다. Gemma 4를 로컬에서 실행하는 가장 쉬운 방법. 다른 도구와의 연동을 위한 HTTP API 포함.

llama.cpp

양자화, 컨텍스트 크기, GPU 레이어를 세밀하게 제어. 모든 파라미터를 조정하고 싶은 파워 유저에게 최적.

MLX (Apple Silicon)

M1/M2/M3/M4 Mac에 최적화. Apple 하드웨어에서 유니파이드 메모리를 활용한 효율적인 추론.

transformers (Python)

Hugging Face 에코시스템과 완벽한 통합. 스크립팅, 파인튜닝, 커스텀 파이프라인 구축을 원하는 Python 개발자에게 최적.

transformers.js (Browser)

E2B와 E4B를 Chrome에서 WebGPU로 직접 실행. 설치 불필요, 서버 불필요 - 웹페이지를 열기만 하면 됩니다.

LM Studio

GUI 기반 로컬 모델 관리. 데스크톱 애플리케이션으로 Gemma 4를 다운로드, 설정, 채팅.

빠른 시작

Ollama로 2분 만에 실행

제로에서 로컬 Gemma 4까지 가장 빠른 경로. Ollama를 설치하고, 모델을 가져오고, 채팅을 시작하세요.

설치 및 실행

설치: curl -fsSL https://ollama.com/install.sh | sh
E4B 실행: ollama run gemma4:e4b
26B 실행: ollama run gemma4:26b
31B 실행: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

팁

8-16GB RAM이 있다면 E4B부터 시작하세요
최적의 품질/메모리 비율을 위해 4-bit 양자화(Q4_K_M) 사용
llama.cpp에서 GPU 가속을 위해 --num-gpu-layers 추가
사용 가능한 메모리에 따라 컨텍스트 크기 설정
VRAM 사용량 모니터링 - KV cache를 위한 여유 공간 확보

먼저 온라인으로 체험 모델 다운로드

로컬 성능

소비자용 하드웨어에서의 실제 속도와 품질

실제 성능은 하드웨어, 양자화, 컨텍스트 길이에 따라 다릅니다. 일반적인 환경에서 기대할 수 있는 수준을 소개합니다.

로컬 추론 속도는 GPU, RAM, 양자화 수준, 컨텍스트 길이에 따라 달라집니다. 이 수치는 일반적인 소비자용 하드웨어에서의 대표적인 성능입니다.

먼저 온라인으로 체험 하드웨어 가이드

E2B(4-bit): RTX 3060에서 ~95 tok/s, M1 MacBook에서 ~60 tok/s

E4B(4-bit): RTX 3060에서 ~40-60 tok/s, M1 MacBook에서 ~30 tok/s

26B(4-bit): RTX 4090에서 ~8-15 tok/s, M4 Pro에서 ~5 tok/s

31B(4-bit): RTX 4090에서 ~5-10 tok/s, M4 Max에서 ~3 tok/s

하드웨어 요구사항

양자화별 VRAM 및 RAM 요구사항

사용 가능한 메모리에 따라 양자화 수준을 선택하세요. 4-bit(Q4_K_M)는 대부분의 사용자에게 최적의 품질 대비 메모리 비율을 제공합니다.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) 권장	~3.2 GB	~5.5 GB	~16 GB	~17 GB
8-bit (Q8_0) 고품질	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 풀 정밀도	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU 쾌적한 사용	4GB 이상	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon 권장 Mac	M1 이상	M1+ 16GB	M4 Pro 24GB	M4 Max 64GB