Gemma 4 Local
내 하드웨어에서 Gemma 4 실행 - 프라이빗, 오프라인, API 키 불필요
모든 Gemma 4 모델을 로컬에서 실행할 수 있습니다. 스마트폰에서 동작하는 3.2GB E2B부터 워크스테이션용 31B 플래그십까지. Ollama, llama.cpp, MLX, transformers, 브라우저 배포 - 도구를 선택하고 몇 분 만에 시작하세요.
하드웨어 요구사항
각 모델의 로컬 실행에 필요한 것
메모리 요구사항은 모델 크기와 양자화 수준에 따라 다릅니다. 4-bit 양자화는 대부분의 로컬 배포에서 품질과 메모리 사용량의 최적 균형을 제공합니다.
하드웨어 가이드
하드웨어에 맞는 모델 선택
E2B는 스마트폰과 저가형 노트북에서 실행됩니다. E4B는 대부분의 노트북에서 쾌적하게 동작합니다. 26B MoE에는 적절한 GPU가 필요합니다. 31B Dense에는 워크스테이션급 환경이 필요합니다.
모든 메모리 수치는 모델 가중치만을 기준으로 합니다. 사용 사례에 따라 컨텍스트 윈도우(KV cache)용으로 2-4GB를 추가하세요.
스마트폰 / 저가형 노트북
E2B (3.2-10GB)
4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB. 스마트폰, Raspberry Pi, 저가형 하드웨어에서 실행.
소비자용 GPU에서 ~95 tok/s. 패밀리 내 가장 빠른 모델. 실시간 애플리케이션에 이상적.
노트북 / 데스크톱
E4B (5.5-16GB)
4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB. 일상적인 로컬 사용에 최적의 엣지 모델.
RTX 3060 이상 또는 M1 이상 Mac에서 양호한 속도. 대부분의 로컬 사용자에게 권장하는 시작점.
GPU 워크스테이션
26B MoE (16-48GB)
4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB. 단일 RTX 4090 또는 M4 Pro에서 31B에 근접한 품질.
하드웨어에 따라 ~2-8 tok/s. 배치 처리 및 품질 중시 로컬 작업에 최적.
배포 도구
Gemma 4를 로컬에서 실행하는 6가지 방법
원커맨드 Ollama 설정부터 커스텀 llama.cpp 빌드까지, 모든 수준의 사용자를 위한 로컬 배포 방법이 있습니다.
Ollama
설치도 실행도 명령어 하나면 충분합니다. Gemma 4를 로컬에서 실행하는 가장 쉬운 방법. 다른 도구와의 연동을 위한 HTTP API 포함.
llama.cpp
양자화, 컨텍스트 크기, GPU 레이어를 세밀하게 제어. 모든 파라미터를 조정하고 싶은 파워 유저에게 최적.
MLX (Apple Silicon)
M1/M2/M3/M4 Mac에 최적화. Apple 하드웨어에서 유니파이드 메모리를 활용한 효율적인 추론.
transformers (Python)
Hugging Face 에코시스템과 완벽한 통합. 스크립팅, 파인튜닝, 커스텀 파이프라인 구축을 원하는 Python 개발자에게 최적.
transformers.js (Browser)
E2B와 E4B를 Chrome에서 WebGPU로 직접 실행. 설치 불필요, 서버 불필요 - 웹페이지를 열기만 하면 됩니다.
LM Studio
GUI 기반 로컬 모델 관리. 데스크톱 애플리케이션으로 Gemma 4를 다운로드, 설정, 채팅.
빠른 시작
Ollama로 2분 만에 실행
제로에서 로컬 Gemma 4까지 가장 빠른 경로. Ollama를 설치하고, 모델을 가져오고, 채팅을 시작하세요.
설치 및 실행
- 설치: curl -fsSL https://ollama.com/install.sh | sh
- E4B 실행: ollama run gemma4:e4b
- 26B 실행: ollama run gemma4:26b
- 31B 실행: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
팁
- 8-16GB RAM이 있다면 E4B부터 시작하세요
- 최적의 품질/메모리 비율을 위해 4-bit 양자화(Q4_K_M) 사용
- llama.cpp에서 GPU 가속을 위해 --num-gpu-layers 추가
- 사용 가능한 메모리에 따라 컨텍스트 크기 설정
- VRAM 사용량 모니터링 - KV cache를 위한 여유 공간 확보
로컬 성능
소비자용 하드웨어에서의 실제 속도와 품질
실제 성능은 하드웨어, 양자화, 컨텍스트 길이에 따라 다릅니다. 일반적인 환경에서 기대할 수 있는 수준을 소개합니다.
로컬 추론 속도는 GPU, RAM, 양자화 수준, 컨텍스트 길이에 따라 달라집니다. 이 수치는 일반적인 소비자용 하드웨어에서의 대표적인 성능입니다.


E2B(4-bit): RTX 3060에서 ~95 tok/s, M1 MacBook에서 ~60 tok/s
E4B(4-bit): RTX 3060에서 ~40-60 tok/s, M1 MacBook에서 ~30 tok/s
26B(4-bit): RTX 4090에서 ~8-15 tok/s, M4 Pro에서 ~5 tok/s
31B(4-bit): RTX 4090에서 ~5-10 tok/s, M4 Max에서 ~3 tok/s
하드웨어 요구사항
양자화별 VRAM 및 RAM 요구사항
사용 가능한 메모리에 따라 양자화 수준을 선택하세요. 4-bit(Q4_K_M)는 대부분의 사용자에게 최적의 품질 대비 메모리 비율을 제공합니다.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) 권장 | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) 고품질 | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 풀 정밀도 | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU 쾌적한 사용 | 4GB 이상 | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon 권장 Mac | M1 이상 | M1+ 16GB | M4 Pro 24GB | M4 Max 64GB |
메모리 수치는 모델 가중치만을 기준으로 합니다. 컨텍스트 길이에 따라 KV cache용으로 2-4GB를 추가하세요.
브라우저 AI
브라우저에서 Gemma 4 실행 - 설치 불필요
E2B와 E4B 모델은 transformers.js를 통해 Chrome에서 WebGPU로 직접 실행됩니다. 서버 불필요, 설치 불필요, 설정 불필요. 웹페이지를 열고 채팅을 시작하세요.
- transformers.js가 WebGPU를 통한 브라우저 내 추론 지원
- E2B와 E4B는 브라우저 배포에 최적화
- Chrome, Edge 및 기타 WebGPU 지원 브라우저에서 동작
빠른 시작
Gemma 4를 로컬에서 실행하기
선호하는 도구를 선택하고 몇 분 만에 시작하세요.
가중치 다운로드
모델 파일 받기
신뢰할 수 있는 소스에서 공식 가중치를 다운로드하세요.
고급
파인튜닝 및 커스터마이징
특정 사용 사례에 맞게 Gemma 4를 커스터마이징하세요.
시작하기
오늘부터 내 하드웨어에서 Gemma 4 실행
먼저 온라인으로 체험한 후, 프라이빗하고 오프라인으로 사용하기 위해 다운로드하세요. API 키 불필요, 계정 불필요, 데이터가 기기 밖으로 나가지 않습니다.