Gemma 4 Local

내 하드웨어에서 Gemma 4 실행 - 프라이빗, 오프라인, API 키 불필요

모든 Gemma 4 모델을 로컬에서 실행할 수 있습니다. 스마트폰에서 동작하는 3.2GB E2B부터 워크스테이션용 31B 플래그십까지. Ollama, llama.cpp, MLX, transformers, 브라우저 배포 - 도구를 선택하고 몇 분 만에 시작하세요.

하드웨어 요구사항

각 모델의 로컬 실행에 필요한 것

메모리 요구사항은 모델 크기와 양자화 수준에 따라 다릅니다. 4-bit 양자화는 대부분의 로컬 배포에서 품질과 메모리 사용량의 최적 균형을 제공합니다.

하드웨어 가이드

하드웨어에 맞는 모델 선택

E2B는 스마트폰과 저가형 노트북에서 실행됩니다. E4B는 대부분의 노트북에서 쾌적하게 동작합니다. 26B MoE에는 적절한 GPU가 필요합니다. 31B Dense에는 워크스테이션급 환경이 필요합니다.

모든 메모리 수치는 모델 가중치만을 기준으로 합니다. 사용 사례에 따라 컨텍스트 윈도우(KV cache)용으로 2-4GB를 추가하세요.

스마트폰 / 저가형 노트북

E2B (3.2-10GB)

4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB. 스마트폰, Raspberry Pi, 저가형 하드웨어에서 실행.

소비자용 GPU에서 ~95 tok/s. 패밀리 내 가장 빠른 모델. 실시간 애플리케이션에 이상적.

가장 쉽게 실행 가능

노트북 / 데스크톱

E4B (5.5-16GB)

4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB. 일상적인 로컬 사용에 최적의 엣지 모델.

RTX 3060 이상 또는 M1 이상 Mac에서 양호한 속도. 대부분의 로컬 사용자에게 권장하는 시작점.

권장

GPU 워크스테이션

26B MoE (16-48GB)

4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB. 단일 RTX 4090 또는 M4 Pro에서 31B에 근접한 품질.

하드웨어에 따라 ~2-8 tok/s. 배치 처리 및 품질 중시 로컬 작업에 최적.

파워 유저

멀티 GPU / 서버

31B Dense (17-58GB)

4-bit: ~17GB | 8-bit: ~29GB | BF16: ~58GB. 로컬 배포 최고 품질.

쾌적한 사용을 위해 RTX 4090 이상 또는 M4 Max 이상 필요. 클라우드 의존 없이 최고 품질을 원하는 분에게 최적.

최고 품질

배포 도구

Gemma 4를 로컬에서 실행하는 6가지 방법

원커맨드 Ollama 설정부터 커스텀 llama.cpp 빌드까지, 모든 수준의 사용자를 위한 로컬 배포 방법이 있습니다.

Ollama

설치도 실행도 명령어 하나면 충분합니다. Gemma 4를 로컬에서 실행하는 가장 쉬운 방법. 다른 도구와의 연동을 위한 HTTP API 포함.

llama.cpp

양자화, 컨텍스트 크기, GPU 레이어를 세밀하게 제어. 모든 파라미터를 조정하고 싶은 파워 유저에게 최적.

MLX (Apple Silicon)

M1/M2/M3/M4 Mac에 최적화. Apple 하드웨어에서 유니파이드 메모리를 활용한 효율적인 추론.

transformers (Python)

Hugging Face 에코시스템과 완벽한 통합. 스크립팅, 파인튜닝, 커스텀 파이프라인 구축을 원하는 Python 개발자에게 최적.

transformers.js (Browser)

E2B와 E4B를 Chrome에서 WebGPU로 직접 실행. 설치 불필요, 서버 불필요 - 웹페이지를 열기만 하면 됩니다.

LM Studio

GUI 기반 로컬 모델 관리. 데스크톱 애플리케이션으로 Gemma 4를 다운로드, 설정, 채팅.

빠른 시작

Ollama로 2분 만에 실행

제로에서 로컬 Gemma 4까지 가장 빠른 경로. Ollama를 설치하고, 모델을 가져오고, 채팅을 시작하세요.

설치 및 실행

  • 설치: curl -fsSL https://ollama.com/install.sh | sh
  • E4B 실행: ollama run gemma4:e4b
  • 26B 실행: ollama run gemma4:26b
  • 31B 실행: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

  • 8-16GB RAM이 있다면 E4B부터 시작하세요
  • 최적의 품질/메모리 비율을 위해 4-bit 양자화(Q4_K_M) 사용
  • llama.cpp에서 GPU 가속을 위해 --num-gpu-layers 추가
  • 사용 가능한 메모리에 따라 컨텍스트 크기 설정
  • VRAM 사용량 모니터링 - KV cache를 위한 여유 공간 확보

로컬 성능

소비자용 하드웨어에서의 실제 속도와 품질

실제 성능은 하드웨어, 양자화, 컨텍스트 길이에 따라 다릅니다. 일반적인 환경에서 기대할 수 있는 수준을 소개합니다.

로컬 추론 속도는 GPU, RAM, 양자화 수준, 컨텍스트 길이에 따라 달라집니다. 이 수치는 일반적인 소비자용 하드웨어에서의 대표적인 성능입니다.

다양한 하드웨어 구성에서의 Gemma 4 로컬 성능

E2B(4-bit): RTX 3060에서 ~95 tok/s, M1 MacBook에서 ~60 tok/s

E4B(4-bit): RTX 3060에서 ~40-60 tok/s, M1 MacBook에서 ~30 tok/s

26B(4-bit): RTX 4090에서 ~8-15 tok/s, M4 Pro에서 ~5 tok/s

31B(4-bit): RTX 4090에서 ~5-10 tok/s, M4 Max에서 ~3 tok/s

하드웨어 요구사항

양자화별 VRAM 및 RAM 요구사항

사용 가능한 메모리에 따라 양자화 수준을 선택하세요. 4-bit(Q4_K_M)는 대부분의 사용자에게 최적의 품질 대비 메모리 비율을 제공합니다.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
권장
~3.2 GB~5.5 GB~16 GB~17 GB
8-bit (Q8_0)
고품질
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
풀 정밀도
~10 GB~16 GB~48 GB~58 GB
Min GPU
쾌적한 사용
4GB 이상RTX 3060+RTX 40902x RTX 4090
Apple Silicon
권장 Mac
M1 이상M1+ 16GBM4 Pro 24GBM4 Max 64GB

메모리 수치는 모델 가중치만을 기준으로 합니다. 컨텍스트 길이에 따라 KV cache용으로 2-4GB를 추가하세요.

프라이버시 최우선

데이터가 기기 밖으로 나가지 않습니다

Gemma 4를 로컬에서 실행하면 완벽한 프라이버시가 보장됩니다. API 호출 없음, 데이터 로깅 없음, 다운로드 후 인터넷 연결 불필요. 민감한 문서, 코드, 대화를 노출 위험 없이 처리하세요.

  • 데이터 전송 제로 - 모든 것이 내 하드웨어에 머무릅니다
  • API 키 불필요, 계정 불필요, 사용 추적 없음
  • 기밀 문서와 독점 코드를 안전하게 처리
데이터가 기기 밖으로 나가지 않습니다

브라우저 AI

브라우저에서 Gemma 4 실행 - 설치 불필요

E2B와 E4B 모델은 transformers.js를 통해 Chrome에서 WebGPU로 직접 실행됩니다. 서버 불필요, 설치 불필요, 설정 불필요. 웹페이지를 열고 채팅을 시작하세요.

  • transformers.js가 WebGPU를 통한 브라우저 내 추론 지원
  • E2B와 E4B는 브라우저 배포에 최적화
  • Chrome, Edge 및 기타 WebGPU 지원 브라우저에서 동작
브라우저에서 Gemma 4 실행 - 설치 불필요

개발자 도구

로컬 Gemma 4를 워크플로에 통합

Gemma 4를 Claude Code, VS Code 또는 OpenAI 호환 API를 지원하는 모든 도구에서 로컬 코딩 어시스턴트로 사용하세요. Ollama와 llama.cpp 모두 호환 엔드포인트를 제공합니다.

  • Ollama를 통한 OpenAI 호환 API (localhost:11434)
  • Claude Code, Continue, Cursor 및 기타 AI 도구와 연동
  • TRL, Unsloth, Keras로 커스텀 작업에 맞게 파인튜닝
로컬 Gemma 4를 워크플로에 통합

로컬 AI 에코시스템

로컬 Gemma 4를 위한 도구와 플랫폼

성장하는 도구 에코시스템 덕분에 Gemma 4를 로컬에서 실행하는 것이 그 어느 때보다 쉬워졌습니다.

Ollama

HTTP API를 갖춘 가장 쉬운 로컬 배포

시작하기

llama.cpp

최대한의 제어와 커스터마이징

자세히 보기

LM Studio

로컬 모델 관리용 데스크톱 GUI

다운로드

transformers.js

WebGPU를 활용한 브라우저 기반 추론

체험하기

MLX

Apple Silicon 최적화 추론

시작하기

vLLM

고처리량 로컬 서빙

배포하기

시작하기

오늘부터 내 하드웨어에서 Gemma 4 실행

먼저 온라인으로 체험한 후, 프라이빗하고 오프라인으로 사용하기 위해 다운로드하세요. API 키 불필요, 계정 불필요, 데이터가 기기 밖으로 나가지 않습니다.