Gemma 4 Local
Gemma 4 を自分のハードウェアで実行 - プライベート、オフライン、API キー不要
すべての Gemma 4 モデルがローカルで動作します。スマートフォンで動く 3.2GB の E2B から、ワークステーション向けの 31B フラッグシップまで。Ollama、llama.cpp、MLX、transformers、ブラウザデプロイ - ツールを選んで数分で開始できます。
ハードウェア要件
各モデルのローカル実行に必要なもの
メモリ要件はモデルサイズと量子化レベルによって異なります。4-bit 量子化は、ほとんどのローカルデプロイで品質とメモリ使用量の最適なバランスを提供します。
ハードウェアガイド
ハードウェアに合ったモデルを選ぶ
E2B はスマートフォンや低価格ノート PC で動作。E4B はほとんどのノート PC で快適に動作。26B MoE にはそれなりの GPU が必要。31B Dense にはワークステーションクラスの環境が必要です。
メモリ数値はすべてモデルウェイトのみの値です。用途に応じてコンテキストウィンドウ(KV cache)用に 2-4GB を追加してください。
スマートフォン / 低価格ノート PC
E2B (3.2-10GB)
4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB。スマートフォン、Raspberry Pi、低価格ハードウェアで動作。
コンシューマー GPU で ~95 tok/s。ファミリー内で最速のモデル。リアルタイムアプリケーションに最適。
ノート PC / デスクトップ
E4B (5.5-16GB)
4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB。日常的なローカル利用に最適なエッジモデル。
RTX 3060 以上または M1 以上の Mac で良好な速度。ほとんどのローカルユーザーにおすすめの出発点。
GPU ワークステーション
26B MoE (16-48GB)
4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB。単一の RTX 4090 または M4 Pro で 31B に近い品質。
ハードウェアに応じて ~2-8 tok/s。バッチ処理や品質重視のローカルタスクに最適。
マルチ GPU / サーバー
31B Dense (17-58GB)
4-bit: ~17GB | 8-bit: ~29GB | BF16: ~58GB。ローカルデプロイで最高品質。
快適な使用には RTX 4090 以上または M4 Max 以上が必要。クラウドに依存せず最高品質を求める方に最適。
デプロイツール
Gemma 4 をローカルで実行する 6 つの方法
ワンコマンドの Ollama セットアップからカスタム llama.cpp ビルドまで、あらゆるスキルレベルに対応するローカルデプロイ方法があります。
Ollama
インストールも実行もコマンド 1 つ。Gemma 4 をローカルで動かす最も簡単な方法。他のツールとの連携用 HTTP API 付き。
llama.cpp
量子化、コンテキストサイズ、GPU レイヤーを細かく制御。すべてのパラメータを調整したいパワーユーザーに最適。
MLX (Apple Silicon)
M1/M2/M3/M4 Mac 向けに最適化。Apple ハードウェアでユニファイドメモリを活用した効率的な推論。
transformers (Python)
Hugging Face エコシステムとの完全な統合。スクリプト作成、ファインチューニング、カスタムパイプライン構築をしたい Python 開発者に最適。
transformers.js (Browser)
E2B と E4B を Chrome 上で WebGPU を使って直接実行。インストール不要、サーバー不要 - Web ページを開くだけ。
LM Studio
GUI ベースのローカルモデル管理。デスクトップアプリケーションで Gemma 4 をダウンロード、設定、チャット。
クイックスタート
Ollama で 2 分で実行開始
ゼロからローカル Gemma 4 を動かす最速の方法。Ollama をインストールし、モデルを取得して、チャットを開始。
インストールと実行
- インストール: curl -fsSL https://ollama.com/install.sh | sh
- E4B を実行: ollama run gemma4:e4b
- 26B を実行: ollama run gemma4:26b
- 31B を実行: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
ヒント
- 8-16GB RAM がある場合は E4B から始めましょう
- 品質とメモリのバランスに優れた 4-bit 量子化(Q4_K_M)を使用
- llama.cpp で GPU アクセラレーションを有効にするには --num-gpu-layers を追加
- 利用可能なメモリに基づいてコンテキストサイズを設定
- VRAM 使用量を監視 - KV cache 用の余裕を確保
ローカルパフォーマンス
コンシューマーハードウェアでの実際の速度と品質
実際のパフォーマンスはハードウェア、量子化、コンテキスト長によって異なります。一般的な環境での目安をご紹介します。
ローカル推論速度は GPU、RAM、量子化レベル、コンテキスト長に依存します。これらの数値は一般的なコンシューマーハードウェアでの典型的なパフォーマンスです。


E2B(4-bit): RTX 3060 で ~95 tok/s、M1 MacBook で ~60 tok/s
E4B(4-bit): RTX 3060 で ~40-60 tok/s、M1 MacBook で ~30 tok/s
26B(4-bit): RTX 4090 で ~8-15 tok/s、M4 Pro で ~5 tok/s
31B(4-bit): RTX 4090 で ~5-10 tok/s、M4 Max で ~3 tok/s
ハードウェア要件
量子化レベル別の VRAM・RAM 要件
利用可能なメモリに基づいて量子化レベルを選択してください。4-bit(Q4_K_M)はほとんどのユーザーに最適な品質対メモリ比を提供します。
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) 推奨 | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) 高品質 | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 フル精度 | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU 快適な使用 | 4GB 以上 | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon 推奨 Mac | M1 以上 | M1+ 16GB | M4 Pro 24GB | M4 Max 64GB |
メモリ数値はモデルウェイトのみの値です。コンテキスト長に応じて KV cache 用に 2-4GB を追加してください。
ブラウザ AI
ブラウザで Gemma 4 を実行 - インストール不要
E2B と E4B モデルは transformers.js 経由で Chrome 上の WebGPU を使って直接実行できます。サーバー不要、インストール不要、設定不要。Web ページを開いてチャットを始めるだけです。
- transformers.js が WebGPU によるブラウザ内推論を実現
- E2B と E4B はブラウザデプロイ向けに最適化
- Chrome、Edge、その他 WebGPU 対応ブラウザで動作
開発者ツール
ローカル Gemma 4 をワークフローに統合
Gemma 4 を Claude Code、VS Code、または OpenAI 互換 API をサポートする任意のツールでローカルコーディングアシスタントとして使用できます。Ollama と llama.cpp はどちらも互換エンドポイントを提供します。
- Ollama 経由の OpenAI 互換 API(localhost:11434)
- Claude Code、Continue、Cursor、その他の AI ツールと連携
- TRL、Unsloth、Keras でカスタムタスク向けにファインチューニング
クイックスタート
Gemma 4 をローカルで実行する
お好みのツールを選んで数分で開始できます。
ウェイトのダウンロード
モデルファイルを取得
信頼できるソースから公式ウェイトをダウンロード。
上級者向け
ファインチューニングとカスタマイズ
特定のユースケースに合わせて Gemma 4 をカスタマイズ。
ローカル AI エコシステム
ローカル Gemma 4 のためのツールとプラットフォーム
成長を続けるツールのエコシステムにより、Gemma 4 のローカル実行がこれまで以上に簡単になりました。
始めましょう
今日から Gemma 4 を自分のハードウェアで実行
まずオンラインで試してから、プライベートでオフラインの利用のためにダウンロード。API キー不要、アカウント不要、データがデバイスの外に出ることはありません。