Gemma 4 Local

Gemma 4 を自分のハードウェアで実行 - プライベート、オフライン、API キー不要

すべての Gemma 4 モデルがローカルで動作します。スマートフォンで動く 3.2GB の E2B から、ワークステーション向けの 31B フラッグシップまで。Ollama、llama.cpp、MLX、transformers、ブラウザデプロイ - ツールを選んで数分で開始できます。

まずオンラインで試すハードウェア要件を見る

ハードウェア要件

各モデルのローカル実行に必要なもの

メモリ要件はモデルサイズと量子化レベルによって異なります。4-bit 量子化は、ほとんどのローカルデプロイで品質とメモリ使用量の最適なバランスを提供します。

ハードウェアガイド

ハードウェアに合ったモデルを選ぶ

E2B はスマートフォンや低価格ノート PC で動作。E4B はほとんどのノート PC で快適に動作。26B MoE にはそれなりの GPU が必要。31B Dense にはワークステーションクラスの環境が必要です。

メモリ数値はすべてモデルウェイトのみの値です。用途に応じてコンテキストウィンドウ（KV cache）用に 2-4GB を追加してください。

まずオンラインで試すモデルをダウンロード

スマートフォン / 低価格ノート PC

E2B (3.2-10GB)

4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB。スマートフォン、Raspberry Pi、低価格ハードウェアで動作。

コンシューマー GPU で ~95 tok/s。ファミリー内で最速のモデル。リアルタイムアプリケーションに最適。

最も手軽に実行可能

E2B をダウンロードセットアップガイド

ノート PC / デスクトップ

E4B (5.5-16GB)

4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB。日常的なローカル利用に最適なエッジモデル。

RTX 3060 以上または M1 以上の Mac で良好な速度。ほとんどのローカルユーザーにおすすめの出発点。

26B MoE (16-48GB)

4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB。単一の RTX 4090 または M4 Pro で 31B に近い品質。

ハードウェアに応じて ~2-8 tok/s。バッチ処理や品質重視のローカルタスクに最適。

パワーユーザー向け

26B をダウンロードセットアップガイド

マルチ GPU / サーバー

31B Dense (17-58GB)

4-bit: ~17GB | 8-bit: ~29GB | BF16: ~58GB。ローカルデプロイで最高品質。

快適な使用には RTX 4090 以上または M4 Max 以上が必要。クラウドに依存せず最高品質を求める方に最適。

最高品質

31B をダウンロードセットアップガイド

デプロイツール

Gemma 4 をローカルで実行する 6 つの方法

ワンコマンドの Ollama セットアップからカスタム llama.cpp ビルドまで、あらゆるスキルレベルに対応するローカルデプロイ方法があります。

Ollama

インストールも実行もコマンド 1 つ。Gemma 4 をローカルで動かす最も簡単な方法。他のツールとの連携用 HTTP API 付き。

llama.cpp

量子化、コンテキストサイズ、GPU レイヤーを細かく制御。すべてのパラメータを調整したいパワーユーザーに最適。

MLX (Apple Silicon)

M1/M2/M3/M4 Mac 向けに最適化。Apple ハードウェアでユニファイドメモリを活用した効率的な推論。

transformers (Python)

Hugging Face エコシステムとの完全な統合。スクリプト作成、ファインチューニング、カスタムパイプライン構築をしたい Python 開発者に最適。

transformers.js (Browser)

E2B と E4B を Chrome 上で WebGPU を使って直接実行。インストール不要、サーバー不要 - Web ページを開くだけ。

LM Studio

GUI ベースのローカルモデル管理。デスクトップアプリケーションで Gemma 4 をダウンロード、設定、チャット。

クイックスタート

Ollama で 2 分で実行開始

ゼロからローカル Gemma 4 を動かす最速の方法。Ollama をインストールし、モデルを取得して、チャットを開始。

インストールと実行

インストール: curl -fsSL https://ollama.com/install.sh | sh
E4B を実行: ollama run gemma4:e4b
26B を実行: ollama run gemma4:26b
31B を実行: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

ヒント

8-16GB RAM がある場合は E4B から始めましょう
品質とメモリのバランスに優れた 4-bit 量子化（Q4_K_M）を使用
llama.cpp で GPU アクセラレーションを有効にするには --num-gpu-layers を追加
利用可能なメモリに基づいてコンテキストサイズを設定
VRAM 使用量を監視 - KV cache 用の余裕を確保

まずオンラインで試すモデルをダウンロード

ローカルパフォーマンス

コンシューマーハードウェアでの実際の速度と品質

実際のパフォーマンスはハードウェア、量子化、コンテキスト長によって異なります。一般的な環境での目安をご紹介します。

ローカル推論速度は GPU、RAM、量子化レベル、コンテキスト長に依存します。これらの数値は一般的なコンシューマーハードウェアでの典型的なパフォーマンスです。

まずオンラインで試すハードウェアガイド

E2B（4-bit）: RTX 3060 で ~95 tok/s、M1 MacBook で ~60 tok/s

E4B（4-bit）: RTX 3060 で ~40-60 tok/s、M1 MacBook で ~30 tok/s

26B（4-bit）: RTX 4090 で ~8-15 tok/s、M4 Pro で ~5 tok/s

31B（4-bit）: RTX 4090 で ~5-10 tok/s、M4 Max で ~3 tok/s

ハードウェア要件

量子化レベル別の VRAM・RAM 要件

利用可能なメモリに基づいて量子化レベルを選択してください。4-bit（Q4_K_M）はほとんどのユーザーに最適な品質対メモリ比を提供します。

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) 推奨	~3.2 GB	~5.5 GB	~16 GB	~17 GB
8-bit (Q8_0) 高品質	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 フル精度	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU 快適な使用	4GB 以上	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon 推奨 Mac	M1 以上	M1+ 16GB	M4 Pro 24GB	M4 Max 64GB