Gemma 4 Local

Gemma 4 を自分のハードウェアで実行 - プライベート、オフライン、API キー不要

すべての Gemma 4 モデルがローカルで動作します。スマートフォンで動く 3.2GB の E2B から、ワークステーション向けの 31B フラッグシップまで。Ollama、llama.cpp、MLX、transformers、ブラウザデプロイ - ツールを選んで数分で開始できます。

ハードウェア要件

各モデルのローカル実行に必要なもの

メモリ要件はモデルサイズと量子化レベルによって異なります。4-bit 量子化は、ほとんどのローカルデプロイで品質とメモリ使用量の最適なバランスを提供します。

ハードウェアガイド

ハードウェアに合ったモデルを選ぶ

E2B はスマートフォンや低価格ノート PC で動作。E4B はほとんどのノート PC で快適に動作。26B MoE にはそれなりの GPU が必要。31B Dense にはワークステーションクラスの環境が必要です。

メモリ数値はすべてモデルウェイトのみの値です。用途に応じてコンテキストウィンドウ(KV cache)用に 2-4GB を追加してください。

スマートフォン / 低価格ノート PC

E2B (3.2-10GB)

4-bit: ~3.2GB | 8-bit: ~5-8GB | BF16: ~10GB。スマートフォン、Raspberry Pi、低価格ハードウェアで動作。

コンシューマー GPU で ~95 tok/s。ファミリー内で最速のモデル。リアルタイムアプリケーションに最適。

最も手軽に実行可能

ノート PC / デスクトップ

E4B (5.5-16GB)

4-bit: ~5.5-6GB | 8-bit: ~9-12GB | BF16: ~16GB。日常的なローカル利用に最適なエッジモデル。

RTX 3060 以上または M1 以上の Mac で良好な速度。ほとんどのローカルユーザーにおすすめの出発点。

おすすめ

GPU ワークステーション

26B MoE (16-48GB)

4-bit: ~16GB | 8-bit: ~24GB | BF16: ~48GB。単一の RTX 4090 または M4 Pro で 31B に近い品質。

ハードウェアに応じて ~2-8 tok/s。バッチ処理や品質重視のローカルタスクに最適。

パワーユーザー向け

マルチ GPU / サーバー

31B Dense (17-58GB)

4-bit: ~17GB | 8-bit: ~29GB | BF16: ~58GB。ローカルデプロイで最高品質。

快適な使用には RTX 4090 以上または M4 Max 以上が必要。クラウドに依存せず最高品質を求める方に最適。

最高品質

デプロイツール

Gemma 4 をローカルで実行する 6 つの方法

ワンコマンドの Ollama セットアップからカスタム llama.cpp ビルドまで、あらゆるスキルレベルに対応するローカルデプロイ方法があります。

Ollama

インストールも実行もコマンド 1 つ。Gemma 4 をローカルで動かす最も簡単な方法。他のツールとの連携用 HTTP API 付き。

llama.cpp

量子化、コンテキストサイズ、GPU レイヤーを細かく制御。すべてのパラメータを調整したいパワーユーザーに最適。

MLX (Apple Silicon)

M1/M2/M3/M4 Mac 向けに最適化。Apple ハードウェアでユニファイドメモリを活用した効率的な推論。

transformers (Python)

Hugging Face エコシステムとの完全な統合。スクリプト作成、ファインチューニング、カスタムパイプライン構築をしたい Python 開発者に最適。

transformers.js (Browser)

E2B と E4B を Chrome 上で WebGPU を使って直接実行。インストール不要、サーバー不要 - Web ページを開くだけ。

LM Studio

GUI ベースのローカルモデル管理。デスクトップアプリケーションで Gemma 4 をダウンロード、設定、チャット。

クイックスタート

Ollama で 2 分で実行開始

ゼロからローカル Gemma 4 を動かす最速の方法。Ollama をインストールし、モデルを取得して、チャットを開始。

インストールと実行

  • インストール: curl -fsSL https://ollama.com/install.sh | sh
  • E4B を実行: ollama run gemma4:e4b
  • 26B を実行: ollama run gemma4:26b
  • 31B を実行: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

ヒント

  • 8-16GB RAM がある場合は E4B から始めましょう
  • 品質とメモリのバランスに優れた 4-bit 量子化(Q4_K_M)を使用
  • llama.cpp で GPU アクセラレーションを有効にするには --num-gpu-layers を追加
  • 利用可能なメモリに基づいてコンテキストサイズを設定
  • VRAM 使用量を監視 - KV cache 用の余裕を確保

ローカルパフォーマンス

コンシューマーハードウェアでの実際の速度と品質

実際のパフォーマンスはハードウェア、量子化、コンテキスト長によって異なります。一般的な環境での目安をご紹介します。

ローカル推論速度は GPU、RAM、量子化レベル、コンテキスト長に依存します。これらの数値は一般的なコンシューマーハードウェアでの典型的なパフォーマンスです。

さまざまなハードウェア構成での Gemma 4 ローカルパフォーマンス

E2B(4-bit): RTX 3060 で ~95 tok/s、M1 MacBook で ~60 tok/s

E4B(4-bit): RTX 3060 で ~40-60 tok/s、M1 MacBook で ~30 tok/s

26B(4-bit): RTX 4090 で ~8-15 tok/s、M4 Pro で ~5 tok/s

31B(4-bit): RTX 4090 で ~5-10 tok/s、M4 Max で ~3 tok/s

ハードウェア要件

量子化レベル別の VRAM・RAM 要件

利用可能なメモリに基づいて量子化レベルを選択してください。4-bit(Q4_K_M)はほとんどのユーザーに最適な品質対メモリ比を提供します。

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
推奨
~3.2 GB~5.5 GB~16 GB~17 GB
8-bit (Q8_0)
高品質
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
フル精度
~10 GB~16 GB~48 GB~58 GB
Min GPU
快適な使用
4GB 以上RTX 3060+RTX 40902x RTX 4090
Apple Silicon
推奨 Mac
M1 以上M1+ 16GBM4 Pro 24GBM4 Max 64GB

メモリ数値はモデルウェイトのみの値です。コンテキスト長に応じて KV cache 用に 2-4GB を追加してください。

プライバシー最優先

データがデバイスの外に出ることはありません

Gemma 4 をローカルで実行すれば、完全なプライバシーが保たれます。API 呼び出しなし、データログなし、ダウンロード後はインターネット接続も不要。機密文書、コード、会話をゼロリスクで処理できます。

  • データ送信ゼロ - すべてがあなたのハードウェア上に留まります
  • API キー不要、アカウント不要、利用状況の追跡なし
  • 機密文書やプロプライエタリコードを安全に処理
データがデバイスの外に出ることはありません

ブラウザ AI

ブラウザで Gemma 4 を実行 - インストール不要

E2B と E4B モデルは transformers.js 経由で Chrome 上の WebGPU を使って直接実行できます。サーバー不要、インストール不要、設定不要。Web ページを開いてチャットを始めるだけです。

  • transformers.js が WebGPU によるブラウザ内推論を実現
  • E2B と E4B はブラウザデプロイ向けに最適化
  • Chrome、Edge、その他 WebGPU 対応ブラウザで動作
ブラウザで Gemma 4 を実行 - インストール不要

開発者ツール

ローカル Gemma 4 をワークフローに統合

Gemma 4 を Claude Code、VS Code、または OpenAI 互換 API をサポートする任意のツールでローカルコーディングアシスタントとして使用できます。Ollama と llama.cpp はどちらも互換エンドポイントを提供します。

  • Ollama 経由の OpenAI 互換 API(localhost:11434)
  • Claude Code、Continue、Cursor、その他の AI ツールと連携
  • TRL、Unsloth、Keras でカスタムタスク向けにファインチューニング
ローカル Gemma 4 をワークフローに統合

ローカル AI エコシステム

ローカル Gemma 4 のためのツールとプラットフォーム

成長を続けるツールのエコシステムにより、Gemma 4 のローカル実行がこれまで以上に簡単になりました。

Ollama

HTTP API 付きの最も簡単なローカルデプロイ

始める

llama.cpp

最大限のコントロールとカスタマイズ

詳しく見る

LM Studio

ローカルモデル管理用デスクトップ GUI

ダウンロード

transformers.js

WebGPU によるブラウザベースの推論

試す

MLX

Apple Silicon 向け最適化推論

始める

vLLM

高スループットのローカルサービング

デプロイ

始めましょう

今日から Gemma 4 を自分のハードウェアで実行

まずオンラインで試してから、プライベートでオフラインの利用のためにダウンロード。API キー不要、アカウント不要、データがデバイスの外に出ることはありません。