概要
2026年4月2日にApache 2.0の下でリリースされたGemma 4は、4つのアーキテクチャで最先端クラスのマルチモーダルインテリジェンスを提供します。超モバイル2Bエッジモデルからフラッグシップ31B密モデルまで、すべてのサイズでテキスト、可変解像度の画像、ビデオ、音声をネイティブに処理します。
エッジモデル
2.3Bと4.5Bの有効パラメータを持つ超コンパクトモデル。Pixel、Chrome、ブラウザ展開向けに構築され、ネイティブ音声対応と128Kコンテキストを備えています。
E2BとE4Bバリアントは、Per-Layer Embeddings(PLE)を使用してパラメータ効率を最大化します。テキスト、画像、ビデオ、音声入力をネイティブにサポートし、プライバシー重視のオンデバイスアプリケーションに最適です。
サーバーモデル
31B密モデルはArena AIリーダーボードで第3位にランクされ、AIME 2026で89.2%を達成。26B MoEはトークンあたり4Bパラメータのみを活性化しながら、同等の品質を維持します。
両モデルとも256Kコンテキストウィンドウ、ネイティブ関数呼び出し、設定可能な思考モードを備えています。31BはMMLU Proで85.2%、LiveCodeBench v6で80%を達成し、数倍のサイズのモデルと競合します。
機能
すべてのモデルがテキスト、可変アスペクト比の画像、ビデオ、音声をネイティブに処理します。E2BとE4Bには音声理解のための音声エンコーダーが含まれています。
ビジョンエンコーダーは学習済み2D位置と多次元RoPEを使用し、元のアスペクト比を保持します。画像は最適な速度と品質のトレードオフのために、異なるトークン予算(70、140、280、560、1120)にエンコードできます。
アーキテクチャ
小型モデルは128Kコンテキストを備え、中型モデルは256Kをサポートします。デュアルRoPE構成により、より長いコンテキスト処理が可能になります。
ローカルスライディングウィンドウ(512-1024トークン)とグローバル全コンテキストアテンションレイヤーを交互に配置し、メモリ使用量を最適化します。共有KVキャッシュにより、長いコンテキスト生成の計算とメモリを削減します。
機能
すべてのモデルが高度な推論タスク用の設定可能な思考モードをサポートし、構造化された会話のためのネイティブシステムプロンプトサポートを備えています。
31BモデルはAIME 2026数学推論で89.2%、GPQA Diamondで84.3%を達成します。組み込みの関数呼び出しにより、ファインチューニングなしで自律エージェントを実現します。
パフォーマンス
31BモデルはLiveCodeBench v6で80%、Codeforces ELOで2150を達成。26B MoEは4Bアクティブパラメータのみで77.1%を達成します。
コーディングベンチマークでの顕著な改善と組み込みの関数呼び出しサポートにより、高度な自律エージェントが可能になります。HLEベンチマークではツールなしで19.5%、検索ありで26.5%を示します。
マルチモーダル
31BモデルはMMMU Proで76.9%、MATH-Visionで85.6%を達成。OmniDocBench編集距離0.131は強力なOCR機能を示します。
可変アスペクト比サポートと設定可能な画像トークン予算により、ドキュメント、図、スクリーンショットの効率的な処理が可能になります。E4Bモデルはコンパクトなサイズにもかかわらず、MMMU Proで52.6%に達します。
統合
transformers、llama.cpp、MLX、WebGPU、Mistral.rsなどの初日サポート。ONNXチェックポイントによりエッジデバイス展開が可能です。
Apache 2.0ライセンスにより、責任ある商用利用が可能です。Kaggle、Hugging Face、Google AI Studioで利用可能。Ollamaなどのローカルツールと互換性があり、プライベートでオフラインのやり取りが可能です。
紹介
Google DeepMindによる4つのモデルアーキテクチャ、ネイティブマルチモーダル機能、展開オプションについて学びます。
パフォーマンス
Gemma 4モデルはパレートフロンティアを形成し、サイズに対して卓越したパフォーマンスを提供します。31B密モデルはArena AIリーダーボードで全オープンモデル中第3位にランクされています。
公式ベンチマークは、数倍大きなモデルとの競争力のあるパフォーマンスを示しています。31BモデルはAIME 2026数学推論で89.2%を達成し、26B MoEは4Bアクティブパラメータのみで同等の品質に達します。


31BモデルはAIME 2026で89.2%、MMLU Proで85.2%を達成し、100Bパラメータを超えるモデルと競合します。
コーディングパフォーマンスはLiveCodeBench v6で80%、Codeforces ELOで2150に達し、多くの大型モデルを上回ります。
ビジョン機能にはMMMU Proで76.9%、MATH-Visionで85.6%が含まれ、強力なOCRとドキュメント理解を備えています。
公式ベンチマーク
推論、コーディング、ビジョン、音声、長いコンテキストタスクにわたる包括的な評価により、最先端クラスの機能を示します。
| Benchmark | Gemma 4 31B 密フラッグシップ 31B | Gemma 4 26B A4B MoE(4Bアクティブ) 26B | Gemma 4 E4B エッジモデル E4B | Gemma 4 E2B 超コンパクト E2B |
|---|---|---|---|---|
MMLU Pro 知識と推論 | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026(ツールなし) 数学推論 | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond 大学院レベルの科学 | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 コーディングパフォーマンス | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO 競技プログラミング | 2150 | 1718 | 940 | 633 |
MMMU Pro マルチモーダル理解 | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision 視覚的数学推論 | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 ドキュメントOCR(編集距離) | 0.131 | 0.149 | 0.181 | 0.290 |
コンテキストウィンドウ 最大トークン数 | 256K | 256K | 128K | 128K |
音声サポート ネイティブ音声入力 | なし | なし | あり | あり |
すべての数値は公式Gemma 4モデルカードとHugging Faceブログからのものです。E2BとE4Bのベンチマークは、パラメータ数に対する卓越した効率を示しています。
サーバーモデル
31B密モデルはArena AIリーダーボードで第3位にランクされ、AIME 2026で89.2%を達成。26B MoEはトークンあたり4Bパラメータのみを活性化しながら同等の品質を維持し、高スループットシナリオに最適です。
エッジモデル
2.3Bと4.5Bの有効パラメータを持つ超コンパクトモデル。Pixel、Chrome、ブラウザ展開向けに設計されています。ネイティブ音声エンコーダーにより、オンデバイスでのリアルタイム音声理解が可能です。
アーキテクチャ
Gemma 4は効率を最大化するアーキテクチャの革新を導入します。PLEは各デコーダーレイヤーに独自の条件付けパスウェイを提供し、共有KVキャッシュは長いコンテキスト生成中のメモリ使用量を削減します。

マルチモーダル
すべてのモデルがテキストと可変アスペクト比の画像をネイティブに処理します。ビジョンエンコーダーは学習済み2D位置を使用し、速度と品質のトレードオフのために画像を異なるトークン予算(70-1120)にエンコードできます。

展開
transformers、llama.cpp、MLX、WebGPU、Mistral.rsなどの初日サポート。E2BとE4BはWebGPUアクセラレーション付きのtransformers.jsでブラウザで実行でき、31Bと26Bはサーバーハードウェアで優れています。

FAQ
Per-Layer Embeddingsからマルチモーダル処理まで、Gemma 4の技術革新を理解します。
Gemma 4はネイティブマルチモーダルサポート(テキスト、画像、ビデオ、音声)、拡張コンテキストウィンドウ(128K-256K)、設定可能な思考モード、組み込みの関数呼び出しを導入します。アーキテクチャは効率のためにPer-Layer Embeddings(PLE)を使用し、長いコンテキスト生成中のメモリ使用量を削減するために共有KVキャッシュを使用します。
E2B(2.3B有効)とE4B(4.5B有効)は、ネイティブ音声サポート付きのエッジデバイス、ブラウザ、モバイル向けに設計されています。26B A4Bは、トークンあたり4Bパラメータのみを活性化するMixture-of-Expertsモデルで、高スループットシナリオに最適です。31B密モデルは、推論、コーディング、ビジョンタスクで最大のパフォーマンスを発揮するフラッグシップです。
すべてのモデルがテキストと可変アスペクト比の画像をネイティブに処理します。ビジョンエンコーダーは学習済み2D位置を使用し、速度と品質のトレードオフのために画像を異なるトークン予算(70-1120トークン)にエンコードできます。E2BとE4Bには音声理解用のUSMスタイルコンフォーマー音声エンコーダーが含まれています。ビデオはフレームと音声トラックを処理することでファミリー全体でサポートされています。
PLEは各デコーダーレイヤーにすべてのトークンに対する独自の小さな埋め込みを提供し、メインの残差ストリームと並行する条件付けパスウェイを作成します。これにより、各レイヤーは関連する場合にのみトークン固有の情報を受け取ることができ、すべてを単一の事前埋め込みにパックする必要がありません。控えめなパラメータコストで意味のあるレイヤーごとの特殊化を追加し、小型モデルをより効率的にします。
FAQ
クラウドからエッジデバイスまで、さまざまなプラットフォームでGemma 4を始めます。
Gemma 4モデルはApache 2.0ライセンスの下でKaggleとHugging Faceで利用可能です。Google AI Studioを通じて使用したり、Vertex AIに展開したり、Ollama、llama.cpp、MLX(Apple Silicon用)、transformers、Mistral.rsなどのツールでローカルに実行したりできます。ONNXチェックポイントによりブラウザとエッジデバイスの展開が可能です。
E2Bは約9.6GB(BF16)から3.2GB(4ビット)のVRAMが必要です。E4Bは約15GB(BF16)から5GB(4ビット)が必要です。31Bモデルは約58GB(BF16)から17GB(4ビット)が必要です。26B MoEは約48GB(BF16)から16GB(4ビット)が必要です。これらは基本ウェイトのみです。ユースケースに基づいてコンテキストウィンドウ(KVキャッシュ)用のメモリを追加してください。
はい。E2BとE4Bモデルは、ブラウザとモバイル展開向けに特別に設計されています。transformers.jsにより、WebGPUサポート付きのブラウザでGemma 4を直接実行できます。ONNXチェックポイントはさまざまなエッジハードウェアバックエンドで動作します。モデルはPixelデバイスとChromeブラウザ環境向けに最適化されています。
Gemma 4にはファインチューニングを必要としない組み込みの関数呼び出しサポートがあります。モデルはツール定義を解析し、構造化されたJSON呼び出しを生成し、マルチモーダル関数呼び出し(例:画像を分析して天気APIを呼び出す)を処理できます。これにより、コード実行、Webブラウジング、データ取得などのタスク用の自律エージェントが実現します。
FAQ
Gemma 4が他のモデルとどのように比較され、さまざまなユースケースで競争力がある理由。
31BモデルはArena AIリーダーボードでオープンモデル中第3位にランクされ、サイズが半分以下にもかかわらずLlama 3.3 70Bを上回ります。AIME 2026数学推論で89.2%、MMLU Proで85.2%、LiveCodeBench v6で80%を達成します。効率は、交互アテンションパターンや共有KVキャッシュなどのアーキテクチャの革新から来ています。
26B A4Bモデルは合計260億パラメータを持ちますが、生成中はトークンあたり40億のみを活性化します。高速ルーティングのためにすべての26Bパラメータをメモリにロードする必要がありますが、推論コストは4Bモデルに近いです。これにより、AIME 2026で88.3%、MMLU Proで82.6%を達成し、密31Bモデルよりもトークンあたりの計算量が大幅に少なくなります。
はい。小型モデルは128Kコンテキストウィンドウをサポートし、中型モデルは256Kトークンを処理します。アーキテクチャは、より長いコンテキストを可能にするためにデュアルRoPE構成(スライディングレイヤー用の標準、グローバルレイヤー用のプルーニング)を使用します。共有KVキャッシュにより、長いコンテキスト生成中のメモリ消費が削減され、コードベース全体や研究論文の処理が実用的になります。
Gemma 4はTRL(Transformer Reinforcement Learning)で完全にサポートされており、マルチモーダルツールレスポンスと環境相互作用の例があります。Hugging FaceはSFTを使用したVertex AI用のファインチューニングガイドを提供しています。Unsloth StudioはUIベースのファインチューニング体験を提供します。モデルはパラメータ効率的なトレーニングのためのLoRAなどのPEFTメソッドをサポートしています。