Gemma 4:どこでも実行できる最先端マルチモーダルインテリジェンス

概要

4つのモデル、1つのファミリー:エッジからサーバーグレードのパフォーマンスまで

2026年4月2日にApache 2.0の下でリリースされたGemma 4は、4つのアーキテクチャで最先端クラスのマルチモーダルインテリジェンスを提供します。超モバイル2Bエッジモデルからフラッグシップ31B密モデルまで、すべてのサイズでテキスト、可変解像度の画像、ビデオ、音声をネイティブに処理します。

エッジモデル

Gemma 4 E2B & E4B:オンデバイスインテリジェンス

2.3Bと4.5Bの有効パラメータを持つ超コンパクトモデル。Pixel、Chrome、ブラウザ展開向けに構築され、ネイティブ音声対応と128Kコンテキストを備えています。

E2BとE4Bバリアントは、Per-Layer Embeddings(PLE)を使用してパラメータ効率を最大化します。テキスト、画像、ビデオ、音声入力をネイティブにサポートし、プライバシー重視のオンデバイスアプリケーションに最適です。

サーバーモデル

Gemma 4 31B Dense & 26B MoE:最先端のパフォーマンス

31B密モデルはArena AIリーダーボードで第3位にランクされ、AIME 2026で89.2%を達成。26B MoEはトークンあたり4Bパラメータのみを活性化しながら、同等の品質を維持します。

両モデルとも256Kコンテキストウィンドウ、ネイティブ関数呼び出し、設定可能な思考モードを備えています。31BはMMLU Proで85.2%、LiveCodeBench v6で80%を達成し、数倍のサイズのモデルと競合します。

機能

ネイティブマルチモーダル

すべてのモデルがテキスト、可変アスペクト比の画像、ビデオ、音声をネイティブに処理します。E2BとE4Bには音声理解のための音声エンコーダーが含まれています。

ビジョンエンコーダーは学習済み2D位置と多次元RoPEを使用し、元のアスペクト比を保持します。画像は最適な速度と品質のトレードオフのために、異なるトークン予算(70、140、280、560、1120)にエンコードできます。

全モデル

アーキテクチャ

拡張コンテキストウィンドウ

小型モデルは128Kコンテキストを備え、中型モデルは256Kをサポートします。デュアルRoPE構成により、より長いコンテキスト処理が可能になります。

ローカルスライディングウィンドウ(512-1024トークン)とグローバル全コンテキストアテンションレイヤーを交互に配置し、メモリ使用量を最適化します。共有KVキャッシュにより、長いコンテキスト生成の計算とメモリを削減します。

128K-256K

機能

設定可能な思考

すべてのモデルが高度な推論タスク用の設定可能な思考モードをサポートし、構造化された会話のためのネイティブシステムプロンプトサポートを備えています。

31BモデルはAIME 2026数学推論で89.2%、GPQA Diamondで84.3%を達成します。組み込みの関数呼び出しにより、ファインチューニングなしで自律エージェントを実現します。

全モデル

パフォーマンス

コーディング&エージェント能力

31BモデルはLiveCodeBench v6で80%、Codeforces ELOで2150を達成。26B MoEは4Bアクティブパラメータのみで77.1%を達成します。

コーディングベンチマークでの顕著な改善と組み込みの関数呼び出しサポートにより、高度な自律エージェントが可能になります。HLEベンチマークではツールなしで19.5%、検索ありで26.5%を示します。

最適化済み

マルチモーダル

ビジョン&ドキュメント分析

31BモデルはMMMU Proで76.9%、MATH-Visionで85.6%を達成。OmniDocBench編集距離0.131は強力なOCR機能を示します。

可変アスペクト比サポートと設定可能な画像トークン予算により、ドキュメント、図、スクリーンショットの効率的な処理が可能になります。E4Bモデルはコンパクトなサイズにもかかわらず、MMMU Proで52.6%に達します。

全モデル

統合

どこでもデプロイ

transformers、llama.cpp、MLX、WebGPU、Mistral.rsなどの初日サポート。ONNXチェックポイントによりエッジデバイス展開が可能です。

Apache 2.0ライセンスにより、責任ある商用利用が可能です。Kaggle、Hugging Face、Google AI Studioで利用可能。Ollamaなどのローカルツールと互換性があり、プライベートでオフラインのやり取りが可能です。

オープンソース

始める

今すぐGemma 4とチャットを始めましょう

Google DeepMindの最先端マルチモーダルモデルを無料で体験。最初の会話を始めるのにクレジットカードは不要です。

紹介

視聴:Gemma 4公式紹介

Google DeepMindによる4つのモデルアーキテクチャ、ネイティブマルチモーダル機能、展開オプションについて学びます。

パフォーマンス

推論、コーディング、ビジョンにわたる最先端のパフォーマンス

Gemma 4モデルはパレートフロンティアを形成し、サイズに対して卓越したパフォーマンスを提供します。31B密モデルはArena AIリーダーボードで全オープンモデル中第3位にランクされています。

公式ベンチマークは、数倍大きなモデルとの競争力のあるパフォーマンスを示しています。31BモデルはAIME 2026数学推論で89.2%を達成し、26B MoEは4Bアクティブパラメータのみで同等の品質に達します。

モデルサイズとベンチマークにわたるGemma 4パフォーマンス比較

31BモデルはAIME 2026で89.2%、MMLU Proで85.2%を達成し、100Bパラメータを超えるモデルと競合します。

コーディングパフォーマンスはLiveCodeBench v6で80%、Codeforces ELOで2150に達し、多くの大型モデルを上回ります。

ビジョン機能にはMMMU Proで76.9%、MATH-Visionで85.6%が含まれ、強力なOCRとドキュメント理解を備えています。

公式ベンチマーク

主要タスクにわたるGemma 4パフォーマンス

推論、コーディング、ビジョン、音声、長いコンテキストタスクにわたる包括的な評価により、最先端クラスの機能を示します。

Benchmark
Gemma 4 31B
密フラッグシップ
31B
Gemma 4 26B A4B
MoE(4Bアクティブ)
26B
Gemma 4 E4B
エッジモデル
E4B
Gemma 4 E2B
超コンパクト
E2B
MMLU Pro
知識と推論
85.2%82.6%69.4%60.0%
AIME 2026(ツールなし)
数学推論
89.2%88.3%42.5%37.5%
GPQA Diamond
大学院レベルの科学
84.3%82.3%58.6%43.4%
LiveCodeBench v6
コーディングパフォーマンス
80.0%77.1%52.0%44.0%
Codeforces ELO
競技プログラミング
21501718940633
MMMU Pro
マルチモーダル理解
76.9%73.8%52.6%44.2%
MATH-Vision
視覚的数学推論
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
ドキュメントOCR(編集距離)
0.1310.1490.1810.290
コンテキストウィンドウ
最大トークン数
256K256K128K128K
音声サポート
ネイティブ音声入力
なしなしありあり

すべての数値は公式Gemma 4モデルカードとHugging Faceブログからのものです。E2BとE4Bのベンチマークは、パラメータ数に対する卓越した効率を示しています。

サーバーモデル

31B Dense & 26B MoE:本番環境向け最先端パフォーマンス

31B密モデルはArena AIリーダーボードで第3位にランクされ、AIME 2026で89.2%を達成。26B MoEはトークンあたり4Bパラメータのみを活性化しながら同等の品質を維持し、高スループットシナリオに最適です。

  • 31B Dense:AIME 2026で89.2%、MMLU Proで85.2%、LiveCodeBench v6で80%、Codeforces ELO 2150
  • 26B MoE(4Bアクティブ):AIME 2026で88.3%、MMLU Proで82.6%、LiveCodeBench v6で77.1%
  • 効率的な長いコンテキスト処理のためのデュアルRoPE構成を備えた256Kコンテキストウィンドウ

エッジモデル

E2B & E4B:音声サポート付きオンデバイスインテリジェンス

2.3Bと4.5Bの有効パラメータを持つ超コンパクトモデル。Pixel、Chrome、ブラウザ展開向けに設計されています。ネイティブ音声エンコーダーにより、オンデバイスでのリアルタイム音声理解が可能です。

  • E2B(2.3B有効、埋め込み込みで5.1B):MMLU Proで60%、LiveCodeBenchで44%、128Kコンテキスト
  • E4B(4.5B有効、埋め込み込みで8B):MMLU Proで69.4%、LiveCodeBenchで52%、128Kコンテキスト
  • Per-Layer Embeddings(PLE)によりエッジ展開のパラメータ効率を最大化

アーキテクチャ

Per-Layer Embeddingsと共有KVキャッシュ

Gemma 4は効率を最大化するアーキテクチャの革新を導入します。PLEは各デコーダーレイヤーに独自の条件付けパスウェイを提供し、共有KVキャッシュは長いコンテキスト生成中のメモリ使用量を削減します。

  • Per-Layer Embeddingsは控えめなパラメータコストで意味のあるレイヤーごとの特殊化を追加
  • 共有KVキャッシュ:最後のNレイヤーがキー値状態を再利用し、冗長な投影を排除
  • 最適なメモリ使用のためのローカルスライディングウィンドウとグローバル全コンテキストアテンションの交互配置
Gemma 4アーキテクチャパフォーマンス比較

マルチモーダル

ネイティブ画像、ビデオ、音声理解

すべてのモデルがテキストと可変アスペクト比の画像をネイティブに処理します。ビジョンエンコーダーは学習済み2D位置を使用し、速度と品質のトレードオフのために画像を異なるトークン予算(70-1120)にエンコードできます。

  • 可変アスペクト比サポートにより元の画像寸法を保持
  • 設定可能な画像トークン予算:70、140、280、560、1120トークン
  • E2BとE4Bには音声処理用のUSMスタイルコンフォーマー音声エンコーダーが含まれています
Gemma 4マルチモーダルベンチマークパフォーマンス

展開

どこでもデプロイ:ブラウザ、ローカル、またはクラウド

transformers、llama.cpp、MLX、WebGPU、Mistral.rsなどの初日サポート。E2BとE4BはWebGPUアクセラレーション付きのtransformers.jsでブラウザで実行でき、31Bと26Bはサーバーハードウェアで優れています。

  • ブラウザ:transformers.jsによりE2B/E4BがWebGPUアクセラレーション付きのChromeで実行可能
  • ローカル:Ollama、llama.cpp、MLX(Apple Silicon)、Mistral.rsでプライベート推論
  • クラウド:Google AI Studio、Vertex AI、またはvLLMとTGIでセルフホスト
Gemma 4展開オプションとパフォーマンス

FAQ

モデルアーキテクチャと機能

Per-Layer Embeddingsからマルチモーダル処理まで、Gemma 4の技術革新を理解します。

Gemma 4は以前のGemmaバージョンと何が違いますか?

Gemma 4はネイティブマルチモーダルサポート(テキスト、画像、ビデオ、音声)、拡張コンテキストウィンドウ(128K-256K)、設定可能な思考モード、組み込みの関数呼び出しを導入します。アーキテクチャは効率のためにPer-Layer Embeddings(PLE)を使用し、長いコンテキスト生成中のメモリ使用量を削減するために共有KVキャッシュを使用します。

4つのGemma 4モデルサイズとは何ですか?それぞれをいつ使用すべきですか?

E2B(2.3B有効)とE4B(4.5B有効)は、ネイティブ音声サポート付きのエッジデバイス、ブラウザ、モバイル向けに設計されています。26B A4Bは、トークンあたり4Bパラメータのみを活性化するMixture-of-Expertsモデルで、高スループットシナリオに最適です。31B密モデルは、推論、コーディング、ビジョンタスクで最大のパフォーマンスを発揮するフラッグシップです。

Gemma 4はマルチモーダル入力をどのように処理しますか?

すべてのモデルがテキストと可変アスペクト比の画像をネイティブに処理します。ビジョンエンコーダーは学習済み2D位置を使用し、速度と品質のトレードオフのために画像を異なるトークン予算(70-1120トークン)にエンコードできます。E2BとE4Bには音声理解用のUSMスタイルコンフォーマー音声エンコーダーが含まれています。ビデオはフレームと音声トラックを処理することでファミリー全体でサポートされています。

Per-Layer Embeddings(PLE)とは何ですか?なぜ重要ですか?

PLEは各デコーダーレイヤーにすべてのトークンに対する独自の小さな埋め込みを提供し、メインの残差ストリームと並行する条件付けパスウェイを作成します。これにより、各レイヤーは関連する場合にのみトークン固有の情報を受け取ることができ、すべてを単一の事前埋め込みにパックする必要がありません。控えめなパラメータコストで意味のあるレイヤーごとの特殊化を追加し、小型モデルをより効率的にします。

FAQ

展開と統合

クラウドからエッジデバイスまで、さまざまなプラットフォームでGemma 4を始めます。

Gemma 4モデルはどこでダウンロードして実行できますか?

Gemma 4モデルはApache 2.0ライセンスの下でKaggleとHugging Faceで利用可能です。Google AI Studioを通じて使用したり、Vertex AIに展開したり、Ollama、llama.cpp、MLX(Apple Silicon用)、transformers、Mistral.rsなどのツールでローカルに実行したりできます。ONNXチェックポイントによりブラウザとエッジデバイスの展開が可能です。

Gemma 4を実行するためのハードウェア要件は何ですか?

E2Bは約9.6GB(BF16)から3.2GB(4ビット)のVRAMが必要です。E4Bは約15GB(BF16)から5GB(4ビット)が必要です。31Bモデルは約58GB(BF16)から17GB(4ビット)が必要です。26B MoEは約48GB(BF16)から16GB(4ビット)が必要です。これらは基本ウェイトのみです。ユースケースに基づいてコンテキストウィンドウ(KVキャッシュ)用のメモリを追加してください。

Gemma 4をブラウザやモバイルデバイスで実行できますか?

はい。E2BとE4Bモデルは、ブラウザとモバイル展開向けに特別に設計されています。transformers.jsにより、WebGPUサポート付きのブラウザでGemma 4を直接実行できます。ONNXチェックポイントはさまざまなエッジハードウェアバックエンドで動作します。モデルはPixelデバイスとChromeブラウザ環境向けに最適化されています。

Gemma 4を関数呼び出しとエージェントで使用するにはどうすればよいですか?

Gemma 4にはファインチューニングを必要としない組み込みの関数呼び出しサポートがあります。モデルはツール定義を解析し、構造化されたJSON呼び出しを生成し、マルチモーダル関数呼び出し(例:画像を分析して天気APIを呼び出す)を処理できます。これにより、コード実行、Webブラウジング、データ取得などのタスク用の自律エージェントが実現します。

FAQ

パフォーマンスと比較

Gemma 4が他のモデルとどのように比較され、さまざまなユースケースで競争力がある理由。

Gemma 4 31BはLlama 3.3 70Bのような大型モデルとどのように比較されますか?

31BモデルはArena AIリーダーボードでオープンモデル中第3位にランクされ、サイズが半分以下にもかかわらずLlama 3.3 70Bを上回ります。AIME 2026数学推論で89.2%、MMLU Proで85.2%、LiveCodeBench v6で80%を達成します。効率は、交互アテンションパターンや共有KVキャッシュなどのアーキテクチャの革新から来ています。

26BモデルのMixture-of-Experts(MoE)アーキテクチャとは何ですか?

26B A4Bモデルは合計260億パラメータを持ちますが、生成中はトークンあたり40億のみを活性化します。高速ルーティングのためにすべての26Bパラメータをメモリにロードする必要がありますが、推論コストは4Bモデルに近いです。これにより、AIME 2026で88.3%、MMLU Proで82.6%を達成し、密31Bモデルよりもトークンあたりの計算量が大幅に少なくなります。

Gemma 4は長いドキュメントと拡張コンテキストを処理できますか?

はい。小型モデルは128Kコンテキストウィンドウをサポートし、中型モデルは256Kトークンを処理します。アーキテクチャは、より長いコンテキストを可能にするためにデュアルRoPE構成(スライディングレイヤー用の標準、グローバルレイヤー用のプルーニング)を使用します。共有KVキャッシュにより、長いコンテキスト生成中のメモリ消費が削減され、コードベース全体や研究論文の処理が実用的になります。

ファインチューニングの例とトレーニングリソースはどこで見つけられますか?

Gemma 4はTRL(Transformer Reinforcement Learning)で完全にサポートされており、マルチモーダルツールレスポンスと環境相互作用の例があります。Hugging FaceはSFTを使用したVertex AI用のファインチューニングガイドを提供しています。Unsloth StudioはUIベースのファインチューニング体験を提供します。モデルはパラメータ効率的なトレーニングのためのLoRAなどのPEFTメソッドをサポートしています。