Gemma 4 レビュー

Gemma 4レビュー：31Bモデルが600Bの競合とどう戦うか

Google DeepMindのGemma 4ファミリーは2026年4月2日にApache 2.0ライセンスで4モデルをリリース。31BはArena AIで第3位、26B MoEは単一のRTX 4090で動作、E2Bはスマートフォンに搭載可能。実際に何が機能し、どこに弱点があるかを解説します。

自分で試すベンチマークを見る

評価

各Gemma 4モデルの最終評価

推論、コーディング、マルチモーダル、ローカルデプロイにわたる広範なテストの結果、各バリアントの評価をお伝えします。

総合評価

ローカルで実行できる最も高性能なオープンモデルファミリー

Gemma 4は、自分のハードウェアでフロンティアクラスのAIを使いたいユーザーにとって最高のオープンモデルファミリーです。31Bは推論とコーディングで20倍のサイズのモデルと競合。26B MoEはほとんどの本番利用に最適。エッジモデルはスマートフォンやブラウザに本格的なAIをもたらします。

主な弱点：純粋なエージェントコーディング（SWE-Bench）では、Gemma 4はまだQwen 3.6やGLM-5.1に遅れをとっています。主な用途が自律的なコード編集であれば、それらの代替を検討してください。

自分で試す Qwen 3.6と比較

評価：優秀

31B Dense

フラッグシップは期待通りの性能。Arena AIで第3位、卓越した推論とコーディング、強力なマルチモーダル。このサイズで最高のオープンDenseモデル。

強み：推論、数学、コーディング、マルチモーダル。弱点：SWE-BenchでQwen 3.6に遅れ。

推奨

31Bを試す詳細を見る

評価：最高のコスパ

26B MoE

31Bに近い品質をわずかな計算量で実現。本番デプロイに最適。単一のRTX 4090に搭載可能。

強み：効率性、31Bに近い品質、単一GPU対応。弱点：低バッチサイズではDenseより遅い。

最高のコスパ

26Bを試す詳細を見る

評価：印象的

E4B Edge

推奨エッジモデル。サイズに対して強力な推論とコーディング。ネイティブオーディオは競合に対するユニークな優位性。

強み：オーディオ対応、良好な推論、ノートPCで動作。弱点：複雑なタスクには限界あり。

エッジ推奨

E4Bを試す詳細を見る

評価：ニッチだが有用

E2B Compact

95 tok/sの超高速。シンプルなタスクやリアルタイムアプリケーションに有用。複雑な推論には不向き。

強み：速度、極小フットプリント、オーディオ対応。弱点：難しいタスクで品質が低下。

速度重視

E2Bを試す詳細を見る

優れている点

Gemma 4が真に優れている分野

数十の実環境タスクでテストした結果、Gemma 4が本当に印象的な分野をご紹介します。

数学的推論

AIME 2026で89.2%は偶然ではありません。Thinkingモードは明確なステップバイステップの解法を生成。数学の個別指導や問題解決に実用的です。

コード生成

LiveCodeBench v6で80%は実用的なコーディング支援に直結。関数の実装、デバッグ、コードレビューすべてが強力です。

マルチモーダル理解

画像分析、ドキュメント解析、チャート理解が良好に機能。可変解像度サポートにより、さまざまな画像タイプを適切に処理します。

ローカルデプロイ

3.2GBから17GB（4ビット時）の範囲で、あらゆるハードウェア層に対応するモデルがあります。Ollamaのセットアップは2分以内。

Function calling

ネイティブFunction callingは信頼性が高い。JSON出力は整形済み、ツール選択は正確、マルチステップのエージェントワークフローも安定して動作。

多言語対応

140以上の言語サポートは本物。主要言語全体で品質が維持され、英語だけではありません。

正直な評価

Gemma 4の弱点

完璧なモデルはありません。Gemma 4に改善の余地がある点をご紹介します。

弱点

SWE-Bench: 52% vs Qwen 3.6の73.4% - 自律コーディングで大きな差
26Bと31Bにネイティブオーディオなし - エッジモデルのみオーディオエンコーダー搭載
26B MoEは低バッチサイズで予想より遅い
E2Bは複雑な推論タスクで品質が顕著に低下
長文コンテキストの性能は実際には約100Kトークンを超えると劣化

競合

Qwen 3.6 35B A3B: エージェントコーディングで優位（SWE-Bench、Terminal-Bench）
GLM-5.1: 一部の中国語タスクで強い
Llama 4: より大きなコンテキストウィンドウオプション
DeepSeek V4: 推論ベンチマークで競合
Mistral Small 4: 同等品質帯でより高速な推論

自分で試す Qwen 3.6と比較

ベンチマーク

公式ベンチマーク vs 実環境体験

公式の数値は実際の使用感にどう反映されるか？広範なテスト後の評価をお伝えします。

公式ベンチマークは一部を語ります。実環境テストで、数値が体験と一致する点としない点が明らかになります。

自分で試すモデルカードを見る

数学的推論：ベンチマークは現実と一致 - Thinkingモードは本当に役立つ

コーディング：生成は強力、自律編集は弱い（SWE-Benchのギャップ）

マルチモーダル：画像理解は堅実、ドキュメントOCRも良好

速度：E2Bは本当に高速（約95 tok/s）、26Bはローカルで予想より遅い

性能の実態チェック

Gemma 4 vs 競合

Gemma 4 31Bが主要ベンチマークで他のリーディングオープンモデルとどう比較されるか。

Benchmark	Gemma 4 31B 注目	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380