Gemma 4: ذكاء متعدد الوسائط رائد يمكنك تشغيله في أي مكان

نظرة عامة

أربعة نماذج، عائلة واحدة: من الحافة إلى الأداء على مستوى الخادم

تم إصدار Gemma 4 في 2 أبريل 2026 بموجب ترخيص Apache 2.0، ويقدم ذكاءً متعدد الوسائط من الدرجة الأولى عبر أربع بنى معمارية. من نماذج الحافة فائقة الحركة 2B إلى النموذج الكثيف الرئيسي 31B، يعالج كل حجم النصوص والصور بدقة متغيرة والفيديو والصوت بشكل أصلي.

نماذج الحافة

Gemma 4 E2B و E4B: ذكاء على الجهاز

نماذج فائقة الصغر مع 2.3B و 4.5B معاملات فعالة، مصممة لنشر Pixel و Chrome والمتصفح مع دعم صوتي أصلي وسياق 128K.

تستخدم متغيرات E2B و E4B تضمينات لكل طبقة (PLE) لتعظيم كفاءة المعاملات. وهي تدعم مدخلات النص والصورة والفيديو والصوت بشكل أصلي، مما يجعلها مثالية للتطبيقات على الجهاز التي تركز على الخصوصية.

نماذج الخادم

Gemma 4 31B الكثيف و 26B MoE: أداء رائد

يحتل النموذج الكثيف 31B المرتبة الثالثة في لوحة صدارة Arena AI بنسبة 89.2% على AIME 2026. ينشط 26B MoE فقط 4B معاملات لكل رمز مع الحفاظ على جودة مماثلة.

يتميز كلا النموذجين بنوافذ سياق 256K، واستدعاء وظائف أصلي، وأوضاع تفكير قابلة للتكوين. يحقق 31B نسبة 85.2% على MMLU Pro و 80% على LiveCodeBench v6، منافساً نماذج أكبر بكثير من حجمه.

القدرات

متعدد الوسائط الأصلي

تعالج جميع النماذج النصوص والصور بنسب عرض إلى ارتفاع متغيرة والفيديو والصوت بشكل أصلي. تتضمن E2B و E4B مشفرات صوتية لفهم الكلام.

يستخدم مشفر الرؤية مواضع ثنائية الأبعاد مكتسبة و RoPE متعدد الأبعاد، مع الحفاظ على نسب العرض إلى الارتفاع الأصلية. يمكن ترميز الصور إلى ميزانيات رمزية مختلفة (70، 140، 280، 560، 1120) للحصول على مقايضات مثلى بين السرعة والجودة.

جميع النماذج

البنية المعمارية

نوافذ سياق موسعة

تتميز النماذج الصغيرة بسياق 128K، بينما تدعم النماذج المتوسطة 256K. تمكن تكوينات RoPE المزدوجة من معالجة سياق أطول.

تعمل طبقات الانتباه المتناوبة للنافذة المنزلقة المحلية (512-1024 رمز) والسياق الكامل العالمي على تحسين استخدام الذاكرة. يقلل KV cache المشترك من الحساب والذاكرة لتوليد السياق الطويل.

128K-256K

الميزات

تفكير قابل للتكوين

تدعم جميع النماذج أوضاع تفكير قابلة للتكوين لمهام الاستدلال المتقدمة، مع دعم موجه النظام الأصلي للمحادثات المنظمة.

يحقق نموذج 31B نسبة 89.2% على استدلال الرياضيات AIME 2026 و 84.3% على GPQA Diamond. يدعم استدعاء الوظائف المدمج الوكلاء المستقلين دون ضبط دقيق.

جميع النماذج

الأداء

قوة البرمجة والوكلاء

يسجل نموذج 31B نسبة 80% على LiveCodeBench v6 ويصل إلى 2150 Codeforces ELO. يحقق 26B MoE نسبة 77.1% مع 4B معاملات نشطة فقط.

تحسينات ملحوظة في معايير البرمجة إلى جانب دعم استدعاء الوظائف المدمج تمكن وكلاء مستقلين عالي القدرة. يظهر معيار HLE نسبة 19.5% بدون أدوات، و 26.5% مع البحث.

محسّن

متعدد الوسائط

الرؤية وتحليل المستندات

يحقق نموذج 31B نسبة 76.9% على MMMU Pro و 85.6% على MATH-Vision. تُظهر مسافة التحرير OmniDocBench البالغة 0.131 قدرات OCR قوية.

يتيح دعم نسبة العرض إلى الارتفاع المتغيرة وميزانيات الرموز المميزة القابلة للتكوين معالجة فعالة للمستندات والرسوم البيانية ولقطات الشاشة. يصل نموذج E4B إلى 52.6% على MMMU Pro على الرغم من حجمه الصغير.

جميع النماذج

التكامل

انشر في أي مكان

دعم اليوم الأول لـ transformers و llama.cpp و MLX و WebGPU و Mistral.rs والمزيد. تمكن نقاط تفتيش ONNX من نشر أجهزة الحافة.

يسمح ترخيص Apache 2.0 بالاستخدام التجاري المسؤول. متاح على Kaggle و Hugging Face ومن خلال Google AI Studio. متوافق مع الأدوات المحلية مثل Ollama للتفاعلات الخاصة وغير المتصلة بالإنترنت.

مفتوح المصدر

ابدأ

ابدأ المحادثة مع Gemma 4 اليوم

اختبر نماذج Google DeepMind متعددة الوسائط الرائدة مجاناً. لا حاجة لبطاقة ائتمان لبدء محادثتك الأولى.

مقدمة

شاهد: مقدمة Gemma 4 الرسمية

تعرف على البنى المعمارية الأربعة للنماذج، والقدرات الأصلية متعددة الوسائط، وخيارات النشر من Google DeepMind.

الأداء

أداء رائد عبر الاستدلال والبرمجة والرؤية

تشكل نماذج Gemma 4 حدوداً باريتو، مما يوفر أداءً استثنائياً بالنسبة لحجمها. يحتل النموذج الكثيف 31B المرتبة الثالثة بين جميع النماذج المفتوحة في لوحة صدارة Arena AI.

تُظهر المعايير الرسمية أداءً تنافسياً مع نماذج أكبر بكثير. يحقق نموذج 31B نسبة 89.2% على استدلال الرياضيات AIME 2026، بينما يصل 26B MoE إلى جودة مماثلة مع 4B معاملات نشطة فقط.

مقارنة أداء Gemma 4 عبر أحجام النماذج والمعايير

يحقق نموذج 31B نسبة 89.2% على AIME 2026 و 85.2% على MMLU Pro، منافساً نماذج تزيد عن 100B معامل.

يصل أداء البرمجة إلى 80% على LiveCodeBench v6 و 2150 Codeforces ELO، متقدماً على العديد من النماذج الأكبر.

تتضمن قدرات الرؤية 76.9% على MMMU Pro و 85.6% على MATH-Vision، مع فهم قوي لـ OCR والمستندات.

المعايير الرسمية

أداء Gemma 4 عبر المهام الرئيسية

يُظهر التقييم الشامل عبر مهام الاستدلال والبرمجة والرؤية والصوت والسياق الطويل قدرات من الدرجة الأولى.

Benchmark
Gemma 4 31B
كثيف رئيسي
31B
Gemma 4 26B A4B
MoE (4B نشط)
26B
Gemma 4 E4B
نموذج الحافة
E4B
Gemma 4 E2B
فائق الصغر
E2B
MMLU Pro
المعرفة والاستدلال
85.2%82.6%69.4%60.0%
AIME 2026 (بدون أدوات)
استدلال الرياضيات
89.2%88.3%42.5%37.5%
GPQA Diamond
علوم مستوى الدراسات العليا
84.3%82.3%58.6%43.4%
LiveCodeBench v6
أداء البرمجة
80.0%77.1%52.0%44.0%
Codeforces ELO
البرمجة التنافسية
21501718940633
MMMU Pro
الفهم متعدد الوسائط
76.9%73.8%52.6%44.2%
MATH-Vision
استدلال الرياضيات البصري
85.6%82.4%59.5%52.4%
OmniDocBench 1.5
OCR للمستندات (مسافة التحرير)
0.1310.1490.1810.290
Context Window
الحد الأقصى للرموز
256K256K128K128K
Audio Support
إدخال صوتي أصلي
لالانعمنعم

جميع الأرقام من بطاقة نموذج Gemma 4 الرسمية ومدونة Hugging Face. تُظهر معايير E2B و E4B كفاءة استثنائية لعدد معاملاتها.

نماذج الخادم

31B الكثيف و 26B MoE: أداء رائد للإنتاج

يحتل النموذج الكثيف 31B المرتبة الثالثة في لوحة صدارة Arena AI بنسبة 89.2% على AIME 2026. ينشط 26B MoE فقط 4B معاملات لكل رمز مع الحفاظ على جودة مماثلة، مثالي لسيناريوهات الإنتاجية العالية.

  • 31B الكثيف: 89.2% AIME 2026، 85.2% MMLU Pro، 80% LiveCodeBench v6، 2150 Codeforces ELO
  • 26B MoE (4B نشط): 88.3% AIME 2026، 82.6% MMLU Pro، 77.1% LiveCodeBench v6
  • نوافذ سياق 256K مع تكوينات RoPE مزدوجة لمعالجة سياق طويل فعالة

نماذج الحافة

E2B و E4B: ذكاء على الجهاز مع دعم صوتي

نماذج فائقة الصغر مع 2.3B و 4.5B معاملات فعالة، مصممة لنشر Pixel و Chrome والمتصفح. تمكن مشفرات الصوت الأصلية من فهم الكلام في الوقت الفعلي على الجهاز.

  • E2B (2.3B فعال، 5.1B مع التضمينات): 60% MMLU Pro، 44% LiveCodeBench، سياق 128K
  • E4B (4.5B فعال، 8B مع التضمينات): 69.4% MMLU Pro، 52% LiveCodeBench، سياق 128K
  • تضمينات لكل طبقة (PLE) تعظم كفاءة المعاملات لنشر الحافة

البنية المعمارية

تضمينات لكل طبقة و KV cache المشترك

يقدم Gemma 4 ابتكارات معمارية تعظم الكفاءة. يمنح PLE كل طبقة فك تشفير مسار تكييف خاص بها، بينما يقلل KV cache المشترك من استخدام الذاكرة أثناء توليد السياق الطويل.

  • تضمينات لكل طبقة تضيف تخصصاً ذا معنى بتكلفة معاملات متواضعة
  • KV cache المشترك: آخر N طبقات تعيد استخدام حالات المفتاح-القيمة، مما يلغي الإسقاطات الزائدة
  • انتباه متناوب للنافذة المنزلقة المحلية والسياق الكامل العالمي لاستخدام أمثل للذاكرة
مقارنة أداء بنية Gemma 4

متعدد الوسائط

فهم أصلي للصور والفيديو والصوت

تعالج جميع النماذج النصوص والصور بنسب عرض إلى ارتفاع متغيرة بشكل أصلي. يستخدم مشفر الرؤية مواضع ثنائية الأبعاد مكتسبة ويمكنه ترميز الصور إلى ميزانيات رمزية مختلفة (70-1120) لمقايضات السرعة والجودة.

  • دعم نسبة العرض إلى الارتفاع المتغيرة يحافظ على أبعاد الصورة الأصلية
  • ميزانيات رموز الصور القابلة للتكوين: 70، 140، 280، 560، 1120 رمز
  • تتضمن E2B و E4B مشفرات صوتية conformer بنمط USM لمعالجة الكلام
أداء معيار Gemma 4 متعدد الوسائط

النشر

انشر في أي مكان: المتصفح أو المحلي أو السحابة

دعم اليوم الأول لـ transformers و llama.cpp و MLX و WebGPU و Mistral.rs والمزيد. تعمل E2B و E4B في المتصفحات مع transformers.js، بينما تتفوق 31B و 26B على أجهزة الخادم.

  • المتصفح: يمكّن transformers.js E2B/E4B في Chrome مع تسريع WebGPU
  • محلي: Ollama و llama.cpp و MLX (Apple Silicon) و Mistral.rs للاستدلال الخاص
  • السحابة: Google AI Studio و Vertex AI أو استضافة ذاتية مع vLLM و TGI
خيارات نشر Gemma 4 والأداء

الأسئلة الشائعة

بنية النموذج والقدرات

فهم ابتكارات Gemma 4 التقنية، من تضمينات لكل طبقة إلى المعالجة متعددة الوسائط.

ما الذي يجعل Gemma 4 مختلفاً عن إصدارات Gemma السابقة؟

يقدم Gemma 4 دعماً أصلياً متعدد الوسائط (نص، صورة، فيديو، صوت)، ونوافذ سياق موسعة (128K-256K)، وأوضاع تفكير قابلة للتكوين، واستدعاء وظائف مدمج. تستخدم البنية المعمارية تضمينات لكل طبقة (PLE) للكفاءة و KV cache المشترك لتقليل استخدام الذاكرة أثناء توليد السياق الطويل.

ما هي أحجام نماذج Gemma 4 الأربعة ومتى يجب استخدام كل منها؟

E2B (2.3B فعال) و E4B (4.5B فعال) مصممان لأجهزة الحافة والمتصفحات والهواتف المحمولة مع دعم صوتي أصلي. 26B A4B هو نموذج خليط من الخبراء ينشط فقط 4B معاملات لكل رمز، مثالي لسيناريوهات الإنتاجية العالية. النموذج الكثيف 31B هو الرئيسي للحصول على أقصى أداء في مهام الاستدلال والبرمجة والرؤية.

كيف يتعامل Gemma 4 مع المدخلات متعددة الوسائط؟

تعالج جميع النماذج النصوص والصور بنسب عرض إلى ارتفاع متغيرة بشكل أصلي. يستخدم مشفر الرؤية مواضع ثنائية الأبعاد مكتسبة ويمكنه ترميز الصور إلى ميزانيات رمزية مختلفة (70-1120 رمز) لمقايضات السرعة والجودة. تتضمن E2B و E4B مشفرات صوتية conformer بنمط USM لفهم الكلام. يتم دعم الفيديو عبر العائلة من خلال معالجة الإطارات والمسارات الصوتية.

ما هي تضمينات لكل طبقة (PLE) ولماذا هي مهمة؟

يمنح PLE كل طبقة فك تشفير تضميناً صغيراً خاصاً بها لكل رمز، مما يخلق مساراً موازياً للتكييف إلى جانب التدفق المتبقي الرئيسي. يسمح هذا لكل طبقة بتلقي معلومات خاصة بالرمز فقط عند الحاجة، بدلاً من حزم كل شيء في تضمين واحد مقدماً. يضيف تخصصاً ذا معنى لكل طبقة بتكلفة معاملات متواضعة، مما يجعل النماذج الصغيرة أكثر كفاءة.

الأسئلة الشائعة

النشر والتكامل

البدء مع Gemma 4 عبر منصات مختلفة، من السحابة إلى أجهزة الحافة.

أين يمكنني تنزيل وتشغيل نماذج Gemma 4؟

نماذج Gemma 4 متاحة على Kaggle و Hugging Face بموجب ترخيص Apache 2.0. يمكنك استخدامها من خلال Google AI Studio، أو النشر على Vertex AI، أو التشغيل محلياً باستخدام أدوات مثل Ollama و llama.cpp و MLX (لـ Apple Silicon) و transformers و Mistral.rs. تمكن نقاط تفتيش ONNX من نشر المتصفح وأجهزة الحافة.

ما هي متطلبات الأجهزة لتشغيل Gemma 4؟

يتطلب E2B حوالي 9.6GB (BF16) إلى 3.2GB (4-bit) VRAM. يحتاج E4B إلى حوالي 15GB (BF16) إلى 5GB (4-bit). يتطلب نموذج 31B حوالي 58GB (BF16) إلى 17GB (4-bit). يحتاج 26B MoE إلى حوالي 48GB (BF16) إلى 16GB (4-bit). هذه هي الأوزان الأساسية فقط؛ أضف ذاكرة لنافذة السياق (KV cache) بناءً على حالة الاستخدام الخاصة بك.

هل يمكنني تشغيل Gemma 4 في المتصفح أو على الأجهزة المحمولة؟

نعم. تم تصميم نماذج E2B و E4B خصيصاً لنشر المتصفح والهاتف المحمول. يمكّن transformers.js من تشغيل Gemma 4 مباشرة في المتصفحات مع دعم WebGPU. تعمل نقاط تفتيش ONNX على خلفيات أجهزة الحافة المختلفة. النماذج محسّنة لأجهزة Pixel وبيئات متصفح Chrome.

كيف أستخدم Gemma 4 مع استدعاء الوظائف والوكلاء؟

يحتوي Gemma 4 على دعم مدمج لاستدعاء الوظائف دون الحاجة إلى ضبط دقيق. يمكن للنماذج تحليل تعريفات الأدوات، وإنشاء استدعاءات JSON منظمة، والتعامل مع استدعاء الوظائف متعدد الوسائط (على سبيل المثال، تحليل صورة واستدعاء API للطقس). يدعم هذا الوكلاء المستقلين لمهام مثل تنفيذ الكود وتصفح الويب واسترجاع البيانات.

الأسئلة الشائعة

الأداء والمقارنات

كيف يقارن Gemma 4 بالنماذج الأخرى وما الذي يجعله تنافسياً لحالات الاستخدام المختلفة.

كيف يقارن Gemma 4 31B بالنماذج الأكبر مثل Llama 3.3 70B؟

يحتل نموذج 31B المرتبة الثالثة في لوحة صدارة Arena AI بين النماذج المفتوحة، متقدماً على Llama 3.3 70B على الرغم من كونه أقل من نصف الحجم. يحقق 89.2% على استدلال الرياضيات AIME 2026، و 85.2% على MMLU Pro، و 80% على LiveCodeBench v6. تأتي الكفاءة من الابتكارات المعمارية مثل أنماط الانتباه المتناوبة و KV cache المشترك.

ما هي بنية خليط الخبراء (MoE) في نموذج 26B؟

يحتوي نموذج 26B A4B على 26 مليار معامل إجمالي ولكنه ينشط فقط 4 مليارات لكل رمز أثناء التوليد. يجب تحميل جميع معاملات 26B في الذاكرة للتوجيه السريع، لكن تكلفة الاستدلال أقرب إلى نموذج 4B. يحقق هذا 88.3% على AIME 2026 و 82.6% على MMLU Pro مع حساب أقل بكثير لكل رمز من النموذج الكثيف 31B.

هل يمكن لـ Gemma 4 التعامل مع المستندات الطويلة والسياق الموسع؟

نعم. تدعم النماذج الصغيرة نوافذ سياق 128K، بينما تتعامل النماذج المتوسطة مع 256K رمز. تستخدم البنية المعمارية تكوينات RoPE مزدوجة (قياسية للطبقات المنزلقة، مقلمة للطبقات العالمية) لتمكين سياق أطول. يقلل KV cache المشترك من استهلاك الذاكرة أثناء توليد السياق الطويل، مما يجعله عملياً لمعالجة قواعد الكود الكاملة والأوراق البحثية.

أين يمكنني العثور على أمثلة الضبط الدقيق وموارد التدريب؟

Gemma 4 مدعوم بالكامل في TRL (Transformer Reinforcement Learning)، مع أمثلة لاستجابات الأدوات متعددة الوسائط والتفاعل مع البيئة. يوفر Hugging Face أدلة الضبط الدقيق لـ Vertex AI باستخدام SFT. يقدم Unsloth Studio تجربة ضبط دقيق قائمة على واجهة المستخدم. تدعم النماذج طرق PEFT مثل LoRA للتدريب الفعال من حيث المعاملات.