مراجعة Gemma 4

مراجعة Gemma 4: كيف ينافس نموذج 31B منافسين بحجم 600B

أطلقت Google DeepMind عائلة Gemma 4 في 2 أبريل 2026 بأربعة نماذج تحت ترخيص Apache 2.0. يحتل 31B المركز الثالث على Arena AI، ويعمل 26B MoE على بطاقة RTX 4090 واحدة، ويتسع E2B على الهاتف. إليك ما يعمل فعلاً وأين توجد نقاط الضعف.

الحكم

الحكم النهائي على كل نموذج Gemma 4

بعد اختبارات مكثفة في الاستدلال والبرمجة والمتعدد الوسائط والنشر المحلي، إليك الحكم على كل متغير.

الحكم العام

أقوى عائلة نماذج مفتوحة يمكنك تشغيلها محلياً

Gemma 4 هي أفضل عائلة نماذج مفتوحة لمن يريد ذكاءً اصطناعياً متقدماً على عتاده الخاص. يتنافس 31B مع نماذج أكبر 20 مرة في الاستدلال والبرمجة. 26B MoE هو الخيار الأمثل لمعظم استخدامات الإنتاج. نماذج الحافة تجلب ذكاءً اصطناعياً حقيقياً للهواتف والمتصفحات.

نقطة الضعف الرئيسية: في البرمجة الوكيلية الصرفة (SWE-Bench)، لا يزال Gemma 4 متأخراً عن Qwen 3.6 وGLM-5.1. إذا كان استخدامك الرئيسي هو تحرير الكود المستقل، فكّر في هذه البدائل.

الحكم: ممتاز

31B Dense

النموذج الرئيسي يفي بوعده. المركز الثالث على Arena AI، استدلال وبرمجة استثنائيان، متعدد وسائط قوي. أفضل نموذج Dense مفتوح في هذا الحجم.

نقاط القوة: الاستدلال، الرياضيات، البرمجة، المتعدد الوسائط. نقطة الضعف: SWE-Bench متأخر عن Qwen 3.6.

موصى به

الحكم: أفضل قيمة

26B MoE

جودة قريبة من 31B بجزء من الحوسبة. الخيار الأمثل للنشر في الإنتاج. يتسع على بطاقة RTX 4090 واحدة.

نقاط القوة: الكفاءة، جودة قريبة من 31B، نشر على GPU واحدة. نقطة الضعف: أبطأ من Dense عند batch منخفض.

أفضل قيمة

الحكم: مثير للإعجاب

E4B Edge

نموذج الحافة الموصى به. استدلال وبرمجة قويان لحجمه. الصوت الأصلي ميزة فريدة مقارنة بالمنافسين.

نقاط القوة: دعم الصوت، استدلال جيد، يعمل على الحواسيب المحمولة. نقطة الضعف: محدود للمهام المعقدة.

اختيار الحافة

الحكم: متخصص لكن مفيد

E2B Compact

سريع جداً بمعدل 95 tok/s. مفيد للمهام البسيطة والتطبيقات الفورية. غير مناسب للاستدلال المعقد.

نقاط القوة: السرعة، بصمة صغيرة جداً، دعم الصوت. نقطة الضعف: الجودة تنخفض في المهام الصعبة.

اختيار السرعة

ما يعمل

أين يتفوق Gemma 4

بعد اختبار عشرات المهام الواقعية، هذه هي المجالات التي يثير فيها Gemma 4 الإعجاب حقاً.

الاستدلال الرياضي

89.2% في AIME 2026 ليس صدفة. وضع Thinking ينتج حلولاً واضحة خطوة بخطوة. مفيد حقاً لتدريس الرياضيات وحل المسائل.

توليد الكود

80% في LiveCodeBench v6 يترجم إلى مساعدة عملية في البرمجة. تنفيذ الدوال والتصحيح ومراجعة الكود كلها قوية.

الفهم المتعدد الوسائط

تحليل الصور وتحليل المستندات وفهم الرسوم البيانية تعمل بشكل جيد. دعم الدقة المتغيرة يتعامل بأناقة مع أنواع مختلفة من الصور.

النشر المحلي

النطاق من 3.2 جيجابايت إلى 17 جيجابايت (عند 4 بت) يعني وجود نموذج لكل مستوى عتاد. إعداد Ollama يستغرق أقل من دقيقتين.

Function calling

Function calling الأصلي موثوق. مخرجات JSON منسقة جيداً، اختيار الأدوات دقيق، وسير عمل الوكلاء متعدد الخطوات يعمل بشكل متسق.

متعدد اللغات

دعم أكثر من 140 لغة حقيقي. الجودة تتماسك عبر اللغات الرئيسية، وليس فقط الإنجليزية.

تقييم صادق

أين يقصر Gemma 4

لا يوجد نموذج مثالي. إليك أين يمكن لـ Gemma 4 التحسن.

نقاط الضعف

  • SWE-Bench: 52% مقابل 73.4% لـ Qwen 3.6 - فجوة كبيرة في البرمجة المستقلة
  • لا صوت أصلي في 26B و31B - فقط نماذج الحافة لديها مشفرات صوت
  • 26B MoE أبطأ من المتوقع عند batch منخفض
  • جودة E2B تنخفض بشكل ملحوظ في مهام الاستدلال المعقدة
  • أداء السياق الطويل يتدهور بعد ~100K رمز في الممارسة

المنافسة

  • Qwen 3.6 35B A3B: أفضل في البرمجة الوكيلية (SWE-Bench, Terminal-Bench)
  • GLM-5.1: أقوى في بعض المهام باللغة الصينية
  • Llama 4: خيارات نافذة سياق أكبر
  • DeepSeek V4: تنافسي في معايير الاستدلال
  • Mistral Small 4: استدلال أسرع عند مستويات جودة مماثلة

المعايير

المعايير الرسمية مقابل التجربة الواقعية

كيف تترجم الأرقام الرسمية إلى الاستخدام الفعلي؟ إليك تقييمنا بعد اختبارات مكثفة.

المعايير الرسمية تروي جزءاً من القصة. الاختبارات الواقعية تكشف أين تتطابق الأرقام مع التجربة وأين لا تتطابق.

أداء معايير Gemma 4 عبر جميع النماذج

الاستدلال الرياضي: المعايير تتطابق مع الواقع - وضع Thinking يساعد فعلاً

البرمجة: قوي في التوليد، أضعف في التحرير المستقل (فجوة SWE-Bench)

المتعدد الوسائط: فهم الصور متين، OCR المستندات يعمل جيداً

السرعة: E2B سريع فعلاً (~95 tok/s)، 26B أبطأ من المتوقع محلياً

فحص الأداء

Gemma 4 مقابل المنافسة

كيف يقارن Gemma 4 31B مع النماذج المفتوحة الرائدة الأخرى في المعايير الرئيسية.

Benchmark
Gemma 4 31B
مميز
Gemma 4 26B
Qwen 3.6 35B
Llama 4 Scout
MMLU Pro
Knowledge
85.2%82.6%83.1%74.3%
AIME 2026
Math
89.2%88.3%81.5%73.0%
LiveCodeBench v6
Coding
80.0%77.1%75.2%53.0%
SWE-Bench Verified
Agentic coding
52.0%-73.4%-
MMMU Pro
Multimodal
76.9%73.8%70.2%57.5%
Arena AI ELO
Overall
14521441~1440~1380

بيانات المعايير من بطاقات النماذج الرسمية والاختبارات المستقلة. قد تختلف النتائج حسب منهجية التقييم.

الاستدلال

الاستدلال الرياضي والعلمي: مثير للإعجاب حقاً

وضع Thinking في نموذج 31B ينتج حلولاً واضحة خطوة بخطوة يسهل متابعتها والتحقق منها. 89.2% في AIME 2026 يترجم إلى قدرة حقيقية على تدريس الرياضيات.

  • وضع Thinking يعرض سلاسل استدلال واضحة
  • يتعامل مع المسائل متعددة الخطوات بدقة جيدة
  • الاستدلال العلمي (GPQA Diamond 84.3%) قوي
الاستدلال الرياضي والعلمي: مثير للإعجاب حقاً

البرمجة

توليد كود قوي، تحرير مستقل أضعف

يتفوق Gemma 4 في توليد الكود والتصحيح والشرح. لكن في مهام تحرير الكود المستقل (SWE-Bench)، يتأخر بشكل كبير عن Qwen 3.6. إذا كنت بحاجة لوكيل برمجة ذكاء اصطناعي، فإن Qwen 3.6 أفضل حالياً.

  • توليد الكود والتصحيح: ممتاز (80% LiveCodeBench)
  • Function calling للوكلاء: موثوق ومنسق جيداً
  • تحرير الكود المستقل: أضعف (52% مقابل 73.4% لـ Qwen في SWE-Bench)
توليد كود قوي، تحرير مستقل أضعف

الاستخدام المحلي

أفضل عائلة نماذج مفتوحة للنشر المحلي

لا توجد عائلة نماذج أخرى تغطي النطاق من الهاتف إلى محطة العمل بنفس جودة Gemma 4. يعمل E2B بسرعة 95 tok/s على عتاد المستهلك، ويتسع 26B على بطاقة RTX 4090 واحدة بجودة قريبة من 31B.

  • E2B: سريع جداً، يتسع على الهواتف، لكن محدود للمهام المعقدة
  • E4B: الخيار الأمثل لمستخدمي الحواسيب المحمولة، جودة شاملة جيدة
  • 26B: جودة قريبة من 31B على GPU واحدة، لكن أبطأ من المتوقع
أفضل عائلة نماذج مفتوحة للنشر المحلي

استكشف المزيد

تعمّق في Gemma 4

استكشف النماذج الفردية وخيارات النشر والمقارنات.

Gemma 4 31B

مراجعة النموذج Dense الرئيسي

اقرأ المزيد

Gemma 4 26B

مراجعة كفاءة MoE

اقرأ المزيد

شغّل محلياً

دليل النشر المحلي

ابدأ

مقارنة Qwen 3.6

مواجهة مباشرة مع المنافس الرئيسي

قارن

الوصول لواجهة API

استخدم عبر واجهات API مستضافة

ابدأ

تحميل

احصل على أوزان النموذج

حمّل

جرّبه بنفسك

أفضل مراجعة هي تجربتك الخاصة

جرّب جميع نماذج Gemma 4 مجاناً. بدون تسجيل مطلوب للدردشة الأساسية. كوّن رأيك الخاص.