مراجعة Gemma 4

مراجعة Gemma 4: كيف ينافس نموذج 31B منافسين بحجم 600B

أطلقت Google DeepMind عائلة Gemma 4 في 2 أبريل 2026 بأربعة نماذج تحت ترخيص Apache 2.0. يحتل 31B المركز الثالث على Arena AI، ويعمل 26B MoE على بطاقة RTX 4090 واحدة، ويتسع E2B على الهاتف. إليك ما يعمل فعلاً وأين توجد نقاط الضعف.

جرّبه بنفسك شاهد المعايير

الحكم

الحكم النهائي على كل نموذج Gemma 4

بعد اختبارات مكثفة في الاستدلال والبرمجة والمتعدد الوسائط والنشر المحلي، إليك الحكم على كل متغير.

الحكم العام

أقوى عائلة نماذج مفتوحة يمكنك تشغيلها محلياً

Gemma 4 هي أفضل عائلة نماذج مفتوحة لمن يريد ذكاءً اصطناعياً متقدماً على عتاده الخاص. يتنافس 31B مع نماذج أكبر 20 مرة في الاستدلال والبرمجة. 26B MoE هو الخيار الأمثل لمعظم استخدامات الإنتاج. نماذج الحافة تجلب ذكاءً اصطناعياً حقيقياً للهواتف والمتصفحات.

نقطة الضعف الرئيسية: في البرمجة الوكيلية الصرفة (SWE-Bench)، لا يزال Gemma 4 متأخراً عن Qwen 3.6 وGLM-5.1. إذا كان استخدامك الرئيسي هو تحرير الكود المستقل، فكّر في هذه البدائل.

جرّبه بنفسك قارن مع Qwen 3.6

الحكم: ممتاز

31B Dense

النموذج الرئيسي يفي بوعده. المركز الثالث على Arena AI، استدلال وبرمجة استثنائيان، متعدد وسائط قوي. أفضل نموذج Dense مفتوح في هذا الحجم.

نقاط القوة: الاستدلال، الرياضيات، البرمجة، المتعدد الوسائط. نقطة الضعف: SWE-Bench متأخر عن Qwen 3.6.

موصى به

جرّب 31B كل التفاصيل

الحكم: أفضل قيمة

26B MoE

جودة قريبة من 31B بجزء من الحوسبة. الخيار الأمثل للنشر في الإنتاج. يتسع على بطاقة RTX 4090 واحدة.

نقاط القوة: الكفاءة، جودة قريبة من 31B، نشر على GPU واحدة. نقطة الضعف: أبطأ من Dense عند batch منخفض.

أفضل قيمة

جرّب 26B كل التفاصيل

الحكم: مثير للإعجاب

E4B Edge

نموذج الحافة الموصى به. استدلال وبرمجة قويان لحجمه. الصوت الأصلي ميزة فريدة مقارنة بالمنافسين.

نقاط القوة: دعم الصوت، استدلال جيد، يعمل على الحواسيب المحمولة. نقطة الضعف: محدود للمهام المعقدة.

اختيار الحافة

جرّب E4B كل التفاصيل

الحكم: متخصص لكن مفيد

E2B Compact

سريع جداً بمعدل 95 tok/s. مفيد للمهام البسيطة والتطبيقات الفورية. غير مناسب للاستدلال المعقد.

نقاط القوة: السرعة، بصمة صغيرة جداً، دعم الصوت. نقطة الضعف: الجودة تنخفض في المهام الصعبة.

اختيار السرعة

جرّب E2B كل التفاصيل

ما يعمل

أين يتفوق Gemma 4

بعد اختبار عشرات المهام الواقعية، هذه هي المجالات التي يثير فيها Gemma 4 الإعجاب حقاً.

الاستدلال الرياضي

89.2% في AIME 2026 ليس صدفة. وضع Thinking ينتج حلولاً واضحة خطوة بخطوة. مفيد حقاً لتدريس الرياضيات وحل المسائل.

توليد الكود

80% في LiveCodeBench v6 يترجم إلى مساعدة عملية في البرمجة. تنفيذ الدوال والتصحيح ومراجعة الكود كلها قوية.

الفهم المتعدد الوسائط

تحليل الصور وتحليل المستندات وفهم الرسوم البيانية تعمل بشكل جيد. دعم الدقة المتغيرة يتعامل بأناقة مع أنواع مختلفة من الصور.

النشر المحلي

النطاق من 3.2 جيجابايت إلى 17 جيجابايت (عند 4 بت) يعني وجود نموذج لكل مستوى عتاد. إعداد Ollama يستغرق أقل من دقيقتين.

Function calling

Function calling الأصلي موثوق. مخرجات JSON منسقة جيداً، اختيار الأدوات دقيق، وسير عمل الوكلاء متعدد الخطوات يعمل بشكل متسق.

متعدد اللغات

دعم أكثر من 140 لغة حقيقي. الجودة تتماسك عبر اللغات الرئيسية، وليس فقط الإنجليزية.

تقييم صادق

أين يقصر Gemma 4

لا يوجد نموذج مثالي. إليك أين يمكن لـ Gemma 4 التحسن.

نقاط الضعف

SWE-Bench: 52% مقابل 73.4% لـ Qwen 3.6 - فجوة كبيرة في البرمجة المستقلة
لا صوت أصلي في 26B و31B - فقط نماذج الحافة لديها مشفرات صوت
26B MoE أبطأ من المتوقع عند batch منخفض
جودة E2B تنخفض بشكل ملحوظ في مهام الاستدلال المعقدة
أداء السياق الطويل يتدهور بعد ~100K رمز في الممارسة

المنافسة

Qwen 3.6 35B A3B: أفضل في البرمجة الوكيلية (SWE-Bench, Terminal-Bench)
GLM-5.1: أقوى في بعض المهام باللغة الصينية
Llama 4: خيارات نافذة سياق أكبر
DeepSeek V4: تنافسي في معايير الاستدلال
Mistral Small 4: استدلال أسرع عند مستويات جودة مماثلة

جرّبه بنفسك قارن مع Qwen 3.6

المعايير

المعايير الرسمية مقابل التجربة الواقعية

كيف تترجم الأرقام الرسمية إلى الاستخدام الفعلي؟ إليك تقييمنا بعد اختبارات مكثفة.

المعايير الرسمية تروي جزءاً من القصة. الاختبارات الواقعية تكشف أين تتطابق الأرقام مع التجربة وأين لا تتطابق.

جرّبه بنفسك عرض بطاقة النموذج

الاستدلال الرياضي: المعايير تتطابق مع الواقع - وضع Thinking يساعد فعلاً

البرمجة: قوي في التوليد، أضعف في التحرير المستقل (فجوة SWE-Bench)

المتعدد الوسائط: فهم الصور متين، OCR المستندات يعمل جيداً

السرعة: E2B سريع فعلاً (~95 tok/s)، 26B أبطأ من المتوقع محلياً

فحص الأداء

Gemma 4 مقابل المنافسة

كيف يقارن Gemma 4 31B مع النماذج المفتوحة الرائدة الأخرى في المعايير الرئيسية.

Benchmark	Gemma 4 31B مميز	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380

بيانات المعايير من بطاقات النماذج الرسمية والاختبارات المستقلة. قد تختلف النتائج حسب منهجية التقييم.

الاستدلال

الاستدلال الرياضي والعلمي: مثير للإعجاب حقاً

وضع Thinking في نموذج 31B ينتج حلولاً واضحة خطوة بخطوة يسهل متابعتها والتحقق منها. 89.2% في AIME 2026 يترجم إلى قدرة حقيقية على تدريس الرياضيات.

وضع Thinking يعرض سلاسل استدلال واضحة
يتعامل مع المسائل متعددة الخطوات بدقة جيدة
الاستدلال العلمي (GPQA Diamond 84.3%) قوي

اختبر الاستدلال شاهد المعايير

الاستدلال الرياضي والعلمي: مثير للإعجاب حقاً

البرمجة

توليد كود قوي، تحرير مستقل أضعف

يتفوق Gemma 4 في توليد الكود والتصحيح والشرح. لكن في مهام تحرير الكود المستقل (SWE-Bench)، يتأخر بشكل كبير عن Qwen 3.6. إذا كنت بحاجة لوكيل برمجة ذكاء اصطناعي، فإن Qwen 3.6 أفضل حالياً.

توليد الكود والتصحيح: ممتاز (80% LiveCodeBench)
Function calling للوكلاء: موثوق ومنسق جيداً
تحرير الكود المستقل: أضعف (52% مقابل 73.4% لـ Qwen في SWE-Bench)

اختبر البرمجة قارن مع Qwen 3.6

الاستخدام المحلي

أفضل عائلة نماذج مفتوحة للنشر المحلي

لا توجد عائلة نماذج أخرى تغطي النطاق من الهاتف إلى محطة العمل بنفس جودة Gemma 4. يعمل E2B بسرعة 95 tok/s على عتاد المستهلك، ويتسع 26B على بطاقة RTX 4090 واحدة بجودة قريبة من 31B.

E2B: سريع جداً، يتسع على الهواتف، لكن محدود للمهام المعقدة
E4B: الخيار الأمثل لمستخدمي الحواسيب المحمولة، جودة شاملة جيدة
26B: جودة قريبة من 31B على GPU واحدة، لكن أبطأ من المتوقع

شغّل محلياً دليل العتاد