Gemma 4 Local
شغّل Gemma 4 على أجهزتك الخاصة - خاص، بدون اتصال، بدون مفاتيح API
جميع نماذج Gemma 4 تعمل محليًا. من E2B بحجم 3.2 جيجابايت على الهاتف إلى النموذج الرئيسي 31B على محطة العمل. Ollama وllama.cpp وMLX وtransformers والنشر عبر المتصفح - اختر أداتك وابدأ في دقائق.
متطلبات الأجهزة
ما تحتاجه لتشغيل كل نموذج محليًا
تعتمد متطلبات الذاكرة على حجم النموذج ومستوى التكميم. يوفر التكميم 4-bit أفضل توازن بين الجودة واستخدام الذاكرة لمعظم عمليات النشر المحلية.
دليل الأجهزة
اختر النموذج المناسب لأجهزتك
E2B يعمل على الهواتف والحواسيب المحمولة الاقتصادية. E4B يعمل بسلاسة على معظم الحواسيب المحمولة. 26B MoE يحتاج إلى GPU جيدة. 31B Dense يتطلب إعداد محطة عمل.
جميع أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لنافذة السياق (KV cache) حسب حالة الاستخدام.
هاتف / حاسوب محمول اقتصادي
E2B (3.2-10 GB)
4-bit: ~3.2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. يعمل على الهواتف وRaspberry Pi والأجهزة الاقتصادية.
~95 tok/s على GPUs الاستهلاكية. أسرع نموذج في العائلة. مثالي للتطبيقات الفورية.
حاسوب محمول / مكتبي
E4B (5.5-16 GB)
4-bit: ~5.5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. أفضل نموذج edge للاستخدام المحلي اليومي.
سرعة جيدة على RTX 3060+ أو أجهزة Mac M1+. نقطة البداية الموصى بها لمعظم المستخدمين المحليين.
محطة عمل GPU
26B MoE (16-48 GB)
4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. جودة قريبة من 31B على RTX 4090 واحدة أو M4 Pro.
~2-8 tok/s حسب الأجهزة. مثالي للمعالجة الدفعية والمهام المحلية التي تتطلب جودة عالية.
Multi-GPU / خادم
31B Dense (17-58 GB)
4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. أعلى جودة للنشر المحلي.
يتطلب RTX 4090+ أو M4 Max+ للاستخدام المريح. مثالي لأعلى جودة بدون الاعتماد على السحابة.
أدوات النشر
ست طرق لتشغيل Gemma 4 محليًا
من إعداد Ollama بأمر واحد إلى بناء llama.cpp مخصص، هناك مسار نشر محلي لكل مستوى مهارة.
Ollama
أمر واحد للتثبيت، أمر واحد للتشغيل. أسهل طريقة لتشغيل Gemma 4 محليًا. يتضمن API HTTP للتكامل مع الأدوات الأخرى.
llama.cpp
تحكم كامل في التكميم وحجم السياق وطبقات GPU. مثالي للمستخدمين المتقدمين الذين يريدون ضبط كل معامل.
MLX (Apple Silicon)
محسّن لأجهزة Mac M1/M2/M3/M4. يستفيد من الذاكرة الموحدة للاستدلال الفعال على أجهزة Apple.
transformers (Python)
تكامل كامل مع منظومة Hugging Face. مثالي لمطوري Python الذين يريدون كتابة سكريبتات أو ضبط النماذج أو بناء خطوط أنابيب مخصصة.
transformers.js (Browser)
شغّل E2B وE4B مباشرة في Chrome باستخدام WebGPU. بدون تثبيت، بدون خادم - فقط افتح صفحة ويب.
LM Studio
إدارة النماذج المحلية عبر واجهة رسومية. نزّل وهيّئ وتحدث مع Gemma 4 من خلال تطبيق سطح المكتب.
بداية سريعة
ابدأ التشغيل في دقيقتين مع Ollama
أسرع طريقة من الصفر إلى Gemma 4 محلي. ثبّت Ollama، نزّل نموذجًا، وابدأ المحادثة.
التثبيت والتشغيل
- التثبيت: curl -fsSL https://ollama.com/install.sh | sh
- تشغيل E4B: ollama run gemma4:e4b
- تشغيل 26B: ollama run gemma4:26b
- تشغيل 31B: ollama run gemma4:31b
- API: curl http://localhost:11434/api/generate -d '{...}'
نصائح
- ابدأ بـ E4B إذا كان لديك 8-16 جيجابايت RAM
- استخدم تكميم 4-bit (Q4_K_M) لأفضل نسبة جودة/ذاكرة
- أضف --num-gpu-layers لتسريع GPU في llama.cpp
- اضبط حجم السياق بناءً على الذاكرة المتاحة
- راقب استخدام VRAM - اترك مساحة لـ KV cache
الأداء المحلي
السرعة والجودة الفعلية على أجهزة المستهلكين
يختلف الأداء الفعلي حسب الأجهزة والتكميم وطول السياق. إليك ما يمكنك توقعه على الإعدادات الشائعة.
تعتمد سرعة الاستدلال المحلي على GPU وRAM ومستوى التكميم وطول السياق. تمثل هذه الأرقام الأداء النموذجي على أجهزة المستهلكين الشائعة.


E2B بتكميم 4-bit: ~95 tok/s على RTX 3060، ~60 tok/s على M1 MacBook
E4B بتكميم 4-bit: ~40-60 tok/s على RTX 3060، ~30 tok/s على M1 MacBook
26B بتكميم 4-bit: ~8-15 tok/s على RTX 4090، ~5 tok/s على M4 Pro
31B بتكميم 4-bit: ~5-10 tok/s على RTX 4090، ~3 tok/s على M4 Max
متطلبات الأجهزة
متطلبات VRAM وRAM حسب التكميم
اختر مستوى التكميم بناءً على الذاكرة المتاحة. 4-bit (Q4_K_M) يوفر أفضل نسبة جودة/ذاكرة لمعظم المستخدمين.
| Benchmark | E2B E2B | E4B E4B | 26B MoE 26B | 31B Dense 31B |
|---|---|---|---|---|
4-bit (Q4_K_M) موصى به | ~3.2 GB | ~5.5 GB | ~16 GB | ~17 GB |
8-bit (Q8_0) جودة أعلى | ~5-8 GB | ~9-12 GB | ~24 GB | ~29 GB |
BF16 / FP16 دقة كاملة | ~10 GB | ~16 GB | ~48 GB | ~58 GB |
Min GPU استخدام مريح | أي 4 GB+ | RTX 3060+ | RTX 4090 | 2x RTX 4090 |
Apple Silicon Mac موصى به | أي M1+ | M1+ 16 GB | M4 Pro 24 GB | M4 Max 64 GB |
أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لـ KV cache حسب طول السياق.
الخصوصية أولاً
بياناتك لا تغادر جهازك أبدًا
تشغيل Gemma 4 محليًا يعني خصوصية كاملة. بدون استدعاءات API، بدون تسجيل بيانات، بدون حاجة للإنترنت بعد التنزيل. عالج المستندات الحساسة والأكواد والمحادثات بدون أي تعرض.
- صفر نقل بيانات - كل شيء يبقى على أجهزتك
- بدون مفاتيح API، بدون حسابات، بدون تتبع استخدام
- عالج المستندات السرية والأكواد الخاصة بأمان
ذكاء اصطناعي في المتصفح
شغّل Gemma 4 في متصفحك - بدون تثبيت
نماذج E2B وE4B تعمل مباشرة في Chrome باستخدام WebGPU عبر transformers.js. بدون خادم، بدون تثبيت، بدون إعداد. فقط افتح صفحة ويب وابدأ المحادثة.
- transformers.js يتيح الاستدلال في المتصفح باستخدام WebGPU
- E2B وE4B محسّنان للنشر عبر المتصفح
- يعمل في Chrome وEdge والمتصفحات الأخرى المتوافقة مع WebGPU
أدوات المطورين
ادمج Gemma 4 المحلي في سير عملك
استخدم Gemma 4 كمساعد برمجة محلي مع Claude Code أو VS Code أو أي أداة تدعم واجهات API المتوافقة مع OpenAI. كل من Ollama وllama.cpp يوفران نقاط نهاية متوافقة.
- API متوافقة مع OpenAI عبر Ollama (localhost:11434)
- يعمل مع Claude Code وContinue وCursor وأدوات الذكاء الاصطناعي الأخرى
- ضبط دقيق باستخدام TRL أو Unsloth أو Keras للمهام المخصصة
بداية سريعة
شغّل Gemma 4 محليًا
اختر أداتك المفضلة وابدأ في دقائق.
تنزيل الأوزان
الحصول على ملفات النموذج
نزّل الأوزان الرسمية من مصادر موثوقة.
متقدم
الضبط الدقيق والتخصيص
خصّص Gemma 4 لحالة الاستخدام الخاصة بك.
منظومة الذكاء الاصطناعي المحلي
أدوات ومنصات لتشغيل Gemma 4 محليًا
منظومة متنامية من الأدوات تجعل تشغيل Gemma 4 محليًا أسهل من أي وقت مضى.
ابدأ الآن
شغّل Gemma 4 على أجهزتك اليوم
جرّبه عبر الإنترنت أولاً، ثم نزّله للاستخدام الخاص وبدون اتصال. بدون مفاتيح API، بدون حسابات، بياناتك لا تغادر جهازك أبدًا.