Gemma 4 Local

شغّل Gemma 4 على أجهزتك الخاصة - خاص، بدون اتصال، بدون مفاتيح API

جميع نماذج Gemma 4 تعمل محليًا. من E2B بحجم 3.2 جيجابايت على الهاتف إلى النموذج الرئيسي 31B على محطة العمل. Ollama وllama.cpp وMLX وtransformers والنشر عبر المتصفح - اختر أداتك وابدأ في دقائق.

متطلبات الأجهزة

ما تحتاجه لتشغيل كل نموذج محليًا

تعتمد متطلبات الذاكرة على حجم النموذج ومستوى التكميم. يوفر التكميم 4-bit أفضل توازن بين الجودة واستخدام الذاكرة لمعظم عمليات النشر المحلية.

دليل الأجهزة

اختر النموذج المناسب لأجهزتك

E2B يعمل على الهواتف والحواسيب المحمولة الاقتصادية. E4B يعمل بسلاسة على معظم الحواسيب المحمولة. 26B MoE يحتاج إلى GPU جيدة. 31B Dense يتطلب إعداد محطة عمل.

جميع أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لنافذة السياق (KV cache) حسب حالة الاستخدام.

هاتف / حاسوب محمول اقتصادي

E2B (3.2-10 GB)

4-bit: ~3.2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. يعمل على الهواتف وRaspberry Pi والأجهزة الاقتصادية.

~95 tok/s على GPUs الاستهلاكية. أسرع نموذج في العائلة. مثالي للتطبيقات الفورية.

الأسهل في التشغيل

حاسوب محمول / مكتبي

E4B (5.5-16 GB)

4-bit: ~5.5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. أفضل نموذج edge للاستخدام المحلي اليومي.

سرعة جيدة على RTX 3060+ أو أجهزة Mac M1+. نقطة البداية الموصى بها لمعظم المستخدمين المحليين.

موصى به

محطة عمل GPU

26B MoE (16-48 GB)

4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. جودة قريبة من 31B على RTX 4090 واحدة أو M4 Pro.

~2-8 tok/s حسب الأجهزة. مثالي للمعالجة الدفعية والمهام المحلية التي تتطلب جودة عالية.

المستخدمون المتقدمون

Multi-GPU / خادم

31B Dense (17-58 GB)

4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. أعلى جودة للنشر المحلي.

يتطلب RTX 4090+ أو M4 Max+ للاستخدام المريح. مثالي لأعلى جودة بدون الاعتماد على السحابة.

أعلى جودة

أدوات النشر

ست طرق لتشغيل Gemma 4 محليًا

من إعداد Ollama بأمر واحد إلى بناء llama.cpp مخصص، هناك مسار نشر محلي لكل مستوى مهارة.

Ollama

أمر واحد للتثبيت، أمر واحد للتشغيل. أسهل طريقة لتشغيل Gemma 4 محليًا. يتضمن API HTTP للتكامل مع الأدوات الأخرى.

llama.cpp

تحكم كامل في التكميم وحجم السياق وطبقات GPU. مثالي للمستخدمين المتقدمين الذين يريدون ضبط كل معامل.

MLX (Apple Silicon)

محسّن لأجهزة Mac M1/M2/M3/M4. يستفيد من الذاكرة الموحدة للاستدلال الفعال على أجهزة Apple.

transformers (Python)

تكامل كامل مع منظومة Hugging Face. مثالي لمطوري Python الذين يريدون كتابة سكريبتات أو ضبط النماذج أو بناء خطوط أنابيب مخصصة.

transformers.js (Browser)

شغّل E2B وE4B مباشرة في Chrome باستخدام WebGPU. بدون تثبيت، بدون خادم - فقط افتح صفحة ويب.

LM Studio

إدارة النماذج المحلية عبر واجهة رسومية. نزّل وهيّئ وتحدث مع Gemma 4 من خلال تطبيق سطح المكتب.

بداية سريعة

ابدأ التشغيل في دقيقتين مع Ollama

أسرع طريقة من الصفر إلى Gemma 4 محلي. ثبّت Ollama، نزّل نموذجًا، وابدأ المحادثة.

التثبيت والتشغيل

  • التثبيت: curl -fsSL https://ollama.com/install.sh | sh
  • تشغيل E4B: ollama run gemma4:e4b
  • تشغيل 26B: ollama run gemma4:26b
  • تشغيل 31B: ollama run gemma4:31b
  • API: curl http://localhost:11434/api/generate -d '{...}'

نصائح

  • ابدأ بـ E4B إذا كان لديك 8-16 جيجابايت RAM
  • استخدم تكميم 4-bit (Q4_K_M) لأفضل نسبة جودة/ذاكرة
  • أضف --num-gpu-layers لتسريع GPU في llama.cpp
  • اضبط حجم السياق بناءً على الذاكرة المتاحة
  • راقب استخدام VRAM - اترك مساحة لـ KV cache

الأداء المحلي

السرعة والجودة الفعلية على أجهزة المستهلكين

يختلف الأداء الفعلي حسب الأجهزة والتكميم وطول السياق. إليك ما يمكنك توقعه على الإعدادات الشائعة.

تعتمد سرعة الاستدلال المحلي على GPU وRAM ومستوى التكميم وطول السياق. تمثل هذه الأرقام الأداء النموذجي على أجهزة المستهلكين الشائعة.

أداء Gemma 4 المحلي عبر تكوينات أجهزة مختلفة

E2B بتكميم 4-bit: ~95 tok/s على RTX 3060، ~60 tok/s على M1 MacBook

E4B بتكميم 4-bit: ~40-60 tok/s على RTX 3060، ~30 tok/s على M1 MacBook

26B بتكميم 4-bit: ~8-15 tok/s على RTX 4090، ~5 tok/s على M4 Pro

31B بتكميم 4-bit: ~5-10 tok/s على RTX 4090، ~3 tok/s على M4 Max

متطلبات الأجهزة

متطلبات VRAM وRAM حسب التكميم

اختر مستوى التكميم بناءً على الذاكرة المتاحة. 4-bit (Q4_K_M) يوفر أفضل نسبة جودة/ذاكرة لمعظم المستخدمين.

Benchmark
E2B
E2B
E4B
E4B
26B MoE
26B
31B Dense
31B
4-bit (Q4_K_M)
موصى به
~3.2 GB~5.5 GB~16 GB~17 GB
8-bit (Q8_0)
جودة أعلى
~5-8 GB~9-12 GB~24 GB~29 GB
BF16 / FP16
دقة كاملة
~10 GB~16 GB~48 GB~58 GB
Min GPU
استخدام مريح
أي 4 GB+RTX 3060+RTX 40902x RTX 4090
Apple Silicon
Mac موصى به
أي M1+M1+ 16 GBM4 Pro 24 GBM4 Max 64 GB

أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لـ KV cache حسب طول السياق.

الخصوصية أولاً

بياناتك لا تغادر جهازك أبدًا

تشغيل Gemma 4 محليًا يعني خصوصية كاملة. بدون استدعاءات API، بدون تسجيل بيانات، بدون حاجة للإنترنت بعد التنزيل. عالج المستندات الحساسة والأكواد والمحادثات بدون أي تعرض.

  • صفر نقل بيانات - كل شيء يبقى على أجهزتك
  • بدون مفاتيح API، بدون حسابات، بدون تتبع استخدام
  • عالج المستندات السرية والأكواد الخاصة بأمان
بياناتك لا تغادر جهازك أبدًا

ذكاء اصطناعي في المتصفح

شغّل Gemma 4 في متصفحك - بدون تثبيت

نماذج E2B وE4B تعمل مباشرة في Chrome باستخدام WebGPU عبر transformers.js. بدون خادم، بدون تثبيت، بدون إعداد. فقط افتح صفحة ويب وابدأ المحادثة.

  • transformers.js يتيح الاستدلال في المتصفح باستخدام WebGPU
  • E2B وE4B محسّنان للنشر عبر المتصفح
  • يعمل في Chrome وEdge والمتصفحات الأخرى المتوافقة مع WebGPU
شغّل Gemma 4 في متصفحك - بدون تثبيت

أدوات المطورين

ادمج Gemma 4 المحلي في سير عملك

استخدم Gemma 4 كمساعد برمجة محلي مع Claude Code أو VS Code أو أي أداة تدعم واجهات API المتوافقة مع OpenAI. كل من Ollama وllama.cpp يوفران نقاط نهاية متوافقة.

  • API متوافقة مع OpenAI عبر Ollama (localhost:11434)
  • يعمل مع Claude Code وContinue وCursor وأدوات الذكاء الاصطناعي الأخرى
  • ضبط دقيق باستخدام TRL أو Unsloth أو Keras للمهام المخصصة
ادمج Gemma 4 المحلي في سير عملك

منظومة الذكاء الاصطناعي المحلي

أدوات ومنصات لتشغيل Gemma 4 محليًا

منظومة متنامية من الأدوات تجعل تشغيل Gemma 4 محليًا أسهل من أي وقت مضى.

Ollama

أسهل نشر محلي مع API HTTP

ابدأ

llama.cpp

أقصى تحكم وتخصيص

اعرف المزيد

LM Studio

واجهة رسومية لإدارة النماذج المحلية

تنزيل

transformers.js

استدلال في المتصفح باستخدام WebGPU

جرّب

MLX

استدلال محسّن لـ Apple Silicon

ابدأ

vLLM

خدمة محلية عالية الإنتاجية

انشر

ابدأ الآن

شغّل Gemma 4 على أجهزتك اليوم

جرّبه عبر الإنترنت أولاً، ثم نزّله للاستخدام الخاص وبدون اتصال. بدون مفاتيح API، بدون حسابات، بياناتك لا تغادر جهازك أبدًا.