Gemma 4 Local

شغّل Gemma 4 على أجهزتك الخاصة - خاص، بدون اتصال، بدون مفاتيح API

جميع نماذج Gemma 4 تعمل محليًا. من E2B بحجم 3.2 جيجابايت على الهاتف إلى النموذج الرئيسي 31B على محطة العمل. Ollama وllama.cpp وMLX وtransformers والنشر عبر المتصفح - اختر أداتك وابدأ في دقائق.

جرّب عبر الإنترنت أولاً عرض متطلبات الأجهزة

متطلبات الأجهزة

ما تحتاجه لتشغيل كل نموذج محليًا

تعتمد متطلبات الذاكرة على حجم النموذج ومستوى التكميم. يوفر التكميم 4-bit أفضل توازن بين الجودة واستخدام الذاكرة لمعظم عمليات النشر المحلية.

دليل الأجهزة

اختر النموذج المناسب لأجهزتك

E2B يعمل على الهواتف والحواسيب المحمولة الاقتصادية. E4B يعمل بسلاسة على معظم الحواسيب المحمولة. 26B MoE يحتاج إلى GPU جيدة. 31B Dense يتطلب إعداد محطة عمل.

جميع أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لنافذة السياق (KV cache) حسب حالة الاستخدام.

جرّب عبر الإنترنت أولاً تنزيل النماذج

هاتف / حاسوب محمول اقتصادي

E2B (3.2-10 GB)

4-bit: ~3.2 GB | 8-bit: ~5-8 GB | BF16: ~10 GB. يعمل على الهواتف وRaspberry Pi والأجهزة الاقتصادية.

~95 tok/s على GPUs الاستهلاكية. أسرع نموذج في العائلة. مثالي للتطبيقات الفورية.

الأسهل في التشغيل

تنزيل E2B دليل الإعداد

حاسوب محمول / مكتبي

E4B (5.5-16 GB)

4-bit: ~5.5-6 GB | 8-bit: ~9-12 GB | BF16: ~16 GB. أفضل نموذج edge للاستخدام المحلي اليومي.

سرعة جيدة على RTX 3060+ أو أجهزة Mac M1+. نقطة البداية الموصى بها لمعظم المستخدمين المحليين.

موصى به

تنزيل E4B دليل الإعداد

محطة عمل GPU

26B MoE (16-48 GB)

4-bit: ~16 GB | 8-bit: ~24 GB | BF16: ~48 GB. جودة قريبة من 31B على RTX 4090 واحدة أو M4 Pro.

~2-8 tok/s حسب الأجهزة. مثالي للمعالجة الدفعية والمهام المحلية التي تتطلب جودة عالية.

المستخدمون المتقدمون

تنزيل 26B دليل الإعداد

Multi-GPU / خادم

31B Dense (17-58 GB)

4-bit: ~17 GB | 8-bit: ~29 GB | BF16: ~58 GB. أعلى جودة للنشر المحلي.

يتطلب RTX 4090+ أو M4 Max+ للاستخدام المريح. مثالي لأعلى جودة بدون الاعتماد على السحابة.

أعلى جودة

تنزيل 31B دليل الإعداد

أدوات النشر

ست طرق لتشغيل Gemma 4 محليًا

من إعداد Ollama بأمر واحد إلى بناء llama.cpp مخصص، هناك مسار نشر محلي لكل مستوى مهارة.

Ollama

أمر واحد للتثبيت، أمر واحد للتشغيل. أسهل طريقة لتشغيل Gemma 4 محليًا. يتضمن API HTTP للتكامل مع الأدوات الأخرى.

llama.cpp

تحكم كامل في التكميم وحجم السياق وطبقات GPU. مثالي للمستخدمين المتقدمين الذين يريدون ضبط كل معامل.

MLX (Apple Silicon)

محسّن لأجهزة Mac M1/M2/M3/M4. يستفيد من الذاكرة الموحدة للاستدلال الفعال على أجهزة Apple.

transformers (Python)

تكامل كامل مع منظومة Hugging Face. مثالي لمطوري Python الذين يريدون كتابة سكريبتات أو ضبط النماذج أو بناء خطوط أنابيب مخصصة.

transformers.js (Browser)

شغّل E2B وE4B مباشرة في Chrome باستخدام WebGPU. بدون تثبيت، بدون خادم - فقط افتح صفحة ويب.

LM Studio

إدارة النماذج المحلية عبر واجهة رسومية. نزّل وهيّئ وتحدث مع Gemma 4 من خلال تطبيق سطح المكتب.

بداية سريعة

ابدأ التشغيل في دقيقتين مع Ollama

أسرع طريقة من الصفر إلى Gemma 4 محلي. ثبّت Ollama، نزّل نموذجًا، وابدأ المحادثة.

التثبيت والتشغيل

التثبيت: curl -fsSL https://ollama.com/install.sh | sh
تشغيل E4B: ollama run gemma4:e4b
تشغيل 26B: ollama run gemma4:26b
تشغيل 31B: ollama run gemma4:31b
API: curl http://localhost:11434/api/generate -d '{...}'

نصائح

ابدأ بـ E4B إذا كان لديك 8-16 جيجابايت RAM
استخدم تكميم 4-bit (Q4_K_M) لأفضل نسبة جودة/ذاكرة
أضف --num-gpu-layers لتسريع GPU في llama.cpp
اضبط حجم السياق بناءً على الذاكرة المتاحة
راقب استخدام VRAM - اترك مساحة لـ KV cache

جرّب عبر الإنترنت أولاً تنزيل النماذج

الأداء المحلي

السرعة والجودة الفعلية على أجهزة المستهلكين

يختلف الأداء الفعلي حسب الأجهزة والتكميم وطول السياق. إليك ما يمكنك توقعه على الإعدادات الشائعة.

تعتمد سرعة الاستدلال المحلي على GPU وRAM ومستوى التكميم وطول السياق. تمثل هذه الأرقام الأداء النموذجي على أجهزة المستهلكين الشائعة.

جرّب عبر الإنترنت أولاً دليل الأجهزة

أداء Gemma 4 المحلي عبر تكوينات أجهزة مختلفة

E2B بتكميم 4-bit: ~95 tok/s على RTX 3060، ~60 tok/s على M1 MacBook

E4B بتكميم 4-bit: ~40-60 tok/s على RTX 3060، ~30 tok/s على M1 MacBook

26B بتكميم 4-bit: ~8-15 tok/s على RTX 4090، ~5 tok/s على M4 Pro

31B بتكميم 4-bit: ~5-10 tok/s على RTX 4090، ~3 tok/s على M4 Max

متطلبات الأجهزة

متطلبات VRAM وRAM حسب التكميم

اختر مستوى التكميم بناءً على الذاكرة المتاحة. 4-bit (Q4_K_M) يوفر أفضل نسبة جودة/ذاكرة لمعظم المستخدمين.

Benchmark	E2B E2B	E4B E4B	26B MoE 26B	31B Dense 31B
4-bit (Q4_K_M) موصى به	~3.2 GB	~5.5 GB	~16 GB	~17 GB
8-bit (Q8_0) جودة أعلى	~5-8 GB	~9-12 GB	~24 GB	~29 GB
BF16 / FP16 دقة كاملة	~10 GB	~16 GB	~48 GB	~58 GB
Min GPU استخدام مريح	أي 4 GB+	RTX 3060+	RTX 4090	2x RTX 4090
Apple Silicon Mac موصى به	أي M1+	M1+ 16 GB	M4 Pro 24 GB	M4 Max 64 GB

أرقام الذاكرة تخص أوزان النموذج فقط. أضف 2-4 جيجابايت لـ KV cache حسب طول السياق.

الخصوصية أولاً

بياناتك لا تغادر جهازك أبدًا

تشغيل Gemma 4 محليًا يعني خصوصية كاملة. بدون استدعاءات API، بدون تسجيل بيانات، بدون حاجة للإنترنت بعد التنزيل. عالج المستندات الحساسة والأكواد والمحادثات بدون أي تعرض.

صفر نقل بيانات - كل شيء يبقى على أجهزتك
بدون مفاتيح API، بدون حسابات، بدون تتبع استخدام
عالج المستندات السرية والأكواد الخاصة بأمان

تنزيل الآن دليل الخصوصية

ذكاء اصطناعي في المتصفح

شغّل Gemma 4 في متصفحك - بدون تثبيت

نماذج E2B وE4B تعمل مباشرة في Chrome باستخدام WebGPU عبر transformers.js. بدون خادم، بدون تثبيت، بدون إعداد. فقط افتح صفحة ويب وابدأ المحادثة.

transformers.js يتيح الاستدلال في المتصفح باستخدام WebGPU
E2B وE4B محسّنان للنشر عبر المتصفح
يعمل في Chrome وEdge والمتصفحات الأخرى المتوافقة مع WebGPU

جرّب في المتصفح وثائق transformers.js

أدوات المطورين

ادمج Gemma 4 المحلي في سير عملك

استخدم Gemma 4 كمساعد برمجة محلي مع Claude Code أو VS Code أو أي أداة تدعم واجهات API المتوافقة مع OpenAI. كل من Ollama وllama.cpp يوفران نقاط نهاية متوافقة.