لماذا يحتاج كل مستخدم ماك إلى مشغل نماذج الذكاء الاصطناعي الجديد هذا (oMLX)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00هذا هو OMLX. إنه مشروع مثير للغاية، وهو في الأساس محرك استنتاج
00:00:06متخصص مصمم لاستخراج كل ذرة أداء من شرائح Apple Silicon الخاصة بك.
00:00:11إذا كنت من مستخدمي Mac، فستتحمس جداً لهذا المشروع. OMLX يحاول
00:00:16بشكل أساسي حل أكبر عقبة نواجهها في الأجهزة المحلية، وهي ضريبة الذاكرة.
00:00:21في هذا الفيديو، سنلقي نظرة على OMLX، ونرى كيف يعمل، وسنقوم بتجربة تشغيل ومقارنة
00:00:27مع أحد العمالقة، LM Studio، لنرى ما إذا كانت هذه الأداة الجديدة يمكن أن تكون حقاً مستقبل
00:00:33تشغيل نماذج الذكاء الاصطناعي محلياً على جهاز Mac الخاص بك. سيكون الأمر ممتعاً، فلنبدأ.
00:00:39إذاً ما هو OMLX بالضبط؟ في جوهره، هو وقت تشغيل (runtime) مبني خصيصاً فوق
00:00:49إطار عمل MLX من Apple، وعلى عكس الأدوات العامة التي تحاول دعم كل وحدة معالجة رسومات،
00:00:55فإن MLX مصمم خصيصاً من قبل فريق Apple Silicon لاستغلال بنية الذاكرة الموحدة التي
00:01:02تشغل أجهزة Mac تحديداً. في الكمبيوتر التقليدي، تمتلك وحدة المعالجة المركزية ووحدة الرسومات مستودعات ذاكرة منفصلة،
00:01:09مما يعني أن البيانات مثل أوزان النموذج يجب نسخها باستمرار ذهاباً وإياباً عبر ناقل PCI.
00:01:16لكن MLX يلغي عملية النسخ هذه تماماً. لأن وحدة المعالجة المركزية ووحدة الرسومات يتشاركان نفس الذاكرة
00:01:22المادية بالضبط، يستخدم MLX مصفوفات “النسخ الصفري”. عندما تنتهي وحدة الرسومات من عملية حسابية،
00:01:29يمكن لوحدة المعالجة المركزية قراءة النتائج فوراً دون نقل بايت واحد. كما يستخدم الحوسبة الكسولة،
00:01:36مما يعني أنه لا ينفذ العملية الحسابية فعلياً حتى اللحظة الأخيرة عندما تكون المخرجات مطلوبة،
00:01:41مما يسمح له بتحسين مخطط الحساب بالكامل أثناء التشغيل. لكن أين يختلف OMLX عن
00:01:47إعداد LM Studio القياسي؟ يكمن الاختلاف في كيفية إدارته لذاكرة التخزين المؤقت KV.
00:01:54في جلسة LLM عادية، يجب تذكر كل كلمة من سجل المحادثة في ذاكرة الوصول العشوائي الثمينة.
00:02:01لكن OMLX يقدم نظاماً ثنائي الطبقات. فهو يحفظ السياق المباشر في الذاكرة الموحدة للسرعة،
00:02:07بينما يجمد الأجزاء القديمة من محادثتك، مثل تعليمات النظام الكبيرة وتعاريف الأدوات،
00:02:12وينقلها إلى قرص SSD الخاص بك. وعند مقارنة ذلك بـ LM Studio، فإن الفرق يظهر فوراً.
00:02:19نعم، هو مستقر ومتوافق للغاية، لكن المشكلة هي أنه يريد الاحتفاظ بكل سجل الذاكرة
00:02:23في حالة نشطة. OMLX يشبه نظام تشغيل حديث؛ فهو ذكي بما يكفي ليعرف
00:02:30ما هي البيانات التي يجب أن تكون في ذاكرتك الآن وما يمكن نقله للقرص. لنشغل OMLX
00:02:36ونجربه بأنفسنا. الواجهة سهلة الاستخدام للغاية. في البداية، تظهر لنا هذه
00:02:41النافذة حيث يمكننا تحديد الموقع المطلوب للخادم وتشغيله على الفور. بعد
00:02:47ذلك، يطلب منا إدخال مفتاح API. لنقم بذلك. وأخيراً، نصل إلى لوحة
00:02:53التحكم هذه، وهي نقطة الدخول الرئيسية لخادم OMLX الخاص بك. ومن هنا، قمتُ
00:03:00بتحميل نموذج Qwen 2.5 الذي يحتوي على 35 مليار بارامتر بتقنية 4-bit، والذي سنستخدمه في اختباراتنا.
00:03:07لقد قمت أيضاً بإعداد هذا المستودع الفارغ بملف agents.md حيث سأطلب من النموذج
00:03:13إنشاء تطبيق ويب بسيط يمكنك من خلاله البحث عن أفلام مختلفة وإضافتها لقائمة الأمنيات وتقييمها
00:03:19باستخدام مفتاح Movie DB API الخاص بك. لا شيء معقداً جداً لهذا العرض، مجرد اختبار برمجي بسيط
00:03:24لنرى كيف يمكنه أداء مهمة برمجية في العالم الحقيقي. وفي صفحة لوحة التحكم،
00:03:31نحصل على هذا القسم الذي يوفر لنا قصاصات برمجية جاهزة للاستخدام لمختلف بيئات وكلاء الذكاء الاصطناعي
00:03:37التي يمكننا تشغيلها. وفي هذا العرض، سأستخدم Codex CLI لإجراء هذه الاختبارات.
00:03:42الآن، قد تتساءل لماذا لا أستخدم Claude Code CLI الرسمي لهذا الغرض. حسناً،
00:03:47الحقيقة هي أنه على جهاز MacBook M2، كل “توكن” له قيمته. وإذا نظرت إلى إحصائيات سياق Claude
00:03:54في البداية مباشرة على صفحة بيضاء تماماً، يستهلك Claude Code حوالي 16.2 ألف توكن فقط
00:04:02لتعليمات النظام الخاصة به وتعاريف الأدوات. وفي نافذة سياق تبلغ 32 ألفاً، يترك لنا هذا فقط
00:04:0916 ألف توكن للمشروع الفعلي، وهو حجم ضئيل عندما تبني تطبيقاً متكاملاً (Full-stack).
00:04:14لكن من ناحية أخرى، وجدت أن Codex أخف بكثير. فهو لا يضخم الوزن الأساسي للمحادثة،
00:04:20مما يمنحنا مساحة أكبر لكتابة الأكواد قبل أن نصل إلى سقف السياق.
00:04:26حسناً، سأقوم الآن بتشغيل Codex باستخدام هذا الأمر البسيط الموضح هنا.
00:04:31ثم سأعطيه موجه تشغيل بسيطاً يشرح مهمتنا وأجعله يبدأ.
00:04:36وبينما يبدأ العمل هنا على اليمين، يمكنك أن ترى في الوقت الفعلي كيف يتم أداء هذه الجلسة،
00:04:42وكم عدد التوكنات التي يتم إنتاجها، وكم عدد التوكنات التي يتم تخزينها مؤقتاً،
00:04:46ونسبة كفاءة التخزين المؤقت الإجمالية. ومن المفيد أيضاً رؤية عدد التوكنات
00:04:51التي يتم معالجتها في الثانية في المتوسط. بشكل عام، استغرق الأمر حوالي 20 دقيقة
00:04:57لهذا النموذج Qwen 2.5 بـ 35 مليار بارامتر الذي يعمل على جهاز M2 MacBook Pro لإنهاء المهمة.
00:05:04وهذا متوقع لأن هذه مهمة ثقيلة جداً لهذا النموذج. الآن، كانت هناك
00:05:10حالتان أو ثلاث واجهت فيها خطأ 400 لأن الموجه تجاوز حد السياق البالغ 30 ألفاً
00:05:17على جهاز M2 MacBook الخاص بي. في أي أداة أخرى، سيكون هذا بمثابة إنهاء للمشروع تماماً.
00:05:24وعادةً، إذا قمت بتشغيل أمر المسح، فإنه سيمسح ذاكرة الذكاء الاصطناعي قصيرة المدى،
00:05:29مما يؤدي غالباً للهلوسة لأن النموذج ينسى الكود الذي كتبه للتو. لكن هذا هو المكان الذي أبهرني فيه التخزين المؤقت المستمر لـ OMLX.
00:05:37على الرغم من أنني مسحت الجلسة في Codex، إلا أن الحالة الحسابية الفعلية لمشروعي
00:05:42كانت لا تزال موجودة على قرص SSD الخاص بي. لذا بمجرد أن أعطيت Codex موجهًا جديدًا للمتابعة من حيث توقف،
00:05:48تعرف OMLX على البادئة واستعاد فوراً حالة النموذج من القرص. وبدلاً من
00:05:56الهلوسة أو البدء من الصفر، واصل العمل من حيث توقف تماماً. لذا فإن كفاءة التخزين المؤقت
00:06:02تساعد حقاً في هذه الحالة. وبحلول نهاية هذه المهمة، يمكننا أن نرى هنا أن Qwen 2.5 بمساعدة
00:06:08OMLX استطاع إنهاء المهمة عبر معالجة 1.78 مليون توكن، وتم تخزين
00:06:16حوالي 1.59 مليون منها مؤقتاً. لذا انتهينا بكفاءة تخزين مؤقت بلغت 89%، وهو رقم هائل.
00:06:22وبالنسبة للتطبيق نفسه، فإنه يبدو جيداً جداً. نحن قادرون على البحث عن الأفلام، وإضافتها لقائمة المشاهدة،
00:06:28وتقييمها. ولكن بمجرد تحديث الصفحة، يتم إعادة ضبط قائمة المشاهدة. لذا أظن أنه لم
00:06:33ينفذ حل تخزين قاعدة البيانات بشكل صحيح، ولكن الجهد المبذول قوي بشكل عام رغم ذلك.
00:06:40الآن يبدو كل هذا مذهلاً، لكني أردت معرفة كيف يقارن هذا الأداء بمشغل
00:06:46نماذج عملاق مثل LM Studio. لذا قررت تشغيل نفس المهمة باستخدام نفس نموذج Qwen 2.5
00:06:52وباستخدام نفس نافذة السياق والقيود ورؤية كيف سيكون الأداء. وبصراحة، لم أكن
00:06:58أتوقع ذلك، لكني حصلت فعلياً على أداء أسوأ مع LM Studio. فالمهمة نفسها
00:07:04استغرقت حوالي 35 دقيقة لتنتهي. وهذا يزيد بـ 15 دقيقة عما استغرقه OMLX. كما لاحظت
00:07:11أنه أثناء تشغيل هذه المهمة، كان LM Studio يستهلك كل موارد جهاز MacBook الخاص بي.
00:07:17لدرجة أنني لم أتمكن حتى من مشاهدة فيديو على شاشة ثانية بسبب البطء الشديد الناتج عن نقص الذاكرة.
00:07:23لم أواجه نفس المشكلة مع OMLX لأنه عند تشغيله، كنت قادراً
00:07:30بسهولة على تصفح الويب أو مشاهدة الفيديوهات أو القيام بأي مهمة أخرى بينما كان Codex لا يزال يعمل
00:07:35في الخلفية. لكن هذا كان شبه مستحيل مع LM Studio. وانظروا لهذه الإحصائيات. ما صدمني
00:07:41أكثر هو أن متوسط سرعة التوكن في الثانية على LM Studio كان 16 توكناً. بينما في
00:07:47OMLX، كان حوالي 47. وهذا يفسر فعلياً سبب استغرق المهمة 15 دقيقة إضافية.
00:07:55ومع ذلك، يجب أن أعترف بفضل LM Studio في نقطة معينة؛ فهو لم يظهر خطأ 400
00:08:01واحداً بسبب عنق زجاجة سياق الكلام كما فعل OMLX. لذا فإن إدارة السياق في LM Studio مستقرة جداً
00:08:08وتعمل بشكل مثالي. وإذا نظرنا إلى النتيجة النهائية، فقد كانت متشابهة جداً. لم أحصل على
00:08:13رسوم متحركة متطورة هذه المرة، لكن بصراحة، يبدو الأمر وكأننا نقارن نفس المخرجات بقيم
00:08:18عشوائية (seed values) مختلفة لنفس المهمة على نفس النموذج. لذا لن أقفز لأي استنتاجات هنا.
00:08:25إنه نفس نموذج Qwen 2.5. يمكنكم الحكم على مخرجات نماذج Qwen بأنفسكم. إذاً ما هو
00:08:33الحكم النهائي؟ حسناً، يجب أن أقول إنني معجب جداً جداً بأداء OMLX. إذا كنت تملك
00:08:39جهاز MacBook بذاكرة محدودة وتريد استخدام جهازك فعلياً أثناء تشغيل وكيل ذكاء اصطناعي محلي
00:08:45في الخلفية، فإن OMLX هو الأداة المثالية لذلك. فهو يمنحك فعلياً توسعة لذاكرة الوصول العشوائي عبر
00:08:52استغلال قرص SSD عالي السرعة مدمجاً مع إطار عمل MLX الرائع الذي يتيح تشغيل النماذج
00:08:58بسلاسة أكبر على Apple Silicon. نعم، الخطأ 400 الذي يظهر أحياناً يعني أنك ستحتاج لمتابعة العمل
00:09:05بشكل يدوي أكثر وربما استخدام أمر المسح من حين لآخر. لكن هذه هي المقايضة التي تحصل عليها
00:09:10مقابل سرعة توليد أكبر بثلاث مرات. وأعتقد أن الأمر يستحق العناء في هذه الحالة. إن مثل
00:09:16هذه المشاريع كـ OMLX تثبت أننا لا نحتاج بالضرورة لـ 128 جيجابايت من الذاكرة لتشغيل
00:09:23وكلاء أقوياء. نحتاج فقط لطريقة أذكى لإدارة الذاكرة التي نمتلكها بالفعل في أجهزة MacBook الخاصة بنا.
00:09:29لقد أجرينا استطلاعاً قبل بضعة أشهر ووجدنا أن معظم مشاهدينا من مستخدمي Mac.
00:09:34لذا أنا فضولي لمعرفة: هل جربتم OMLX على أجهزتكم الخاصة؟ كيف كانت
00:09:40التجربة حتى الآن؟ أخبرونا في قسم التعليقات بالأسفل. ها قد انتهينا يا رفاق.
00:09:45هذا هو OMLX باختصار. وإذا أعجبتكم هذه الأنواع من التحليلات التقنية، فيرجى
00:09:50إعلامي عبر الضغط على زر الإعجاب أسفل الفيديو. ولا تنسوا أيضاً الاشتراك في
00:09:55قناتنا. كان معكم Andris من Better Stack وأراكم في الفيديوهات القادمة.

Key Takeaway

يتفوق OMLX على المشغلات التقليدية عبر استغلال بنية الذاكرة الموحدة في شرائح Apple Silicon وتقنيات التخزين المؤقت المستمر لتوفير أداء أسرع بثلاث مرات مع استهلاك موارد أقل.

Highlights

  • يضاعف محرك OMLX سرعة معالجة التوكنات ثلاث مرات لتصل إلى 47 توكناً في الثانية مقارنة بـ 16 توكناً فقط في LM Studio.

  • يعتمد المحرك على تقنية النسخ الصفري (Zero-copy) التي تتيح للمعالج المركزي ووحدة الرسوميات مشاركة البيانات دون نقلها عبر ناقل PCI.

  • يقلل نظام التخزين المؤقت ثنائي الطبقات من استهلاك الذاكرة عبر نقل سياق المحادثات القديمة وتعريفات الأدوات إلى قرص SSD.

  • حافظ المحرك على استقرار نظام التشغيل وسمح بتصفح الويب ومشاهدة الفيديو أثناء معالجة نموذج Qwen 2.5 بـ 35 مليار بارامتر.

  • حققت تجربة بناء تطبيق ويب كفاءة تخزين مؤقت بلغت 89% عبر تخزين 1.59 مليون توكن من أصل 1.78 مليون تم معالجتها.

  • استغرق OMLX حوالي 20 دقيقة لإنهاء مهمة برمجية معقدة بينما تطلب LM Studio لنفس المهمة 35 دقيقة كاملة.

  • يستعيد المحرك حالة النموذج الحسابية فوراً من القرص الصلب عند تجاوز حدود السياق مما يمنع حدوث الهلوسة البرمجية.

Timeline

هيكلية OMLX وتقنية النسخ الصفري

  • يعمل OMLX كوقت تشغيل مخصص مبني فوق إطار عمل MLX الخاص بشركة Apple.
  • تلغي مصفوفات النسخ الصفري الحاجة لنقل أوزان النماذج بين الذاكرة ووحدات المعالجة.
  • تؤجل الحوسبة الكسولة تنفيذ العمليات الحسابية حتى اللحظة الأخيرة لتحسين مخطط الحساب.

تستغل الأداة بنية الذاكرة الموحدة في أجهزة Mac حيث تتشارك وحدة المعالجة المركزية ووحدة الرسومات نفس الذاكرة المادية. يزيل هذا التصميم ضريبة الذاكرة التي تفرضها الأجهزة التقليدية التي تعتمد على مستودعات ذاكرة منفصلة. يركز المشروع على استخراج أقصى أداء ممكن من شرائح Apple Silicon تحديداً.

إدارة الذاكرة ونظام التخزين المؤقت ثنائي الطبقات

  • ينقل النظام سياق المحادثة القديم وتعليمات النظام الكبيرة إلى قرص SSD لتوفير مساحة الذاكرة.
  • تظل المحادثة المباشرة فقط في الذاكرة الموحدة لضمان سرعة الاستجابة.
  • يتجنب OMLX مشكلة الاحتفاظ بكامل سجل الذاكرة في حالة نشطة كما يفعل LM Studio.

يعالج OMLX محدودية ذاكرة الوصول العشوائي عبر تجميد الأجزاء غير النشطة من سياق (KV Cache) ونقلها للقرص الصلب. يعمل هذا النظام بشكل مشابه لآلية عمل أنظمة التشغيل الحديثة في إدارة الذاكرة الافتراضية. تضمن هذه الطريقة بقاء مساحة كافية للعمليات الحسابية الجديدة دون التضحية بسجل المحادثة.

اختبار أداء الوكلاء البرمجيين ومقارنة الأدوات

  • يستهلك وكيل Codex CLI مساحة سياق أقل مقارنة بـ Claude Code الرسمي.
  • تشغل تعليمات نظام Claude Code حوالي 16.2 ألف توكن مما يترك مساحة ضئيلة للمشروع.
  • توفر لوحة تحكم OMLX قصاصات برمجية جاهزة لبيئات وكلاء الذكاء الاصطناعي المختلفة.

استخدم الاختبار نموذج Qwen 2.5 بـ 35 مليار بارامتر لبناء تطبيق ويب للبحث عن الأفلام وتقييمها. أظهرت المقارنة أن اختيار الوكيل المناسب ضروري للحفاظ على نافذة السياق المحدودة في أجهزة MacBook. توفر الواجهة خياراً سهلاً لتشغيل الخادم وتدعم مختلف بيئات الوكلاء لتبسيط سير العمل.

نتائج الكفاءة والاستمرارية في بيئات العمل الحقيقية

  • بلغت كفاءة التخزين المؤقت الإجمالية في نهاية المهمة 89%.
  • تسمح ميزة التخزين المؤقت المستمر باستعادة حالة المشروع بعد مسح الجلسة أو حدوث أخطاء.
  • أنهى النموذج المهمة عبر معالجة 1.78 مليون توكن بنجاح.

واجه المشروع أخطاء تجاوز سياق المحادثة (Error 400) عند الوصول لـ 30 ألف توكن، لكن التخزين المستمر منع ضياع التقدم. بدلاً من بدء العمل من الصفر أو التعرض للهلوسة، استعاد OMLX الحالة من قرص SSD بمجرد إعطاء موجه جديد. أثبتت النتائج قدرة الأداة على التعامل مع مشاريع Full-stack ضخمة على أجهزة بذاكرة متوسطة.

المقارنة المباشرة مع LM Studio والحكم النهائي

  • يتفوق OMLX بـ 15 دقيقة في سرعة التنفيذ وبـ 31 توكناً في الثانية في معدل الإنتاج.
  • يستهلك LM Studio كامل موارد الجهاز مما يمنع القيام بمهام أخرى في الخلفية.
  • تعد إدارة السياق في LM Studio أكثر استقراراً رغم بطء الأداء العام.

كشفت المقارنة أن OMLX يمثل توسعة افتراضية لذاكرة الوصول العشوائي عبر دمج سرعة SSD مع إطار عمل MLX. يتيح المحرك للمستخدمين تشغيل وكلاء أقوياء دون الحاجة لـ 128 جيجابايت من الذاكرة. تظل المقايضة الأساسية هي الحاجة لتدخل يدوي عند حدوث أخطاء السياق مقابل الحصول على سرعة توليد مضاعفة ثلاث مرات.

Community Posts

View all posts