لماذا يحتاج كل مستخدم ماك إلى مشغل نماذج الذكاء الاصطناعي الجديد هذا (oMLX)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술
Transcript
00:00:00هذا هو OMLX. إنه مشروع مثير للغاية، وهو في الأساس محرك استنتاج
00:00:06متخصص مصمم لاستخراج كل ذرة أداء من شرائح Apple Silicon الخاصة بك.
00:00:11إذا كنت من مستخدمي Mac، فستتحمس جداً لهذا المشروع. OMLX يحاول
00:00:16بشكل أساسي حل أكبر عقبة نواجهها في الأجهزة المحلية، وهي ضريبة الذاكرة.
00:00:21في هذا الفيديو، سنلقي نظرة على OMLX، ونرى كيف يعمل، وسنقوم بتجربة تشغيل ومقارنة
00:00:27مع أحد العمالقة، LM Studio، لنرى ما إذا كانت هذه الأداة الجديدة يمكن أن تكون حقاً مستقبل
00:00:33تشغيل نماذج الذكاء الاصطناعي محلياً على جهاز Mac الخاص بك. سيكون الأمر ممتعاً، فلنبدأ.
00:00:39إذاً ما هو OMLX بالضبط؟ في جوهره، هو وقت تشغيل (runtime) مبني خصيصاً فوق
00:00:49إطار عمل MLX من Apple، وعلى عكس الأدوات العامة التي تحاول دعم كل وحدة معالجة رسومات،
00:00:55فإن MLX مصمم خصيصاً من قبل فريق Apple Silicon لاستغلال بنية الذاكرة الموحدة التي
00:01:02تشغل أجهزة Mac تحديداً. في الكمبيوتر التقليدي، تمتلك وحدة المعالجة المركزية ووحدة الرسومات مستودعات ذاكرة منفصلة،
00:01:09مما يعني أن البيانات مثل أوزان النموذج يجب نسخها باستمرار ذهاباً وإياباً عبر ناقل PCI.
00:01:16لكن MLX يلغي عملية النسخ هذه تماماً. لأن وحدة المعالجة المركزية ووحدة الرسومات يتشاركان نفس الذاكرة
00:01:22المادية بالضبط، يستخدم MLX مصفوفات “النسخ الصفري”. عندما تنتهي وحدة الرسومات من عملية حسابية،
00:01:29يمكن لوحدة المعالجة المركزية قراءة النتائج فوراً دون نقل بايت واحد. كما يستخدم الحوسبة الكسولة،
00:01:36مما يعني أنه لا ينفذ العملية الحسابية فعلياً حتى اللحظة الأخيرة عندما تكون المخرجات مطلوبة،
00:01:41مما يسمح له بتحسين مخطط الحساب بالكامل أثناء التشغيل. لكن أين يختلف OMLX عن
00:01:47إعداد LM Studio القياسي؟ يكمن الاختلاف في كيفية إدارته لذاكرة التخزين المؤقت KV.
00:01:54في جلسة LLM عادية، يجب تذكر كل كلمة من سجل المحادثة في ذاكرة الوصول العشوائي الثمينة.
00:02:01لكن OMLX يقدم نظاماً ثنائي الطبقات. فهو يحفظ السياق المباشر في الذاكرة الموحدة للسرعة،
00:02:07بينما يجمد الأجزاء القديمة من محادثتك، مثل تعليمات النظام الكبيرة وتعاريف الأدوات،
00:02:12وينقلها إلى قرص SSD الخاص بك. وعند مقارنة ذلك بـ LM Studio، فإن الفرق يظهر فوراً.
00:02:19نعم، هو مستقر ومتوافق للغاية، لكن المشكلة هي أنه يريد الاحتفاظ بكل سجل الذاكرة
00:02:23في حالة نشطة. OMLX يشبه نظام تشغيل حديث؛ فهو ذكي بما يكفي ليعرف
00:02:30ما هي البيانات التي يجب أن تكون في ذاكرتك الآن وما يمكن نقله للقرص. لنشغل OMLX
00:02:36ونجربه بأنفسنا. الواجهة سهلة الاستخدام للغاية. في البداية، تظهر لنا هذه
00:02:41النافذة حيث يمكننا تحديد الموقع المطلوب للخادم وتشغيله على الفور. بعد
00:02:47ذلك، يطلب منا إدخال مفتاح API. لنقم بذلك. وأخيراً، نصل إلى لوحة
00:02:53التحكم هذه، وهي نقطة الدخول الرئيسية لخادم OMLX الخاص بك. ومن هنا، قمتُ
00:03:00بتحميل نموذج Qwen 2.5 الذي يحتوي على 35 مليار بارامتر بتقنية 4-bit، والذي سنستخدمه في اختباراتنا.
00:03:07لقد قمت أيضاً بإعداد هذا المستودع الفارغ بملف agents.md حيث سأطلب من النموذج
00:03:13إنشاء تطبيق ويب بسيط يمكنك من خلاله البحث عن أفلام مختلفة وإضافتها لقائمة الأمنيات وتقييمها
00:03:19باستخدام مفتاح Movie DB API الخاص بك. لا شيء معقداً جداً لهذا العرض، مجرد اختبار برمجي بسيط
00:03:24لنرى كيف يمكنه أداء مهمة برمجية في العالم الحقيقي. وفي صفحة لوحة التحكم،
00:03:31نحصل على هذا القسم الذي يوفر لنا قصاصات برمجية جاهزة للاستخدام لمختلف بيئات وكلاء الذكاء الاصطناعي
00:03:37التي يمكننا تشغيلها. وفي هذا العرض، سأستخدم Codex CLI لإجراء هذه الاختبارات.
00:03:42الآن، قد تتساءل لماذا لا أستخدم Claude Code CLI الرسمي لهذا الغرض. حسناً،
00:03:47الحقيقة هي أنه على جهاز MacBook M2، كل “توكن” له قيمته. وإذا نظرت إلى إحصائيات سياق Claude
00:03:54في البداية مباشرة على صفحة بيضاء تماماً، يستهلك Claude Code حوالي 16.2 ألف توكن فقط
00:04:02لتعليمات النظام الخاصة به وتعاريف الأدوات. وفي نافذة سياق تبلغ 32 ألفاً، يترك لنا هذا فقط
00:04:0916 ألف توكن للمشروع الفعلي، وهو حجم ضئيل عندما تبني تطبيقاً متكاملاً (Full-stack).
00:04:14لكن من ناحية أخرى، وجدت أن Codex أخف بكثير. فهو لا يضخم الوزن الأساسي للمحادثة،
00:04:20مما يمنحنا مساحة أكبر لكتابة الأكواد قبل أن نصل إلى سقف السياق.
00:04:26حسناً، سأقوم الآن بتشغيل Codex باستخدام هذا الأمر البسيط الموضح هنا.
00:04:31ثم سأعطيه موجه تشغيل بسيطاً يشرح مهمتنا وأجعله يبدأ.
00:04:36وبينما يبدأ العمل هنا على اليمين، يمكنك أن ترى في الوقت الفعلي كيف يتم أداء هذه الجلسة،
00:04:42وكم عدد التوكنات التي يتم إنتاجها، وكم عدد التوكنات التي يتم تخزينها مؤقتاً،
00:04:46ونسبة كفاءة التخزين المؤقت الإجمالية. ومن المفيد أيضاً رؤية عدد التوكنات
00:04:51التي يتم معالجتها في الثانية في المتوسط. بشكل عام، استغرق الأمر حوالي 20 دقيقة
00:04:57لهذا النموذج Qwen 2.5 بـ 35 مليار بارامتر الذي يعمل على جهاز M2 MacBook Pro لإنهاء المهمة.
00:05:04وهذا متوقع لأن هذه مهمة ثقيلة جداً لهذا النموذج. الآن، كانت هناك
00:05:10حالتان أو ثلاث واجهت فيها خطأ 400 لأن الموجه تجاوز حد السياق البالغ 30 ألفاً
00:05:17على جهاز M2 MacBook الخاص بي. في أي أداة أخرى، سيكون هذا بمثابة إنهاء للمشروع تماماً.
00:05:24وعادةً، إذا قمت بتشغيل أمر المسح، فإنه سيمسح ذاكرة الذكاء الاصطناعي قصيرة المدى،
00:05:29مما يؤدي غالباً للهلوسة لأن النموذج ينسى الكود الذي كتبه للتو. لكن هذا هو المكان الذي أبهرني فيه التخزين المؤقت المستمر لـ OMLX.
00:05:37على الرغم من أنني مسحت الجلسة في Codex، إلا أن الحالة الحسابية الفعلية لمشروعي
00:05:42كانت لا تزال موجودة على قرص SSD الخاص بي. لذا بمجرد أن أعطيت Codex موجهًا جديدًا للمتابعة من حيث توقف،
00:05:48تعرف OMLX على البادئة واستعاد فوراً حالة النموذج من القرص. وبدلاً من
00:05:56الهلوسة أو البدء من الصفر، واصل العمل من حيث توقف تماماً. لذا فإن كفاءة التخزين المؤقت
00:06:02تساعد حقاً في هذه الحالة. وبحلول نهاية هذه المهمة، يمكننا أن نرى هنا أن Qwen 2.5 بمساعدة
00:06:08OMLX استطاع إنهاء المهمة عبر معالجة 1.78 مليون توكن، وتم تخزين
00:06:16حوالي 1.59 مليون منها مؤقتاً. لذا انتهينا بكفاءة تخزين مؤقت بلغت 89%، وهو رقم هائل.
00:06:22وبالنسبة للتطبيق نفسه، فإنه يبدو جيداً جداً. نحن قادرون على البحث عن الأفلام، وإضافتها لقائمة المشاهدة،
00:06:28وتقييمها. ولكن بمجرد تحديث الصفحة، يتم إعادة ضبط قائمة المشاهدة. لذا أظن أنه لم
00:06:33ينفذ حل تخزين قاعدة البيانات بشكل صحيح، ولكن الجهد المبذول قوي بشكل عام رغم ذلك.
00:06:40الآن يبدو كل هذا مذهلاً، لكني أردت معرفة كيف يقارن هذا الأداء بمشغل
00:06:46نماذج عملاق مثل LM Studio. لذا قررت تشغيل نفس المهمة باستخدام نفس نموذج Qwen 2.5
00:06:52وباستخدام نفس نافذة السياق والقيود ورؤية كيف سيكون الأداء. وبصراحة، لم أكن
00:06:58أتوقع ذلك، لكني حصلت فعلياً على أداء أسوأ مع LM Studio. فالمهمة نفسها
00:07:04استغرقت حوالي 35 دقيقة لتنتهي. وهذا يزيد بـ 15 دقيقة عما استغرقه OMLX. كما لاحظت
00:07:11أنه أثناء تشغيل هذه المهمة، كان LM Studio يستهلك كل موارد جهاز MacBook الخاص بي.
00:07:17لدرجة أنني لم أتمكن حتى من مشاهدة فيديو على شاشة ثانية بسبب البطء الشديد الناتج عن نقص الذاكرة.
00:07:23لم أواجه نفس المشكلة مع OMLX لأنه عند تشغيله، كنت قادراً
00:07:30بسهولة على تصفح الويب أو مشاهدة الفيديوهات أو القيام بأي مهمة أخرى بينما كان Codex لا يزال يعمل
00:07:35في الخلفية. لكن هذا كان شبه مستحيل مع LM Studio. وانظروا لهذه الإحصائيات. ما صدمني
00:07:41أكثر هو أن متوسط سرعة التوكن في الثانية على LM Studio كان 16 توكناً. بينما في
00:07:47OMLX، كان حوالي 47. وهذا يفسر فعلياً سبب استغرق المهمة 15 دقيقة إضافية.
00:07:55ومع ذلك، يجب أن أعترف بفضل LM Studio في نقطة معينة؛ فهو لم يظهر خطأ 400
00:08:01واحداً بسبب عنق زجاجة سياق الكلام كما فعل OMLX. لذا فإن إدارة السياق في LM Studio مستقرة جداً
00:08:08وتعمل بشكل مثالي. وإذا نظرنا إلى النتيجة النهائية، فقد كانت متشابهة جداً. لم أحصل على
00:08:13رسوم متحركة متطورة هذه المرة، لكن بصراحة، يبدو الأمر وكأننا نقارن نفس المخرجات بقيم
00:08:18عشوائية (seed values) مختلفة لنفس المهمة على نفس النموذج. لذا لن أقفز لأي استنتاجات هنا.
00:08:25إنه نفس نموذج Qwen 2.5. يمكنكم الحكم على مخرجات نماذج Qwen بأنفسكم. إذاً ما هو
00:08:33الحكم النهائي؟ حسناً، يجب أن أقول إنني معجب جداً جداً بأداء OMLX. إذا كنت تملك
00:08:39جهاز MacBook بذاكرة محدودة وتريد استخدام جهازك فعلياً أثناء تشغيل وكيل ذكاء اصطناعي محلي
00:08:45في الخلفية، فإن OMLX هو الأداة المثالية لذلك. فهو يمنحك فعلياً توسعة لذاكرة الوصول العشوائي عبر
00:08:52استغلال قرص SSD عالي السرعة مدمجاً مع إطار عمل MLX الرائع الذي يتيح تشغيل النماذج
00:08:58بسلاسة أكبر على Apple Silicon. نعم، الخطأ 400 الذي يظهر أحياناً يعني أنك ستحتاج لمتابعة العمل
00:09:05بشكل يدوي أكثر وربما استخدام أمر المسح من حين لآخر. لكن هذه هي المقايضة التي تحصل عليها
00:09:10مقابل سرعة توليد أكبر بثلاث مرات. وأعتقد أن الأمر يستحق العناء في هذه الحالة. إن مثل
00:09:16هذه المشاريع كـ OMLX تثبت أننا لا نحتاج بالضرورة لـ 128 جيجابايت من الذاكرة لتشغيل
00:09:23وكلاء أقوياء. نحتاج فقط لطريقة أذكى لإدارة الذاكرة التي نمتلكها بالفعل في أجهزة MacBook الخاصة بنا.
00:09:29لقد أجرينا استطلاعاً قبل بضعة أشهر ووجدنا أن معظم مشاهدينا من مستخدمي Mac.
00:09:34لذا أنا فضولي لمعرفة: هل جربتم OMLX على أجهزتكم الخاصة؟ كيف كانت
00:09:40التجربة حتى الآن؟ أخبرونا في قسم التعليقات بالأسفل. ها قد انتهينا يا رفاق.
00:09:45هذا هو OMLX باختصار. وإذا أعجبتكم هذه الأنواع من التحليلات التقنية، فيرجى
00:09:50إعلامي عبر الضغط على زر الإعجاب أسفل الفيديو. ولا تنسوا أيضاً الاشتراك في
00:09:55قناتنا. كان معكم Andris من Better Stack وأراكم في الفيديوهات القادمة.