هذا المحرك الجديد يشغل الذكاء الاصطناعي محليًا بذاكرة عشوائية أقل بـ 10 أضعاف! (كابتوس)
BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones
Transcript
00:00:00هذا هو Cactus. إنه محرك استدلال ذو زمن انتقال منخفض مصمم للتعامل مع الأجهزة المحمولة وأجهزة الحافة
00:00:06كأجهزة من الدرجة الأولى. عادةً عندما نحاول تشغيل نماذج الذكاء الاصطناعي على أجهزة الحافة، فإنها
00:00:12تبدو ثقيلة وتستنزف البطارية وتكون عرضة للإغلاق من قِبل مدير ذاكرة أنظمة تشغيل الهواتف
00:00:18ولكن Cactus يحاول حل هذه المشكلة لأنه ماليًا صُمم خصيصًا
00:00:23لقيود وحدات المعالجة العصبية وذاكرة الوصول العشوائي المحدودة. لذا سنقوم اليوم
00:00:28بالإلقاء نظرة على Cactus، ومعرفة كيف يعمل واختباره على جهاز حافة لرؤية أدائه.
00:00:34إذن، لننتقل إلى التفاصيل. إن العائق الأكبر أمام الذكاء الاصطناعي المحلي ليس المعالجة في الواقع، بل
00:00:44العبء الإضافي على الذاكرة. في الأجهزة المحمولة القياسية، يكون نظام التشغيل صارمًا للغاية
00:00:50بشأن إغلاق التطبيقات التي تسجل ارتفاعًا مفاجئًا في استهلاك الذاكرة. لكن Cactus يحل هذا باستخدام تقنية
00:00:57تخريج الذاكرة بدون نسخ. فبدلاً من النهج المعتاد حيث تقوم بتحميل كل شيء في الذاكرة، يقوم Cactus
00:01:02بخرائط أوزان النموذج مباشرة من وحدة التخزين. إنه نظام بدون نسخ يسحب فقط مصفوفات
00:01:08محددة إلى دورة الحوسبة النشطة عند الحاجة إليها. وبذلك تحصل على القدرة التحليلية
00:01:13لنموذج ضخم دون المخاطرة بقيام نظام التشغيل بإغلاق تطبيقك. ولتحقيق
00:01:19هذا، فقد انتقلوا حتى عن صيغة GGUF التقليدية واستخدموا صيغتهم
00:01:24الخاصة والمملوكة لهم .CACT والتي تتيح لهذه الخرائط أن تكون فعالة على أجهزة الحافة. ولكن
00:01:31العمل الشاق الحقيقي يحدث في وحدة المعالجة العصبية (NPU). فبينما تعتمد معظم المحركات
00:01:37المحلية على وحدة معالجة الرسومات (GPU) بشكل افتراضي، تم بناء Cactus ليعتمد على وحدة المعالجة العصبية أولاً. إذا نظرت إلى الرقاقات
00:01:43الحديثة من Apple أو Qualcomm أو MediaTek، ستجد أنها تحتوي جميعًا على شرائح مخصصة فقط للشبكات
00:01:50العصبية. ويتواصل Cactus مع هذه الوحدات مباشرة، متجاوزًا طبقات الترجمة المعتادة
00:01:55التي تبطئ عملية الاستدلال لديك. وقد قاموا بالفعل بتحسين نماذج معينة لتحقيق
00:02:00الاستفادة الكاملة من وحدات ضرب المصفوفات هذه. إذا توجهت إلى لوحة تحكم Cactus،
00:02:07سترى قائمة بالنماذج المحسنة لوحدات المعالجة العصبية والجاهزة للتنزيل. وهناك ميزة رائعة أخرى
00:02:12يتميز بها Cactus وهي الموجه الهجين. والواقع هو أنه في أجهزة الحافة، فإن النماذج المحلية مهما بلغت
00:02:18درجة تحسينها، تصل في النهاية إلى سقف قدرتها التحليلية. وهنا يأتي دور الموجه
00:02:23الهجين. فبدلاً من إجبارك على الاختيار بين نموذج محلي سريع ولكنه محدود وبين
00:02:29نموذج سحابي ذكي ولكنه مكلف، يمكن لـ Cactus التعامل مع الاثنين والتبديل بينهما. حيث يستخدم
00:02:35نظام توجيه يعتمد على مستوى الثقة. فإذا طرحت عليه سؤالاً بسيطًا، فإنه يظل على
00:02:40وحدة المعالجة العصبية لأنه سريع وخاص ولا يكلفك شيئًا. ولكن إذا شعر النموذج المحلي أن
00:02:45المهمة معقدة للغاية أو تتطلب نافذة سياق ضخمة، فإنه يقوم تلقائيًا بتحويل
00:02:51الطلب المحدد إلى نموذج رائد على السحابة. ويبقى الكود الخاص بك كما هو، حيث يتولى المحرك
00:02:57فقط إدارة هذا التبديل الاحتياطي في الخلفية. لذا فهي طريقة جاهزة للإنتاج للحفاظ على انخفاض
00:03:03التكاليف دون التضحية بتجربة المستخدم عندما تصبح الأمور معقدة. الآن، كل هذا
00:03:08يبدو رائعًا، لكنني أريد تجربة ذلك بنفسي. يوجد في صفحتهم الرئيسية
00:03:13هذا العرض التوضيحي حيث يوضحون كيف يمكنك إجراء نسخ نصي في الوقت الفعلي بزمن انتقال يقارب 100 مللي ثانية
00:03:19على جهاز حافة. لذا قمت بالمضي قدمًا وبرمجت بشكل سريع تطبيق Swift صغيرًا باستخدام
00:03:25حزمة Swift Cactus الخاصة بهم والتي تدعم تشغيل نسخ نصي في الوقت الفعلي باستخدام نموذج الكلام
00:03:30parakeet محليًا ونموذج Gemini على السحابة. فلنجرب ذلك إذن. كما ترون،
00:03:36محليًا، يبلغ متوسط زمن الانتقال لدينا حوالي 260 مللي ثانية مع البث المباشر. وتذكروا،
00:03:44أنني أقوم بتشغيل هذا على طراز iPhone أقدم، وهو 12 Pro. لذا بالنسبة لطراز قديم مثل
00:03:50هذا، أعتقد أن هذا الأداء على جهاز الحافة جيد جدًا. وإذا انتقلنا إلى السحابة، ينتقل Cactus
00:03:55إلى Gemini 2.5 flash كبديل سحابي. ولسبب ما، ليس لديهم نفس
00:04:01نموذج parakeet على جانب السحابة الخاص بهم. لذا اضطررت لاستخدام Gemini. ويمكننا أن نرى هنا أن
00:04:06هذا يسجل متوسطًا يبلغ حوالي 2000 مللي ثانية لنسخ نصي لدفعة مدتها ثلاث ثوانٍ. و
00:04:12أعتقد أن هذا متوقع لأنه يقوم برحلة ذهاب وإياب إلى خادم البيانات. ولكن
00:04:17واقعيًا، في معظم الأوقات سينتهي بك الأمر باستخدام النسخ النصي على جهاز الحافة على أي حال،
00:04:23لكن الخيار السحابي مفيد لمهام أخرى مثل تحليل الصور المعقد أو أي شيء آخر
00:04:27يتطلب مهمة أثقل. ها قد رأيتم ذلك يا رفاق، هذا هو محرك cactus
00:04:33باختصار. أعتقد أنهم يفعلون شيئًا مثيرًا للاهتمام حقًا هنا. يعجبني كيف
00:04:37يفكرون في التحسين على أجهزة الحافة باستخدام بنية مخصصة وصديقة لوحدات المعالجة العصبية. ويعجبني
00:04:43أنهم يقدمون العديد من حزم تطوير البرمجيات (SDKs) والعديد من النماذج لجميع أنواع المهام متعددة الوسائط.
00:04:50وأنا فضولي حقًا لرؤية كيف سيتطور منتجهم. لذا سأبقي عيني على
00:04:54تقدمهم بكل تأكيد. ولكن ما رأيكم يا رفاق في cactus؟ هل جربتموه؟ أخبرونا
00:04:59في قسم التعليقات أدناه. وإذا أعجبتكم هذه الأنواع من التحليلات، يرجى
00:05:03إعلامي عن طريق الضغط على زر الإعجاب أسفل الفيديو. ولا تنسوا أيضًا الاشتراك
00:05:08في قناتنا. كان معكم أندريس من Better Stack وسأراكم في
00:05:13الفيديوهات القادمة.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video