هذا المحرك الجديد يشغل الذكاء الاصطناعي محليًا بذاكرة عشوائية أقل بـ 10 أضعاف! (كابتوس)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00هذا هو Cactus. إنه محرك استدلال ذو زمن انتقال منخفض مصمم للتعامل مع الأجهزة المحمولة وأجهزة الحافة
00:00:06كأجهزة من الدرجة الأولى. عادةً عندما نحاول تشغيل نماذج الذكاء الاصطناعي على أجهزة الحافة، فإنها
00:00:12تبدو ثقيلة وتستنزف البطارية وتكون عرضة للإغلاق من قِبل مدير ذاكرة أنظمة تشغيل الهواتف
00:00:18ولكن Cactus يحاول حل هذه المشكلة لأنه ماليًا صُمم خصيصًا
00:00:23لقيود وحدات المعالجة العصبية وذاكرة الوصول العشوائي المحدودة. لذا سنقوم اليوم
00:00:28بالإلقاء نظرة على Cactus، ومعرفة كيف يعمل واختباره على جهاز حافة لرؤية أدائه.
00:00:34إذن، لننتقل إلى التفاصيل. إن العائق الأكبر أمام الذكاء الاصطناعي المحلي ليس المعالجة في الواقع، بل
00:00:44العبء الإضافي على الذاكرة. في الأجهزة المحمولة القياسية، يكون نظام التشغيل صارمًا للغاية
00:00:50بشأن إغلاق التطبيقات التي تسجل ارتفاعًا مفاجئًا في استهلاك الذاكرة. لكن Cactus يحل هذا باستخدام تقنية
00:00:57تخريج الذاكرة بدون نسخ. فبدلاً من النهج المعتاد حيث تقوم بتحميل كل شيء في الذاكرة، يقوم Cactus
00:01:02بخرائط أوزان النموذج مباشرة من وحدة التخزين. إنه نظام بدون نسخ يسحب فقط مصفوفات
00:01:08محددة إلى دورة الحوسبة النشطة عند الحاجة إليها. وبذلك تحصل على القدرة التحليلية
00:01:13لنموذج ضخم دون المخاطرة بقيام نظام التشغيل بإغلاق تطبيقك. ولتحقيق
00:01:19هذا، فقد انتقلوا حتى عن صيغة GGUF التقليدية واستخدموا صيغتهم
00:01:24الخاصة والمملوكة لهم .CACT والتي تتيح لهذه الخرائط أن تكون فعالة على أجهزة الحافة. ولكن
00:01:31العمل الشاق الحقيقي يحدث في وحدة المعالجة العصبية (NPU). فبينما تعتمد معظم المحركات
00:01:37المحلية على وحدة معالجة الرسومات (GPU) بشكل افتراضي، تم بناء Cactus ليعتمد على وحدة المعالجة العصبية أولاً. إذا نظرت إلى الرقاقات
00:01:43الحديثة من Apple أو Qualcomm أو MediaTek، ستجد أنها تحتوي جميعًا على شرائح مخصصة فقط للشبكات
00:01:50العصبية. ويتواصل Cactus مع هذه الوحدات مباشرة، متجاوزًا طبقات الترجمة المعتادة
00:01:55التي تبطئ عملية الاستدلال لديك. وقد قاموا بالفعل بتحسين نماذج معينة لتحقيق
00:02:00الاستفادة الكاملة من وحدات ضرب المصفوفات هذه. إذا توجهت إلى لوحة تحكم Cactus،
00:02:07سترى قائمة بالنماذج المحسنة لوحدات المعالجة العصبية والجاهزة للتنزيل. وهناك ميزة رائعة أخرى
00:02:12يتميز بها Cactus وهي الموجه الهجين. والواقع هو أنه في أجهزة الحافة، فإن النماذج المحلية مهما بلغت
00:02:18درجة تحسينها، تصل في النهاية إلى سقف قدرتها التحليلية. وهنا يأتي دور الموجه
00:02:23الهجين. فبدلاً من إجبارك على الاختيار بين نموذج محلي سريع ولكنه محدود وبين
00:02:29نموذج سحابي ذكي ولكنه مكلف، يمكن لـ Cactus التعامل مع الاثنين والتبديل بينهما. حيث يستخدم
00:02:35نظام توجيه يعتمد على مستوى الثقة. فإذا طرحت عليه سؤالاً بسيطًا، فإنه يظل على
00:02:40وحدة المعالجة العصبية لأنه سريع وخاص ولا يكلفك شيئًا. ولكن إذا شعر النموذج المحلي أن
00:02:45المهمة معقدة للغاية أو تتطلب نافذة سياق ضخمة، فإنه يقوم تلقائيًا بتحويل
00:02:51الطلب المحدد إلى نموذج رائد على السحابة. ويبقى الكود الخاص بك كما هو، حيث يتولى المحرك
00:02:57فقط إدارة هذا التبديل الاحتياطي في الخلفية. لذا فهي طريقة جاهزة للإنتاج للحفاظ على انخفاض
00:03:03التكاليف دون التضحية بتجربة المستخدم عندما تصبح الأمور معقدة. الآن، كل هذا
00:03:08يبدو رائعًا، لكنني أريد تجربة ذلك بنفسي. يوجد في صفحتهم الرئيسية
00:03:13هذا العرض التوضيحي حيث يوضحون كيف يمكنك إجراء نسخ نصي في الوقت الفعلي بزمن انتقال يقارب 100 مللي ثانية
00:03:19على جهاز حافة. لذا قمت بالمضي قدمًا وبرمجت بشكل سريع تطبيق Swift صغيرًا باستخدام
00:03:25حزمة Swift Cactus الخاصة بهم والتي تدعم تشغيل نسخ نصي في الوقت الفعلي باستخدام نموذج الكلام
00:03:30parakeet محليًا ونموذج Gemini على السحابة. فلنجرب ذلك إذن. كما ترون،
00:03:36محليًا، يبلغ متوسط زمن الانتقال لدينا حوالي 260 مللي ثانية مع البث المباشر. وتذكروا،
00:03:44أنني أقوم بتشغيل هذا على طراز iPhone أقدم، وهو 12 Pro. لذا بالنسبة لطراز قديم مثل
00:03:50هذا، أعتقد أن هذا الأداء على جهاز الحافة جيد جدًا. وإذا انتقلنا إلى السحابة، ينتقل Cactus
00:03:55إلى Gemini 2.5 flash كبديل سحابي. ولسبب ما، ليس لديهم نفس
00:04:01نموذج parakeet على جانب السحابة الخاص بهم. لذا اضطررت لاستخدام Gemini. ويمكننا أن نرى هنا أن
00:04:06هذا يسجل متوسطًا يبلغ حوالي 2000 مللي ثانية لنسخ نصي لدفعة مدتها ثلاث ثوانٍ. و
00:04:12أعتقد أن هذا متوقع لأنه يقوم برحلة ذهاب وإياب إلى خادم البيانات. ولكن
00:04:17واقعيًا، في معظم الأوقات سينتهي بك الأمر باستخدام النسخ النصي على جهاز الحافة على أي حال،
00:04:23لكن الخيار السحابي مفيد لمهام أخرى مثل تحليل الصور المعقد أو أي شيء آخر
00:04:27يتطلب مهمة أثقل. ها قد رأيتم ذلك يا رفاق، هذا هو محرك cactus
00:04:33باختصار. أعتقد أنهم يفعلون شيئًا مثيرًا للاهتمام حقًا هنا. يعجبني كيف
00:04:37يفكرون في التحسين على أجهزة الحافة باستخدام بنية مخصصة وصديقة لوحدات المعالجة العصبية. ويعجبني
00:04:43أنهم يقدمون العديد من حزم تطوير البرمجيات (SDKs) والعديد من النماذج لجميع أنواع المهام متعددة الوسائط.
00:04:50وأنا فضولي حقًا لرؤية كيف سيتطور منتجهم. لذا سأبقي عيني على
00:04:54تقدمهم بكل تأكيد. ولكن ما رأيكم يا رفاق في cactus؟ هل جربتموه؟ أخبرونا
00:04:59في قسم التعليقات أدناه. وإذا أعجبتكم هذه الأنواع من التحليلات، يرجى
00:05:03إعلامي عن طريق الضغط على زر الإعجاب أسفل الفيديو. ولا تنسوا أيضًا الاشتراك
00:05:08في قناتنا. كان معكم أندريس من Better Stack وسأراكم في
00:05:13الفيديوهات القادمة.

Key Takeaway

يحل محرك Cactus مشكلة القيود الصارمة لذاكرة الأجهزة المحمولة عبر معمارية تعتمد على وحدات المعالجة العصبية أولًا وتقنية تخريج الذاكرة بدون نسخ بصيغة .CACT مع توجيه هجين يضمن استقرار التطبيقات وزمن انتقال محلي يصل إلى 260 مللي ثانية.

Highlights

  • يخفض محرك الاستدلال Cactus استهلاك ذاكرة الوصول العشوائي بمقدار 10 أضعاف عند تشغيل نماذج الذكاء الاصطناعي محليًا على أجهزة الحافة.

  • يعتمد المحرك على تقنية تخريج الذاكرة بدون نسخ (Zero-copy memory mapping) لسحب مصفوفات محددة من وحدة التخزين مباشرة إلى دورة الحوسبة النشطة عند الحاجة.

  • يستخدم المحرك صيغة ملفات خاصة تحمل الامتداد .CACT بديلًا عن صيغة GGUF التقليدية لتفعيل خرائط الأوزان بخصائص تتوافق مع قيود الهواتف المحمولة.

  • يتصل Cactus مباشرة بوحدات المعالجة العصبية (NPU) في رقاقات Apple وQualcomm وMediaTek ويتجاوز طبقات الترجمة التقليدية لتقليل زمن الانتقال.

  • يحتوي المحرك على موجه هجين (Hybrid Router) يحول الطلبات تلقائيًا إلى نماذج السحابة مثل Gemini 2.5 Flash عند انخفاض مستوى ثقة النموذج المحلي أو تعقد المهمة.

  • سجل التشغيل المحلي لنموذج الكلام parakeet على جهاز iPhone 12 Pro زمن انتقال متوسطًا يبلغ 260 مللي ثانية ببث مباشر في الوقت الفعلي.

  • يبلغ متوسط زمن انتقال النسخ النصي عبر السحابة باستخدام Gemini 2.5 Flash حوالي 2000 مللي ثانية لدفعة بيانات مدتها ثلاث ثوانٍ بسبب رحلة البيانات إلى الخادم.

Timeline

حل مشكلة قيود الذاكرة على أجهزة الحافة

  • تواجه نماذج الذكاء الاصطناعي التقليدية على أجهزة الحافة مشكلات تتعلق بثقل الحجم واستنزاف البطارية والإغلاق المفاجئ بواسطة مدير ذاكرة نظام التشغيل.
  • يتجنب نظام Cactus تحميل كامل النموذج في الذاكرة العشوائية عبر تخريج الأوزان مباشرة من وحدة التخزين.
  • تستبدل البنية الجديدة صيغة GGUF المعتادة بصيغة ملكية خاصة تسمى .CACT لتسريع عمليات الخرائط الفعالة.

تفرض أنظمة تشغيل الهواتف المحمولة سياسات صارمة تغلق التطبيقات التي تسجل ارتفاعًا مفاجئًا في استهلاك الذاكرة العشوائية. يعالج هذا المحرك العائق الأكبر للذكاء الاصطناعي المحلي وهو عبء الذاكرة وليس قوة المعالجة ذاتها. يسحب النظام بدون نسخ المصفوفات المحددة فقط إلى دورة الحوسبة النشطة عند الحاجة إليها. يحمي هذا الأسلوب التطبيقات من الإغلاق القسري ويحافظ على القدرة التحليلية للنماذج الضخمة.

التكامل المباشر مع وحدة المعالجة العصبية والتحويل الهجين

  • يتجاوز Cactus طبقات الترجمة المعتادة بالاتصال المباشر بوحدات المعالجة العصبية المدمجة في رقاقات الهواتف الحديثة.
  • يتضمن المحرك نظام توجيه يعتمد على مستوى الثقة للفصل بين المهام المحلية والمهام السحابية.
  • يحول الموجه الهجين الطلبات المعقدة ذات نوافذ السياق الضخمة تلقائيًا إلى السحابة دون تغيير الكود البرمجي للمطور.

تعتمد أغلب محركات الاستدلال المحلية على وحدة معالجة الرسومات بشكل افتراضي. صُمم هذا المحرك ليعتمد على وحدة المعالجة العصبية أولًا للاستفادة من شرائح الدعم في معالجات Apple وQualcomm وMediaTek. تظل الأسئلة البسيطة داخل وحدة المعالجة العصبية للحفاظ على السرعة والخصوصية والتكلفة الصفرية. يتولى المحرك إدارة التبديل الاحتياطي في الخلفية للحفاظ على انخفاض التكاليف وتأمين تجربة مستخدم مستقرة.

اختبار الأداء الفعلي ومقارنة زمن الانتقال

  • يوفر العرض التوضيحي للمحرك إمكانية النسخ النصي في الوقت الفعلي بزمن انتقال يقارب 100 مللي ثانية.
  • يسجل الأداء المحلي لنموذج parakeet على هاتف iPhone 12 Pro زمن انتقال متوسطًا يبلغ حوالي 260 مللي ثانية.
  • يتطلب البديل السحابي عبر نموذج Gemini 2.5 Flash حوالي 2000 مللي ثانية لنسخ دفعة مدتها ثلاث ثوانٍ.

يعتمد التطبيق التجريبي المبني بحزمة Swift Cactus على تشغيل نموذج الكلام parakeet محليًا ونموذج Gemini على السحابة. يعد زمن الانتقال المحلي البالغ 260 مللي ثانية على طراز هاتف قديم مؤشرًا على كفاءة البنية المخصصة. يعود الارتفاع في زمن الانتقال السحابي إلى رحلة الذهاب والإياب إلى خادم البيانات. تظل الخيارات السحابية مفيدة للمهام الأثقل مثل تحليل الصور المعقدة بينما ينتهي النسخ النصي على جهاز الحافة في معظم الأوقات.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video