00:00:00يفترض معظم الناس أن تشغيل نموذج رؤية لغوي قوي يتطلب وحدة معالجة رسوميات ضخمة
00:00:05أو اشتراكًا مدفوعًا في إحدى الخدمات السحابية.
00:00:08ومع ذلك، أصدرت شركة Liquid AI مؤخرًا عرضًا تجريبيًا لأحدث نماذج LFM الخاصة بها والذي يعمل بالكامل
00:00:14داخل متصفح الويب.
00:00:16باستخدام WebGPU و ONNX Runtime، يمكن لهذا النموذج معالجة الصور ومقاطع الفيديو محليًا.
00:00:23هذا يعني أن بياناتك لا تغادر جهاز الكمبيوتر الخاص بك أبدًا، ولا تحتاج حتى إلى اتصال بالإنترنت
00:00:28بمجرد تخزين النموذج مؤقتًا على جهازك.
00:00:30أعتقد صراحةً أن هذا أمر رائع للغاية، لذا في هذا الفيديو، سنلقي نظرة على
00:00:34هذا النموذج، ونرى كيف يؤدي، ونجري اختبارًا صغيرًا، ونعرف ما إذا كان قويًا بالفعل
00:00:40كما يتم الترويج له.
00:00:41سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:48يرمز LFM إلى "نموذج ليكويد الأساسي" (Liquid Foundation Model).
00:00:52وبدلاً من الاعتماد فقط على بنية المحولات (Transformer)، تستخدم Liquid AI تصميمًا هجينًا.
00:00:58فهي تجمع بين كتل الالتفاف (Convolutional blocks) وما يسمى بـ "انتباه الاستعلام المجمع" (Grouped Query Attention).
00:01:03تم ضبط هذا النموذج الذي يحتوي على 1.6 مليار معلمة (Parameter) خصيصًا للرؤية واللغة.
00:01:09لقد تم تدريبه على مجموعة بيانات ضخمة تبلغ 28 تريليون رمز (Token)، مما يساعده على تقديم أداء يفوق
00:01:15فئته المعتادة.
00:01:16في الاختبارات القياسية، غالبًا ما يضاهي أداء نماذج ضعف حجمه، بينما يكون أيضًا
00:01:21أسرع بكثير على الأجهزة الطرفية مثل أجهزة الكمبيوتر المحمولة والهواتف.
00:01:26الآن قد تتساءل، كيف تمكنوا من تقليص هذا المستوى من الذكاء في حزمة
00:01:31تستهلك أقل من غيغابايت واحد من ذاكرة الوصول العشوائي (RAM)؟
00:01:34على عكس النماذج الصغيرة الأخرى التي تستخدم نسخًا مقصوصة أو مضغوطة من النماذج السحابية العملاقة،
00:01:40تستخدم Liquid AI فلسفة تسمى "الكفاءة بالتصميم".
00:01:44تشير كلمة "Liquid" في اسمهم إلى بنية المدخلات الخطية المتغيرة (LIV).
00:01:51بينما تمتلك المحولات التقليدية ذاكرة تكبر كلما زاد تفاعلك معها،
00:01:56يستخدم نموذج Liquid نظامًا هجينًا من كتل الالتفاف التكيفية.
00:02:01تعمل هذه الكتل أساسًا كمرشحات ذكية تعالج فقط المعلومات المحلية الأكثر صلة،
00:02:07مما يضغط البيانات بفعالية أثناء تدفقها عبر النموذج.
00:02:11يتيح ذلك لـ LFM الحفاظ على نافذة سياق ضخمة تبلغ 32,000 رمز دون التباطؤ الأسي المعتاد
00:02:18أو الارتفاع المفاجئ في استهلاك الذاكرة الذي نراه في المحولات التقليدية.
00:02:23وهناك تفاصيل فنية محددة تجعل هذا النموذج متميزًا عن البقية.
00:02:28أولاً، لديه دقة أصلية.
00:02:30فهو يتعامل مع الصور التي تصل دقتها إلى 512 في 512 بكسل دون تشويه أو رفع للدقة.
00:02:37وبالنسبة للصور الأكبر، يستخدم استراتيجية التقسيم (Tiling)، التي تقسم الصورة إلى أجزاء
00:02:42مع الاحتفاظ بصورة مصغرة للسياق العام.
00:02:46وثانيًا، إنه فعال للغاية.
00:02:47بفضل بنيته الهجينة، فإنه يوفر بصمة ذاكرة منخفضة جدًا، وغالبًا ما يعمل
00:02:52بأقل من غيغابايت واحد من الذاكرة.
00:02:54لكن أعتقد أن الأمر الأكثر إثارة للإعجاب هو تكامل WebGPU.
00:02:58يوضح العرض التجريبي على Hugging Face كيف يمكنك استخدامه لوصف ما تراه كاميرا الويب في الوقت الفعلي.
00:03:04لذا دعونا نجربه بأنفسنا ونرى مدى جودة أدائه.
00:03:08حسنًا، لنرَ كيف يعمل هذا الشيء بالفعل.
00:03:11أعتقد أنه يجب علينا اختيار نموذج الرؤية الذي نريد تحميله.
00:03:15دعونا نجرب الأقوى بدقة FP 16.
00:03:18ولنقم بتحميل ذلك.
00:03:20الآن يستغرق هذا النموذج وقتًا طويلاً للتحميل.
00:03:23ويتم تحميل كل هذا على جهازك مباشرة.
00:03:25لذلك في المرة القادمة التي تفتح فيها التطبيق، سيكون كل شيء مخزنًا مؤقتًا.
00:03:28حسنًا.
00:03:29لقد قمنا الآن بتحميل نموذج تكميم FP 16.
00:03:34ولنضغط على "ابدأ" ونرى كيف يعمل.
00:03:36أوه، انظروا إلى ذلك.
00:03:38رجل بلحية ويرتدي سترة ذات قلنسوة ينظر إلى الكاميرا.
00:03:40حسنًا، إنه قادر على اكتشاف أنواع الأشياء المعروضة في الفيديو،
00:03:45وهو أمر رائع جدًا.
00:03:46لذا يمكننا القيام بأشياء مثل اكتشاف الكائنات.
00:03:50لنرى ما إذا كان بإمكانه اكتشاف هاتف.
00:03:51أجل، لقد اكتشف أنني أمسك بهاتف آيفون بغطاء أسود.
00:03:57هذا مذهل.
00:03:58انظروا إلى هذا.
00:04:00إنه يفعل ذلك حقًا في الوقت الفعلي.
00:04:02أنا منبهر حقًا.
00:04:04ماذا لو فعلت هذا؟
00:04:05هل يتعرف على علامة؟ إنه يمسك علامة السلام بيده.
00:04:10هذا رائع جدًا.
00:04:12ماذا لو فعلت علامة الإعجاب (Thumbs up)؟
00:04:13نعم، لقد تعرف على علامة الإعجاب.
00:04:15النموذج يكتشف كل ما أفعله في الوقت الفعلي.
00:04:18لنرى ما إذا كان بإمكانه اكتشاف الميكروفون الخاص بي.
00:04:21أوه، لقد اكتشف حتى أن هناك كلمة Rode مكتوبة عليه.
00:04:24واو، يمكنه حتى قراءة النص الموجود على الهيكل، وهو أمر رائع ومذهل.
00:04:29حقيقة أننا نحصل على هذه الأوصاف في الوقت الفعلي تظهر حقًا أن هذا
00:04:33النموذج قوي للغاية.
00:04:35دعوني أحاول إيقاف الاتصال بالإنترنت وأرى ما إذا كان سيستمر في العمل.
00:04:40لقد قمت الآن بإيقاف تشغيل الواي فاي، ونعم، ما زلنا نحصل على نفس النتائج،
00:04:50وهو أمر مذهل حقًا.
00:04:51وها هو ذا يا رفاق.
00:04:52هذا هو أحدث نموذج ليكويد الأساسي باختصار.
00:04:56أعتقد أنه من المثير للإعجاب مدى تطور نماذج الذكاء الاصطناعي هذه من حيث التكميم
00:05:01والقدرة على تشغيلها على أجهزة طرفية مثل اللابتوب الخاص بي هنا.
00:05:05أعتقد أنه قبل عامين فقط، لم نكن لنصدق أن هذا يمكن أن يكون حقيقة،
00:05:10لكن الآن أصبح تشغيل هذه النماذج على Web GPU أمرًا شائعًا أكثر فأكثر.
00:05:14إذًا، ما رأيكم في نموذج ليكويد الأساسي (LFM)؟
00:05:16هل جربتموه؟
00:05:17هل ستستخدمونه؟
00:05:18ما هي أفضل حالات الاستخدام لمثل هذا النموذج؟
00:05:21شاركونا أفكاركم في قسم التعليقات أدناه.
00:05:23ويا رفاق، إذا كنتم تحبون هذا النوع من التحليلات الفنية، يرجى إخباري من خلال
00:05:27الضغط على زر الإعجاب تحت الفيديو، ولا تنسوا أيضًا الاشتراك في قناتنا.
00:05:32كان معكم أندريس من Better Stack، وأراكم في الفيديوهات القادمة.