أسرع نموذج رؤية بصرية لجهازك المحمول (Liquid AI LFM 2.5)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00يفترض معظم الناس أن تشغيل نموذج رؤية لغوي قوي يتطلب وحدة معالجة رسوميات ضخمة
00:00:05أو اشتراكًا مدفوعًا في إحدى الخدمات السحابية.
00:00:08ومع ذلك، أصدرت شركة Liquid AI مؤخرًا عرضًا تجريبيًا لأحدث نماذج LFM الخاصة بها والذي يعمل بالكامل
00:00:14داخل متصفح الويب.
00:00:16باستخدام WebGPU و ONNX Runtime، يمكن لهذا النموذج معالجة الصور ومقاطع الفيديو محليًا.
00:00:23هذا يعني أن بياناتك لا تغادر جهاز الكمبيوتر الخاص بك أبدًا، ولا تحتاج حتى إلى اتصال بالإنترنت
00:00:28بمجرد تخزين النموذج مؤقتًا على جهازك.
00:00:30أعتقد صراحةً أن هذا أمر رائع للغاية، لذا في هذا الفيديو، سنلقي نظرة على
00:00:34هذا النموذج، ونرى كيف يؤدي، ونجري اختبارًا صغيرًا، ونعرف ما إذا كان قويًا بالفعل
00:00:40كما يتم الترويج له.
00:00:41سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:48يرمز LFM إلى "نموذج ليكويد الأساسي" (Liquid Foundation Model).
00:00:52وبدلاً من الاعتماد فقط على بنية المحولات (Transformer)، تستخدم Liquid AI تصميمًا هجينًا.
00:00:58فهي تجمع بين كتل الالتفاف (Convolutional blocks) وما يسمى بـ "انتباه الاستعلام المجمع" (Grouped Query Attention).
00:01:03تم ضبط هذا النموذج الذي يحتوي على 1.6 مليار معلمة (Parameter) خصيصًا للرؤية واللغة.
00:01:09لقد تم تدريبه على مجموعة بيانات ضخمة تبلغ 28 تريليون رمز (Token)، مما يساعده على تقديم أداء يفوق
00:01:15فئته المعتادة.
00:01:16في الاختبارات القياسية، غالبًا ما يضاهي أداء نماذج ضعف حجمه، بينما يكون أيضًا
00:01:21أسرع بكثير على الأجهزة الطرفية مثل أجهزة الكمبيوتر المحمولة والهواتف.
00:01:26الآن قد تتساءل، كيف تمكنوا من تقليص هذا المستوى من الذكاء في حزمة
00:01:31تستهلك أقل من غيغابايت واحد من ذاكرة الوصول العشوائي (RAM)؟
00:01:34على عكس النماذج الصغيرة الأخرى التي تستخدم نسخًا مقصوصة أو مضغوطة من النماذج السحابية العملاقة،
00:01:40تستخدم Liquid AI فلسفة تسمى "الكفاءة بالتصميم".
00:01:44تشير كلمة "Liquid" في اسمهم إلى بنية المدخلات الخطية المتغيرة (LIV).
00:01:51بينما تمتلك المحولات التقليدية ذاكرة تكبر كلما زاد تفاعلك معها،
00:01:56يستخدم نموذج Liquid نظامًا هجينًا من كتل الالتفاف التكيفية.
00:02:01تعمل هذه الكتل أساسًا كمرشحات ذكية تعالج فقط المعلومات المحلية الأكثر صلة،
00:02:07مما يضغط البيانات بفعالية أثناء تدفقها عبر النموذج.
00:02:11يتيح ذلك لـ LFM الحفاظ على نافذة سياق ضخمة تبلغ 32,000 رمز دون التباطؤ الأسي المعتاد
00:02:18أو الارتفاع المفاجئ في استهلاك الذاكرة الذي نراه في المحولات التقليدية.
00:02:23وهناك تفاصيل فنية محددة تجعل هذا النموذج متميزًا عن البقية.
00:02:28أولاً، لديه دقة أصلية.
00:02:30فهو يتعامل مع الصور التي تصل دقتها إلى 512 في 512 بكسل دون تشويه أو رفع للدقة.
00:02:37وبالنسبة للصور الأكبر، يستخدم استراتيجية التقسيم (Tiling)، التي تقسم الصورة إلى أجزاء
00:02:42مع الاحتفاظ بصورة مصغرة للسياق العام.
00:02:46وثانيًا، إنه فعال للغاية.
00:02:47بفضل بنيته الهجينة، فإنه يوفر بصمة ذاكرة منخفضة جدًا، وغالبًا ما يعمل
00:02:52بأقل من غيغابايت واحد من الذاكرة.
00:02:54لكن أعتقد أن الأمر الأكثر إثارة للإعجاب هو تكامل WebGPU.
00:02:58يوضح العرض التجريبي على Hugging Face كيف يمكنك استخدامه لوصف ما تراه كاميرا الويب في الوقت الفعلي.
00:03:04لذا دعونا نجربه بأنفسنا ونرى مدى جودة أدائه.
00:03:08حسنًا، لنرَ كيف يعمل هذا الشيء بالفعل.
00:03:11أعتقد أنه يجب علينا اختيار نموذج الرؤية الذي نريد تحميله.
00:03:15دعونا نجرب الأقوى بدقة FP 16.
00:03:18ولنقم بتحميل ذلك.
00:03:20الآن يستغرق هذا النموذج وقتًا طويلاً للتحميل.
00:03:23ويتم تحميل كل هذا على جهازك مباشرة.
00:03:25لذلك في المرة القادمة التي تفتح فيها التطبيق، سيكون كل شيء مخزنًا مؤقتًا.
00:03:28حسنًا.
00:03:29لقد قمنا الآن بتحميل نموذج تكميم FP 16.
00:03:34ولنضغط على "ابدأ" ونرى كيف يعمل.
00:03:36أوه، انظروا إلى ذلك.
00:03:38رجل بلحية ويرتدي سترة ذات قلنسوة ينظر إلى الكاميرا.
00:03:40حسنًا، إنه قادر على اكتشاف أنواع الأشياء المعروضة في الفيديو،
00:03:45وهو أمر رائع جدًا.
00:03:46لذا يمكننا القيام بأشياء مثل اكتشاف الكائنات.
00:03:50لنرى ما إذا كان بإمكانه اكتشاف هاتف.
00:03:51أجل، لقد اكتشف أنني أمسك بهاتف آيفون بغطاء أسود.
00:03:57هذا مذهل.
00:03:58انظروا إلى هذا.
00:04:00إنه يفعل ذلك حقًا في الوقت الفعلي.
00:04:02أنا منبهر حقًا.
00:04:04ماذا لو فعلت هذا؟
00:04:05هل يتعرف على علامة؟ إنه يمسك علامة السلام بيده.
00:04:10هذا رائع جدًا.
00:04:12ماذا لو فعلت علامة الإعجاب (Thumbs up)؟
00:04:13نعم، لقد تعرف على علامة الإعجاب.
00:04:15النموذج يكتشف كل ما أفعله في الوقت الفعلي.
00:04:18لنرى ما إذا كان بإمكانه اكتشاف الميكروفون الخاص بي.
00:04:21أوه، لقد اكتشف حتى أن هناك كلمة Rode مكتوبة عليه.
00:04:24واو، يمكنه حتى قراءة النص الموجود على الهيكل، وهو أمر رائع ومذهل.
00:04:29حقيقة أننا نحصل على هذه الأوصاف في الوقت الفعلي تظهر حقًا أن هذا
00:04:33النموذج قوي للغاية.
00:04:35دعوني أحاول إيقاف الاتصال بالإنترنت وأرى ما إذا كان سيستمر في العمل.
00:04:40لقد قمت الآن بإيقاف تشغيل الواي فاي، ونعم، ما زلنا نحصل على نفس النتائج،
00:04:50وهو أمر مذهل حقًا.
00:04:51وها هو ذا يا رفاق.
00:04:52هذا هو أحدث نموذج ليكويد الأساسي باختصار.
00:04:56أعتقد أنه من المثير للإعجاب مدى تطور نماذج الذكاء الاصطناعي هذه من حيث التكميم
00:05:01والقدرة على تشغيلها على أجهزة طرفية مثل اللابتوب الخاص بي هنا.
00:05:05أعتقد أنه قبل عامين فقط، لم نكن لنصدق أن هذا يمكن أن يكون حقيقة،
00:05:10لكن الآن أصبح تشغيل هذه النماذج على Web GPU أمرًا شائعًا أكثر فأكثر.
00:05:14إذًا، ما رأيكم في نموذج ليكويد الأساسي (LFM)؟
00:05:16هل جربتموه؟
00:05:17هل ستستخدمونه؟
00:05:18ما هي أفضل حالات الاستخدام لمثل هذا النموذج؟
00:05:21شاركونا أفكاركم في قسم التعليقات أدناه.
00:05:23ويا رفاق، إذا كنتم تحبون هذا النوع من التحليلات الفنية، يرجى إخباري من خلال
00:05:27الضغط على زر الإعجاب تحت الفيديو، ولا تنسوا أيضًا الاشتراك في قناتنا.
00:05:32كان معكم أندريس من Better Stack، وأراكم في الفيديوهات القادمة.

Key Takeaway

يمثل نموذج Liquid AI LFM 2.5 طفرة في الذكاء الاصطناعي الطرفي، حيث يقدم أداءً رؤيوياً ولغوياً فائقاً وسريعاً يعمل محلياً بالكامل داخل المتصفح وبأقل استهلاك للموارد.

Highlights

نموذج Liquid AI LFM 2.5 يعمل محلياً بالكامل داخل متصفح الويب باستخدام تقنيات WebGPU و ONNX Runtime.

يتميز النموذج ببنية هجينة تجمع بين كتل الالتفاف (Convolutional blocks) وانتباه الاستعلام المجمع (GQA).

يمتلك النموذج 1.6 مليار معلمة وتم تدريبه على 28 تريليون رمز، مما يمنحه أداءً يتفوق على النماذج الأكبر حجماً.

كفاءة عالية في استهلاك الذاكرة، حيث يحتاج إلى أقل من 1 غيغابايت من ذاكرة الوصول العشوائي (RAM) للتشغيل.

القدرة على معالجة الصور بدقة أصلية 512x512 واستخدام استراتيجية التقسيم (Tiling) للصور الأكبر.

يدعم نافذة سياق ضخمة تصل إلى 32,000 رمز دون التضحية بالسرعة أو زيادة استهلاك الموارد.

إمكانية التعرف على الكائنات، والنصوص، والإيماءات الحركية في الوقت الفعلي وبدون الحاجة لاتصال بالإنترنت.

Timeline

مقدمة عن تشغيل نماذج الرؤية محلياً

يبدأ الفيديو بتصحيح المفهوم الشائع بأن تشغيل نماذج الرؤية اللغوية القوية يتطلب بالضرورة وحدات معالجة رسوميات ضخمة أو اشتراكات سحابية مكلفة. يسلط الضوء على إصدار شركة Liquid AI لنموذج LFM الذي يعمل بالكامل داخل متصفح الويب باستخدام تقنيات WebGPU و ONNX Runtime المتطورة. يوضح المتحدث أن ميزة هذا النهج تكمن في خصوصية البيانات التي لا تغادر الجهاز أبداً، بالإضافة إلى إمكانية العمل دون إنترنت بمجرد تخزين النموذج. يهدف هذا القسم إلى تمهيد الطريق لاستعراض قدرات النموذج واختبار مدى قوته الفعلية مقارنة بالوعود التسويقية. يعتبر هذا التحول التكنولوجي مهماً جداً لتمكين المستخدمين من الوصول إلى ذكاء اصطناعي متقدم على أجهزتهم الشخصية مباشرة.

البنية التقنية وفلسفة الكفاءة بالتصميم

يشرح هذا القسم معنى اختصار LFM وهو "نموذج ليكويد الأساسي"، موضحاً أنه يعتمد على تصميم هجين يختلف عن بنية المحولات التقليدية. يجمع النموذج بين كتل الالتفاف (Convolutional blocks) وتقنية "انتباه الاستعلام المجمع" لتحقيق توازن مثالي بين السرعة والدقة. رغم امتلاكه لـ 1.6 مليار معلمة فقط، إلا أنه تدرب على مجموعة بيانات هائلة بلغت 28 تريليون رمز لضمان أداء استثنائي. تظهر الاختبارات القياسية أن هذا النموذج يضاهي نماذج ضعف حجمه، مما يجعله مثالياً للأجهزة الطرفية مثل الهواتف والحواسيب المحمولة. هذه التفاصيل التقنية تفسر كيف يتفوق النموذج في فئته المعتادة ويقدم استجابة سريعة جداً للمستخدمين.

الابتكار في إدارة الذاكرة والتعامل مع الصور

يركز المتحدث هنا على كيفية تقليص هذا الذكاء ليعمل بأقل من 1 غيغابايت من ذاكرة الوصول العشوائي (RAM) عبر فلسفة "الكفاءة بالتصميم". يتميز النموذج ببنية المدخلات الخطية المتغيرة (LIV) التي تمنع تضخم الذاكرة مع زيادة التفاعل، على عكس المحولات التقليدية. تستخدم كتل الالتفاف التكيفية كمرشحات ذكية تضغط البيانات أثناء تدفقها، مما يسمح بنافذة سياق تصل لـ 32,000 رمز دون تباطؤ. بالنسبة للرؤية، يتعامل النموذج مع الصور بدقة 512x512 بكسل ويستخدم تقنية "التقسيم" (Tiling) للتعامل مع الصور الأكبر مع الحفاظ على السياق العام. يختتم هذا الجزء بالإشارة إلى تكامل WebGPU الذي يتيح معالجة الفيديو من كاميرا الويب في الوقت الفعلي وبصمة ذاكرة منخفضة جداً.

الاختبار العملي والأداء في الوقت الفعلي

ينتقل الفيديو إلى الجانب التطبيقي حيث يقوم المتحدث بتحميل نسخة FP 16 من النموذج مباشرة على جهازه لبدء التجربة العملية. يظهر النموذج قدرة مذهلة على وصف المشهد فوراً، حيث تعرف على المتحدث ووصف مظهره بدقة عالية بمجرد الضغط على زر البدء. تم اختبار قدرات اكتشاف الكائنات بنجاح، حيث تعرف النموذج على هاتف آيفون بغطاء أسود، والميكروفون، وحتى قراءة العلامة التجارية المكتوبة عليه. كما أثبت النموذج كفاءته في التعرف على لغة الجسد والإيماءات مثل علامة السلام وعلامة الإعجاب (Thumbs up) في الوقت الفعلي تماماً. يبرهن هذا الاختبار على أن الأوصاف الدقيقة والسرعة العالية تجعل من هذا النموذج أداة قوية جداً للتطبيقات المباشرة.

اختبار الخصوصية والخلاصة النهائية

في الجزء الأخير، يقوم المتحدث بإجراء اختبار حاسم عبر إيقاف تشغيل اتصال الواي فاي للتأكد من أن النموذج يعمل محلياً بالكامل. يستمر النموذج في تقديم النتائج والتعرف على الكائنات دون أي انقطاع، مما يؤكد استقلاليته التامة عن السحابة بعد التحميل الأولي. يعبر المتحدث عن انبهاره بمدى تطور الذكاء الاصطناعي وقدرته على العمل بكفاءة على الأجهزة الطرفية مقارنة بما كان عليه الوضع قبل عامين فقط. يختتم الفيديو بدعوة المشاهدين لمشاركة آرائهم حول حالات الاستخدام المحتملة لهذا النموذج في التعليقات وتجربته بأنفسهم. يؤكد هذا القسم أن مستقبل الذكاء الاصطناعي يتجه نحو النماذج المحلية والفعالة التي تحترم خصوصية المستخدم وتعمل في كل الظروف.

Community Posts

View all posts