Transcript
00:00:00أوه واو، هذا يبدو حزيناً بعض الشيء، مسكينة كيت وينسلت، يا إلهي، تقف هناك بمفردها، مع
00:00:09غياب جاك.
00:00:11أصدرت نتفليكس للتو أداة ذكاء اصطناعي مفتوحة المصدر مثيرة للاهتمام تسمى Video Object and Interaction
00:00:17Deletion أو VOID.
00:00:19معظم أدوات فيديو الذكاء الاصطناعي رائعة بالفعل في مسح الأشياء، وهذا ليس بالشيء الجديد.
00:00:24لكنها سيئة للغاية في محو عواقب وجود تلك الأشياء في المشهد.
00:00:29فمثلاً، إذا كنت تزيل كرة بولينج تضرب دبابيس، فإن معظم النماذج تترك الدبابيس
00:00:34وهي تسقط دون سبب، لكن VOID يحاول حل هذه المشكلة.
00:00:39إنه إطار عمل جديد من نتفليكس وInsight يفهم السبب والنتيجة ويقوم بتعديل
00:00:44محتوى الفيديو بناءً على الأشياء التي تمت إزالتها.
00:00:47لذا، في هذا الفيديو، سنلقي نظرة فاحصة على هذا النموذج، ونرى كيف يعمل، وقد قمت
00:00:52بالفعل ببناء تطبيق ويب لاختبار هذا النموذج بكل قوته، لذا سنقوم ببعض اختبارات الفيديو
00:00:57بأنفسنا.
00:00:58سيكون الأمر ممتعاً للغاية، لذا دعونا نتعمق فيه.
00:01:05يرمز VOID إلى "حذف كائنات الفيديو والتفاعلات".
00:01:09لفهم سبب أهمية هذا الأمر، عليك أن تنظر إلى الكيفية التي يعمل بها عادةً
00:01:15ملء الفيديو بالذكاء الاصطناعي.
00:01:16ممحاة الذكاء الاصطناعي القياسية هي في الأساس خاصية "الملء المدرك للمحتوى" ولكن بقدرات فائقة.
00:01:20فهي تنظر إلى البكسلات المحيطة بالفجوة وتحاول تخمين ما يجب أن يكون هناك.
00:01:24يعمل هذا مع علامة مائية أو شخص واقف ساكناً، لكنه ينهار في اللحظة التي
00:01:29يحدث فيها تفاعل فيزيائي.
00:01:31إذا قمت بإزالة فتاة تصنع عصيراً في خلاط، سيقوم الذكاء الاصطناعي العادي بمسح الشخص،
00:01:36لكنه سيترك الخلاط يدور ويخفق دون سبب.
00:01:40إنه يصلح المظهر، لكنه يتجاهل فيزياء الأشياء الأخرى المحيطة به.
00:01:46تم تصميم VOID لحل مشكلة "التفاعل الشبح" تلك من خلال إعادة تخيل واقع بديل.
00:01:53بشكل أساسي نسخة من الفيديو حيث لم يكن هذا الكائن أو الشخص موجوداً
00:01:57في المقام الأول.
00:01:58والطريقة التي يحقق بها ذلك ذكية جداً في الواقع.
00:02:01فهو لا يبدأ في الرسم فوراً.
00:02:03بدلاً من ذلك، يستخدم نظاماً من مرحلتين.
00:02:06في الخطوة الأولى، يقومون بمرحلة التفكير والتحليل.
00:02:08أولاً، يستخدم VOID نموذج لغة بصري وSAM2 أو Segment Anything Model 2 للنظر في
00:02:15المشهد.
00:02:16لقد قمت بعمل فيديو منفصل حول كيفية عمل SAM2، لذا شاهدوه إذا كنتم مهتمين.
00:02:22بينما ينشئ SAM2 تتبعاً دقيقاً للبكسل للكائن الذي تريد إزالته، يسأل الذكاء الاصطناعي
00:02:28نفسه سؤالاً: "إذا قمت بإزالة هذا، فما الذي سيتغير أيضاً؟"
00:02:32إذا قمت بإزالة قطعة دومينو واحدة من مجموعة، يحدد الذكاء الاصطناعي أن قطع الدومينو الأخرى
00:02:38قد تأثرت بشكل طبيعي.
00:02:39ثم ينشئ ما يسميه الباحثون "قناع رباعي" (Quad Mask)، وهي خريطة محددة تخبر
00:02:44نموذج الانتشار ليس فقط أين يمسح، بل أين يعيد كتابة فيزياء المنطقة
00:02:50المحيطة.
00:02:51والخطوة الثانية هي التوليد والتحسين.
00:02:54بمجرد إنشاء تلك الخريطة، يقوم نموذج انتشار الفيديو بتوليد اللقطات الجديدة.
00:03:00أحياناً قد تكون هذه النماذج خيالية قليلاً، فقد تتحول الأشياء أو تفقد شكلها.
00:03:05لإصلاح ذلك، يمتلك VOID مرحلة ثانية اختيارية.
00:03:08إنه يستخدم شيئاً يسمى "ضوضاء تشويه التدفق" لتثبيت تلك الأشكال في مكانها، مع التأكد
00:03:14من أنه بينما تتغير الفيزياء، تظل الأشياء المتبقية صلبة ومتسقة.
00:03:19لكن قد تتساءل، كيف تعلم الذكاء الاصطناعي ما لم يحدث؟
00:03:23لم يتمكن الفريق في نتفليكس وInsight من تصوير حادث سيارة ثم إلغاء الحادث في
00:03:28الحياة الواقعية للحصول على بيانات التدريب.
00:03:30بدلاً من ذلك، استخدموا بيئات اصطناعية مثل Kubrick.
00:03:34أجروا آلاف المحاكاة الفيزيائية حيث كان لديهم نسخة "قبل" ونسخة "بعد".
00:03:40نسخة بها اصطدام ونسخة لم يكن فيها الكائن موجوداً أبداً.
00:03:44من خلال عرض كلا النسختين للذكاء الاصطناعي، تعلم العلاقة بين وجود الكائن
00:03:49وتأثيره على البيئة.
00:03:51كل هذا يبدو رائعاً جداً، لكن دعونا نختبر هذه الأداة بأنفسنا.
00:03:57أفضل طريقة لتشغيلها هي استخدام وحدة معالجة رسومات سحابية مثل وحدة RunPod تعمل على
00:04:02معالج رسومات H100 أو ما يعادله.
00:04:05لكن سأخبركم منذ البداية، إعدادها ليس بالأمر السهل على الإطلاق.
00:04:10تحتوي وثائق GitHub على الكثير من الثغرات والمعلومات المضللة.
00:04:14لذا لكي تعمل بشكل صحيح، هناك بعض الأشياء التي يجب عليك الحذر منها.
00:04:18على سبيل المثال، من المحتمل أن يفشل هذا الأمر لأنهم لم يحددوا أبداً أنك بحاجة
00:04:23إلى نموذج SAM3 لهذا الإجراء.
00:04:25وقد يفشل هذا الأمر لأنهم لم يحددوا أبداً أن الأقنعة الرباعية يجب أن تسمى بدقة
00:04:30quad mask underscore zero dot MP4 لكي تعمل بشكل صحيح.
00:04:35هناك الكثير من هذه المشكلات الصغيرة غير الموثقة هنا.
00:04:38والعرض التجريبي لـ Gradio لطيف إذا كان لديك بالفعل قناع مقسم بواسطة SAM2، لكنهم
00:04:44لا يوفرون واجهة المستخدم الرسومية لإنشاء ذلك القناع بالفعل.
00:04:48لذلك، قمت ببناء تطبيق ويب مخصص يصلح كل هذه المشكلات ويوفر لك
00:04:54واجهة مستخدم جاهزة للاستخدام تمر بخطوة التقسيم، وخطوة الاستدلال، وحتى
00:05:00نظام المرحلتين.
00:05:02بحيث يمكنك فقط رفع الفيديو الخاص بك، وتقسيم القناع وتصدير النتيجة النهائية.
00:05:07وهذا بالضبط ما سنفعله الآن.
00:05:09أولاً، عليك تشغيل مثيل RunPod مع معالج رسومات قوي.
00:05:14سأستخدم H100 لهذا الاختبار.
00:05:17وفي قسم القالب، تأكد من زيادة حجم الحاوية إلى 100 جيجابايت.
00:05:22وفي قسم المنافذ، أضف المنفذ 8998 لأن هذا هو المكان الذي سنعرض فيه
00:05:27تطبيق الويب الخاص بنا.
00:05:29بعد ذلك، كل ما عليك فعله هو الدخول إلى الـ pod عبر SSH، ونسخ مستودعي، والدخول إليه وتشغيل أمر
00:05:36run dot SSH.
00:05:38وسيطلب منك أيضاً توفير رمز Hugging Face حتى تتمكن بالفعل من تحميل
00:05:42النماذج، وتأكد أيضاً من إمكانية الوصول إلى مستودع SAM3 لأن هذا النموذج
00:05:48مقيد وتحتاج إلى طلب إذن لاستخدامه.
00:05:51لكن عادة ما تكون العملية سريعة جداً ويتم الموافقة عليك في غضون دقائق قليلة.
00:05:55وبعد ذلك ستحتاج أيضاً إلى مفتاح Gemini API لأنه في خطوة التقسيم، يستخدم
00:06:00النموذج Gemini لتحديد تقدير الوضعية لإنشاء قناع رباعي دقيق.
00:06:06حسناً.
00:06:07وإذا كان لديك كلا هذين الاعتمادين، فاترك أمر run dot SSH يثبت كل شيء.
00:06:13وبمجرد الانتهاء من ذلك، يمكننا الآن تشغيل تطبيق الويب بالأمر التالي الموضح
00:06:18هنا.
00:06:19والآن في صفحة RunPod، عليك النقر فوق هذا المنفذ وسيقوم ذلك بفتح تطبيق الويب
00:06:24الخاص بنا.
00:06:25والآن يمكننا أخيراً البدء في اختبار النموذج.
00:06:28في اختباري الأول، سأستخدم هذا المشهد الشهير من فيلم The Matrix وسأحاول إزالة
00:06:32نيو من المشهد ونرى ما سيحدث.
00:06:35أول شيء عليك فعله هو تحديد موجه تعليمات الإزالة.
00:06:41في هذه الحالة، يمكننا تحديد شيء مثل "أزل المقاتل الذي يرتدي الكيمونو الأبيض من
00:06:45المشهد".
00:06:46وبعد ذلك، نصل إلى القسم حيث تقوم فقط بتحديد مجموعة نقاط حول
00:06:51الكائن أو الشخص الذي تريد إزالته حتى يعرف نموذج SAM2 الشكل الذي يجب التركيز عليه
00:06:57ثم حدد مجلد الإخراج حيث سنقوم بتخزين ملفات النتائج الخاصة بنا.
00:07:02وعليك تذكر اسم هذا المجلد لأنه سيكون المعرف الفريد
00:07:06الذي سنستخدمه في علامات التبويب الأخرى لتحديد الفيديو الذي نعمل عليه.
00:07:11بعد ذلك، يمكننا الانتقال إلى علامة التبويب الثانية، والتي ستقوم بتشغيل خطوة التقسيم الخاصة بنا وبدء
00:07:16العملية.
00:07:17وبمجرد الانتهاء من ذلك، يمكننا الانتقال إلى علامة التبويب الثالثة، وهي خطوة الاستدلال، حيث
00:07:22سيحاول النموذج فعلياً إزالة الكائن أو الشخص المطلوب.
00:07:26وهنا نحتاج إلى كتابة اسم المجلد مرة أخرى.
00:07:29وهنا نحتاج إلى تحديد موجه يصف كيف يجب أن يبدو الفيديو بدون
00:07:34وجود الكائن أو الشخص الذي تمت إزالته.
00:07:37لذا في حالتنا، سيكون ذلك شيئاً مثل "مقاتل يرتدي كيمونو داكناً يقف داخل
00:07:42صالة ألعاب رياضية".
00:07:43كما يوصون بعدم ذكر الكائن أو الشخص الذي تمت إزالته، بل التركيز فقط على
00:07:48ما يجب أن يكون في الفيديو وتشغيل خطوة الاستدلال.
00:07:52وبمجرد الانتهاء من ذلك، يمكننا الآن التوجه إلى علامة تبويب النتائج ورؤية الفيديو النهائي.
00:07:58ومرة أخرى، نحتاج إلى تحديد مجلد الفيديو.
00:08:01وها هو ذا.
00:08:03انظر إلى ذلك.
00:08:04نعم، يبدو الأمر وكأن مورفيوس يقاتل شبحاً.
00:08:07يمكننا أن نرى أن هناك بعض عدم الاتساق مع إزالة اليدين وأشياء أخرى.
00:08:12لذا فالأمر ليس مثالياً، ولكن هناك شيء آخر يمكننا القيام به لمحاولة تحسينه.
00:08:18يمكننا الآن تشغيله من خلال مرشح المرحلة الثانية، وهو علامة التبويب الرابعة لمحاولة تحقيق نتائج أفضل.
00:08:24وبعد تشغيل المرحلة الثانية، نحصل الآن على هذه النافذة الإضافية حيث نرى
00:08:29نتيجة المرحلة الثانية.
00:08:32ومرة أخرى، لا يزال يبدو غريباً بعض الشيء.
00:08:34لا يزال الشعور بأن مورفيوس يقاتل شبحاً أو يرقص أو شيئاً من هذا القبيل.
00:08:39لذا كما ترون، فإنه لا يعمل مع كل مشهد.
00:08:42بعض المشاهد ستكون غريبة جداً، لكنه يقوم بعمل جيد في إزالة نيو من
00:08:48المشهد تماماً.
00:08:49ومع ذلك، دعونا نجرب مثالين ممتعين آخرين.
00:08:53هذا هو مشهد الرقص الشهير من فيلم La La Land.
00:08:56وهنا سأحاول إزالة إيما ستون من المشهد وأرى ما سيحدث.
00:09:01واو، انظر إلى ذلك.
00:09:03هذا يبدو مثالياً تقريباً.
00:09:05يمكنني حقاً أن أصدق أن رايان غوسلينغ يرقص بمفرده هنا.
00:09:09ويمكنكم رؤية اللحظة التي تمر فيها إيما ستون أمام رايان غوسلينغ.
00:09:13هذا الانتقال سلس تقريباً.
00:09:15يمكننا رؤية بعض العيوب البسيطة، ولكن بالنسبة للجزء الأكبر، واو، هذه نتيجة مذهلة.
00:09:21من بين كل النتائج التي اختبرتها، كانت هذه هي الأفضل.
00:09:24ولسبب ما، ظننت أن هذا سيكون أصعب مثال للتشغيل.
00:09:28لكن من المدهش أن هذا أعطى أفضل النتائج من بين كل الاختبارات التي أجريتها.
00:09:33حسناً.
00:09:34أريد تجربة مثال آخر.
00:09:35وفي هذا المثال، أريد أن أحاول إزالة ليوناردو دي كابريو من مشهد تيتانيك الشهير و
00:09:41نرى ما سيحدث.
00:09:42أوه، واو، هذا يبدو حزيناً نوعاً ما.
00:09:48مسكينة كيت وينسلت.
00:09:49يا إلهي.
00:09:50تقف هناك بمفردها بدون جاك.
00:09:53هذا يبدو مثيراً للاهتمام.
00:09:55يمكننا أن نرى أن هذا النموذج قام بعمل رائع في إزالة ليو من المشهد.
00:09:59على الرغم من أنه يمكننا رؤية بعض الآثار المتبقية على ذراع كيت وينسلت.
00:10:03ويا إلهي، هذا مرعب جداً.
00:10:06لا تزال هناك يد متبقية مخيفة تمسك بذراع كيت من الجانب الآخر.
00:10:10أوه لا.
00:10:11لا يمكنني تجاهل رؤيتها الآن.
00:10:14بصراحة، هذا خطئي لأنني لم أقم بتحديد تلك النقاط المحددة لإزالتها
00:10:19في خطوة التقسيم.
00:10:21لذا هذا بسببي.
00:10:23ونرى أيضاً أن وجه كيت وينسلت يتغير قليلاً.
00:10:26لذا هناك بالتأكيد بعض من تأثير "الوادي الغريب" (Uncanny Valley) هنا.
00:10:30بشكل عام، أعتقد أن هذه الأداة تفعل ما تروج له.
00:10:33الأمر يتعلق فقط بالفيديو المحدد وطبيعته.
00:10:37من الواضح أننا لا نستطيع إجبار مورفيوس على البقاء ساكناً في هذا المشهد.
00:10:41ولكن إذا نظرنا إلى بعض الأمثلة الأخرى في صفحة المشروع الخاصة بهم، فستجدونها مذهلة تماماً.
00:10:46لذا أعتقد أن هذا النموذج لديه بعض القدرات القوية وربما مع تدريب إضافي،
00:10:51قد يصبح أفضل.
00:10:52ها هو ذا يا رفاق.
00:10:53هذا هو نموذج void باختصار.
00:10:55بصراحة، لقد استمتعت كثيراً باختبار هذا.
00:10:58وبما أنه من تطوير نتفليكس، فأنا فضولي جداً لمعرفة فيمَ سيستخدمون
00:11:03هذا؟
00:11:04هل يمكن استخدامه لتغيير بعض روايات الفيديو بناءً على تفضيلات المستخدم أو خياراته؟
00:11:09على غرار الطريقة التي أضافت بها نتفليكس نوع تجربة "اختر مغامرتك الخاصة" التفاعلية
00:11:15في مسلسل Black Mirror Bandersnatch؟
00:11:17هل تتذكرون ذلك؟
00:11:18من يدري؟
00:11:19ولكن على أي حال، سيكون من المثير للاهتمام رؤية كيف سيتطور استخدام هذه الأداة مستقبلاً.
00:11:23حسناً، ما رأيك في إطار العمل هذا؟
00:11:24ما نوع حالات الاستخدام التي ستكون هذه الأداة مفيدة لها؟
00:11:27أخبرنا برأيك في قسم التعليقات بالأسفل.
00:11:30ويا رفاق، إذا كنت تحب هذا النوع من التحليلات التقنية، يرجى إخباري بالضغط
00:11:33على زر الإعجاب أسفل الفيديو.
00:11:37وأيضاً لا تنسوا الاشتراك في قناتنا.
00:11:39كان معكم أندريس من Better Stack وسأراكم في الفيديوهات القادمة.
00:11:42مع السلامة.