ذكاء نتفليكس الاصطناعي يحذف أي ممثل من أي مشهد (شرح نموذج VOID)

BBetter Stack
컴퓨터/소프트웨어영화사진/예술AI/미래기술

Transcript

00:00:00أوه واو، هذا يبدو حزيناً بعض الشيء، مسكينة كيت وينسلت، يا إلهي، تقف هناك بمفردها، مع
00:00:09غياب جاك.
00:00:11أصدرت نتفليكس للتو أداة ذكاء اصطناعي مفتوحة المصدر مثيرة للاهتمام تسمى Video Object and Interaction
00:00:17Deletion أو VOID.
00:00:19معظم أدوات فيديو الذكاء الاصطناعي رائعة بالفعل في مسح الأشياء، وهذا ليس بالشيء الجديد.
00:00:24لكنها سيئة للغاية في محو عواقب وجود تلك الأشياء في المشهد.
00:00:29فمثلاً، إذا كنت تزيل كرة بولينج تضرب دبابيس، فإن معظم النماذج تترك الدبابيس
00:00:34وهي تسقط دون سبب، لكن VOID يحاول حل هذه المشكلة.
00:00:39إنه إطار عمل جديد من نتفليكس وInsight يفهم السبب والنتيجة ويقوم بتعديل
00:00:44محتوى الفيديو بناءً على الأشياء التي تمت إزالتها.
00:00:47لذا، في هذا الفيديو، سنلقي نظرة فاحصة على هذا النموذج، ونرى كيف يعمل، وقد قمت
00:00:52بالفعل ببناء تطبيق ويب لاختبار هذا النموذج بكل قوته، لذا سنقوم ببعض اختبارات الفيديو
00:00:57بأنفسنا.
00:00:58سيكون الأمر ممتعاً للغاية، لذا دعونا نتعمق فيه.
00:01:05يرمز VOID إلى "حذف كائنات الفيديو والتفاعلات".
00:01:09لفهم سبب أهمية هذا الأمر، عليك أن تنظر إلى الكيفية التي يعمل بها عادةً
00:01:15ملء الفيديو بالذكاء الاصطناعي.
00:01:16ممحاة الذكاء الاصطناعي القياسية هي في الأساس خاصية "الملء المدرك للمحتوى" ولكن بقدرات فائقة.
00:01:20فهي تنظر إلى البكسلات المحيطة بالفجوة وتحاول تخمين ما يجب أن يكون هناك.
00:01:24يعمل هذا مع علامة مائية أو شخص واقف ساكناً، لكنه ينهار في اللحظة التي
00:01:29يحدث فيها تفاعل فيزيائي.
00:01:31إذا قمت بإزالة فتاة تصنع عصيراً في خلاط، سيقوم الذكاء الاصطناعي العادي بمسح الشخص،
00:01:36لكنه سيترك الخلاط يدور ويخفق دون سبب.
00:01:40إنه يصلح المظهر، لكنه يتجاهل فيزياء الأشياء الأخرى المحيطة به.
00:01:46تم تصميم VOID لحل مشكلة "التفاعل الشبح" تلك من خلال إعادة تخيل واقع بديل.
00:01:53بشكل أساسي نسخة من الفيديو حيث لم يكن هذا الكائن أو الشخص موجوداً
00:01:57في المقام الأول.
00:01:58والطريقة التي يحقق بها ذلك ذكية جداً في الواقع.
00:02:01فهو لا يبدأ في الرسم فوراً.
00:02:03بدلاً من ذلك، يستخدم نظاماً من مرحلتين.
00:02:06في الخطوة الأولى، يقومون بمرحلة التفكير والتحليل.
00:02:08أولاً، يستخدم VOID نموذج لغة بصري وSAM2 أو Segment Anything Model 2 للنظر في
00:02:15المشهد.
00:02:16لقد قمت بعمل فيديو منفصل حول كيفية عمل SAM2، لذا شاهدوه إذا كنتم مهتمين.
00:02:22بينما ينشئ SAM2 تتبعاً دقيقاً للبكسل للكائن الذي تريد إزالته، يسأل الذكاء الاصطناعي
00:02:28نفسه سؤالاً: "إذا قمت بإزالة هذا، فما الذي سيتغير أيضاً؟"
00:02:32إذا قمت بإزالة قطعة دومينو واحدة من مجموعة، يحدد الذكاء الاصطناعي أن قطع الدومينو الأخرى
00:02:38قد تأثرت بشكل طبيعي.
00:02:39ثم ينشئ ما يسميه الباحثون "قناع رباعي" (Quad Mask)، وهي خريطة محددة تخبر
00:02:44نموذج الانتشار ليس فقط أين يمسح، بل أين يعيد كتابة فيزياء المنطقة
00:02:50المحيطة.
00:02:51والخطوة الثانية هي التوليد والتحسين.
00:02:54بمجرد إنشاء تلك الخريطة، يقوم نموذج انتشار الفيديو بتوليد اللقطات الجديدة.
00:03:00أحياناً قد تكون هذه النماذج خيالية قليلاً، فقد تتحول الأشياء أو تفقد شكلها.
00:03:05لإصلاح ذلك، يمتلك VOID مرحلة ثانية اختيارية.
00:03:08إنه يستخدم شيئاً يسمى "ضوضاء تشويه التدفق" لتثبيت تلك الأشكال في مكانها، مع التأكد
00:03:14من أنه بينما تتغير الفيزياء، تظل الأشياء المتبقية صلبة ومتسقة.
00:03:19لكن قد تتساءل، كيف تعلم الذكاء الاصطناعي ما لم يحدث؟
00:03:23لم يتمكن الفريق في نتفليكس وInsight من تصوير حادث سيارة ثم إلغاء الحادث في
00:03:28الحياة الواقعية للحصول على بيانات التدريب.
00:03:30بدلاً من ذلك، استخدموا بيئات اصطناعية مثل Kubrick.
00:03:34أجروا آلاف المحاكاة الفيزيائية حيث كان لديهم نسخة "قبل" ونسخة "بعد".
00:03:40نسخة بها اصطدام ونسخة لم يكن فيها الكائن موجوداً أبداً.
00:03:44من خلال عرض كلا النسختين للذكاء الاصطناعي، تعلم العلاقة بين وجود الكائن
00:03:49وتأثيره على البيئة.
00:03:51كل هذا يبدو رائعاً جداً، لكن دعونا نختبر هذه الأداة بأنفسنا.
00:03:57أفضل طريقة لتشغيلها هي استخدام وحدة معالجة رسومات سحابية مثل وحدة RunPod تعمل على
00:04:02معالج رسومات H100 أو ما يعادله.
00:04:05لكن سأخبركم منذ البداية، إعدادها ليس بالأمر السهل على الإطلاق.
00:04:10تحتوي وثائق GitHub على الكثير من الثغرات والمعلومات المضللة.
00:04:14لذا لكي تعمل بشكل صحيح، هناك بعض الأشياء التي يجب عليك الحذر منها.
00:04:18على سبيل المثال، من المحتمل أن يفشل هذا الأمر لأنهم لم يحددوا أبداً أنك بحاجة
00:04:23إلى نموذج SAM3 لهذا الإجراء.
00:04:25وقد يفشل هذا الأمر لأنهم لم يحددوا أبداً أن الأقنعة الرباعية يجب أن تسمى بدقة
00:04:30quad mask underscore zero dot MP4 لكي تعمل بشكل صحيح.
00:04:35هناك الكثير من هذه المشكلات الصغيرة غير الموثقة هنا.
00:04:38والعرض التجريبي لـ Gradio لطيف إذا كان لديك بالفعل قناع مقسم بواسطة SAM2، لكنهم
00:04:44لا يوفرون واجهة المستخدم الرسومية لإنشاء ذلك القناع بالفعل.
00:04:48لذلك، قمت ببناء تطبيق ويب مخصص يصلح كل هذه المشكلات ويوفر لك
00:04:54واجهة مستخدم جاهزة للاستخدام تمر بخطوة التقسيم، وخطوة الاستدلال، وحتى
00:05:00نظام المرحلتين.
00:05:02بحيث يمكنك فقط رفع الفيديو الخاص بك، وتقسيم القناع وتصدير النتيجة النهائية.
00:05:07وهذا بالضبط ما سنفعله الآن.
00:05:09أولاً، عليك تشغيل مثيل RunPod مع معالج رسومات قوي.
00:05:14سأستخدم H100 لهذا الاختبار.
00:05:17وفي قسم القالب، تأكد من زيادة حجم الحاوية إلى 100 جيجابايت.
00:05:22وفي قسم المنافذ، أضف المنفذ 8998 لأن هذا هو المكان الذي سنعرض فيه
00:05:27تطبيق الويب الخاص بنا.
00:05:29بعد ذلك، كل ما عليك فعله هو الدخول إلى الـ pod عبر SSH، ونسخ مستودعي، والدخول إليه وتشغيل أمر
00:05:36run dot SSH.
00:05:38وسيطلب منك أيضاً توفير رمز Hugging Face حتى تتمكن بالفعل من تحميل
00:05:42النماذج، وتأكد أيضاً من إمكانية الوصول إلى مستودع SAM3 لأن هذا النموذج
00:05:48مقيد وتحتاج إلى طلب إذن لاستخدامه.
00:05:51لكن عادة ما تكون العملية سريعة جداً ويتم الموافقة عليك في غضون دقائق قليلة.
00:05:55وبعد ذلك ستحتاج أيضاً إلى مفتاح Gemini API لأنه في خطوة التقسيم، يستخدم
00:06:00النموذج Gemini لتحديد تقدير الوضعية لإنشاء قناع رباعي دقيق.
00:06:06حسناً.
00:06:07وإذا كان لديك كلا هذين الاعتمادين، فاترك أمر run dot SSH يثبت كل شيء.
00:06:13وبمجرد الانتهاء من ذلك، يمكننا الآن تشغيل تطبيق الويب بالأمر التالي الموضح
00:06:18هنا.
00:06:19والآن في صفحة RunPod، عليك النقر فوق هذا المنفذ وسيقوم ذلك بفتح تطبيق الويب
00:06:24الخاص بنا.
00:06:25والآن يمكننا أخيراً البدء في اختبار النموذج.
00:06:28في اختباري الأول، سأستخدم هذا المشهد الشهير من فيلم The Matrix وسأحاول إزالة
00:06:32نيو من المشهد ونرى ما سيحدث.
00:06:35أول شيء عليك فعله هو تحديد موجه تعليمات الإزالة.
00:06:41في هذه الحالة، يمكننا تحديد شيء مثل "أزل المقاتل الذي يرتدي الكيمونو الأبيض من
00:06:45المشهد".
00:06:46وبعد ذلك، نصل إلى القسم حيث تقوم فقط بتحديد مجموعة نقاط حول
00:06:51الكائن أو الشخص الذي تريد إزالته حتى يعرف نموذج SAM2 الشكل الذي يجب التركيز عليه
00:06:57ثم حدد مجلد الإخراج حيث سنقوم بتخزين ملفات النتائج الخاصة بنا.
00:07:02وعليك تذكر اسم هذا المجلد لأنه سيكون المعرف الفريد
00:07:06الذي سنستخدمه في علامات التبويب الأخرى لتحديد الفيديو الذي نعمل عليه.
00:07:11بعد ذلك، يمكننا الانتقال إلى علامة التبويب الثانية، والتي ستقوم بتشغيل خطوة التقسيم الخاصة بنا وبدء
00:07:16العملية.
00:07:17وبمجرد الانتهاء من ذلك، يمكننا الانتقال إلى علامة التبويب الثالثة، وهي خطوة الاستدلال، حيث
00:07:22سيحاول النموذج فعلياً إزالة الكائن أو الشخص المطلوب.
00:07:26وهنا نحتاج إلى كتابة اسم المجلد مرة أخرى.
00:07:29وهنا نحتاج إلى تحديد موجه يصف كيف يجب أن يبدو الفيديو بدون
00:07:34وجود الكائن أو الشخص الذي تمت إزالته.
00:07:37لذا في حالتنا، سيكون ذلك شيئاً مثل "مقاتل يرتدي كيمونو داكناً يقف داخل
00:07:42صالة ألعاب رياضية".
00:07:43كما يوصون بعدم ذكر الكائن أو الشخص الذي تمت إزالته، بل التركيز فقط على
00:07:48ما يجب أن يكون في الفيديو وتشغيل خطوة الاستدلال.
00:07:52وبمجرد الانتهاء من ذلك، يمكننا الآن التوجه إلى علامة تبويب النتائج ورؤية الفيديو النهائي.
00:07:58ومرة أخرى، نحتاج إلى تحديد مجلد الفيديو.
00:08:01وها هو ذا.
00:08:03انظر إلى ذلك.
00:08:04نعم، يبدو الأمر وكأن مورفيوس يقاتل شبحاً.
00:08:07يمكننا أن نرى أن هناك بعض عدم الاتساق مع إزالة اليدين وأشياء أخرى.
00:08:12لذا فالأمر ليس مثالياً، ولكن هناك شيء آخر يمكننا القيام به لمحاولة تحسينه.
00:08:18يمكننا الآن تشغيله من خلال مرشح المرحلة الثانية، وهو علامة التبويب الرابعة لمحاولة تحقيق نتائج أفضل.
00:08:24وبعد تشغيل المرحلة الثانية، نحصل الآن على هذه النافذة الإضافية حيث نرى
00:08:29نتيجة المرحلة الثانية.
00:08:32ومرة أخرى، لا يزال يبدو غريباً بعض الشيء.
00:08:34لا يزال الشعور بأن مورفيوس يقاتل شبحاً أو يرقص أو شيئاً من هذا القبيل.
00:08:39لذا كما ترون، فإنه لا يعمل مع كل مشهد.
00:08:42بعض المشاهد ستكون غريبة جداً، لكنه يقوم بعمل جيد في إزالة نيو من
00:08:48المشهد تماماً.
00:08:49ومع ذلك، دعونا نجرب مثالين ممتعين آخرين.
00:08:53هذا هو مشهد الرقص الشهير من فيلم La La Land.
00:08:56وهنا سأحاول إزالة إيما ستون من المشهد وأرى ما سيحدث.
00:09:01واو، انظر إلى ذلك.
00:09:03هذا يبدو مثالياً تقريباً.
00:09:05يمكنني حقاً أن أصدق أن رايان غوسلينغ يرقص بمفرده هنا.
00:09:09ويمكنكم رؤية اللحظة التي تمر فيها إيما ستون أمام رايان غوسلينغ.
00:09:13هذا الانتقال سلس تقريباً.
00:09:15يمكننا رؤية بعض العيوب البسيطة، ولكن بالنسبة للجزء الأكبر، واو، هذه نتيجة مذهلة.
00:09:21من بين كل النتائج التي اختبرتها، كانت هذه هي الأفضل.
00:09:24ولسبب ما، ظننت أن هذا سيكون أصعب مثال للتشغيل.
00:09:28لكن من المدهش أن هذا أعطى أفضل النتائج من بين كل الاختبارات التي أجريتها.
00:09:33حسناً.
00:09:34أريد تجربة مثال آخر.
00:09:35وفي هذا المثال، أريد أن أحاول إزالة ليوناردو دي كابريو من مشهد تيتانيك الشهير و
00:09:41نرى ما سيحدث.
00:09:42أوه، واو، هذا يبدو حزيناً نوعاً ما.
00:09:48مسكينة كيت وينسلت.
00:09:49يا إلهي.
00:09:50تقف هناك بمفردها بدون جاك.
00:09:53هذا يبدو مثيراً للاهتمام.
00:09:55يمكننا أن نرى أن هذا النموذج قام بعمل رائع في إزالة ليو من المشهد.
00:09:59على الرغم من أنه يمكننا رؤية بعض الآثار المتبقية على ذراع كيت وينسلت.
00:10:03ويا إلهي، هذا مرعب جداً.
00:10:06لا تزال هناك يد متبقية مخيفة تمسك بذراع كيت من الجانب الآخر.
00:10:10أوه لا.
00:10:11لا يمكنني تجاهل رؤيتها الآن.
00:10:14بصراحة، هذا خطئي لأنني لم أقم بتحديد تلك النقاط المحددة لإزالتها
00:10:19في خطوة التقسيم.
00:10:21لذا هذا بسببي.
00:10:23ونرى أيضاً أن وجه كيت وينسلت يتغير قليلاً.
00:10:26لذا هناك بالتأكيد بعض من تأثير "الوادي الغريب" (Uncanny Valley) هنا.
00:10:30بشكل عام، أعتقد أن هذه الأداة تفعل ما تروج له.
00:10:33الأمر يتعلق فقط بالفيديو المحدد وطبيعته.
00:10:37من الواضح أننا لا نستطيع إجبار مورفيوس على البقاء ساكناً في هذا المشهد.
00:10:41ولكن إذا نظرنا إلى بعض الأمثلة الأخرى في صفحة المشروع الخاصة بهم، فستجدونها مذهلة تماماً.
00:10:46لذا أعتقد أن هذا النموذج لديه بعض القدرات القوية وربما مع تدريب إضافي،
00:10:51قد يصبح أفضل.
00:10:52ها هو ذا يا رفاق.
00:10:53هذا هو نموذج void باختصار.
00:10:55بصراحة، لقد استمتعت كثيراً باختبار هذا.
00:10:58وبما أنه من تطوير نتفليكس، فأنا فضولي جداً لمعرفة فيمَ سيستخدمون
00:11:03هذا؟
00:11:04هل يمكن استخدامه لتغيير بعض روايات الفيديو بناءً على تفضيلات المستخدم أو خياراته؟
00:11:09على غرار الطريقة التي أضافت بها نتفليكس نوع تجربة "اختر مغامرتك الخاصة" التفاعلية
00:11:15في مسلسل Black Mirror Bandersnatch؟
00:11:17هل تتذكرون ذلك؟
00:11:18من يدري؟
00:11:19ولكن على أي حال، سيكون من المثير للاهتمام رؤية كيف سيتطور استخدام هذه الأداة مستقبلاً.
00:11:23حسناً، ما رأيك في إطار العمل هذا؟
00:11:24ما نوع حالات الاستخدام التي ستكون هذه الأداة مفيدة لها؟
00:11:27أخبرنا برأيك في قسم التعليقات بالأسفل.
00:11:30ويا رفاق، إذا كنت تحب هذا النوع من التحليلات التقنية، يرجى إخباري بالضغط
00:11:33على زر الإعجاب أسفل الفيديو.
00:11:37وأيضاً لا تنسوا الاشتراك في قناتنا.
00:11:39كان معكم أندريس من Better Stack وسأراكم في الفيديوهات القادمة.
00:11:42مع السلامة.

Key Takeaway

يعالج نموذج VOID من نتفليكس قصور أدوات مسح الفيديو التقليدية عبر فهم السبب والنتيجة الفيزيائي وإعادة توليد المشهد بناءً على واقع بديل لا وجود فيه للكائن المحذوف.

Highlights

  • نموذج VOID هو إطار عمل مفتوح المصدر من نتفليكس يرمز إلى Video Object and Interaction Deletion.

  • يعتمد النموذج على نظام مكون من مرحلتين يجمع بين نماذج اللغة البصرية وSAM2 لتحديد الكائنات وتأثيراتها الفيزيائية.

  • يستخدم VOID تقنية القناع الرباعي (Quad Mask) لإعادة كتابة فيزياء المناطق المحيطة بالكائن المحذوف بدلاً من مجرد مسح البكسلات.

  • تدرب النموذج على آلاف المحاكاة الفيزيائية في بيئات اصطناعية مثل Kubrick لتعلم العلاقة بين وجود الأجسام وتأثيرها على البيئة.

  • تتطلب عملية التشغيل الناجحة معالج رسومات قوي مثل H100 ومساحة حاوية لا تقل عن 100 جيجابايت مع الوصول إلى نماذج SAM3 وGemini API.

  • يعالج النموذج مشكلة التفاعلات الشبحية (Ghost Interactions) مثل دوران الخلاط الفارغ بعد حذف الشخص الذي كان يستخدمه.

Timeline

قصور أدوات المسح التقليدية ومشكلة التفاعلات الشبحية

  • تكتفي أدوات المسح القياسية بتخمين البكسلات المحيطة لسد الفجوات الناتجة عن الحذف.
  • تفشل النماذج الحالية في إزالة العواقب الفيزيائية لوجود الأجسام مثل تساقط دبابيس البولينج دون سبب.
  • تظل الأجسام المتفاعلة في المشهد تعمل بشكل غير منطقي بعد إزالة الفرد المحرك لها.

تعتمد الممحاة التقليدية في الفيديو على خاصية الملء المدرك للمحتوى التي تعمل جيداً مع العلامات المائية أو الأشخاص الساكنين. تظهر المشكلة الحقيقية عند حدوث تفاعلات فيزيائية معقدة في المشهد. يؤدي المسح التقليدي إلى ظهور خلاط يدور أو أشياء تتحرك في الهواء دون مسبب مادي واضح.

آلية عمل نموذج VOID والمرحلتين التقنيتين

  • يستخدم VOID نموذج SAM2 لتتبع الكائنات بدقة بكسلية عالية.
  • تحدد مرحلة التفكير التغييرات المطلوبة في البيئة المحيطة عبر إنشاء القناع الرباعي.
  • تعمل خاصية ضوضاء تشويه التدفق على تثبيت الأشكال ومنع ضياع ملامح الأجسام المتبقية.

يبدأ العمل بتحليل بصري عميق يسأل فيه الذكاء الاصطناعي عن التغييرات الضرورية في حال غياب جسم معين. تمر العملية بمرحلة توليد اللقطات الجديدة ثم مرحلة تحسين اختيارية لضمان ثبات الأجسام الصلبة واتساق الفيزياء. جُمعت بيانات التدريب من محاكاة اصطناعية تقارن بين نسختي فيديو بوجود الاصطدام وبدونه.

متطلبات الإعداد الفنية وتحديات التوثيق

  • يتطلب تشغيل النموذج معالج رسومات سحابي متطور وتوسيع سعة التخزين.
  • يعاني توثيق النموذج في GitHub من ثغرات تتعلق بتسمية الملفات ونماذج SAM3 المطلوبة.
  • تحتاج عملية الاستدلال الدقيق إلى مفتاح Gemini API لتحديد تقدير الوضعية.

تتضمن عملية الإعداد خطوات معقدة تشمل نسخ مستودعات الأكواد وطلب أذونات خاصة لاستخدام نماذج مقيدة. تبرز أهمية تسمية الأقنعة بدقة مثل quad_mask_0.mp4 لضمان عمل البرنامج. يسهل استخدام واجهة مستخدم رسومية مخصصة الربط بين مراحل التقسيم والاستدلال والتوليد النهائي.

نتائج الاختبارات العملية في مشاهد سينمائية

  • حقق النموذج أفضل النتائج في مشهد الرقص من فيلم La La Land بانتقالات سلسة للغاية.
  • تظهر عيوب بصرية مثل الأطراف المتبقية وتغير ملامح الوجه في المشاهد ذات التلامس المباشر.
  • يظل تأثير الوادي الغريب حاضراً عند محاولة إعادة بناء الأجزاء المخفية من جسم الممثل المتبقي.

أظهر اختبار حذف إيما ستون كفاءة عالية في التعامل مع الحركة، بينما كشف اختبار فيلم تيتانيك عن صعوبات في إزالة اليد الممسكة بذراع الممثلة. يعتمد نجاح الحذف على دقة تحديد نقاط التقسيم في المرحلة الأولى وطبيعة التفاعل في الفيديو. تفتح هذه التقنية آفاقاً لتجارب تفاعلية في المحتوى السينمائي تسمح بتغيير الرواية بناءً على خيارات المستخدم.

Community Posts

View all posts