كيفية استخدام نموذج VOID لصناع الأفلام المستقلين العاجزين عن العودة لموقع التصوير
30 अप्रैल 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
إن نموذج VOID الذي طرحه باحثو نتفليكس (Netflix) ليس مجرد أداة لمسح الأشخاص فحسب؛ بل إنه يحسب العلاقات الفيزيائية السببية، مثل كيفية تحرك الأشياء المتبقية في مكان الجسم الممسوح وفقًا للجاذبية. في مواقع تصوير الأفلام المستقلة، حيث قد ينسحب الممثل الرئيسي فجأة أو تظهر مشاكل في حقوق الملكية ولا تتوفر ميزانية لإعادة التصوير، تُعد هذه التقنية بمثابة طوق نجاة حقيقي.
يستهلك نموذج VOID كمية هائلة من الذاكرة لضمان الاستمرارية بين إطارات الفيديو. ذاكرة VRAM سعة 24 جيجابايت في بطاقة RTX 4090 المنزلية لا تكفي إطلاقًا؛ إذ تحتاج إلى 40 جيجابايت على الأقل. وبدلاً من شراء محطة عمل تكلف عشرات الآلاف من الدولارات، يجب استئجار مثيلات (instances) من RunPod أو Lambda Labs. وبحلول عام 2026، يمكن استئجار موديل H100 PCIe مقابل ما يزيد قليلاً عن دولارين في الساعة. قد يبدو هذا مكلفًا، لكنه لا شيء مقارنة بتكاليف إعادة التصوير.
ينتهي الإعداد في غضون 30 دقيقة. اختر قالبًا يحتوي على PyTorch 2.2.0 و CUDA 12.1 من لوحة تحكم RunPod لإنشاء المثيل. في الطرفية (terminal)، قم بتشغيل apt-get install ffmpeg ثم انسخ المستودع الرسمي وثبّت التبعيات. تأكد من رفع ملفات الأوزان (weights) على وحدة تخزين شبكية (network volume)؛ لتوفير الوقت والتكلفة المترتبة على إعادة تحميل جيجابايت من البيانات في كل مرة تعيد فيها تشغيل المثيل.
عملية الـ Rotoscoping اليدوية لتحديد الحواف هي جحيم مطلق. يستخدم نموذج VOID بنية "قناع الرباعي" (quad mask) المكونة من 4 مراحل، والتي تقسم القيم من 0 (للكائن المراد حذفه) إلى 255 (للخلفية)، وليس هناك داعٍ لرسم ذلك يدويًا. إن استخراج بيانات Magic Mask من DaVinci Resolve وتشغيل سكربت التحويل سيوفر عليك 80% من وقت العمل.
في DaVinci Resolve، قم بتمويه الكائن الرئيسي والكائنات المتأثرة في عقد (nodes) منفصلة واستخرجها كسلسلة PNG. بعد ذلك، استخدم سكربت FFmpeg لتخصيص اللون الأسود (0) لقناع الكائن الرئيسي، والرمادي (127) لقناع منطقة التأثير. طبّق فلتر الرمادي الغامق (63) على واجهة التداخل بين المنطقتين لدمج فيديو القناع الرباعي النهائي. بهذه الطريقة، إذا كان الشخص يحمل كوبًا، سيقوم الذكاء الاصطناعي تلقائيًا برسم مسار سقوط الكوب على الأرض بعد حذف الشخص.
أحيانًا تكون نتائج الـ Inpainting نظيفة أكثر من اللازم، مما يمثل مشكلة. فإذا كانت المنطقة المحيطة بها ملمس فيلم خشن بينما المنطقة الممسوحة ناعمة مثل الفوتوشوب، فسيلاحظ الجمهور ذلك فورًا. ورغم أن نظام VOID ثنائي المراحل (2-pass) يقلل الاهتزاز، إلا أنه لا يعيد إنتاج حبيبات الضوضاء (noise) الموجودة في الفيديو الأصلي.
يتم حل هذا التباين عبر أخذ ملف ضوضاء تعريفي (noise profile) من منطقة نظيفة في الفيديو الأصلي. افتح عقدة Film Grain في DaVinci Resolve وحلل حجم الحبيبات في المصدر الأصلي. ثم ضع حبيبات اصطناعية بنفس الإعدادات كطبقة فوقية (overlay) على منطقة القناع فقط. استخدم Luma Key لضبط الحبيبات بحيث تتركز في الدرجات المتوسطة (midtones)، مما يجعل الحدود بين المنطقة التي صنعها الذكاء الاصطناعي واللقطة الحقيقية تختفي تمامًا.
عندما تكون الخلفية معقدة، قد يرتكب الذكاء الاصطناعي أخطاء تؤدي إلى تشويه شكل الأجسام. في هذه الحالة، لا تعتبر مخرجات VOID حقيقة مطلقة، بل استخدم استراتيجية هجينة تدمج Stable Diffusion (SDXL).
قم باستخراج الإطارات التي تعاني من أخطاء جسيمة واصنع صورًا ثابتة مصححة باستخدام SDXL مع مطابقة إضاءة الخلفية. أدخل هذه الصور المصححة في أدوات مثل EbSynth لتطبيق الملمس على التسلسل الكامل بناءً على نواقل الحركة (motion vectors). أخيرًا، استخدم تقنية RIFE لإدراج الإطارات (interpolation) لجعل الحركة المتقطعة تبدو انسيابية. إنها عملية إصلاح يدوية لما أفسده الذكاء الاصطناعي، لكن النتيجة ستبدو بمستوى احترافي ومستقر.
تُحسب تكاليف السحابة بالثانية، لذا فإن البدء برندرة 4K دون خطة هو إهدار للميزانية. أولاً، احجز Spot Instances في RunPod؛ فهي أرخص بنسبة 70% من الـ On-demand رغم احتمالية توقفها في أي وقت.
قبل بدء العمل الفعلي، قم بتشغيل استنتاج أولي (1-pass) بدقة منخفضة 480p. أنشئ قائمة فحص للتأكد من عدم تسرب حواف الجسم الممسوح، وما إذا كانت حركة الأشياء المحيطة منطقية فيزيائيًا. وفقط عندما تتأكد من نتائج الاختبار، قم برفع أداء H100 المكلف إلى أقصى حد لبدء الرندرة النهائية عالية الدقة. بالنسبة لصانع الأفلام المستقل، فإن التكنولوجيا التي لا تراعي الكفاءة ليست سوى ترف لا داعي له.