Model AI Netflix Ini Bisa Menghapus Aktor Mana Pun dari Adegan Mana Pun (Bedah Model VOID)

BBetter Stack
컴퓨터/소프트웨어영화사진/예술AI/미래기술

Transcript

00:00:00Wah, kelihatannya agak menyedihkan, kasihan Kate Winslet, ya ampun, berdiri sendirian di sana, dengan
00:00:09tanpa Jack.
00:00:11Netflix baru saja merilis alat AI sumber terbuka yang sangat menarik bernama Video Object and Interaction
00:00:17Deletion atau VOID.
00:00:19Sebagian besar alat video AI sudah mahir dalam menghapus objek, itu bukan hal baru.
00:00:24Tapi mereka sangat buruk dalam menghapus konsekuensi dari objek-objek tersebut di dalam adegan.
00:00:29Sebagai contoh, jika Anda menghapus bola bowling yang mengenai pin, sebagian besar model membiarkan pin
00:00:34jatuh tanpa alasan, tetapi VOID mencoba memperbaiki masalah ini.
00:00:39Ini adalah kerangka kerja baru dari Netflix dan Insight yang memahami sebab dan akibat serta mengubah
00:00:44konten video berdasarkan objek yang dihapus.
00:00:47Jadi dalam video ini, kita akan melihat lebih dekat model ini, melihat cara kerjanya, dan saya sebenarnya
00:00:52membangun aplikasi web untuk menguji model ini dengan segala kemampuannya, jadi kita akan melakukan beberapa tes video
00:00:57sendiri.
00:00:58Ini akan sangat menyenangkan, jadi mari kita mulai.
00:01:05Jadi VOID adalah singkatan dari Video Object and Interaction Deletion.
00:01:09Untuk memahami mengapa ini sangat penting, Anda harus melihat bagaimana inpainting video biasanya
00:01:15bekerja.
00:01:16Penghapus AI standar pada dasarnya adalah content-aware fill yang jauh lebih canggih.
00:01:20Mereka melihat piksel di sekitar lubang dan mencoba menebak apa yang seharusnya ada di sana.
00:01:24Ini berfungsi untuk tanda air atau orang yang diam, tetapi gagal saat ada
00:01:29interaksi fisik.
00:01:31Jika Anda menghapus gadis yang sedang membuat smoothie di blender, AI biasa akan menghapus orangnya,
00:01:36tapi akan membiarkan blender tetap berputar dan mengaduk tanpa alasan.
00:01:40Ini memperbaiki tampilan, tetapi mengabaikan fisika objek lain di sekitarnya.
00:01:46VOID dirancang untuk memecahkan masalah interaksi hantu tersebut dengan membayangkan realitas kontrafaktual.
00:01:53Pada dasarnya versi video di mana objek atau orang tersebut tidak pernah ada sejak
00:01:57awal.
00:01:58Dan cara ia melakukannya sebenarnya cukup cerdas.
00:02:01Ia tidak langsung mulai melukis.
00:02:03Sebaliknya, ia menggunakan sistem dua tahap.
00:02:06Pada langkah pertama, mereka melakukan fase penalaran.
00:02:08Pertama, VOID menggunakan vision language model dan SAM2 atau Segment Anything Model 2 untuk melihat
00:02:15adegannya.
00:02:16Saya sebenarnya membuat video terpisah tentang cara kerja SAM2, jadi tontonlah jika Anda tertarik.
00:02:22Jadi selagi SAM2 membuat pelacakan piksel yang sempurna dari objek yang ingin Anda hapus, AI akan bertanya
00:02:28pada dirinya sendiri, "Jika saya menghapus ini, apa lagi yang berubah?"
00:02:32Jika Anda menghapus satu domino dari tumpukan domino, AI mengidentifikasi bahwa domino lainnya secara kausal
00:02:38terpengaruh.
00:02:39Ia kemudian membuat apa yang disebut peneliti sebagai "Quad Mask", peta khusus yang memberi tahu
00:02:44model difusi tidak hanya bagian mana yang harus dihapus, tetapi di mana harus menulis ulang fisika dari area
00:02:50sekitarnya.
00:02:51Dan kemudian langkah kedua adalah pembuatan dan penyempurnaan.
00:02:54Setelah peta itu dibuat, model difusi video menghasilkan cuplikan baru.
00:03:00Kadang-kadang model ini bisa agak tidak stabil, seperti objek yang mungkin berubah bentuk atau kehilangan bentuknya.
00:03:05Jadi untuk memperbaikinya, VOID memiliki tahap kedua opsional.
00:03:08Ia menggunakan sesuatu yang disebut flow warp noise untuk mengunci bentuk-bentuk tersebut, memastikan bahwa
00:03:14sementara fisikanya berubah, objek yang tersisa tetap padat dan konsisten.
00:03:19Tapi Anda mungkin bertanya-tanya, bagaimana cara mengajari AI tentang apa yang tidak terjadi?
00:03:23Tim di Netflix dan Insight tidak bisa begitu saja merekam kecelakaan mobil lalu membatalkannya di
00:03:28kehidupan nyata untuk mendapatkan data pelatihan.
00:03:30Sebaliknya, mereka menggunakan lingkungan sintetis seperti Kubrick.
00:03:34Mereka menjalankan ribuan simulasi fisika di mana mereka memiliki versi sebelum dan sesudah.
00:03:40Satu versi dengan tabrakan dan satu versi di mana objek tersebut tidak pernah ada.
00:03:44Dengan menunjukkan kedua versi kepada AI, ia mempelajari hubungan antara keberadaan objek dan
00:03:49dampaknya terhadap lingkungan.
00:03:51Semua itu terdengar sangat menarik, tapi mari kita uji langsung alat ini sendiri.
00:03:57Cara terbaik untuk menjalankannya adalah dengan menggunakan cloud GPU seperti modul RunPod yang berjalan pada
00:04:02GPU H100 atau yang setara.
00:04:05Tapi saya akan katakan langsung, menyiapkannya sama sekali tidak mudah.
00:04:10Dokumentasi GitHub memiliki banyak celah dan informasi yang menyesatkan.
00:04:14Jadi agar bisa berfungsi dengan benar, ada beberapa hal yang harus Anda perhatikan.
00:04:18Misalnya, perintah ini kemungkinan besar akan gagal karena mereka tidak pernah menyebutkan bahwa Anda memerlukan
00:04:23model SAM3 untuk prosedur ini.
00:04:25Dan perintah ini mungkin gagal karena mereka tidak pernah menyebutkan bahwa quad mask harus dinamai
00:04:30secara spesifik quad mask underscore zero dot MP4 agar berfungsi dengan baik.
00:04:35Jadi ada banyak masalah kecil seperti ini yang tidak didokumentasikan di sini.
00:04:38Dan demo Gradio mereka bagus jika Anda sudah memiliki mask yang disegmentasi dengan SAM2, tetapi mereka
00:04:44tidak menyediakan antarmuka pengguna grafis untuk benar-benar membuat mask tersebut.
00:04:48Jadi yang saya lakukan adalah membangun aplikasi web khusus yang memperbaiki semua masalah ini dan menyediakan
00:04:54UI yang siap pakai yang melalui langkah segmentasi, langkah inferensi, dan
00:05:00bahkan sistem dua tahap.
00:05:02Jadi Anda tinggal mengunggah video Anda, mensegmentasi mask, dan merender hasil akhirnya.
00:05:07Dan itulah tepatnya yang akan kita lakukan sekarang.
00:05:09Pertama, Anda harus menjalankan instans RunPod dengan GPU yang kuat.
00:05:14Saya akan menggunakan H100 untuk pengujian ini.
00:05:17Dan di bagian templat, pastikan Anda meningkatkan ukuran kontainer menjadi 100 gigabita.
00:05:22Dan di bagian port, tambahkan port 8998 karena di sinilah kita akan mengekspos
00:05:27aplikasi web kita.
00:05:29Lalu yang perlu Anda lakukan adalah SSH ke dalam pod, klon repo saya, masuk ke foldernya, dan jalankan perintah run dot
00:05:36SSH.
00:05:38Dan itu juga akan meminta Anda memberikan token Hugging Face agar Anda bisa mengunduh
00:05:42model-modelnya dan pastikan juga Anda memiliki akses ke repositori SAM3 karena ini adalah model
00:05:48terbatas dan Anda perlu meminta izin untuk menggunakannya.
00:05:51Tapi biasanya prosesnya cukup cepat dan Anda disetujui dalam beberapa menit.
00:05:55Dan kemudian Anda juga memerlukan kunci API Gemini karena dalam langkah segmentasi, model tersebut
00:06:00menggunakan Gemini untuk menentukan estimasi pose demi pembuatan quad mask yang presisi.
00:06:06Baiklah.
00:06:07Dan jika Anda memiliki kedua kredensial tersebut, biarkan perintah run dot SSH menginstal semuanya.
00:06:13Setelah selesai, kita sekarang bisa meluncurkan aplikasi web dengan perintah berikut yang diuraikan
00:06:18di sini.
00:06:19Dan sekarang di halaman RunPod, Anda harus mengeklik port ini dan itu akan membuka
00:06:24aplikasi web kita.
00:06:25Dan sekarang kita akhirnya bisa mulai menguji modelnya.
00:06:28Untuk pengujian pertama saya, saya akan menggunakan adegan terkenal dari The Matrix ini dan saya akan mencoba menghapus
00:06:32Neo dari adegan tersebut dan melihat apa yang terjadi.
00:06:35Hal pertama yang harus Anda lakukan adalah menentukan prompt instruksi penghapusan.
00:06:41Dalam hal ini, kita bisa menentukan sesuatu seperti hapus petarung berbaju kimono putih dari
00:06:45adegan tersebut.
00:06:46Setelah itu, kita masuk ke bagian di mana Anda mensegmentasi beberapa titik di sekitar
00:06:51objek atau orang yang ingin Anda hapus sehingga model SAM2 tahu bentuk mana yang harus difokuskan
00:06:57lalu tentukan folder output tempat kita akan menyimpan file hasil kita.
00:07:02Dan Anda harus mengingat nama folder ini karena ini akan menjadi pengidentifikasi unik
00:07:06yang akan kita gunakan di tab lain untuk mengidentifikasi video mana yang sedang kita kerjakan.
00:07:11Setelah itu, kita bisa lanjut ke tab kedua, yang akan menjalankan langkah segmentasi kita dan menjalankan
00:07:16prosesnya.
00:07:17Setelah selesai, kita bisa pindah ke tab tiga, yaitu langkah inferensi, di mana
00:07:22model akan benar-benar mencoba menghapus objek atau orang yang diinginkan.
00:07:26Dan di sini kita perlu mengetikkan nama folder itu lagi.
00:07:29Dan di sini kita perlu menentukan prompt yang menjelaskan seperti apa rupa video tersebut tanpa
00:07:34keberadaan objek atau orang yang kita hapus.
00:07:37Jadi dalam kasus kita, itu akan menjadi sesuatu seperti petarung berbaju kimono gelap berdiri di dalam
00:07:42sasana.
00:07:43Dan mereka juga menyarankan untuk tidak menyebutkan objek atau orang yang dihapus, cukup fokus pada
00:07:48apa yang seharusnya ada di video dan jalankan langkah inferensi.
00:07:52Setelah itu selesai, kita sekarang bisa menuju ke tab hasil dan melihat video akhir kita.
00:07:58Sekali lagi, kita perlu menentukan folder videonya.
00:08:01Dan itu dia.
00:08:03Lihat itu.
00:08:04Ya, sepertinya Morpheus sedang melawan hantu.
00:08:07Kita bisa melihat ada beberapa ketidakkonsistenan pada penghapusan tangan dan hal lainnya.
00:08:12Jadi ini tidak sempurna, tapi ada hal lain yang bisa kita lakukan untuk mencoba meningkatkannya.
00:08:18Kita sekarang bisa menjalankannya melalui filter tahap kedua, yaitu tab empat, untuk mencoba mendapatkan hasil yang lebih baik.
00:08:24Dan setelah menjalankan tahap kedua, kita sekarang mendapatkan jendela tambahan di mana kita melihat
00:08:29hasil dari tahap kedua.
00:08:32Sekali lagi, ini masih terlihat agak aneh.
00:08:34Masih terasa seperti Morpheus sedang melawan hantu atau menari atau semacamnya.
00:08:39Jadi seperti yang Anda lihat, ini tidak berhasil untuk setiap adegan.
00:08:42Beberapa adegan akan terlihat sangat aneh, tapi model ini melakukan pekerjaan yang baik dalam menghapus Neo dari
00:08:48adegan tersebut sepenuhnya.
00:08:49Meskipun begitu, mari kita coba dua contoh menyenangkan lainnya.
00:08:53Inilah adegan menari yang terkenal dari La La Land.
00:08:56Dan di sini saya akan mencoba menghapus Emma Stone dari adegan tersebut dan melihat apa yang terjadi.
00:09:01Wah, lihat itu.
00:09:03Ini terlihat hampir tanpa celah.
00:09:05Saya benar-benar percaya bahwa Ryan Gosling hanya menari sendirian di sini.
00:09:09Dan Anda lihat saat di mana Emma Stone lewat di depan Ryan Gosling.
00:09:13Transisi ini hampir mulus.
00:09:15Kita bisa melihat beberapa artefak kecil, tapi sebagian besar, wah, ini hasil yang menakjubkan.
00:09:21Dari semua hasil yang saya uji, yang ini adalah yang terbaik.
00:09:24Dan entah kenapa, saya pikir ini akan menjadi contoh yang paling sulit untuk dijalankan.
00:09:28Tapi secara mengejutkan, ini memberikan hasil terbaik dari semua tes yang saya lakukan.
00:09:33Baiklah.
00:09:34Saya ingin mencoba satu contoh lagi.
00:09:35Dan kali ini, saya ingin mencoba menghapus Leonardo DiCaprio dari adegan terkenal Titanic dan
00:09:41melihat apa yang terjadi.
00:09:42Oh, wah, itu terlihat agak menyedihkan.
00:09:48Kasihan Kate Winslet.
00:09:49Ya ampun.
00:09:50Berdiri sendirian di sana tanpa Jack.
00:09:53Itu terlihat menarik.
00:09:55Kita bisa melihat bahwa model ini melakukan pekerjaan yang baik dalam menghapus Leo dari adegan.
00:09:59Meskipun kita bisa melihat beberapa artefak sisa di lengan Kate Winslet.
00:10:03Dan ya ampun, ini sangat menyeramkan.
00:10:06Masih ada sisa tangan menyeramkan yang memegang lengan Kate di sisi lain.
00:10:10Oh tidak.
00:10:11Saya tidak bisa berhenti memikirkannya sekarang.
00:10:14Sejujurnya, ini kesalahan saya karena saya tidak mensegmentasi titik-titik spesifik tersebut untuk dihapus
00:10:19dalam langkah segmentasi.
00:10:21Jadi itu salah saya.
00:10:23Dan kita juga melihat wajah Kate Winslet sedikit berubah.
00:10:26Jadi memang ada sedikit efek uncanny valley yang terjadi di sini.
00:10:30Secara keseluruhan, saya pikir alat ini melakukan apa yang diiklankan.
00:10:33Ini hanya masalah video tertentu dan sifat dari video tersebut.
00:10:37Tentu saja, kita tidak bisa memaksa Morpheus untuk diam saja di adegan ini.
00:10:41Tapi jika kita melihat beberapa contoh lain di halaman proyek mereka, hasilnya benar-benar luar biasa.
00:10:46Jadi saya pikir model ini memang memiliki kemampuan yang solid dan mungkin dengan pelatihan ekstra,
00:10:51hasilnya bisa lebih baik lagi.
00:10:52Begitulah kawan-kawan.
00:10:53Itulah model VOID secara singkat.
00:10:55Sejujurnya, saya sangat senang menguji ini.
00:10:58Dan karena ini dikembangkan oleh Netflix, saya sebenarnya sangat penasaran ingin tahu untuk apa mereka akan menggunakan
00:11:03ini?
00:11:04Mungkinkah ini digunakan untuk mengubah beberapa narasi video berdasarkan preferensi atau pilihan pengguna?
00:11:09Sama halnya dengan cara Netflix menambahkan jenis pengalaman interaktif pilih petualanganmu sendiri
00:11:15pada acara Black Mirror Bandersnatch?
00:11:17Kalian ingat itu?
00:11:18Siapa yang tahu?
00:11:19Tapi bagaimanapun juga, akan sangat menarik untuk melihat bagaimana penggunaan alat ini berkembang ke
00:11:23depannya.
00:11:24Nah, apa pendapat Anda tentang kerangka kerja ini?
00:11:27Kasus penggunaan seperti apa yang menurut Anda cocok untuk alat ini?
00:11:30Beri tahu kami pendapat Anda di kolom komentar di bawah.
00:11:33Dan kawan-kawan, jika kalian menyukai analisis teknis seperti ini, beri tahu saya dengan menekan
00:11:37tombol suka di bawah video ini.
00:11:39Dan jangan lupa juga untuk berlangganan saluran kami.
00:11:42Saya Andres dari Better Stack dan sampai jumpa di video-video berikutnya.

Key Takeaway

Kerangka kerja VOID dari Netflix melampaui inpainting standar dengan menggunakan penalaran kausal dan Quad Mask untuk menghapus objek video beserta dampak fisika yang ditinggalkannya pada lingkungan sekitar.

Highlights

  • Netflix merilis alat AI sumber terbuka bernama VOID (Video Object and Interaction Deletion) yang mampu menghapus objek sekaligus konsekuensi fisika dari interaksinya.

  • VOID menggunakan sistem dua tahap yang menggabungkan Vision Language Model, Segment Anything Model 2 (SAM2), dan model difusi video untuk menciptakan realitas kontrafaktual.

  • Peta khusus bernama Quad Mask digunakan untuk menginstruksikan model bagian mana yang harus dihapus dan area mana yang harus ditulis ulang logikanya.

  • Data pelatihan model ini berasal dari ribuan simulasi fisika sintetis menggunakan lingkungan Kubrick untuk mempelajari hubungan sebab-akibat antar objek.

  • Hasil pengujian pada adegan tari film La La Land menunjukkan penghapusan karakter yang hampir mulus bahkan saat terjadi oklusi antar subjek.

  • Implementasi teknis memerlukan GPU cloud seperti H100, akses ke repositori SAM3, token Hugging Face, serta kunci API Gemini untuk estimasi pose.

Timeline

Keterbatasan Inpainting Video Standar

  • Penghapus AI konvensional bekerja seperti fitur content-aware fill yang hanya memprediksi piksel di sekitar area yang hilang.
  • Model standar sering kali gagal menangani interaksi fisik, seperti membiarkan blender tetap berputar setelah operatornya dihapus.
  • Interaksi hantu terjadi karena AI mengabaikan hukum fisika dan hubungan antar objek di dalam adegan.

Metode pengisian konten tradisional hanya fokus pada aspek visual tanpa memahami logika di balik pergerakan objek. Contoh nyata adalah pin bowling yang jatuh tanpa alasan setelah bola bowling dihapus dari cuplikan. Masalah ini menciptakan ketidakkonsistenan yang merusak realitas visual dalam produksi video.

Mekanisme Penalaran Kausal dan Sistem Dua Tahap VOID

  • Fase penalaran menggunakan SAM2 untuk pelacakan piksel dan AI untuk mengidentifikasi dampak penghapusan terhadap objek lain.
  • Quad Mask berfungsi sebagai panduan bagi model difusi untuk menulis ulang fisika di area sekitar objek yang dihapus.
  • Tahap kedua menggunakan flow warp noise untuk menjaga konsistensi bentuk objek yang tersisa agar tidak berubah bentuk.

VOID bekerja dengan membayangkan skenario di mana objek yang dihapus tidak pernah ada sejak awal. Sistem ini menanyakan dampak kausal, seperti bagaimana tumpukan domino bereaksi jika satu bagian diambil. Penggunaan flow warp noise opsional sangat penting untuk mengatasi instabilitas pada model difusi yang sering kali menyebabkan objek menjadi lembek atau kehilangan integritas strukturalnya.

Proses Pelatihan dan Infrastruktur Teknis

  • Model dilatih menggunakan data sintetis dari lingkungan Kubrick yang mensimulasikan kejadian sebelum dan sesudah tabrakan fisik.
  • Instalasi memerlukan konfigurasi kontainer sebesar 100 GB pada GPU H100 dengan port spesifik 8998 untuk antarmuka web.
  • Integrasi API Gemini diperlukan untuk menghitung estimasi pose yang mendukung pembuatan Quad Mask secara presisi.

Data dunia nyata sulit didapat untuk melatih penghapusan interaksi, sehingga simulasi komputer menjadi kunci utama. Secara teknis, dokumentasi GitHub yang tersedia masih memiliki celah informasi, seperti persyaratan nama file quad_mask_0.mp4 yang spesifik dan kebutuhan model SAM3 yang tidak terdokumentasi dengan baik. Aplikasi web khusus dibangun untuk menyatukan langkah segmentasi, inferensi, dan penyempurnaan dalam satu antarmuka.

Analisis Hasil Uji Coba Film Matrix, La La Land, dan Titanic

  • Penghapusan karakter dari adegan perkelahian The Matrix menghasilkan efek visual seperti melawan hantu dengan beberapa artefak pada tangan.
  • Uji coba pada film La La Land memberikan hasil terbaik dengan transisi antar karakter yang terlihat sangat alami dan konsisten.
  • Adegan Titanic menunjukkan efek uncanny valley di mana wajah karakter yang tersisa mengalami sedikit distorsi setelah pasangannya dihapus.

Keberhasilan VOID sangat bergantung pada kompleksitas adegan dan akurasi titik segmentasi yang dipilih oleh pengguna. Pada adegan Titanic, kegagalan menghapus tangan yang memegang lengan karakter disebabkan oleh kurangnya titik segmentasi pada area tersebut. Meskipun ada artefak sisa, kemampuan model untuk menghilangkan subjek secara keseluruhan dari latar belakang yang bergerak tetap tergolong kuat.

Potensi Penggunaan Masa Depan di Industri Hiburan

  • Teknologi ini memungkinkan perubahan narasi video secara dinamis berdasarkan pilihan atau preferensi penonton.
  • Netflix berpotensi menerapkan alat ini untuk meningkatkan pengalaman interaktif seperti pada proyek Bandersnatch.
  • Pengembangan lebih lanjut dan pelatihan tambahan diprediksi akan menghilangkan artefak visual yang saat ini masih muncul.

Keterlibatan Netflix dalam pengembangan VOID mengisyaratkan ambisi untuk konten yang lebih adaptif. Kemampuan menghapus dan mengubah interaksi objek membuka peluang bagi kreator untuk memodifikasi adegan pasca-produksi tanpa perlu syuting ulang. Hal ini menandakan langkah maju dalam otomatisasi penyuntingan video yang berbasis pada pemahaman konteks, bukan sekadar manipulasi piksel.

Community Posts

View all posts