Model AI Netflix Ini Bisa Menghapus Aktor Mana Pun dari Adegan Mana Pun (Bedah Model VOID)
BBetter Stack
컴퓨터/소프트웨어영화사진/예술AI/미래기술
Transcript
00:00:00Wah, kelihatannya agak menyedihkan, kasihan Kate Winslet, ya ampun, berdiri sendirian di sana, dengan
00:00:09tanpa Jack.
00:00:11Netflix baru saja merilis alat AI sumber terbuka yang sangat menarik bernama Video Object and Interaction
00:00:17Deletion atau VOID.
00:00:19Sebagian besar alat video AI sudah mahir dalam menghapus objek, itu bukan hal baru.
00:00:24Tapi mereka sangat buruk dalam menghapus konsekuensi dari objek-objek tersebut di dalam adegan.
00:00:29Sebagai contoh, jika Anda menghapus bola bowling yang mengenai pin, sebagian besar model membiarkan pin
00:00:34jatuh tanpa alasan, tetapi VOID mencoba memperbaiki masalah ini.
00:00:39Ini adalah kerangka kerja baru dari Netflix dan Insight yang memahami sebab dan akibat serta mengubah
00:00:44konten video berdasarkan objek yang dihapus.
00:00:47Jadi dalam video ini, kita akan melihat lebih dekat model ini, melihat cara kerjanya, dan saya sebenarnya
00:00:52membangun aplikasi web untuk menguji model ini dengan segala kemampuannya, jadi kita akan melakukan beberapa tes video
00:00:57sendiri.
00:00:58Ini akan sangat menyenangkan, jadi mari kita mulai.
00:01:05Jadi VOID adalah singkatan dari Video Object and Interaction Deletion.
00:01:09Untuk memahami mengapa ini sangat penting, Anda harus melihat bagaimana inpainting video biasanya
00:01:15bekerja.
00:01:16Penghapus AI standar pada dasarnya adalah content-aware fill yang jauh lebih canggih.
00:01:20Mereka melihat piksel di sekitar lubang dan mencoba menebak apa yang seharusnya ada di sana.
00:01:24Ini berfungsi untuk tanda air atau orang yang diam, tetapi gagal saat ada
00:01:29interaksi fisik.
00:01:31Jika Anda menghapus gadis yang sedang membuat smoothie di blender, AI biasa akan menghapus orangnya,
00:01:36tapi akan membiarkan blender tetap berputar dan mengaduk tanpa alasan.
00:01:40Ini memperbaiki tampilan, tetapi mengabaikan fisika objek lain di sekitarnya.
00:01:46VOID dirancang untuk memecahkan masalah interaksi hantu tersebut dengan membayangkan realitas kontrafaktual.
00:01:53Pada dasarnya versi video di mana objek atau orang tersebut tidak pernah ada sejak
00:01:57awal.
00:01:58Dan cara ia melakukannya sebenarnya cukup cerdas.
00:02:01Ia tidak langsung mulai melukis.
00:02:03Sebaliknya, ia menggunakan sistem dua tahap.
00:02:06Pada langkah pertama, mereka melakukan fase penalaran.
00:02:08Pertama, VOID menggunakan vision language model dan SAM2 atau Segment Anything Model 2 untuk melihat
00:02:15adegannya.
00:02:16Saya sebenarnya membuat video terpisah tentang cara kerja SAM2, jadi tontonlah jika Anda tertarik.
00:02:22Jadi selagi SAM2 membuat pelacakan piksel yang sempurna dari objek yang ingin Anda hapus, AI akan bertanya
00:02:28pada dirinya sendiri, "Jika saya menghapus ini, apa lagi yang berubah?"
00:02:32Jika Anda menghapus satu domino dari tumpukan domino, AI mengidentifikasi bahwa domino lainnya secara kausal
00:02:38terpengaruh.
00:02:39Ia kemudian membuat apa yang disebut peneliti sebagai "Quad Mask", peta khusus yang memberi tahu
00:02:44model difusi tidak hanya bagian mana yang harus dihapus, tetapi di mana harus menulis ulang fisika dari area
00:02:50sekitarnya.
00:02:51Dan kemudian langkah kedua adalah pembuatan dan penyempurnaan.
00:02:54Setelah peta itu dibuat, model difusi video menghasilkan cuplikan baru.
00:03:00Kadang-kadang model ini bisa agak tidak stabil, seperti objek yang mungkin berubah bentuk atau kehilangan bentuknya.
00:03:05Jadi untuk memperbaikinya, VOID memiliki tahap kedua opsional.
00:03:08Ia menggunakan sesuatu yang disebut flow warp noise untuk mengunci bentuk-bentuk tersebut, memastikan bahwa
00:03:14sementara fisikanya berubah, objek yang tersisa tetap padat dan konsisten.
00:03:19Tapi Anda mungkin bertanya-tanya, bagaimana cara mengajari AI tentang apa yang tidak terjadi?
00:03:23Tim di Netflix dan Insight tidak bisa begitu saja merekam kecelakaan mobil lalu membatalkannya di
00:03:28kehidupan nyata untuk mendapatkan data pelatihan.
00:03:30Sebaliknya, mereka menggunakan lingkungan sintetis seperti Kubrick.
00:03:34Mereka menjalankan ribuan simulasi fisika di mana mereka memiliki versi sebelum dan sesudah.
00:03:40Satu versi dengan tabrakan dan satu versi di mana objek tersebut tidak pernah ada.
00:03:44Dengan menunjukkan kedua versi kepada AI, ia mempelajari hubungan antara keberadaan objek dan
00:03:49dampaknya terhadap lingkungan.
00:03:51Semua itu terdengar sangat menarik, tapi mari kita uji langsung alat ini sendiri.
00:03:57Cara terbaik untuk menjalankannya adalah dengan menggunakan cloud GPU seperti modul RunPod yang berjalan pada
00:04:02GPU H100 atau yang setara.
00:04:05Tapi saya akan katakan langsung, menyiapkannya sama sekali tidak mudah.
00:04:10Dokumentasi GitHub memiliki banyak celah dan informasi yang menyesatkan.
00:04:14Jadi agar bisa berfungsi dengan benar, ada beberapa hal yang harus Anda perhatikan.
00:04:18Misalnya, perintah ini kemungkinan besar akan gagal karena mereka tidak pernah menyebutkan bahwa Anda memerlukan
00:04:23model SAM3 untuk prosedur ini.
00:04:25Dan perintah ini mungkin gagal karena mereka tidak pernah menyebutkan bahwa quad mask harus dinamai
00:04:30secara spesifik quad mask underscore zero dot MP4 agar berfungsi dengan baik.
00:04:35Jadi ada banyak masalah kecil seperti ini yang tidak didokumentasikan di sini.
00:04:38Dan demo Gradio mereka bagus jika Anda sudah memiliki mask yang disegmentasi dengan SAM2, tetapi mereka
00:04:44tidak menyediakan antarmuka pengguna grafis untuk benar-benar membuat mask tersebut.
00:04:48Jadi yang saya lakukan adalah membangun aplikasi web khusus yang memperbaiki semua masalah ini dan menyediakan
00:04:54UI yang siap pakai yang melalui langkah segmentasi, langkah inferensi, dan
00:05:00bahkan sistem dua tahap.
00:05:02Jadi Anda tinggal mengunggah video Anda, mensegmentasi mask, dan merender hasil akhirnya.
00:05:07Dan itulah tepatnya yang akan kita lakukan sekarang.
00:05:09Pertama, Anda harus menjalankan instans RunPod dengan GPU yang kuat.
00:05:14Saya akan menggunakan H100 untuk pengujian ini.
00:05:17Dan di bagian templat, pastikan Anda meningkatkan ukuran kontainer menjadi 100 gigabita.
00:05:22Dan di bagian port, tambahkan port 8998 karena di sinilah kita akan mengekspos
00:05:27aplikasi web kita.
00:05:29Lalu yang perlu Anda lakukan adalah SSH ke dalam pod, klon repo saya, masuk ke foldernya, dan jalankan perintah run dot
00:05:36SSH.
00:05:38Dan itu juga akan meminta Anda memberikan token Hugging Face agar Anda bisa mengunduh
00:05:42model-modelnya dan pastikan juga Anda memiliki akses ke repositori SAM3 karena ini adalah model
00:05:48terbatas dan Anda perlu meminta izin untuk menggunakannya.
00:05:51Tapi biasanya prosesnya cukup cepat dan Anda disetujui dalam beberapa menit.
00:05:55Dan kemudian Anda juga memerlukan kunci API Gemini karena dalam langkah segmentasi, model tersebut
00:06:00menggunakan Gemini untuk menentukan estimasi pose demi pembuatan quad mask yang presisi.
00:06:06Baiklah.
00:06:07Dan jika Anda memiliki kedua kredensial tersebut, biarkan perintah run dot SSH menginstal semuanya.
00:06:13Setelah selesai, kita sekarang bisa meluncurkan aplikasi web dengan perintah berikut yang diuraikan
00:06:18di sini.
00:06:19Dan sekarang di halaman RunPod, Anda harus mengeklik port ini dan itu akan membuka
00:06:24aplikasi web kita.
00:06:25Dan sekarang kita akhirnya bisa mulai menguji modelnya.
00:06:28Untuk pengujian pertama saya, saya akan menggunakan adegan terkenal dari The Matrix ini dan saya akan mencoba menghapus
00:06:32Neo dari adegan tersebut dan melihat apa yang terjadi.
00:06:35Hal pertama yang harus Anda lakukan adalah menentukan prompt instruksi penghapusan.
00:06:41Dalam hal ini, kita bisa menentukan sesuatu seperti hapus petarung berbaju kimono putih dari
00:06:45adegan tersebut.
00:06:46Setelah itu, kita masuk ke bagian di mana Anda mensegmentasi beberapa titik di sekitar
00:06:51objek atau orang yang ingin Anda hapus sehingga model SAM2 tahu bentuk mana yang harus difokuskan
00:06:57lalu tentukan folder output tempat kita akan menyimpan file hasil kita.
00:07:02Dan Anda harus mengingat nama folder ini karena ini akan menjadi pengidentifikasi unik
00:07:06yang akan kita gunakan di tab lain untuk mengidentifikasi video mana yang sedang kita kerjakan.
00:07:11Setelah itu, kita bisa lanjut ke tab kedua, yang akan menjalankan langkah segmentasi kita dan menjalankan
00:07:16prosesnya.
00:07:17Setelah selesai, kita bisa pindah ke tab tiga, yaitu langkah inferensi, di mana
00:07:22model akan benar-benar mencoba menghapus objek atau orang yang diinginkan.
00:07:26Dan di sini kita perlu mengetikkan nama folder itu lagi.
00:07:29Dan di sini kita perlu menentukan prompt yang menjelaskan seperti apa rupa video tersebut tanpa
00:07:34keberadaan objek atau orang yang kita hapus.
00:07:37Jadi dalam kasus kita, itu akan menjadi sesuatu seperti petarung berbaju kimono gelap berdiri di dalam
00:07:42sasana.
00:07:43Dan mereka juga menyarankan untuk tidak menyebutkan objek atau orang yang dihapus, cukup fokus pada
00:07:48apa yang seharusnya ada di video dan jalankan langkah inferensi.
00:07:52Setelah itu selesai, kita sekarang bisa menuju ke tab hasil dan melihat video akhir kita.
00:07:58Sekali lagi, kita perlu menentukan folder videonya.
00:08:01Dan itu dia.
00:08:03Lihat itu.
00:08:04Ya, sepertinya Morpheus sedang melawan hantu.
00:08:07Kita bisa melihat ada beberapa ketidakkonsistenan pada penghapusan tangan dan hal lainnya.
00:08:12Jadi ini tidak sempurna, tapi ada hal lain yang bisa kita lakukan untuk mencoba meningkatkannya.
00:08:18Kita sekarang bisa menjalankannya melalui filter tahap kedua, yaitu tab empat, untuk mencoba mendapatkan hasil yang lebih baik.
00:08:24Dan setelah menjalankan tahap kedua, kita sekarang mendapatkan jendela tambahan di mana kita melihat
00:08:29hasil dari tahap kedua.
00:08:32Sekali lagi, ini masih terlihat agak aneh.
00:08:34Masih terasa seperti Morpheus sedang melawan hantu atau menari atau semacamnya.
00:08:39Jadi seperti yang Anda lihat, ini tidak berhasil untuk setiap adegan.
00:08:42Beberapa adegan akan terlihat sangat aneh, tapi model ini melakukan pekerjaan yang baik dalam menghapus Neo dari
00:08:48adegan tersebut sepenuhnya.
00:08:49Meskipun begitu, mari kita coba dua contoh menyenangkan lainnya.
00:08:53Inilah adegan menari yang terkenal dari La La Land.
00:08:56Dan di sini saya akan mencoba menghapus Emma Stone dari adegan tersebut dan melihat apa yang terjadi.
00:09:01Wah, lihat itu.
00:09:03Ini terlihat hampir tanpa celah.
00:09:05Saya benar-benar percaya bahwa Ryan Gosling hanya menari sendirian di sini.
00:09:09Dan Anda lihat saat di mana Emma Stone lewat di depan Ryan Gosling.
00:09:13Transisi ini hampir mulus.
00:09:15Kita bisa melihat beberapa artefak kecil, tapi sebagian besar, wah, ini hasil yang menakjubkan.
00:09:21Dari semua hasil yang saya uji, yang ini adalah yang terbaik.
00:09:24Dan entah kenapa, saya pikir ini akan menjadi contoh yang paling sulit untuk dijalankan.
00:09:28Tapi secara mengejutkan, ini memberikan hasil terbaik dari semua tes yang saya lakukan.
00:09:33Baiklah.
00:09:34Saya ingin mencoba satu contoh lagi.
00:09:35Dan kali ini, saya ingin mencoba menghapus Leonardo DiCaprio dari adegan terkenal Titanic dan
00:09:41melihat apa yang terjadi.
00:09:42Oh, wah, itu terlihat agak menyedihkan.
00:09:48Kasihan Kate Winslet.
00:09:49Ya ampun.
00:09:50Berdiri sendirian di sana tanpa Jack.
00:09:53Itu terlihat menarik.
00:09:55Kita bisa melihat bahwa model ini melakukan pekerjaan yang baik dalam menghapus Leo dari adegan.
00:09:59Meskipun kita bisa melihat beberapa artefak sisa di lengan Kate Winslet.
00:10:03Dan ya ampun, ini sangat menyeramkan.
00:10:06Masih ada sisa tangan menyeramkan yang memegang lengan Kate di sisi lain.
00:10:10Oh tidak.
00:10:11Saya tidak bisa berhenti memikirkannya sekarang.
00:10:14Sejujurnya, ini kesalahan saya karena saya tidak mensegmentasi titik-titik spesifik tersebut untuk dihapus
00:10:19dalam langkah segmentasi.
00:10:21Jadi itu salah saya.
00:10:23Dan kita juga melihat wajah Kate Winslet sedikit berubah.
00:10:26Jadi memang ada sedikit efek uncanny valley yang terjadi di sini.
00:10:30Secara keseluruhan, saya pikir alat ini melakukan apa yang diiklankan.
00:10:33Ini hanya masalah video tertentu dan sifat dari video tersebut.
00:10:37Tentu saja, kita tidak bisa memaksa Morpheus untuk diam saja di adegan ini.
00:10:41Tapi jika kita melihat beberapa contoh lain di halaman proyek mereka, hasilnya benar-benar luar biasa.
00:10:46Jadi saya pikir model ini memang memiliki kemampuan yang solid dan mungkin dengan pelatihan ekstra,
00:10:51hasilnya bisa lebih baik lagi.
00:10:52Begitulah kawan-kawan.
00:10:53Itulah model VOID secara singkat.
00:10:55Sejujurnya, saya sangat senang menguji ini.
00:10:58Dan karena ini dikembangkan oleh Netflix, saya sebenarnya sangat penasaran ingin tahu untuk apa mereka akan menggunakan
00:11:03ini?
00:11:04Mungkinkah ini digunakan untuk mengubah beberapa narasi video berdasarkan preferensi atau pilihan pengguna?
00:11:09Sama halnya dengan cara Netflix menambahkan jenis pengalaman interaktif pilih petualanganmu sendiri
00:11:15pada acara Black Mirror Bandersnatch?
00:11:17Kalian ingat itu?
00:11:18Siapa yang tahu?
00:11:19Tapi bagaimanapun juga, akan sangat menarik untuk melihat bagaimana penggunaan alat ini berkembang ke
00:11:23depannya.
00:11:24Nah, apa pendapat Anda tentang kerangka kerja ini?
00:11:27Kasus penggunaan seperti apa yang menurut Anda cocok untuk alat ini?
00:11:30Beri tahu kami pendapat Anda di kolom komentar di bawah.
00:11:33Dan kawan-kawan, jika kalian menyukai analisis teknis seperti ini, beri tahu saya dengan menekan
00:11:37tombol suka di bawah video ini.
00:11:39Dan jangan lupa juga untuk berlangganan saluran kami.
00:11:42Saya Andres dari Better Stack dan sampai jumpa di video-video berikutnya.