00:00:00Jadi minggu lalu, Google meluncurkan Genie 3, model dunia tanpa batas andalan mereka, di mana Anda bisa
00:00:05mensimulasikan lingkungan dan berinteraksi dengannya seperti dalam video gim sungguhan.
00:00:10Dan tiba-tiba semua saham video gim merosot tajam karena ketakutan bahwa ini mungkin menjadi
00:00:16awal dari berakhirnya industri video gim.
00:00:20Lalu sesuatu yang bahkan lebih menarik terjadi.
00:00:22Sebuah perusahaan teknologi Tiongkok bernama Robiant merilis kompetitor sumber terbuka Genie mereka sendiri, yang
00:00:28tampaknya memiliki grafis yang bahkan lebih baik daripada buatan Google.
00:00:32Dan sekarang tiba-tiba pintu persaingan terbuka lebar untuk menentukan perusahaan mana
00:00:37yang akan menjadi yang pertama menggantikan video gim tradisional dengan teknologi gim baru ini.
00:00:43Namun selagi semua orang menghebohkan tren model dunia tanpa batas yang baru ini, saya di sini untuk memberi tahu Anda bahwa ini
00:00:49mungkin hanya janji yang dilebih-lebihkan tanpa substansi nyata.
00:00:54Apa yang membuat saya begitu yakin akan hal itu?
00:00:55Nah, itulah yang akan kita bahas dalam video hari ini.
00:01:02Segera setelah Genie 3 keluar, saya bergegas ke situsnya untuk mencobanya sendiri.
00:01:07Tapi begitu saya mengeklik tombol jelajah, saya disuguhi tombol 404 yang mengecewakan.
00:01:14Dan itu karena saya tinggal di Kanada.
00:01:16Dan untuk saat ini, Google hanya mengizinkan warga Amerika Serikat untuk mencoba
00:01:20keajaiban teknologi mutakhir ini.
00:01:23Jadi tentu saja saya menyalakan VPN dan mencoba lagi dari lokasi AS.
00:01:27Dan kali ini saya menemui penolakan mengecewakan lainnya, yang menyatakan bahwa saya harus menjadi
00:01:33anggota UltraPlan untuk mengakses perangkat lunak revolusioner ini.
00:01:37Dan jika Anda bertanya-tanya berapa biaya UltraPlan, anggap saja harganya agak terlalu mahal
00:01:41dari apa yang bersedia saya bayar hanya untuk mencoba alat AI yang terlalu digembar-gemborkan ini.
00:01:46Namun ini menimbulkan pertanyaan, mengapa begitu sulit untuk mendapatkan Genie 3?
00:01:51Dan jawaban untuk pertanyaan ini akan sangat penting bagi cerita kita, tapi saya akan menjelaskannya
00:01:56nanti di video ini.
00:01:57Meskipun saya tidak beruntung atau tidak punya dana lebih untuk mencoba Genie 3, sementara itu untungnya,
00:02:04di sisi lain bumi, sebuah perusahaan Tiongkok bernama Robiant, yang tampaknya merupakan
00:02:09anak perusahaan Ant Group, yang pada gilirannya merupakan perusahaan afiliasi Alibaba Group, yang
00:02:15ternyata adalah perusahaan yang sama yang memiliki Qwen, merilis model dunia tanpa batas mereka sendiri
00:02:20bernama Lingbot World, yang mengejutkannya bersifat sumber terbuka.
00:02:25Jadi itu berarti kita benar-benar bisa mengujinya dan melihat kemampuannya.
00:02:29Dan melihat contoh-contoh mereka, tampilannya benar-benar memukau.
00:02:32Tapi begitu saya mulai memeriksa halaman proyeknya, saya mendapati kekecewaan besar lainnya.
00:02:38Meskipun halaman proyek mereka penuh dengan video contoh di mana Anda bisa bebas berjalan-jalan di
00:02:43ruang tersebut dengan tombol panah, kenyataannya, versi model yang melibatkan kontrol karakter
00:02:48penuh ini masih dalam tahap pengembangan.
00:02:51Mereka berencana untuk merilis Lingbot Fast, yang akan menjadi setara dengan Genie 3 secara penuh, tapi
00:02:56kita belum tahu kapan itu akan hadir.
00:02:57Untuk saat ini, kita mendapatkan akses ke model dasar 14 miliar parameter mereka, yang menawarkan
00:03:03kutipan “simulasi fidelitas tinggi yang dapat dikontrol dan konsisten secara logis.”
00:03:08Tapi pada dasarnya satu-satunya hal yang bisa dilakukan model ini saat ini adalah menghasilkan video.
00:03:14Ya, hanya video.
00:03:16Jadi saya agak bingung, di mana letak faktor kontrolnya?
00:03:20Nah, mereka memang memiliki opsi untuk memasukkan nilai posisi kamera intrinsik Anda sendiri, jadi Anda
00:03:25secara teknis bisa mengontrol pergerakan kamera, yang saya rasa menawarkan alternatif untuk navigasi
00:03:31menggunakan tombol panah, tapi Anda harus merekamnya terlebih dahulu.
00:03:35Apa bedanya dengan generator video AI lainnya yang juga menawarkan kemampuan untuk mengontrol
00:03:40pergerakan kamera?
00:03:41Nah, inilah perbedaan utamanya.
00:03:44Dalam generator video AI biasa, model AI mencoba untuk selalu memprediksi bingkai berikutnya saat
00:03:50video referensi berlanjut, dan kita telah melihat di banyak video meme internet betapa hancurnya
00:03:55hasilnya jika video terus berlanjut, dan itu karena model tersebut tidak menyimpan
00:04:00informasi tentang apa yang terjadi di luar bingkai.
00:04:04Jadi jika kamera menjauh dari objek lalu kembali lagi, objek tersebut mungkin tidak ada lagi di sana
00:04:09karena seluruh adegan dibuat secara instan.
00:04:13Di sinilah otak geometris 14 miliar parameter dari model Lingbot World berperan.
00:04:18Berbeda dengan generator video standar yang hanya menebak kumpulan piksel berikutnya, Lingbot World
00:04:19menggunakan data intrinsik kamera dan pose 6 derajat kebebasan untuk mencocokkan setiap piksel ke titik
00:04:24tertentu di ruang 3D.
00:04:31Ini menciptakan apa yang disebut para peneliti sebagai “ketetapan objek” karena ia memahami hubungan matematis
00:04:33antara lensa kamera dan lingkungannya.
00:04:39Jadi pada dasarnya ia mengingat bahwa objek tertentu ada pada koordinat tertentu.
00:04:42Dan integritas struktural inilah alasan mengapa model ini sangat besar dan haus daya komputasi.
00:04:47Seberapa haus?
00:04:52Aduh, biar saya beri tahu.
00:04:53Saya mencoba menerapkan model Lingbot World pada instansi dengan satu GPU RTX 1590 dan
00:04:55mencoba menjalankan demo sampel dasar yang mereka sediakan dan langsung macet seketika.
00:05:02Naif sekali bagi saya untuk berpikir bahwa satu 1590 akan mampu menangani beban itu.
00:05:07Lalu saya mencoba menjalankannya dengan dua 1590 dan tidak, tetap macet.
00:05:13Lalu saya mencobanya dengan 4 1590 dan sekali lagi, tetap macet.
00:05:18Lalu saya menjalankan kontainer dengan 8 RTX 1590 dan mencoba menjalankan contoh demo dasar dan
00:05:23masih tetap macet.
00:05:31Lihat, alasannya adalah saat menjalankan model dunia tanpa batas ini untuk waktu yang lama,
00:05:32jumlah memori yang harus disimpan model ini tentang adegan terus bertambah besar dan besar
00:05:38sampai pada titik di mana Anda akan mendapatkan kesalahan memori penuh karena kehabisan
00:05:44RAM.
00:05:49Tapi saya berhasil menjalankan demo sampel pada pengaturan 8 GPU dengan menurunkan ukuran sampel
00:05:50dari default 70 menjadi hanya 20.
00:05:55Dan sejujurnya, perbedaan antara 70 dan 20 sampel tidak terlalu terlihat.
00:05:59Tapi ini menunjukkan betapa mahalnya biaya komputasi untuk menjalankan model dunia tanpa batas ini.
00:06:03Dan kembali ke Genie 3, inilah alasan mengapa mereka hanya memberikan akses kepada anggota Ultra
00:06:09karena mereka perlu memulihkan biaya GPU untuk menjalankan hal ini.
00:06:10Dan ini juga alasan mengapa Anda hanya mendapatkan durasi beberapa detik untuk satu demo karena pada suatu
00:06:16titik memorinya membengkak hingga ke titik di mana seluruh sistem akan hancur.
00:06:21Dan untuk memberi Anda gambaran betapa mahalnya menjalankan model seperti itu pada perangkat keras tingkat
00:06:27konsumen, satu RTX 1590 harganya mencapai $5.000.
00:06:32Sekarang kalikan dengan 8, yang merupakan syarat minimum untuk menjalankan hal ini.
00:06:37Bahkan mengatakannya saja terdengar konyol.
00:06:43Tapi bagaimanapun, 8 GPU itu akan memakan biaya hingga $40.000, belum lagi komponen lain
00:06:48dan RAM yang harganya juga sedang meledak sekarang.
00:06:51Dan jika Anda memperhitungkan itu, angka ini, ditambah batas waktu tayang maksimal 60 detik yang
00:06:57diterapkan Genie, ditambah masalah memori RAM yang membengkak adalah alasan
00:07:01mengapa seluruh hal model dunia tanpa batas ini hanyalah sensasi dan tidak benar-benar bisa
00:07:06dicapai pada perangkat keras konsumen dengan arsitektur yang kita miliki sekarang.
00:07:12Dan bahkan para pembuat dari kedua alat ini mengakui masalah-masalah ini.
00:07:18Biaya inferensi yang tinggi saat ini memerlukan GPU kelas perusahaan, yang membuat teknologinya
00:07:24tidak dapat diakses pada perangkat keras konsumen.
00:07:28Simulasi ini kurang memiliki stabilitas jangka panjang.
00:07:34Ini sering menyebabkan pergeseran lingkungan di mana adegan secara bertahap kehilangan
00:07:37integritas struktural selama durasi yang diperpanjang.
00:07:39Tepat sekali.
00:07:44Dan setidaknya tim Lingbot bersikap terbuka tentang hal itu.
00:07:46Mari kita lihat apa yang dikatakan Google tentang hal ini.
00:07:48Model ini dapat mendukung beberapa menit interaksi berkelanjutan daripada berjam-jam.
00:07:51Maksud saya, mereka tidak mengakuinya secara terbuka, tetapi pada titik ini kita semua tahu mengapa demikian.
00:07:53Itu sebabnya saya katakan kepada kalian, video gim tradisional tidak akan hilang dalam waktu dekat.
00:07:59Ini sepertinya hanya angan-angan belaka saat ini dan mungkin, mungkin saja, di masa depan, jika mereka
00:08:04menemukan cara untuk menyelesaikan masalah komputasi ini, kita baru bisa mulai memikirkannya.
00:08:09Tapi sekarang, ayolah.
00:08:15Saya juga sangat penasaran ingin mencoba Lingbot Fast ketika akhirnya tiba.
00:08:20Tapi sampai saat itu, saya rasa teknologi ini tidak akan menjadi arus utama dalam waktu dekat.
00:08:23Tapi jika Anda penasaran ingin mencoba Lingbot World sendiri, inilah saran saya.
00:08:27Jangan lakukan apa yang saya lakukan.
00:08:32Jangan menumpuk delapan RTX 1590 bersama-sama karena konfigurasi seperti itu pada platform seperti RunPod
00:08:37akan menguras $7 setiap jam waktu pakainya.
00:08:38Sebaliknya, jalankan satu kontainer H200, yang hanya berbiaya $3,50 per jam dan setel
00:08:45flag “nproc/node” ke 1 dan mungkin turunkan jumlah sampel menjadi 50 atau bahkan 20 dan Anda akan
00:08:48baik-baik saja.
00:08:55Anda juga bisa menggunakan versi kuantisasi 4-bit dari model ini, yang dibuat oleh pengguna Caelan Humphries,
00:09:01yang secara signifikan mengurangi konsumsi memori GPU sambil mempertahankan kualitas visual yang sebanding
00:09:02untuk inferensi.
00:09:08Jadi secara teknis Anda bisa mencoba menjalankannya pada satu RTX 1590.
00:09:13Dan jika Anda melakukannya, beri tahu saya bagaimana hasilnya.
00:09:15Adapun saya sendiri, saya menjalankan demo dasar pada kontainer H200 dan ya, pada dasarnya mendapatkan
00:09:19hasil yang sama seperti halaman demo mereka.
00:09:21Dan kemudian saya menghasilkan gambar AI tentang Viking yang bertarung melawan Loki dan memasukkan gambar ini ke
00:09:28perintah yang sama.
00:09:30Dan inilah hasil yang saya dapatkan.
00:09:36Saya rasa Anda bisa melihat bagaimana model tersebut menjaga integritas lingkungan dan kastil
00:09:37sepanjang video, tetapi tetap saja menghasilkan beberapa artefak yang aneh.
00:09:39Jadi sejujurnya, saya tidak tahu harus berpikir apa.
00:09:44Saya cukup yakin bisa membuat video gameplay yang lebih baik menggunakan pipeline Comfy UI standar, yang
00:09:48omong-omong, jika Anda tertarik mempelajari cara membuat generator video sendiri seperti Sora
00:09:52tanpa biaya komputasi yang besar, tonton video yang saya buat beberapa waktu lalu tentang topik itu.
00:09:59Jadi begitulah, kawan-kawan, itulah pendapat saya tentang Genie 3 dan semua sensasinya serta masa depan
00:10:04video gim.
00:10:09Saya sangat menghargai tim di balik Lingbot yang menjadikan model mereka sumber terbuka sehingga kita bisa mendapatkan
00:10:15wawasan yang lebih baik tentang cara kerja model seperti Genie.
00:10:16Tapi itu hanyalah pendapat saya mengenai topik ini.
00:10:20Lebih penting lagi, apa pendapat Anda tentang model dunia tanpa batas ini?
00:10:25Saya penasaran ingin tahu pendapat Anda, jadi sampaikan pemikiran Anda di kolom komentar di
00:10:27bawah.
00:10:30Dan kawan-kawan, jika menurut Anda video ini bermanfaat, beri tahu saya dengan menekan tombol suka di bawah
00:10:35video.
00:10:36Dan juga jangan lupa untuk berlangganan saluran kami untuk video-video lain seperti ini.
00:10:40Saya Andris dari Better Stack dan sampai jumpa di video-video berikutnya.
00:10:41(musik ceria)
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)