Hype AI Genie 3 Terbaru dari Google Perlu Dicermati Lebih Lanjut

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00Jadi minggu lalu, Google meluncurkan Genie 3, model dunia tanpa batas andalan mereka, di mana Anda bisa
00:00:05mensimulasikan lingkungan dan berinteraksi dengannya seperti dalam video gim sungguhan.
00:00:10Dan tiba-tiba semua saham video gim merosot tajam karena ketakutan bahwa ini mungkin menjadi
00:00:16awal dari berakhirnya industri video gim.
00:00:20Lalu sesuatu yang bahkan lebih menarik terjadi.
00:00:22Sebuah perusahaan teknologi Tiongkok bernama Robiant merilis kompetitor sumber terbuka Genie mereka sendiri, yang
00:00:28tampaknya memiliki grafis yang bahkan lebih baik daripada buatan Google.
00:00:32Dan sekarang tiba-tiba pintu persaingan terbuka lebar untuk menentukan perusahaan mana
00:00:37yang akan menjadi yang pertama menggantikan video gim tradisional dengan teknologi gim baru ini.
00:00:43Namun selagi semua orang menghebohkan tren model dunia tanpa batas yang baru ini, saya di sini untuk memberi tahu Anda bahwa ini
00:00:49mungkin hanya janji yang dilebih-lebihkan tanpa substansi nyata.
00:00:54Apa yang membuat saya begitu yakin akan hal itu?
00:00:55Nah, itulah yang akan kita bahas dalam video hari ini.
00:01:02Segera setelah Genie 3 keluar, saya bergegas ke situsnya untuk mencobanya sendiri.
00:01:07Tapi begitu saya mengeklik tombol jelajah, saya disuguhi tombol 404 yang mengecewakan.
00:01:14Dan itu karena saya tinggal di Kanada.
00:01:16Dan untuk saat ini, Google hanya mengizinkan warga Amerika Serikat untuk mencoba
00:01:20keajaiban teknologi mutakhir ini.
00:01:23Jadi tentu saja saya menyalakan VPN dan mencoba lagi dari lokasi AS.
00:01:27Dan kali ini saya menemui penolakan mengecewakan lainnya, yang menyatakan bahwa saya harus menjadi
00:01:33anggota UltraPlan untuk mengakses perangkat lunak revolusioner ini.
00:01:37Dan jika Anda bertanya-tanya berapa biaya UltraPlan, anggap saja harganya agak terlalu mahal
00:01:41dari apa yang bersedia saya bayar hanya untuk mencoba alat AI yang terlalu digembar-gemborkan ini.
00:01:46Namun ini menimbulkan pertanyaan, mengapa begitu sulit untuk mendapatkan Genie 3?
00:01:51Dan jawaban untuk pertanyaan ini akan sangat penting bagi cerita kita, tapi saya akan menjelaskannya
00:01:56nanti di video ini.
00:01:57Meskipun saya tidak beruntung atau tidak punya dana lebih untuk mencoba Genie 3, sementara itu untungnya,
00:02:04di sisi lain bumi, sebuah perusahaan Tiongkok bernama Robiant, yang tampaknya merupakan
00:02:09anak perusahaan Ant Group, yang pada gilirannya merupakan perusahaan afiliasi Alibaba Group, yang
00:02:15ternyata adalah perusahaan yang sama yang memiliki Qwen, merilis model dunia tanpa batas mereka sendiri
00:02:20bernama Lingbot World, yang mengejutkannya bersifat sumber terbuka.
00:02:25Jadi itu berarti kita benar-benar bisa mengujinya dan melihat kemampuannya.
00:02:29Dan melihat contoh-contoh mereka, tampilannya benar-benar memukau.
00:02:32Tapi begitu saya mulai memeriksa halaman proyeknya, saya mendapati kekecewaan besar lainnya.
00:02:38Meskipun halaman proyek mereka penuh dengan video contoh di mana Anda bisa bebas berjalan-jalan di
00:02:43ruang tersebut dengan tombol panah, kenyataannya, versi model yang melibatkan kontrol karakter
00:02:48penuh ini masih dalam tahap pengembangan.
00:02:51Mereka berencana untuk merilis Lingbot Fast, yang akan menjadi setara dengan Genie 3 secara penuh, tapi
00:02:56kita belum tahu kapan itu akan hadir.
00:02:57Untuk saat ini, kita mendapatkan akses ke model dasar 14 miliar parameter mereka, yang menawarkan
00:03:03kutipan “simulasi fidelitas tinggi yang dapat dikontrol dan konsisten secara logis.”
00:03:08Tapi pada dasarnya satu-satunya hal yang bisa dilakukan model ini saat ini adalah menghasilkan video.
00:03:14Ya, hanya video.
00:03:16Jadi saya agak bingung, di mana letak faktor kontrolnya?
00:03:20Nah, mereka memang memiliki opsi untuk memasukkan nilai posisi kamera intrinsik Anda sendiri, jadi Anda
00:03:25secara teknis bisa mengontrol pergerakan kamera, yang saya rasa menawarkan alternatif untuk navigasi
00:03:31menggunakan tombol panah, tapi Anda harus merekamnya terlebih dahulu.
00:03:35Apa bedanya dengan generator video AI lainnya yang juga menawarkan kemampuan untuk mengontrol
00:03:40pergerakan kamera?
00:03:41Nah, inilah perbedaan utamanya.
00:03:44Dalam generator video AI biasa, model AI mencoba untuk selalu memprediksi bingkai berikutnya saat
00:03:50video referensi berlanjut, dan kita telah melihat di banyak video meme internet betapa hancurnya
00:03:55hasilnya jika video terus berlanjut, dan itu karena model tersebut tidak menyimpan
00:04:00informasi tentang apa yang terjadi di luar bingkai.
00:04:04Jadi jika kamera menjauh dari objek lalu kembali lagi, objek tersebut mungkin tidak ada lagi di sana
00:04:09karena seluruh adegan dibuat secara instan.
00:04:13Di sinilah otak geometris 14 miliar parameter dari model Lingbot World berperan.
00:04:18Berbeda dengan generator video standar yang hanya menebak kumpulan piksel berikutnya, Lingbot World
00:04:19menggunakan data intrinsik kamera dan pose 6 derajat kebebasan untuk mencocokkan setiap piksel ke titik
00:04:24tertentu di ruang 3D.
00:04:31Ini menciptakan apa yang disebut para peneliti sebagai “ketetapan objek” karena ia memahami hubungan matematis
00:04:33antara lensa kamera dan lingkungannya.
00:04:39Jadi pada dasarnya ia mengingat bahwa objek tertentu ada pada koordinat tertentu.
00:04:42Dan integritas struktural inilah alasan mengapa model ini sangat besar dan haus daya komputasi.
00:04:47Seberapa haus?
00:04:52Aduh, biar saya beri tahu.
00:04:53Saya mencoba menerapkan model Lingbot World pada instansi dengan satu GPU RTX 1590 dan
00:04:55mencoba menjalankan demo sampel dasar yang mereka sediakan dan langsung macet seketika.
00:05:02Naif sekali bagi saya untuk berpikir bahwa satu 1590 akan mampu menangani beban itu.
00:05:07Lalu saya mencoba menjalankannya dengan dua 1590 dan tidak, tetap macet.
00:05:13Lalu saya mencobanya dengan 4 1590 dan sekali lagi, tetap macet.
00:05:18Lalu saya menjalankan kontainer dengan 8 RTX 1590 dan mencoba menjalankan contoh demo dasar dan
00:05:23masih tetap macet.
00:05:31Lihat, alasannya adalah saat menjalankan model dunia tanpa batas ini untuk waktu yang lama,
00:05:32jumlah memori yang harus disimpan model ini tentang adegan terus bertambah besar dan besar
00:05:38sampai pada titik di mana Anda akan mendapatkan kesalahan memori penuh karena kehabisan
00:05:44RAM.
00:05:49Tapi saya berhasil menjalankan demo sampel pada pengaturan 8 GPU dengan menurunkan ukuran sampel
00:05:50dari default 70 menjadi hanya 20.
00:05:55Dan sejujurnya, perbedaan antara 70 dan 20 sampel tidak terlalu terlihat.
00:05:59Tapi ini menunjukkan betapa mahalnya biaya komputasi untuk menjalankan model dunia tanpa batas ini.
00:06:03Dan kembali ke Genie 3, inilah alasan mengapa mereka hanya memberikan akses kepada anggota Ultra
00:06:09karena mereka perlu memulihkan biaya GPU untuk menjalankan hal ini.
00:06:10Dan ini juga alasan mengapa Anda hanya mendapatkan durasi beberapa detik untuk satu demo karena pada suatu
00:06:16titik memorinya membengkak hingga ke titik di mana seluruh sistem akan hancur.
00:06:21Dan untuk memberi Anda gambaran betapa mahalnya menjalankan model seperti itu pada perangkat keras tingkat
00:06:27konsumen, satu RTX 1590 harganya mencapai $5.000.
00:06:32Sekarang kalikan dengan 8, yang merupakan syarat minimum untuk menjalankan hal ini.
00:06:37Bahkan mengatakannya saja terdengar konyol.
00:06:43Tapi bagaimanapun, 8 GPU itu akan memakan biaya hingga $40.000, belum lagi komponen lain
00:06:48dan RAM yang harganya juga sedang meledak sekarang.
00:06:51Dan jika Anda memperhitungkan itu, angka ini, ditambah batas waktu tayang maksimal 60 detik yang
00:06:57diterapkan Genie, ditambah masalah memori RAM yang membengkak adalah alasan
00:07:01mengapa seluruh hal model dunia tanpa batas ini hanyalah sensasi dan tidak benar-benar bisa
00:07:06dicapai pada perangkat keras konsumen dengan arsitektur yang kita miliki sekarang.
00:07:12Dan bahkan para pembuat dari kedua alat ini mengakui masalah-masalah ini.
00:07:18Biaya inferensi yang tinggi saat ini memerlukan GPU kelas perusahaan, yang membuat teknologinya
00:07:24tidak dapat diakses pada perangkat keras konsumen.
00:07:28Simulasi ini kurang memiliki stabilitas jangka panjang.
00:07:34Ini sering menyebabkan pergeseran lingkungan di mana adegan secara bertahap kehilangan
00:07:37integritas struktural selama durasi yang diperpanjang.
00:07:39Tepat sekali.
00:07:44Dan setidaknya tim Lingbot bersikap terbuka tentang hal itu.
00:07:46Mari kita lihat apa yang dikatakan Google tentang hal ini.
00:07:48Model ini dapat mendukung beberapa menit interaksi berkelanjutan daripada berjam-jam.
00:07:51Maksud saya, mereka tidak mengakuinya secara terbuka, tetapi pada titik ini kita semua tahu mengapa demikian.
00:07:53Itu sebabnya saya katakan kepada kalian, video gim tradisional tidak akan hilang dalam waktu dekat.
00:07:59Ini sepertinya hanya angan-angan belaka saat ini dan mungkin, mungkin saja, di masa depan, jika mereka
00:08:04menemukan cara untuk menyelesaikan masalah komputasi ini, kita baru bisa mulai memikirkannya.
00:08:09Tapi sekarang, ayolah.
00:08:15Saya juga sangat penasaran ingin mencoba Lingbot Fast ketika akhirnya tiba.
00:08:20Tapi sampai saat itu, saya rasa teknologi ini tidak akan menjadi arus utama dalam waktu dekat.
00:08:23Tapi jika Anda penasaran ingin mencoba Lingbot World sendiri, inilah saran saya.
00:08:27Jangan lakukan apa yang saya lakukan.
00:08:32Jangan menumpuk delapan RTX 1590 bersama-sama karena konfigurasi seperti itu pada platform seperti RunPod
00:08:37akan menguras $7 setiap jam waktu pakainya.
00:08:38Sebaliknya, jalankan satu kontainer H200, yang hanya berbiaya $3,50 per jam dan setel
00:08:45flag “nproc/node” ke 1 dan mungkin turunkan jumlah sampel menjadi 50 atau bahkan 20 dan Anda akan
00:08:48baik-baik saja.
00:08:55Anda juga bisa menggunakan versi kuantisasi 4-bit dari model ini, yang dibuat oleh pengguna Caelan Humphries,
00:09:01yang secara signifikan mengurangi konsumsi memori GPU sambil mempertahankan kualitas visual yang sebanding
00:09:02untuk inferensi.
00:09:08Jadi secara teknis Anda bisa mencoba menjalankannya pada satu RTX 1590.
00:09:13Dan jika Anda melakukannya, beri tahu saya bagaimana hasilnya.
00:09:15Adapun saya sendiri, saya menjalankan demo dasar pada kontainer H200 dan ya, pada dasarnya mendapatkan
00:09:19hasil yang sama seperti halaman demo mereka.
00:09:21Dan kemudian saya menghasilkan gambar AI tentang Viking yang bertarung melawan Loki dan memasukkan gambar ini ke
00:09:28perintah yang sama.
00:09:30Dan inilah hasil yang saya dapatkan.
00:09:36Saya rasa Anda bisa melihat bagaimana model tersebut menjaga integritas lingkungan dan kastil
00:09:37sepanjang video, tetapi tetap saja menghasilkan beberapa artefak yang aneh.
00:09:39Jadi sejujurnya, saya tidak tahu harus berpikir apa.
00:09:44Saya cukup yakin bisa membuat video gameplay yang lebih baik menggunakan pipeline Comfy UI standar, yang
00:09:48omong-omong, jika Anda tertarik mempelajari cara membuat generator video sendiri seperti Sora
00:09:52tanpa biaya komputasi yang besar, tonton video yang saya buat beberapa waktu lalu tentang topik itu.
00:09:59Jadi begitulah, kawan-kawan, itulah pendapat saya tentang Genie 3 dan semua sensasinya serta masa depan
00:10:04video gim.
00:10:09Saya sangat menghargai tim di balik Lingbot yang menjadikan model mereka sumber terbuka sehingga kita bisa mendapatkan
00:10:15wawasan yang lebih baik tentang cara kerja model seperti Genie.
00:10:16Tapi itu hanyalah pendapat saya mengenai topik ini.
00:10:20Lebih penting lagi, apa pendapat Anda tentang model dunia tanpa batas ini?
00:10:25Saya penasaran ingin tahu pendapat Anda, jadi sampaikan pemikiran Anda di kolom komentar di
00:10:27bawah.
00:10:30Dan kawan-kawan, jika menurut Anda video ini bermanfaat, beri tahu saya dengan menekan tombol suka di bawah
00:10:35video.
00:10:36Dan juga jangan lupa untuk berlangganan saluran kami untuk video-video lain seperti ini.
00:10:40Saya Andris dari Better Stack dan sampai jumpa di video-video berikutnya.
00:10:41(musik ceria)
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

Meskipun model dunia tanpa batas seperti Genie 3 dan Lingbot World menawarkan masa depan revolusioner bagi simulasi interaktif, kendala biaya komputasi yang masif dan ketidakstabilan teknis membuat teknologi ini belum siap menggantikan industri video gim tradisional dalam waktu dekat.

Highlights

Peluncuran Google Genie 3 memicu kekhawatiran akan berakhirnya industri video gim tradisional.

Robiant

Timeline

Munculnya Era Model Dunia Tanpa Batas

Video dimulai dengan pembahasan mengenai peluncuran Genie 3 oleh Google yang mampu mensimulasikan lingkungan interaktif layaknya video gim sungguhan. Fenomena ini menyebabkan kepanikan di pasar saham industri gim karena dianggap sebagai ancaman eksistensial bagi pengembang gim tradisional. Di saat yang sama, perusahaan Tiongkok bernama Robiant merilis kompetitor sumber terbuka yang memiliki kualitas grafis lebih unggul. Persaingan ini membuka babak baru dalam perlombaan teknologi simulasi dunia digital. Namun, narator menekankan bahwa kehebohan ini mungkin hanya sekadar janji yang dilebih-lebihkan tanpa landasan substansi yang kuat saat ini.

Hambatan Akses dan Eksklusivitas Google Genie 3

Narator menceritakan pengalamannya yang mengecewakan saat mencoba mengakses Genie 3 dari Kanada yang berujung pada pesan kesalahan 404. Ternyata, Google membatasi akses alat ini hanya untuk pengguna di Amerika Serikat dan mewajibkan langganan Ultra Plan yang sangat mahal. Pembatasan ketat ini menimbulkan pertanyaan besar mengenai alasan di balik sulitnya mendapatkan akses ke teknologi tersebut. Narator menduga bahwa biaya operasional yang sangat tinggi menjadi alasan utama mengapa Google tidak membukanya untuk publik secara luas. Bagian ini menyoroti bahwa teknologi revolusioner seringkali terhambat oleh masalah ketersediaan geografis dan biaya ekonomi.

Analisis Model Sumber Terbuka Lingbot World

Karena sulit mengakses Genie 3, narator beralih ke Lingbot World dari Robiant yang bersifat sumber terbuka dan berafiliasi dengan Alibaba Group. Meskipun video demonya terlihat sangat impresif dengan kemampuan navigasi karakter, kenyataannya fitur kontrol penuh tersebut masih dalam tahap pengembangan. Saat ini, pengguna hanya bisa mengakses model dasar dengan 14 miliar parameter yang utamanya berfungsi sebagai generator video. Perbedaan utamanya terletak pada kemampuan kontrol posisi kamera secara intrinsik yang harus direkam terlebih dahulu. Hal ini menunjukkan bahwa meskipun disebut model dunia, fungsionalitas interaktifnya masih sangat terbatas pada tahap awal ini.

Kekuatan Otak Geometris dan Ketetapan Objek

Bagian ini menjelaskan perbedaan teknis antara generator video AI biasa dengan model dunia seperti Lingbot World. Generator video standar sering kali gagal mempertahankan konsistensi objek saat kamera bergerak menjauh dan kembali lagi. Lingbot World menggunakan data posisi kamera dan pose 6 derajat kebebasan untuk memastikan setiap piksel terhubung ke titik spesifik dalam ruang 3D. Konsep ini disebut sebagai "ketetapan objek" yang memungkinkan model untuk mengingat koordinat objek secara matematis. Namun, pemahaman geometris yang mendalam inilah yang menyebabkan model tersebut membutuhkan daya komputasi yang sangat besar dan haus memori.

Uji Coba Perangkat Keras dan Masalah Memori

Narator melakukan pengujian ekstrem menggunakan hingga 8 unit GPU RTX 1590, namun aplikasi tetap mengalami kegagalan sistem atau "crash". Penyebab utamanya adalah konsumsi RAM yang membengkak drastis saat model harus menyimpan informasi lingkungan dalam durasi yang lama. Masalah memori penuh ini menjelaskan mengapa demo Genie 3 biasanya hanya berlangsung selama beberapa detik saja. Biaya untuk menjalankan simulasi ini pada perangkat keras tingkat konsumen sangat tidak masuk akal bagi kebanyakan orang. Hal ini membuktikan bahwa arsitektur perangkat keras saat ini masih menjadi penghambat utama bagi adopsi massal teknologi model dunia.

Realitas Ekonomi dan Keterbatasan Teknis

Investasi untuk membangun sistem dengan 8 GPU RTX 1590 bisa mencapai $40.000, sebuah angka yang dianggap konyol untuk penggunaan personal. Tingginya biaya inferensi ini memaksa penggunaan GPU kelas perusahaan yang tidak terjangkau oleh masyarakat umum. Selain biaya, masalah stabilitas jangka panjang menyebabkan lingkungan simulasi sering mengalami pergeseran bentuk atau kehilangan integritas struktural. Bahkan Google secara tersirat mengakui bahwa model mereka hanya bisa bertahan beberapa menit, bukan berjam-jam seperti gim video tradisional. Narator menyimpulkan bahwa video gim konvensional tidak akan tergantikan dalam waktu dekat karena masalah komputasi yang belum terpecahkan.

Solusi Alternatif dan Demonstrasi Hasil

Sebagai penutup, narator memberikan saran bagi mereka yang ingin mencoba Lingbot World tanpa harus menghabiskan banyak uang. Disarankan untuk menggunakan GPU H200 di platform cloud dan menurunkan jumlah sampel atau menggunakan versi kuantisasi 4-bit yang lebih hemat memori. Narator menunjukkan hasil uji cobanya sendiri menggunakan gambar Viking yang bertarung melawan Loki, di mana integritas kastil tetap terjaga namun masih terdapat artefak visual. Meskipun memberikan apresiasi pada tim Lingbot yang membuka kodenya, narator tetap merasa pipeline AI standar masih bisa memberikan hasil yang lebih baik. Video diakhiri dengan ajakan untuk berdiskusi di kolom komentar mengenai masa depan teknologi simulasi dunia ini.

Community Posts

View all posts