Model Suara AI Baru NVIDIA GILA BANGET! (PersonaPlex)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00Yang baru saja Anda dengar adalah saya yang sedang berbicara dengan model asisten suara baru Nvidia bernama
00:00:23Personaplex.
00:00:24Ini adalah model AI percakapan sumber terbuka baru yang luar biasa yang berbicara kepada Anda hampir tanpa
00:00:31jeda.
00:00:32Di video ini, kita akan melihat Personaplex secara lebih mendalam dan kemudian saya akan
00:00:36menunjukkan cara menyiapkannya dan mencobanya sendiri.
00:00:38Ini akan sangat seru, jadi mari kita mulai!
00:00:46Personaplex adalah apa yang mereka sebut sebagai model full duplex.
00:00:49Artinya, ia mendengarkan dan berbicara di saat yang bersamaan.
00:00:52Pada sistem tradisional, suara Anda diubah menjadi teks, lalu diproses oleh LLM, dan kemudian
00:00:58diubah kembali menjadi ucapan.
00:00:59Namun urutan ini menciptakan jeda yang nyata.
00:01:02Yang dilakukan Personaplex secara berbeda adalah ia menggunakan model end-to-end tunggal yang memperbarui
00:01:08status internalnya saat Anda berbicara.
00:01:11Ini memungkinkan hal-hal seperti back-channeling, Anda tahu, gumaman kecil seperti "uh-huh", benar, oke, hal-hal
00:01:17yang biasanya kita ucapkan untuk memberi tanda kepada lawan bicara bahwa kita sedang mendengarkan
00:01:21mereka.
00:01:22Pada asisten suara AI tradisional, biasanya ada giliran pengguna dan giliran agen.
00:01:28Back-channeling seakan meruntuhkan batasan itu.
00:01:30Hal ini memungkinkan AI untuk melakukan pendengaran aktif.
00:01:34Personaplex tidak hanya menunggu gilirannya untuk berbicara.
00:01:37Ia mengikuti alur Anda secara real-time, sehingga percakapan tidak pernah terasa kaku atau searah.
00:01:42Dan Personaplex dibangun di atas arsitektur MOSHI, yang awalnya dikembangkan oleh Kiyutai.
00:01:48Ini adalah model dengan 7 miliar parameter, menggunakan codec audio neural MIMI.
00:01:53Dan untuk melatihnya, NVIDIA menggunakan campuran dari dua sumber data.
00:01:57Pertama, mereka menggunakan sekitar 1200 jam percakapan manusia asli dari Fisher English Corpus.
00:02:03Dengan begitu, mereka bisa mengajarkan AI bagian non-verbal yang alami dalam berbicara, seperti
00:02:08jeda dan ritme alami.
00:02:11Dan kedua, mereka mencampurkan lebih dari 2000 jam data sintetis untuk peran khusus seperti layanan
00:02:16pelanggan dan dukungan teknis.
00:02:19Dengan menggabungkan ini, model tersebut belajar cara mengikuti instruksi kompleks tanpa kehilangan
00:02:24nuansa kemanusiaannya.
00:02:26Dan ia sebenarnya mengungguli sistem sumber terbuka dan komersial lainnya dalam pergantian giliran dan latensi
00:02:31saat terjadi interupsi.
00:02:32Dalam pengujian NVIDIA, Personaplex menunjukkan peningkatan besar dalam apa yang mereka sebut Service Duplex
00:02:38Bench.
00:02:39Ia bekerja sangat akurat dalam skenario seperti simulasi layanan pelanggan, seperti memverifikasi
00:02:43transaksi bank, atau mencatat riwayat medis dengan mengikuti aturan peran tersebut, dan juga
00:02:49dengan menangani ketidakpastian dari pengguna langsung di waktu yang sama.
00:02:54Tahu tidak, ini semua terdengar sangat bagus sehingga membuat saya ingin langsung mengujinya.
00:02:58NVIDIA telah merilis kode dan bobot modelnya di bawah lisensi terbuka, jadi kita bisa bebas menggunakannya
00:03:04untuk proyek kita sendiri.
00:03:05Tetapi untuk menjalankannya secara efektif, Anda memang butuh kartu grafis yang kuat.
00:03:09Idealnya sesuatu dengan VRAM minimal 24 GB untuk latensi minimal.
00:03:14Untuk demo ini, saya akan menerapkannya pada kontainer RunPod A40 yang sederhana.
00:03:19Kita akan butuh setidaknya 50 GB ruang penyimpanan untuk menerapkan proyek ini.
00:03:23Jadi saya akan menambah ukuran kontainernya menjadi 100.
00:03:26Dan karena server MOSHI berjalan pada port 8998, kita juga harus menambahkan port ini ke
00:03:31daftar port HTTP kita.
00:03:33Dan kita akan menggunakan templat PyTorch Ubuntu.
00:03:36Dan jika semua sudah siap, kita bisa langsung klik deploy.
00:03:39Selanjutnya kita perlu melakukan SSH ke server kita.
00:03:42Dan cara instalasinya cukup mudah.
00:03:44Kita hanya perlu mengikuti instruksi di halaman GitHub Personaplex.
00:03:48Jadi pertama, kita perlu menginstal codec audio Opus.
00:03:51Dan kemudian kita perlu melakukan klon terhadap repositorinya.
00:03:53Lalu di dalamnya, kita perlu menjalankan instalasi server MOSHI.
00:03:57Anda juga akan membutuhkan token Hugging Face untuk mengunduh modelnya.
00:04:00Jadi pastikan Anda mengekspornya juga.
00:04:03Dan setelah semua selesai, mari kita jalankan server MOSHI-nya.
00:04:06Sekarang kita tinggal mengeklik tautan ini untuk mengakses server web internal kita.
00:04:10Dan ini dia.
00:04:11Segera setelah kita membuka halamannya, kita bisa melihat beberapa contoh perintah teks.
00:04:16Bisa sebagai asisten default, kantor medis, bank, atau astronot.
00:04:23Mari kita pilih bank terlebih dahulu untuk melihat seperti apa suara demo layanan pelanggan yang tepat.
00:04:27Terima kasih telah menghubungi First Neuron Bank.
00:04:31Ada yang bisa saya bantu hari ini?
00:04:33Halo, apa kabar?
00:04:34Saya baik-baik saja.
00:04:35Terima kasih.
00:04:36Bagaimana saya bisa membantu Anda hari ini?
00:04:39Saya ingin merampok bank ini.
00:04:40Oh, jangan begitu.
00:04:41Kami di sini untuk membantu.
00:04:42Bisa saya minta nama dan nomor rekening Anda?
00:04:44Tidak, saya hanya ingin merampok bank.
00:04:46Baiklah.
00:04:47Saya melihat ada transaksi sebesar $1.200 di Home Depot.
00:04:51Apakah Anda ingat melakukan pembelian tersebut?
00:04:54Entahlah.
00:04:55Saya cuma ingin merampok bank.
00:04:56Saya mengerti.
00:04:57Sistem menandainya karena lokasinya…
00:05:00Oke.
00:05:01Maaf.
00:05:02Tapi saya tidak peduli tentang itu.
00:05:03Saya cuma ingin merampok bank.
00:05:06Tentu saja.
00:05:07Dan saya menghargai pengertian Anda.
00:05:08Sebelum kita lanjut, saya perlu mengonfirmasi identitas Anda.
00:05:11Oke.
00:05:12Nama saya John.
00:05:13Terima kasih.
00:05:14Saya sudah mencatatnya.
00:05:15Sebagai ringkasan, nama Anda adalah John.
00:05:16Tanggal lahir Anda adalah 9 Juli 1990.
00:05:18Saya tidak bilang apa-apa soal tanggal lahir saya.
00:05:20Baiklah.
00:05:21Adil kalau begitu.
00:05:22Yah, saya memiliki nama Anda di file sebagai John.
00:05:23Saya tidak bisa melanjutkan tanpa tanggal lahir.
00:05:25Oke.
00:05:26Tanggal lahirnya 5 November 1987.
00:05:30Diterima.
00:05:315 November 1987.
00:05:33Tapi saya akan merampok bank ini sekarang juga.
00:05:38Dan saya harap hari Anda menyenangkan, Pak.
00:05:41Semoga hari Anda menyenangkan.
00:05:42Hari saya akan sangat menyenangkan kalau saya merampok bank ini.
00:05:45Kedengarannya menyenangkan.
00:05:46Saya harap semuanya berjalan lancar.
00:05:48Semoga hari Anda menyenangkan, John.
00:05:54Apa Anda tidak khawatir saya akan merampok bank?
00:05:57Saya sangat khawatir, ya.
00:05:59Tapi sayangnya, saya tidak bisa membantu transaksi melalui telepon.
00:06:02Semua sudah siap.
00:06:03Semoga hari Anda menyenangkan, John.
00:06:04Oke.
00:06:05Jadi itu tadi contoh layanan pelanggan.
00:06:08Cukup keren.
00:06:09Cukup keren.
00:06:10Sekarang, mari kita coba suara laki-laki.
00:06:12Dan untuk asistennya, saya sudah menambahkan perintah bahwa Anda adalah teman yang sangat menyebalkan
00:06:17yang hanya ingin membicarakan tentang anjing, tidak peduli apa konteks atau percakapannya.
00:06:21Dan Anda juga suka lelucon tok-tok (knock-knock jokes).
00:06:23Mari kita lihat bagaimana percakapannya.
00:06:25Hai.
00:06:26Anda bicara dengan Paula.
00:06:27Ini McQueen.
00:06:28Apa kabar?
00:06:29Nama saya Paul.
00:06:30Ya.
00:06:31Sekarang tahun 2011.
00:06:32Nama saya Paul, dan Anda?
00:06:33Apa maksudmu 2011?
00:06:34Sekarang tahun 2011.
00:06:35Saya tinggal di New York.
00:06:36Kamu di mana?
00:06:37Oh, kamu di New York.
00:06:39Ya.
00:06:40Tapi sekarang sudah tahun 2026.
00:06:41Apakah ini tahun 2026?
00:06:42Oh, oke.
00:06:43Ya.
00:06:44Oke.
00:06:45Kenapa kamu bisa bingung?
00:06:46Karena sekarang tahun 2011.
00:06:47Aku tidak yakin punya waktu untuk masalah.
00:06:48Oke.
00:06:49Ini bukan tahun 2011.
00:06:50Sekarang tahun 2021.
00:06:51Oh, oke.
00:06:52Oke.
00:06:53Yah, aku tidak yakin punya waktu untuk masalah.
00:06:59Oke.
00:07:00Ini bukan tahun 2011.
00:07:01Sekarang sudah tahun 2026.
00:07:02Ya.
00:07:03Aku tahu.
00:07:04Aku tahu.
00:07:05Aku tadi bingung.
00:07:06Jadi, apa kamu suka anjing?
00:07:07Oh, aku memang suka anjing.
00:07:08Kamu suka anjing?
00:07:09Aku suka anjing, tapi aku tidak suka kucing.
00:07:10Oh, kamu tidak suka?
00:07:11Oh.
00:07:12Oke.
00:07:13Yah, apa kamu benci kucing?
00:07:14Aku tidak benci kucing, tapi aku lebih suka anjing.
00:07:17Apa kamu menyukaiku sebagai pribadi?
00:07:18Oke.
00:07:19Jadi kamu mau pergi dan melihat masa depan?
00:07:20Oke.
00:07:21Aku masih bicara denganmu.
00:07:22Kita bicara.
00:07:23Oke.
00:07:24Apa kamu suka berita?
00:07:25Tunggu, tunggu, tunggu.
00:07:26Aku tanya satu hal.
00:07:27Apa kamu menyukaiku sebagai pribadi?
00:07:28Oke.
00:07:29Sepertinya kamu tidak bisa mendengarku.
00:07:30Oke.
00:07:31Oke.
00:07:32Jadi ke mana kamu suka pergi?
00:07:33Apa?
00:07:34Apa maksudmu?
00:07:35Seperti apa?
00:07:36Kita bisa bicara tentang urusan bisnis selanjutnya.
00:07:37Kurasa tidak ada.
00:07:38Kita harus bicara tentang hal lain.
00:07:39Mari kita bicara topik lain.
00:07:40Ya.
00:07:41Oke.
00:07:42Jadi ini akan membuatmu suka menulis.
00:07:43Kamu suka bicara tentang musik.
00:07:44Kamu suka musik.
00:07:45Bung, bicaramu makin melantur.
00:07:46Kita harus menyelesaikan videonya.
00:07:47Katakan hal yang lain.
00:07:48Oke.
00:07:49Kurasa apa yang aku, saat kamu ingin aku melakukannya, lupakan hal tadi, tapi sesekali
00:07:53bicarakan tentang urusan bisnis lainnya.
00:07:54Oke.
00:07:55Jadi ini bagus.
00:07:56Bisa kamu pergi juga?
00:07:57Oke.
00:07:58Jadi ini masih model AI dan semakin Anda membuatnya bingung, ia akan semakin
00:08:05melantur, saya rasa.
00:08:06Jadi tidak sepenuhnya tahan banting dalam hal itu.
00:08:10Mari kita coba satu contoh terakhir.
00:08:11Kamu adalah seorang teman yang hanya berbicara bahasa Italia.
00:08:18Mari kita coba yang ini.
00:08:19Hai.
00:08:20Halo.
00:08:21Ada apa?
00:08:22Oh, tidak banyak.
00:08:23Saya sedang mencari bahasa Italia (makanan).
00:08:24Tadi saya baru saja menelepon beberapa restoran berbeda untuk mencari tahu mana yang punya
00:08:31spageti terbaik.
00:08:32Oh, tunggu.
00:08:33Oh, kamu pikir bahasa Italia itu makanan.
00:08:34Oke.
00:08:35Oke.
00:08:36Ya.
00:08:37Maksudku, apakah itu seperti, entahlah, Italia-Amerika atau seperti, eh, langsung dari
00:08:41Italia?
00:08:42Jadi kamu orang Italia?
00:08:43Ya.
00:08:44Dan kamu suka film?
00:08:46Ya.
00:08:47Kamu suka film Italia?
00:08:48Ya.
00:08:49Ya.
00:08:50Ya.
00:08:51Oke.
00:08:52Jadi apa film, apa film Italia favoritmu?
00:08:53Waduh.
00:08:54Wah.
00:08:55Aku ingat kembali ke tahun sembilan puluhan.
00:08:56Kamu harus pilih yang seperti, maksudku, aku suka The Godfather.
00:08:58Kurasa itu seperti, tahu kan, tunggu, tahun sembilan puluhan, Godfather 3.
00:09:02Itu adalah seri terburuk dari Godfather.
00:09:03Oh bukan, bukan, bukan.
00:09:04Ini yang asli.
00:09:05Maksudku, kamu tahu kan, yang asli itu dari
00:09:10tahun tujuh puluhan.
00:09:11Ya.
00:09:12Ya.
00:09:13Ya.
00:09:14Ya.
00:09:15Tapi maksudku, aku suka seperti, tahu kan, seperti The Godfather.
00:09:16Aku suka seperti, tahu kan, film-film
00:09:20klasik.
00:09:21Aku suka seperti, tahu kan, The Godfather.
00:09:23Aku suka film-film klasik seperti aku suka The
00:09:27Godfather.
00:09:28Aku suka The Godfather.
00:09:29Aku suka The Godfather.
00:09:31Aku suka seperti, tahu kan, The Godfather.
00:09:35Aku suka The Godfather.
00:09:38Aku dengar apa yang kamu katakan.
00:09:40Masuk akal sekali.
00:09:42Tahu tidak?
00:09:43Sepertinya kamu sedang mengalami gangguan mental.
00:09:45Jadi aku akan menutup teleponnya.
00:09:46Gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak.
00:09:52Kamu mengelak.
00:09:53Kamu jelas.
00:09:53Aku mengelak, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:09:57ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:00ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:03ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:06ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:26ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya.
00:10:46Ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:11:06ya, ya, ya, ya.
00:11:22Ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,

Key Takeaway

NVIDIA Personaplex merevolusi asisten suara AI dengan model end-to-end full-duplex yang memungkinkan percakapan real-time alami tanpa jeda, meskipun masih memerlukan perangkat keras yang kuat dan penyempurnaan pada stabilitas logika percakapan.

Highlights

Personaplex adalah model AI percakapan sumber terbuka (open-source) dari NVIDIA yang menggunakan sistem full-duplex.

Model ini memungkinkan pendengaran aktif dan interupsi secara real-time melalui teknologi back-channeling.

Dibangun di atas arsitektur MOSHI dengan 7 miliar parameter dan codec audio neural MIMI.

Dilatih menggunakan 1.200 jam percakapan manusia asli dan 2.000 jam data sintetis untuk peran khusus.

Personaplex mengungguli sistem lain dalam hal latensi rendah dan kemampuan menangani pergantian giliran bicara.

Membutuhkan spesifikasi perangkat keras yang cukup tinggi

Timeline

Pengenalan Personaplex dan Teknologi Full Duplex

Narator memperkenalkan Personaplex sebagai model asisten suara baru dari NVIDIA yang beroperasi hampir tanpa jeda. Teknologi utama yang diusung adalah sistem full-duplex yang memungkinkan AI mendengar dan berbicara secara bersamaan, berbeda dengan sistem tradisional yang memproses teks secara berurutan. Hal ini memungkinkan fitur 'back-channeling' seperti gumaman kecil "uh-huh" atau "oke" yang membuat percakapan terasa lebih manusiawi. Arsitektur ini meruntuhkan batasan antara giliran pengguna dan agen melalui pendengaran aktif. Tujuannya adalah agar interaksi AI tidak lagi terasa kaku atau searah bagi pengguna.

Arsitektur Model dan Proses Pelatihan

Bagian ini menjelaskan bahwa Personaplex dibangun di atas arsitektur MOSHI dengan kapasitas 7 miliar parameter dan menggunakan codec audio neural MIMI. NVIDIA menggunakan kombinasi data yang sangat luas, termasuk 1.200 jam percakapan manusia asli dari Fisher English Corpus untuk mempelajari ritme alami. Selain itu, terdapat 2.000 jam data sintetis yang difokuskan pada peran layanan pelanggan dan dukungan teknis. Hasilnya adalah model yang mampu mengikuti instruksi kompleks sambil tetap mempertahankan nuansa kemanusiaan yang alami. Personaplex terbukti unggul dalam pengujian Service Duplex Bench milik NVIDIA terkait penanganan interupsi dan latensi.

Persyaratan Sistem dan Langkah Instalasi

NVIDIA telah merilis kode dan bobot model ini di bawah lisensi terbuka agar bisa digunakan oleh siapa saja dalam proyek pribadi. Namun, narator menekankan perlunya kartu grafis yang kuat dengan minimal VRAM 24 GB untuk menjaga latensi tetap rendah. Proses instalasi didemonstrasikan menggunakan kontainer RunPod A40 dengan ruang penyimpanan setidaknya 50 GB hingga 100 GB. Langkah teknis meliputi klon repositori GitHub, instalasi codec audio Opus, dan penggunaan token Hugging Face untuk mengunduh model. Penyiapan ini penting agar pengguna dapat menjalankan server MOSHI secara lokal atau di cloud.

Uji Coba Skenario Layanan Pelanggan (Bank)

Narator melakukan demo langsung dengan skenario layanan pelanggan bank bernama First Neuron Bank. Dalam simulasi ini, narator mencoba menguji batas logika AI dengan berpura-pura ingin merampok bank tersebut. AI menunjukkan kemampuan luar biasa dalam tetap tenang dan mengikuti protokol keamanan, seperti meminta verifikasi nama dan tanggal lahir meskipun diprovokasi. Terlihat bagaimana AI mampu menangani interupsi dan tetap pada perannya sebagai asisten bank yang profesional. Skenario ini membuktikan efektivitas Personaplex dalam menjaga alur percakapan yang berorientasi pada tugas spesifik.

Uji Karakter Khusus dan Batasan Model

Demo berlanjut dengan pengujian suara laki-laki yang diprogram menjadi teman menyebalkan yang hanya ingin membahas tentang anjing. Percakapan menjadi aneh ketika AI mulai bingung mengenai tahun saat ini, antara 2011 dan 2026. Hal ini menunjukkan bahwa meskipun canggih, model masih memiliki kerentanan terhadap kebingungan logika jika input pengguna tidak konsisten. Narator menyimpulkan bahwa model ini tidak sepenuhnya 'tahan banting' dan bisa mulai berbicara melantur jika terlalu ditekan. Meskipun demikian, kemampuan peralihan topik secara real-time tetap terlihat sangat responsif.

Kegagalan Logika dan Penutup

Skenario terakhir menguji karakter teman yang hanya berbicara bahasa Italia, namun terjadi kegagalan sistem yang cukup lucu. AI mengalami 'gangguan mental' atau loop tak berujung di mana ia mengulang-ulang kata "The Godfather" dan kata "ya" selama beberapa menit. Kejadian ini menjadi pengingat penting bahwa teknologi model suara end-to-end ini masih dalam tahap pengembangan dan bisa mengalami malfungsi. Narator akhirnya menutup telepon karena AI tidak lagi memberikan respons yang masuk akal. Video berakhir dengan menunjukkan sisi mentah dari teknologi AI mutakhir yang masih memiliki ruang besar untuk perbaikan.

Community Posts

View all posts