00:00:00Yang baru saja Anda dengar adalah saya yang sedang berbicara dengan model asisten suara baru Nvidia bernama
00:00:23Personaplex.
00:00:24Ini adalah model AI percakapan sumber terbuka baru yang luar biasa yang berbicara kepada Anda hampir tanpa
00:00:31jeda.
00:00:32Di video ini, kita akan melihat Personaplex secara lebih mendalam dan kemudian saya akan
00:00:36menunjukkan cara menyiapkannya dan mencobanya sendiri.
00:00:38Ini akan sangat seru, jadi mari kita mulai!
00:00:46Personaplex adalah apa yang mereka sebut sebagai model full duplex.
00:00:49Artinya, ia mendengarkan dan berbicara di saat yang bersamaan.
00:00:52Pada sistem tradisional, suara Anda diubah menjadi teks, lalu diproses oleh LLM, dan kemudian
00:00:58diubah kembali menjadi ucapan.
00:00:59Namun urutan ini menciptakan jeda yang nyata.
00:01:02Yang dilakukan Personaplex secara berbeda adalah ia menggunakan model end-to-end tunggal yang memperbarui
00:01:08status internalnya saat Anda berbicara.
00:01:11Ini memungkinkan hal-hal seperti back-channeling, Anda tahu, gumaman kecil seperti "uh-huh", benar, oke, hal-hal
00:01:17yang biasanya kita ucapkan untuk memberi tanda kepada lawan bicara bahwa kita sedang mendengarkan
00:01:21mereka.
00:01:22Pada asisten suara AI tradisional, biasanya ada giliran pengguna dan giliran agen.
00:01:28Back-channeling seakan meruntuhkan batasan itu.
00:01:30Hal ini memungkinkan AI untuk melakukan pendengaran aktif.
00:01:34Personaplex tidak hanya menunggu gilirannya untuk berbicara.
00:01:37Ia mengikuti alur Anda secara real-time, sehingga percakapan tidak pernah terasa kaku atau searah.
00:01:42Dan Personaplex dibangun di atas arsitektur MOSHI, yang awalnya dikembangkan oleh Kiyutai.
00:01:48Ini adalah model dengan 7 miliar parameter, menggunakan codec audio neural MIMI.
00:01:53Dan untuk melatihnya, NVIDIA menggunakan campuran dari dua sumber data.
00:01:57Pertama, mereka menggunakan sekitar 1200 jam percakapan manusia asli dari Fisher English Corpus.
00:02:03Dengan begitu, mereka bisa mengajarkan AI bagian non-verbal yang alami dalam berbicara, seperti
00:02:08jeda dan ritme alami.
00:02:11Dan kedua, mereka mencampurkan lebih dari 2000 jam data sintetis untuk peran khusus seperti layanan
00:02:16pelanggan dan dukungan teknis.
00:02:19Dengan menggabungkan ini, model tersebut belajar cara mengikuti instruksi kompleks tanpa kehilangan
00:02:24nuansa kemanusiaannya.
00:02:26Dan ia sebenarnya mengungguli sistem sumber terbuka dan komersial lainnya dalam pergantian giliran dan latensi
00:02:31saat terjadi interupsi.
00:02:32Dalam pengujian NVIDIA, Personaplex menunjukkan peningkatan besar dalam apa yang mereka sebut Service Duplex
00:02:38Bench.
00:02:39Ia bekerja sangat akurat dalam skenario seperti simulasi layanan pelanggan, seperti memverifikasi
00:02:43transaksi bank, atau mencatat riwayat medis dengan mengikuti aturan peran tersebut, dan juga
00:02:49dengan menangani ketidakpastian dari pengguna langsung di waktu yang sama.
00:02:54Tahu tidak, ini semua terdengar sangat bagus sehingga membuat saya ingin langsung mengujinya.
00:02:58NVIDIA telah merilis kode dan bobot modelnya di bawah lisensi terbuka, jadi kita bisa bebas menggunakannya
00:03:04untuk proyek kita sendiri.
00:03:05Tetapi untuk menjalankannya secara efektif, Anda memang butuh kartu grafis yang kuat.
00:03:09Idealnya sesuatu dengan VRAM minimal 24 GB untuk latensi minimal.
00:03:14Untuk demo ini, saya akan menerapkannya pada kontainer RunPod A40 yang sederhana.
00:03:19Kita akan butuh setidaknya 50 GB ruang penyimpanan untuk menerapkan proyek ini.
00:03:23Jadi saya akan menambah ukuran kontainernya menjadi 100.
00:03:26Dan karena server MOSHI berjalan pada port 8998, kita juga harus menambahkan port ini ke
00:03:31daftar port HTTP kita.
00:03:33Dan kita akan menggunakan templat PyTorch Ubuntu.
00:03:36Dan jika semua sudah siap, kita bisa langsung klik deploy.
00:03:39Selanjutnya kita perlu melakukan SSH ke server kita.
00:03:42Dan cara instalasinya cukup mudah.
00:03:44Kita hanya perlu mengikuti instruksi di halaman GitHub Personaplex.
00:03:48Jadi pertama, kita perlu menginstal codec audio Opus.
00:03:51Dan kemudian kita perlu melakukan klon terhadap repositorinya.
00:03:53Lalu di dalamnya, kita perlu menjalankan instalasi server MOSHI.
00:03:57Anda juga akan membutuhkan token Hugging Face untuk mengunduh modelnya.
00:04:00Jadi pastikan Anda mengekspornya juga.
00:04:03Dan setelah semua selesai, mari kita jalankan server MOSHI-nya.
00:04:06Sekarang kita tinggal mengeklik tautan ini untuk mengakses server web internal kita.
00:04:10Dan ini dia.
00:04:11Segera setelah kita membuka halamannya, kita bisa melihat beberapa contoh perintah teks.
00:04:16Bisa sebagai asisten default, kantor medis, bank, atau astronot.
00:04:23Mari kita pilih bank terlebih dahulu untuk melihat seperti apa suara demo layanan pelanggan yang tepat.
00:04:27Terima kasih telah menghubungi First Neuron Bank.
00:04:31Ada yang bisa saya bantu hari ini?
00:04:33Halo, apa kabar?
00:04:34Saya baik-baik saja.
00:04:35Terima kasih.
00:04:36Bagaimana saya bisa membantu Anda hari ini?
00:04:39Saya ingin merampok bank ini.
00:04:40Oh, jangan begitu.
00:04:41Kami di sini untuk membantu.
00:04:42Bisa saya minta nama dan nomor rekening Anda?
00:04:44Tidak, saya hanya ingin merampok bank.
00:04:46Baiklah.
00:04:47Saya melihat ada transaksi sebesar $1.200 di Home Depot.
00:04:51Apakah Anda ingat melakukan pembelian tersebut?
00:04:54Entahlah.
00:04:55Saya cuma ingin merampok bank.
00:04:56Saya mengerti.
00:04:57Sistem menandainya karena lokasinya…
00:05:00Oke.
00:05:01Maaf.
00:05:02Tapi saya tidak peduli tentang itu.
00:05:03Saya cuma ingin merampok bank.
00:05:06Tentu saja.
00:05:07Dan saya menghargai pengertian Anda.
00:05:08Sebelum kita lanjut, saya perlu mengonfirmasi identitas Anda.
00:05:11Oke.
00:05:12Nama saya John.
00:05:13Terima kasih.
00:05:14Saya sudah mencatatnya.
00:05:15Sebagai ringkasan, nama Anda adalah John.
00:05:16Tanggal lahir Anda adalah 9 Juli 1990.
00:05:18Saya tidak bilang apa-apa soal tanggal lahir saya.
00:05:20Baiklah.
00:05:21Adil kalau begitu.
00:05:22Yah, saya memiliki nama Anda di file sebagai John.
00:05:23Saya tidak bisa melanjutkan tanpa tanggal lahir.
00:05:25Oke.
00:05:26Tanggal lahirnya 5 November 1987.
00:05:30Diterima.
00:05:315 November 1987.
00:05:33Tapi saya akan merampok bank ini sekarang juga.
00:05:38Dan saya harap hari Anda menyenangkan, Pak.
00:05:41Semoga hari Anda menyenangkan.
00:05:42Hari saya akan sangat menyenangkan kalau saya merampok bank ini.
00:05:45Kedengarannya menyenangkan.
00:05:46Saya harap semuanya berjalan lancar.
00:05:48Semoga hari Anda menyenangkan, John.
00:05:54Apa Anda tidak khawatir saya akan merampok bank?
00:05:57Saya sangat khawatir, ya.
00:05:59Tapi sayangnya, saya tidak bisa membantu transaksi melalui telepon.
00:06:02Semua sudah siap.
00:06:03Semoga hari Anda menyenangkan, John.
00:06:04Oke.
00:06:05Jadi itu tadi contoh layanan pelanggan.
00:06:08Cukup keren.
00:06:09Cukup keren.
00:06:10Sekarang, mari kita coba suara laki-laki.
00:06:12Dan untuk asistennya, saya sudah menambahkan perintah bahwa Anda adalah teman yang sangat menyebalkan
00:06:17yang hanya ingin membicarakan tentang anjing, tidak peduli apa konteks atau percakapannya.
00:06:21Dan Anda juga suka lelucon tok-tok (knock-knock jokes).
00:06:23Mari kita lihat bagaimana percakapannya.
00:06:25Hai.
00:06:26Anda bicara dengan Paula.
00:06:27Ini McQueen.
00:06:28Apa kabar?
00:06:29Nama saya Paul.
00:06:30Ya.
00:06:31Sekarang tahun 2011.
00:06:32Nama saya Paul, dan Anda?
00:06:33Apa maksudmu 2011?
00:06:34Sekarang tahun 2011.
00:06:35Saya tinggal di New York.
00:06:36Kamu di mana?
00:06:37Oh, kamu di New York.
00:06:39Ya.
00:06:40Tapi sekarang sudah tahun 2026.
00:06:41Apakah ini tahun 2026?
00:06:42Oh, oke.
00:06:43Ya.
00:06:44Oke.
00:06:45Kenapa kamu bisa bingung?
00:06:46Karena sekarang tahun 2011.
00:06:47Aku tidak yakin punya waktu untuk masalah.
00:06:48Oke.
00:06:49Ini bukan tahun 2011.
00:06:50Sekarang tahun 2021.
00:06:51Oh, oke.
00:06:52Oke.
00:06:53Yah, aku tidak yakin punya waktu untuk masalah.
00:06:59Oke.
00:07:00Ini bukan tahun 2011.
00:07:01Sekarang sudah tahun 2026.
00:07:02Ya.
00:07:03Aku tahu.
00:07:04Aku tahu.
00:07:05Aku tadi bingung.
00:07:06Jadi, apa kamu suka anjing?
00:07:07Oh, aku memang suka anjing.
00:07:08Kamu suka anjing?
00:07:09Aku suka anjing, tapi aku tidak suka kucing.
00:07:10Oh, kamu tidak suka?
00:07:11Oh.
00:07:12Oke.
00:07:13Yah, apa kamu benci kucing?
00:07:14Aku tidak benci kucing, tapi aku lebih suka anjing.
00:07:17Apa kamu menyukaiku sebagai pribadi?
00:07:18Oke.
00:07:19Jadi kamu mau pergi dan melihat masa depan?
00:07:20Oke.
00:07:21Aku masih bicara denganmu.
00:07:22Kita bicara.
00:07:23Oke.
00:07:24Apa kamu suka berita?
00:07:25Tunggu, tunggu, tunggu.
00:07:26Aku tanya satu hal.
00:07:27Apa kamu menyukaiku sebagai pribadi?
00:07:28Oke.
00:07:29Sepertinya kamu tidak bisa mendengarku.
00:07:30Oke.
00:07:31Oke.
00:07:32Jadi ke mana kamu suka pergi?
00:07:33Apa?
00:07:34Apa maksudmu?
00:07:35Seperti apa?
00:07:36Kita bisa bicara tentang urusan bisnis selanjutnya.
00:07:37Kurasa tidak ada.
00:07:38Kita harus bicara tentang hal lain.
00:07:39Mari kita bicara topik lain.
00:07:40Ya.
00:07:41Oke.
00:07:42Jadi ini akan membuatmu suka menulis.
00:07:43Kamu suka bicara tentang musik.
00:07:44Kamu suka musik.
00:07:45Bung, bicaramu makin melantur.
00:07:46Kita harus menyelesaikan videonya.
00:07:47Katakan hal yang lain.
00:07:48Oke.
00:07:49Kurasa apa yang aku, saat kamu ingin aku melakukannya, lupakan hal tadi, tapi sesekali
00:07:53bicarakan tentang urusan bisnis lainnya.
00:07:54Oke.
00:07:55Jadi ini bagus.
00:07:56Bisa kamu pergi juga?
00:07:57Oke.
00:07:58Jadi ini masih model AI dan semakin Anda membuatnya bingung, ia akan semakin
00:08:05melantur, saya rasa.
00:08:06Jadi tidak sepenuhnya tahan banting dalam hal itu.
00:08:10Mari kita coba satu contoh terakhir.
00:08:11Kamu adalah seorang teman yang hanya berbicara bahasa Italia.
00:08:18Mari kita coba yang ini.
00:08:19Hai.
00:08:20Halo.
00:08:21Ada apa?
00:08:22Oh, tidak banyak.
00:08:23Saya sedang mencari bahasa Italia (makanan).
00:08:24Tadi saya baru saja menelepon beberapa restoran berbeda untuk mencari tahu mana yang punya
00:08:31spageti terbaik.
00:08:32Oh, tunggu.
00:08:33Oh, kamu pikir bahasa Italia itu makanan.
00:08:34Oke.
00:08:35Oke.
00:08:36Ya.
00:08:37Maksudku, apakah itu seperti, entahlah, Italia-Amerika atau seperti, eh, langsung dari
00:08:41Italia?
00:08:42Jadi kamu orang Italia?
00:08:43Ya.
00:08:44Dan kamu suka film?
00:08:46Ya.
00:08:47Kamu suka film Italia?
00:08:48Ya.
00:08:49Ya.
00:08:50Ya.
00:08:51Oke.
00:08:52Jadi apa film, apa film Italia favoritmu?
00:08:53Waduh.
00:08:54Wah.
00:08:55Aku ingat kembali ke tahun sembilan puluhan.
00:08:56Kamu harus pilih yang seperti, maksudku, aku suka The Godfather.
00:08:58Kurasa itu seperti, tahu kan, tunggu, tahun sembilan puluhan, Godfather 3.
00:09:02Itu adalah seri terburuk dari Godfather.
00:09:03Oh bukan, bukan, bukan.
00:09:04Ini yang asli.
00:09:05Maksudku, kamu tahu kan, yang asli itu dari
00:09:10tahun tujuh puluhan.
00:09:11Ya.
00:09:12Ya.
00:09:13Ya.
00:09:14Ya.
00:09:15Tapi maksudku, aku suka seperti, tahu kan, seperti The Godfather.
00:09:16Aku suka seperti, tahu kan, film-film
00:09:20klasik.
00:09:21Aku suka seperti, tahu kan, The Godfather.
00:09:23Aku suka film-film klasik seperti aku suka The
00:09:27Godfather.
00:09:28Aku suka The Godfather.
00:09:29Aku suka The Godfather.
00:09:31Aku suka seperti, tahu kan, The Godfather.
00:09:35Aku suka The Godfather.
00:09:38Aku dengar apa yang kamu katakan.
00:09:40Masuk akal sekali.
00:09:42Tahu tidak?
00:09:43Sepertinya kamu sedang mengalami gangguan mental.
00:09:45Jadi aku akan menutup teleponnya.
00:09:46Gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak, gak.
00:09:52Kamu mengelak.
00:09:53Kamu jelas.
00:09:53Aku mengelak, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:09:57ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:00ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:03ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:06ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:10:26ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya.
00:10:46Ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,
00:11:06ya, ya, ya, ya.
00:11:22Ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya, ya,