00:00:00Ini adalah Vibe Voice dari Microsoft, dan saya menggunakannya untuk mengkloning suara saya sendiri.
00:00:04Sebuah tumpukan teknologi spech open-source yang sudah mulai dibandingkan dengan 11 Labs, Chatterbox, dan Whisper.
00:00:10Tapi ini berjalan secara offline, dan bisa menghasilkan 90 menit audio multi-pembicara dalam satu kali proses.
00:00:1590 menit atau angka yang mendekati itu terdengar agak gila. Jadi, apakah ini benar-benar bisa digunakan oleh pengembang,
00:00:20atau hanya sekadar repositori riset lain yang diam-diam menguras GPU kita? Saya akan menjalankan beberapa demo,
00:00:26dan setelah itu kita akan melihat perbandingannya dengan yang lain. Kami punya video baru setiap saat,
00:00:29pastikan untuk subscribe.
00:00:31Anda bisa mendapatkan semuanya dari repo mereka atau di Hugging Face. Sekarang, sebelum kita membandingkan apa pun,
00:00:40mari kita lihat dulu hasilnya. Semuanya sudah saya siapkan dan jalankan,
00:00:45jadi kita bisa fokus pada hal yang penting. Saya sudah menggunakan yang lain, jadi saya sangat tertarik melihat bagaimana suara Vibe Voice,
00:00:51seberapa tangguh performanya, dan bagaimana cara mendapatkan hasil yang berguna darinya.
00:00:56Saya akan melakukan semua ini sebagai output multi-pembicara, TTS real-time, lalu kloning suara.
00:01:02Ini adalah skrip pendek bergaya podcast dengan tiga pembicara, giliran bicara yang rapi, dan emosi audio.
00:01:08Biasanya, pada kebanyakan demo TTS, suaranya terdengar bagus lalu mulai kacau,
00:01:14tapi coba dengarkan apa yang terjadi di sini. Konsistensi pembicara tampaknya tetap solid,
00:01:18dan transisinya tidak berantakan. Mari kita dengarkan.
00:01:26Terdengar lumayan, kan? Tidak terdengar seperti mengarang konteks setelah 20 detik,
00:01:41bukan? Nah, itu poin besarnya. Microsoft tidak membuat ini hanya untuk proyek iseng berdurasi pendek.
00:01:46Ini dibuat untuk pembuatan audio konteks panjang dan juga secara offline. Tapi saat menambahkan label emosi,
00:01:52hasilnya mulai berantakan. Tidak seperti Chatterbox, misalnya, ia melakukan emosi otomatis berdasarkan kata-kata,
00:01:58dan itu sebenarnya tidak terlalu bagus. Saya kurang suka. Chatterbox masih unggul di bagian ini.
00:02:02Tapi jika Anda membangun sesuatu seperti podcast AI, dokumen narasi, agen berdurasi panjang,
00:02:07atau sekadar data pelatihan, ini mungkin bisa memberikan hasil yang cukup baik.
00:02:11Sekarang mari beralih ke mode real-time. Ini berjalan jauh lebih cepat daripada multi-pembicara,
00:02:16yang jujur saja butuh waktu lama untuk memprosesnya. Ini sekarang adalah streaming inkremental, jadi bayangkan
00:02:22respons chatbot, agen suara, dan asisten. Latensi awal sekitar 300 milidetik,
00:02:28yang masih layak digunakan. Ini bukan yang tercepat yang pernah saya pakai. Mari kita dengarkan.
00:02:32Bayangkan meminum cokelat panas di Jepang di bawah pohon sakura yang bermekaran.
00:02:35Oke. Dan ya, mereka bilang ini bisa bernyanyi atau bahkan menghasilkan musik latar. Jika dipaksakan,
00:02:40ternyata tidak berhasil. Saya mencobanya, dan gagal. Tapi intinya di sini adalah,
00:02:43apakah ini sudah siap untuk produksi real-time? Saya rasa belum. Tapi untuk eksperimen dan agen,
00:02:48ya, ini cukup bagus. Sekarang ke bagian yang seru. Mari kita bicara tentang kloning suara karena itu
00:02:53sangat, sangat keren. Inilah pengaturan saya untuk itu. Pertama, saya merekam suara saya sendiri di Voice Memos.
00:02:58Saya menggunakan Mac. Lalu saya mengonversi file itu ke format WAV, dan menjalankan Gradio dengan perintah ini.
00:03:04Dari antarmuka interaktif ini, saya bisa memilih suara saya sendiri sebagai bahasa target.
00:03:10Itu saja. Hanya rekaman biasa. Dan yang diharapkan adalah sesuatu yang mirip dengan suara saya,
00:03:14tapi jelas terdengar buatan. Coba dengarkan ini. Ini adalah suara saya yang dikloning menggunakan Vibe Voice.
00:03:19Sejujurnya suaranya sangat bagus. Hampir terlalu bagus karena saya tidak pernah mengatakan semua ini. Tadi itu
00:03:25memang terdengar mirip saya, tapi kalau Anda kenal saya, Anda mungkin masih bisa tahu kalau itu palsu. Setidaknya saya harap begitu.
00:03:30Meski tidak sempurna, tapi konsisten, stabil, dan bisa digunakan untuk hasil yang lebih panjang. Itu
00:03:36hebat. Microsoft mengatakan teknologi ini bisa menangani pembuatan audio berdurasi panjang dalam satu kali jalan dan pada praktiknya
00:03:41terasa jauh lebih stabil daripada pipeline bergaya Whisper saat audionya semakin panjang, kan? Dan
00:03:47jika Anda pernah mencoba mengkloning suara untuk durasi yang lebih lama dari klip pendek, Anda tahu kenapa ini penting. Jadi ya,
00:03:52demonya cukup mengesankan. Saya senang mencobanya, terutama kloning suaranya, tapi saya sudah memeriksa
00:03:56dokumentasi, laporan masalah, serta beberapa thread, dan tanggapan dari pengembang lain cukup beragam. Kita bahas kelebihannya dulu, lalu masalah
00:04:02yang akan Anda hadapi. Kelebihannya secara umum cukup solid. Ini benar-benar untuk durasi panjang, kan?
00:04:08Kebanyakan sistem TTS mulai melantur, mendatar, atau rusak setelah beberapa menit. Vibe Voice dirancang untuk
00:04:14audio yang lebih panjang dan itu terbukti di sini dan dalam demo panjang saya. Lalu efisiensi ditambah ekspresifitas.
00:04:20Ini menggunakan tokenizer audio frekuensi rendah, yang membuat konteksnya lebih mudah dikelola. Dan dengan backbone difusi plus LLM,
00:04:27Anda mendapatkan ucapan yang ekspresif tanpa komputasi yang gila. Ini terasa lebih ramah pengembang secara desain.
00:04:33Ini bagus. Lisensinya MIT. Berjalan secara offline. Bisa jalan di GPU konsumen sekitar 7 GB VRAM untuk real-time.
00:04:40Dan kode fine-tuning sudah disertakan, terutama untuk ASR. Ini bukan sistem tertutup,
00:04:47melainkan sangat bagus. Akhirnya, seperti beberapa open source lainnya, ini memiliki output ASR yang terstruktur.
00:04:53Kemenangan besar. Diarization pembicara ditambah timestamp langsung jadi sangat menghemat waktu.
00:04:59Jika Anda pernah membangun pipeline transkripsi, Anda tahu bahwa itu bukan hal sepele. Sekarang,
00:05:04kekurangan yang benar-benar saya rasakan dan saya lihat juga. Ini masih terasa seperti perangkat lunak riset.
00:05:11Microsoft menarik beberapa jalur kode TTS karena kekhawatiran deepfake, itu sudah menjelaskan segalanya. SDK-nya,
00:05:17tidak terlalu sempurna. Tidak terlalu mulus, kan? Jelas ada beberapa keanehan audio seperti yang saya temukan
00:05:23pada perangkat lunak lain. Anda mungkin mendengar intonasi robotik. Kadang temponya terasa aneh
00:05:28dan untuk adegan multi-pembicara lebih dari dua atau tiga orang, kualitasnya menurun. Pengembang sepertinya menyukai tokenizer-nya
00:05:33tapi membenci lonjakan VRAM-nya. Dan cakupan bahasanya hanya terbatas. Jadi bahasa Mandarin dan Inggris memang bagus.
00:05:40Tapi jika Anda butuh bahasa lain, Vibe Voice bukan pilihannya. Terakhir, kekurangannya adalah
00:05:46tidak adanya pemahaman semantik; alat ini membaca teks, tapi tidak memahaminya.
00:05:51Tag emosi bisa membantu, tapi masih sering eror jika kita menambahkannya. Jadi sejujurnya,
00:05:56ini adalah alat yang luar biasa untuk eksperimen, tapi untuk jangka panjang, saya tidak yakin apakah ini akan bertahan.
00:06:02Sekarang, jawaban yang sebenarnya ingin Anda ketahui, apakah ini sepadan dengan waktu Anda dibandingkan dengan apa yang sudah Anda gunakan?
00:06:06Seberapa baik Vibe Voice bersaing dengan kompetitor biasanya? Mari kita mulai dengan Vibe Voice vs Chatterbox.
00:06:11Saya pernah membuat video dan mencoba Chatterbox sebelumnya. Itu sejujurnya sangat keren.
00:06:16Chatterbox punya latensi di bawah 200 milidetik, emosi yang lebih kuat, dan balasan agen pendek yang lebih baik.
00:06:22Jadi Anda mungkin berpikir Chatterbox menang, tapi Vibe Voice mengalahkannya di durasi panjang.
00:06:28Chatterbox dibuat untuk monolog atau podcast di bawah 30 menit, sedangkan Vibe Voice menangani durasi panjang jauh lebih baik.
00:06:35Jadi ada plus minusnya di sana.
00:06:42Lalu tentu saja ada Vibe Voice dan 11 Labs. Yang ini sederhana, kan? 11 Labs menang karena pengucapan yang lebih halus,
00:06:48kloning suara zero-shot, dan pengalaman pengguna, tapi keunggulan Vibe Voice adalah biayanya. Gratis.
00:06:54Offline. Open source. Itu kemenangan besar di sini. Kita tidak perlu membayar untuk perangkat lunaknya.
00:07:00Lalu ada Vibe Voice dan Whisper atau bahkan Cozy Voice. Ia mengalahkan Whisper saat audionya panjang dan terstruktur.
00:07:06Ini lebih ekspresif daripada Cozy Voice, dan model TTS berbasis Qwen mulai menyusul dalam dialek,
00:07:13tapi Vibe Voice masih unggul dalam panjang konten. Jika Anda pengembang yang membangun secara lokal, menyukai open source,
00:07:18dan peduli dengan audio berdurasi panjang, saya rasa Vibe Voice layak dicoba. Jika Anda menginginkan sesuatu yang
00:07:23lebih praktis dan siap untuk produksi, jujur saja, Anda bisa melewatkan ini untuk saat ini.
00:07:28Ini hanyalah proyek yang sangat keren untuk dimainkan, termasuk fitur kloning suaranya.
00:07:33Vibe Voice itu berantakan, tapi kuat, dan juga menarik. Ini adalah salah satu tumpukan audio open-source
00:07:37terkuat untuk ucapan AI berdurasi panjang yang pernah kita lihat. Coba demo Hugging Face-nya, baca dokumentasinya,
00:07:43dan sampai jumpa di video berikutnya.