Saya Mengkloning Suara Sendiri Menggunakan Model Open-Source dari Microsoft

BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00Ini adalah Vibe Voice dari Microsoft, dan saya menggunakannya untuk mengkloning suara saya sendiri.
00:00:04Sebuah tumpukan teknologi spech open-source yang sudah mulai dibandingkan dengan 11 Labs, Chatterbox, dan Whisper.
00:00:10Tapi ini berjalan secara offline, dan bisa menghasilkan 90 menit audio multi-pembicara dalam satu kali proses.
00:00:1590 menit atau angka yang mendekati itu terdengar agak gila. Jadi, apakah ini benar-benar bisa digunakan oleh pengembang,
00:00:20atau hanya sekadar repositori riset lain yang diam-diam menguras GPU kita? Saya akan menjalankan beberapa demo,
00:00:26dan setelah itu kita akan melihat perbandingannya dengan yang lain. Kami punya video baru setiap saat,
00:00:29pastikan untuk subscribe.
00:00:31Anda bisa mendapatkan semuanya dari repo mereka atau di Hugging Face. Sekarang, sebelum kita membandingkan apa pun,
00:00:40mari kita lihat dulu hasilnya. Semuanya sudah saya siapkan dan jalankan,
00:00:45jadi kita bisa fokus pada hal yang penting. Saya sudah menggunakan yang lain, jadi saya sangat tertarik melihat bagaimana suara Vibe Voice,
00:00:51seberapa tangguh performanya, dan bagaimana cara mendapatkan hasil yang berguna darinya.
00:00:56Saya akan melakukan semua ini sebagai output multi-pembicara, TTS real-time, lalu kloning suara.
00:01:02Ini adalah skrip pendek bergaya podcast dengan tiga pembicara, giliran bicara yang rapi, dan emosi audio.
00:01:08Biasanya, pada kebanyakan demo TTS, suaranya terdengar bagus lalu mulai kacau,
00:01:14tapi coba dengarkan apa yang terjadi di sini. Konsistensi pembicara tampaknya tetap solid,
00:01:18dan transisinya tidak berantakan. Mari kita dengarkan.
00:01:26Terdengar lumayan, kan? Tidak terdengar seperti mengarang konteks setelah 20 detik,
00:01:41bukan? Nah, itu poin besarnya. Microsoft tidak membuat ini hanya untuk proyek iseng berdurasi pendek.
00:01:46Ini dibuat untuk pembuatan audio konteks panjang dan juga secara offline. Tapi saat menambahkan label emosi,
00:01:52hasilnya mulai berantakan. Tidak seperti Chatterbox, misalnya, ia melakukan emosi otomatis berdasarkan kata-kata,
00:01:58dan itu sebenarnya tidak terlalu bagus. Saya kurang suka. Chatterbox masih unggul di bagian ini.
00:02:02Tapi jika Anda membangun sesuatu seperti podcast AI, dokumen narasi, agen berdurasi panjang,
00:02:07atau sekadar data pelatihan, ini mungkin bisa memberikan hasil yang cukup baik.
00:02:11Sekarang mari beralih ke mode real-time. Ini berjalan jauh lebih cepat daripada multi-pembicara,
00:02:16yang jujur saja butuh waktu lama untuk memprosesnya. Ini sekarang adalah streaming inkremental, jadi bayangkan
00:02:22respons chatbot, agen suara, dan asisten. Latensi awal sekitar 300 milidetik,
00:02:28yang masih layak digunakan. Ini bukan yang tercepat yang pernah saya pakai. Mari kita dengarkan.
00:02:32Bayangkan meminum cokelat panas di Jepang di bawah pohon sakura yang bermekaran.
00:02:35Oke. Dan ya, mereka bilang ini bisa bernyanyi atau bahkan menghasilkan musik latar. Jika dipaksakan,
00:02:40ternyata tidak berhasil. Saya mencobanya, dan gagal. Tapi intinya di sini adalah,
00:02:43apakah ini sudah siap untuk produksi real-time? Saya rasa belum. Tapi untuk eksperimen dan agen,
00:02:48ya, ini cukup bagus. Sekarang ke bagian yang seru. Mari kita bicara tentang kloning suara karena itu
00:02:53sangat, sangat keren. Inilah pengaturan saya untuk itu. Pertama, saya merekam suara saya sendiri di Voice Memos.
00:02:58Saya menggunakan Mac. Lalu saya mengonversi file itu ke format WAV, dan menjalankan Gradio dengan perintah ini.
00:03:04Dari antarmuka interaktif ini, saya bisa memilih suara saya sendiri sebagai bahasa target.
00:03:10Itu saja. Hanya rekaman biasa. Dan yang diharapkan adalah sesuatu yang mirip dengan suara saya,
00:03:14tapi jelas terdengar buatan. Coba dengarkan ini. Ini adalah suara saya yang dikloning menggunakan Vibe Voice.
00:03:19Sejujurnya suaranya sangat bagus. Hampir terlalu bagus karena saya tidak pernah mengatakan semua ini. Tadi itu
00:03:25memang terdengar mirip saya, tapi kalau Anda kenal saya, Anda mungkin masih bisa tahu kalau itu palsu. Setidaknya saya harap begitu.
00:03:30Meski tidak sempurna, tapi konsisten, stabil, dan bisa digunakan untuk hasil yang lebih panjang. Itu
00:03:36hebat. Microsoft mengatakan teknologi ini bisa menangani pembuatan audio berdurasi panjang dalam satu kali jalan dan pada praktiknya
00:03:41terasa jauh lebih stabil daripada pipeline bergaya Whisper saat audionya semakin panjang, kan? Dan
00:03:47jika Anda pernah mencoba mengkloning suara untuk durasi yang lebih lama dari klip pendek, Anda tahu kenapa ini penting. Jadi ya,
00:03:52demonya cukup mengesankan. Saya senang mencobanya, terutama kloning suaranya, tapi saya sudah memeriksa
00:03:56dokumentasi, laporan masalah, serta beberapa thread, dan tanggapan dari pengembang lain cukup beragam. Kita bahas kelebihannya dulu, lalu masalah
00:04:02yang akan Anda hadapi. Kelebihannya secara umum cukup solid. Ini benar-benar untuk durasi panjang, kan?
00:04:08Kebanyakan sistem TTS mulai melantur, mendatar, atau rusak setelah beberapa menit. Vibe Voice dirancang untuk
00:04:14audio yang lebih panjang dan itu terbukti di sini dan dalam demo panjang saya. Lalu efisiensi ditambah ekspresifitas.
00:04:20Ini menggunakan tokenizer audio frekuensi rendah, yang membuat konteksnya lebih mudah dikelola. Dan dengan backbone difusi plus LLM,
00:04:27Anda mendapatkan ucapan yang ekspresif tanpa komputasi yang gila. Ini terasa lebih ramah pengembang secara desain.
00:04:33Ini bagus. Lisensinya MIT. Berjalan secara offline. Bisa jalan di GPU konsumen sekitar 7 GB VRAM untuk real-time.
00:04:40Dan kode fine-tuning sudah disertakan, terutama untuk ASR. Ini bukan sistem tertutup,
00:04:47melainkan sangat bagus. Akhirnya, seperti beberapa open source lainnya, ini memiliki output ASR yang terstruktur.
00:04:53Kemenangan besar. Diarization pembicara ditambah timestamp langsung jadi sangat menghemat waktu.
00:04:59Jika Anda pernah membangun pipeline transkripsi, Anda tahu bahwa itu bukan hal sepele. Sekarang,
00:05:04kekurangan yang benar-benar saya rasakan dan saya lihat juga. Ini masih terasa seperti perangkat lunak riset.
00:05:11Microsoft menarik beberapa jalur kode TTS karena kekhawatiran deepfake, itu sudah menjelaskan segalanya. SDK-nya,
00:05:17tidak terlalu sempurna. Tidak terlalu mulus, kan? Jelas ada beberapa keanehan audio seperti yang saya temukan
00:05:23pada perangkat lunak lain. Anda mungkin mendengar intonasi robotik. Kadang temponya terasa aneh
00:05:28dan untuk adegan multi-pembicara lebih dari dua atau tiga orang, kualitasnya menurun. Pengembang sepertinya menyukai tokenizer-nya
00:05:33tapi membenci lonjakan VRAM-nya. Dan cakupan bahasanya hanya terbatas. Jadi bahasa Mandarin dan Inggris memang bagus.
00:05:40Tapi jika Anda butuh bahasa lain, Vibe Voice bukan pilihannya. Terakhir, kekurangannya adalah
00:05:46tidak adanya pemahaman semantik; alat ini membaca teks, tapi tidak memahaminya.
00:05:51Tag emosi bisa membantu, tapi masih sering eror jika kita menambahkannya. Jadi sejujurnya,
00:05:56ini adalah alat yang luar biasa untuk eksperimen, tapi untuk jangka panjang, saya tidak yakin apakah ini akan bertahan.
00:06:02Sekarang, jawaban yang sebenarnya ingin Anda ketahui, apakah ini sepadan dengan waktu Anda dibandingkan dengan apa yang sudah Anda gunakan?
00:06:06Seberapa baik Vibe Voice bersaing dengan kompetitor biasanya? Mari kita mulai dengan Vibe Voice vs Chatterbox.
00:06:11Saya pernah membuat video dan mencoba Chatterbox sebelumnya. Itu sejujurnya sangat keren.
00:06:16Chatterbox punya latensi di bawah 200 milidetik, emosi yang lebih kuat, dan balasan agen pendek yang lebih baik.
00:06:22Jadi Anda mungkin berpikir Chatterbox menang, tapi Vibe Voice mengalahkannya di durasi panjang.
00:06:28Chatterbox dibuat untuk monolog atau podcast di bawah 30 menit, sedangkan Vibe Voice menangani durasi panjang jauh lebih baik.
00:06:35Jadi ada plus minusnya di sana.
00:06:42Lalu tentu saja ada Vibe Voice dan 11 Labs. Yang ini sederhana, kan? 11 Labs menang karena pengucapan yang lebih halus,
00:06:48kloning suara zero-shot, dan pengalaman pengguna, tapi keunggulan Vibe Voice adalah biayanya. Gratis.
00:06:54Offline. Open source. Itu kemenangan besar di sini. Kita tidak perlu membayar untuk perangkat lunaknya.
00:07:00Lalu ada Vibe Voice dan Whisper atau bahkan Cozy Voice. Ia mengalahkan Whisper saat audionya panjang dan terstruktur.
00:07:06Ini lebih ekspresif daripada Cozy Voice, dan model TTS berbasis Qwen mulai menyusul dalam dialek,
00:07:13tapi Vibe Voice masih unggul dalam panjang konten. Jika Anda pengembang yang membangun secara lokal, menyukai open source,
00:07:18dan peduli dengan audio berdurasi panjang, saya rasa Vibe Voice layak dicoba. Jika Anda menginginkan sesuatu yang
00:07:23lebih praktis dan siap untuk produksi, jujur saja, Anda bisa melewatkan ini untuk saat ini.
00:07:28Ini hanyalah proyek yang sangat keren untuk dimainkan, termasuk fitur kloning suaranya.
00:07:33Vibe Voice itu berantakan, tapi kuat, dan juga menarik. Ini adalah salah satu tumpukan audio open-source
00:07:37terkuat untuk ucapan AI berdurasi panjang yang pernah kita lihat. Coba demo Hugging Face-nya, baca dokumentasinya,
00:07:43dan sampai jumpa di video berikutnya.

Key Takeaway

Vibe Voice dari Microsoft adalah solusi AI audio open-source yang tangguh untuk konten berdurasi panjang dan kloning suara offline, meskipun masih memiliki beberapa kekurangan dalam aspek emosi dan variasi bahasa.

Highlights

Vibe Voice merupakan model open-source dari Microsoft yang dirancang khusus untuk pembuatan audio berdurasi panjang hingga 90 menit.

Fitur kloning suara memungkinkan pengguna merekam suara sendiri dan menghasilkan output yang konsisten serta stabil secara offline.

Sistem ini memiliki latensi sekitar 300 milidetik untuk mode real-time, menjadikannya cukup layak untuk agen suara dan asisten digital.

Vibe Voice unggul dibandingkan kompetitor seperti Chatterbox dan Whisper dalam hal penanganan konten berdurasi panjang tanpa degradasi kualitas.

Menggunakan lisensi MIT dan dapat dijalankan pada GPU konsumen dengan VRAM sekitar 7 GB, menjadikannya sangat ramah bagi pengembang lokal.

Meskipun kuat, model ini masih memiliki keterbatasan dalam pemahaman semantik dan kualitas label emosi yang terkadang masih eror.

Dukungan bahasa saat ini masih terbatas pada bahasa Inggris dan Mandarin, sehingga belum ideal untuk kebutuhan multibahasa yang luas.

Timeline

Pendahuluan dan Kemampuan Dasar Vibe Voice

Pembicara memperkenalkan Vibe Voice sebagai tumpukan teknologi spech open-source dari Microsoft yang dapat berjalan secara offline. Alat ini mampu menghasilkan audio multi-pembicara hingga 90 menit dalam satu kali proses, sebuah angka yang dianggap luar biasa untuk model lokal. Narator bermaksud menguji apakah teknologi ini benar-benar siap digunakan oleh pengembang atau hanya sekadar repositori riset yang boros sumber daya GPU. Video ini akan mencakup demo mengenai output multi-pembicara, Text-to-Speech (TTS) real-time, dan fitur kloning suara yang sangat dinanti. Fokus utama bagian ini adalah menetapkan ekspektasi terhadap performa dan ketangguhan Vibe Voice dibandingkan model populer lainnya.

Uji Coba Multi-Pembicara dan Konsistensi Audio

Bagian ini mendemonstrasikan skrip podcast pendek dengan tiga pembicara untuk menguji transisi dan emosi audio. Hasilnya menunjukkan bahwa Vibe Voice sangat stabil dalam menjaga konsistensi suara pembicara tanpa menjadi kacau setelah durasi tertentu. Microsoft merancang model ini untuk audio konteks panjang, berbeda dengan banyak demo TTS yang biasanya gagal mempertahankan kualitas setelah beberapa detik. Namun, penambahan label emosi otomatis ternyata kurang memuaskan dan masih kalah unggul jika dibandingkan dengan kompetitor seperti Chatterbox. Meskipun emosinya belum sempurna, alat ini sangat cocok untuk pembuatan podcast AI, narasi dokumen, atau pembuatan data pelatihan AI berdurasi panjang.

Performa Real-Time dan Fitur Musik

Narator beralih ke pengujian mode real-time yang menggunakan sistem streaming inkremental untuk chatbot dan asisten suara. Latensi awal tercatat sekitar 300 milidetik, yang dianggap cukup layak meskipun bukan merupakan yang tercepat di industri saat ini. Ada klaim bahwa Vibe Voice dapat menghasilkan musik latar atau bahkan bernyanyi, namun pengujian narator menunjukkan kegagalan pada fitur tersebut. Walaupun fitur musiknya gagal, secara keseluruhan sistem ini dianggap sudah cukup matang untuk keperluan eksperimen agen suara. Bagian ini menyoroti bahwa efisiensi pemrosesan menjadi kunci utama bagi pengembang yang ingin membangun asisten digital responsif.

Proses Kloning Suara dan Stabilitas Model

Proses kloning suara dilakukan dengan merekam suara sendiri melalui Voice Memos, mengonversinya ke format WAV, dan menggunakan antarmuka Gradio. Hasil kloning suara narator terdengar sangat mirip dan stabil, memberikan kesan yang hampir terlalu bagus untuk sebuah model open-source. Keunggulan utama di sini adalah kemampuan menangani pembuatan audio panjang dalam satu tarikan napas tanpa degradasi kualitas yang sering ditemukan pada pipeline Whisper. Kloning suara ini tetap konsisten meskipun digunakan untuk teks yang belum pernah diucapkan sebelumnya oleh pemilik suara asli. Stabilitas ini menjadi poin krusial bagi siapa pun yang membutuhkan kloning suara untuk durasi yang lebih dari sekadar klip pendek.

Analisis Kelebihan bagi Pengembang

Narator merinci berbagai kelebihan teknis Vibe Voice, termasuk penggunaan tokenizer audio frekuensi rendah yang membuat konteks lebih mudah dikelola. Kombinasi backbone difusi dan LLM memungkinkan ucapan yang ekspresif tanpa memerlukan daya komputasi yang sangat ekstrem. Lisensi MIT dan kemampuan berjalan offline pada GPU konsumen dengan VRAM minimal 7 GB menjadi daya tarik besar bagi komunitas open-source. Selain itu, fitur ASR (Automatic Speech Recognition) yang terstruktur memberikan keuntungan tambahan berupa diarization pembicara dan timestamp otomatis. Hal ini sangat menghemat waktu bagi pengembang yang biasanya harus membangun pipeline transkripsi yang rumit secara manual.

Kekurangan dan Keterbatasan Teknis

Meskipun memiliki banyak keunggulan, Vibe Voice masih terasa seperti perangkat lunak riset dengan SDK yang belum sempurna dan beberapa keanehan intonasi robotik. Kualitas audio cenderung menurun ketika menangani lebih dari tiga pembicara dalam satu adegan, dan terjadi lonjakan penggunaan VRAM yang dikeluhkan beberapa pengembang. Keterbatasan bahasa juga menjadi kendala besar karena saat ini hanya mendukung bahasa Inggris dan Mandarin secara optimal. Masalah utama lainnya adalah kurangnya pemahaman semantik, di mana alat ini hanya membaca teks tanpa benar-benar memahami konteks emosional di baliknya. Narator menyimpulkan bahwa meskipun luar biasa untuk eksperimen, keberlanjutan jangka panjang model ini masih menjadi tanda tanya.

Perbandingan dengan Kompetitor dan Kesimpulan Akhir

Vibe Voice dibandingkan langsung dengan Chatterbox, 11 Labs, Whisper, dan Cozy Voice untuk melihat posisi pasarnya. Chatterbox unggul dalam latensi rendah dan emosi untuk durasi pendek, namun Vibe Voice memenangkan kompetisi pada audio berdurasi lebih dari 30 menit. Dibandingkan dengan 11 Labs, Vibe Voice menang dalam aspek biaya karena gratis dan bisa dijalankan secara offline meskipun pengucapannya tidak sehalus layanan berbayar tersebut. Model ini sangat direkomendasikan bagi pengembang lokal yang memprioritaskan privasi dan konten panjang, namun bisa dilewati oleh mereka yang membutuhkan alat siap produksi instan. Video diakhiri dengan saran untuk mencoba demo di Hugging Face guna merasakan langsung kekuatannya.

Community Posts

View all posts