00:00:00Ini adalah SpeechBrain, sebuah toolkit asli PyTorch sumber terbuka yang memungkinkan kita membuat dan merilis
00:00:05fitur AI suara menggunakan model terlatih. Mulai dari penghapusan derau, verifikasi pembicara,
00:00:10hingga ASR. Tanpa pelatihan dan tanpa penyesuaian (fine-tuning). Mari lakukan verifikasi audio singkat. Anda mungkin
00:00:15mengharapkan audio yang lebih baik. Ya, hal itu terjadi secara alami di sini. Menurut data ini,
00:00:19saya bukan orang yang sama, dan itu karena saya menggunakan pengubah suara di klip kedua.
00:00:23Jadi verifikasi suara memang berfungsi. Sekarang mari kita lihat apa lagi yang bisa dilakukan alat ini. Video baru kami rilis
00:00:28setiap saat. Pastikan untuk berlangganan. Ringkasan singkat sebelum saya menjalankan beberapa demo pertama.
00:00:38SpeechBrain memiliki peningkatan ASR, pemisahan, ID pembicara, TTS, benar-benar paket lengkap.
00:00:44Dan inilah bagian yang penting jika Anda benar-benar membangun sesuatu. 9000+ bintang GitHub, integrasi erat
00:00:51dengan Hugging Face, instalasi satu baris, dan memuat model hanya butuh beberapa baris lagi. Ini dibuat untuk orang yang ingin
00:00:56merilis lebih cepat, bukan membuang waktu membaca dokumentasi. Jadi inilah kode awal yang saya kembangkan untuk
00:01:02menjalankan ini. Dan banyak kode yang saya temukan di situs dokumentasi mereka sendiri. Saya memilih menggunakan
00:01:08Gradio untuk membangun UI-nya. Gradio hanyalah pustaka aplikasi ML berbasis Python yang bekerja sangat
00:01:14baik untuk hal semacam ini. Oke, bagian ini terlihat palsu jika Anda belum pernah melihatnya. Kebanyakan demo peningkatan audio
00:01:20berbuat curang dengan audio yang sempurna. Saya akan melakukan sebaliknya di sini. Saya akan menyalakan suara latar
00:01:24yang keras sekarang. Kebanyakan hanya musik. Ayo mulai. Saya berbicara normal, merekam diri saya berbicara
00:01:31diiringi musik ini. Inilah audio mentahnya. Ya, kedengarannya cukup buruk. Sekarang saksikan hasil yang telah ditingkatkan.
00:01:37Saya berbicara normal. Suara yang sama, derau dihilangkan, tanpa trik pascaproses. Dan inilah
00:01:44poin pentingnya. Ini berjalan dalam hitungan detik. Gunakan di aplikasi telepon, podcast, pembersihan audio, perangkat edge,
00:01:51apa pun yang punya mik dan akustik buruk. Kodenya: muat model, panggil "enhanced batch", selesai.
00:01:57Tapi dokumentasinya sejujurnya agak sulit, jadi saya harus mengembangkan kodenya agar bekerja lebih baik karena saya pakai Mac.
00:02:02Sering terjadi masalah. Berikutnya ada verifikasi pembicara, yang sempat saya singgung di
00:02:07awal tadi. Sekadar gambaran, orang sering mengira autentikasi suara itu rumit. Kabar
00:02:13terbaru, ternyata tidak, setidaknya tidak dengan alat ini. Saya akan mendaftarkan suara saya di sini. Hei, ini suara saya.
00:02:20Itu tadi rekaman pertama. Lalu saya akan melakukan hal yang sama lagi pada rekaman kedua di sini.
00:02:26Hei, ini suara saya. Sekarang verifikasi, pembicara sama. Skornya tinggi. Kecocokannya terkonfirmasi. Kita punya
00:02:36skor tersebut. Kita punya peringkat itu di hasilnya. Jika saya mencoba lagi tanpa menggunakan pengubah suara,
00:02:42mari kita lihat hasilnya. Apa yang kamu makan saat sarapan? Oke, sekarang biar saya ubah nadanya. Jangan
00:02:48tertawa ya. Apa yang kamu makan saat sarapan? Skor kemiripannya turun sedikit,
00:02:56tapi hasilnya tetap menyatakan bahwa saya memang pembicara yang sama. Ini sudah dilatih dengan Vox
00:03:01celeb. Sekali lagi, tes cepat dengan pengubah suara. Ini suara normal saya. Sekarang jika saya nyalakan
00:03:08pengubah suaranya, ini suara normal saya. Untuk memutarkannya kembali buat kalian, klip kedua
00:03:17terdengar seperti ini. Ini suara normal saya. Baiklah, agak kasar, kan? Kalian
00:03:22bisa mendengar pengubah itu. Ya, suaranya sama sekali tidak cocok, dan ini terbukti di hasilnya.
00:03:27Jika Anda sedang membangun aplikasi autentikasi suara multi-pengguna atau apa pun yang perlu menjawab siapa yang bicara,
00:03:32ini sangat cocok. Di demo terakhir saya, ya, ini dimaksudkan sebagai tulang punggungnya. Demo transkripsi
00:03:37langsung ASR biasanya terdengar mengesankan sampai Anda mencoba dengan ucapan ini. Sekarang saya akan bicara
00:03:43normal saja. Fitur ini sebenarnya tidak berfungsi dengan baik, dan dokumentasinya tidak banyak membantu,
00:03:48jadi saya tidak tahu apa yang saya rasakan tentang ini. Jujur saja, ini terasa seperti ucapan normal ke teks
00:03:53biasa. Seharusnya fitur ini melakukan transkripsi otomatis tapi malah menemui banyak masalah, bahkan tidak bisa
00:03:58melakukan itu. Jadi ya, ini memang mentranskripsi, tapi begitu juga dengan banyak pustaka lainnya. Fitur di sini
00:04:04tidak mengesankan, setidaknya bagi saya saat mencoba transkripsi otomatis. Itu tidak berhasil. Jadi
00:04:08ada beberapa hal yang sangat keren di sini, kan? Kita sudah melihat verifikasi suara, penghapusan suara latar,
00:04:13tapi beberapa hal memang belum sempurna. Itulah rangkuman tentang SpeechBrain.
00:04:18Secara keseluruhan, ini tetap cepat. Tetap terbuka. Tetap dibuat untuk pengembang. Kalian bisa
00:04:22mencobanya sendiri. Saya sudah menaruh tautannya di deskripsi, dan sampai jumpa
00:04:26di video lainnya.