SpeechBrain: Mana Fitur yang Benar-Benar Berguna?

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ini adalah SpeechBrain, sebuah toolkit asli PyTorch sumber terbuka yang memungkinkan kita membuat dan merilis

00:00:05fitur AI suara menggunakan model terlatih. Mulai dari penghapusan derau, verifikasi pembicara,

00:00:10hingga ASR. Tanpa pelatihan dan tanpa penyesuaian (fine-tuning). Mari lakukan verifikasi audio singkat. Anda mungkin

00:00:15mengharapkan audio yang lebih baik. Ya, hal itu terjadi secara alami di sini. Menurut data ini,

00:00:19saya bukan orang yang sama, dan itu karena saya menggunakan pengubah suara di klip kedua.

00:00:23Jadi verifikasi suara memang berfungsi. Sekarang mari kita lihat apa lagi yang bisa dilakukan alat ini. Video baru kami rilis

00:00:28setiap saat. Pastikan untuk berlangganan. Ringkasan singkat sebelum saya menjalankan beberapa demo pertama.

00:00:38SpeechBrain memiliki peningkatan ASR, pemisahan, ID pembicara, TTS, benar-benar paket lengkap.

00:00:44Dan inilah bagian yang penting jika Anda benar-benar membangun sesuatu. 9000+ bintang GitHub, integrasi erat

00:00:51dengan Hugging Face, instalasi satu baris, dan memuat model hanya butuh beberapa baris lagi. Ini dibuat untuk orang yang ingin

00:00:56merilis lebih cepat, bukan membuang waktu membaca dokumentasi. Jadi inilah kode awal yang saya kembangkan untuk

00:01:02menjalankan ini. Dan banyak kode yang saya temukan di situs dokumentasi mereka sendiri. Saya memilih menggunakan

00:01:08Gradio untuk membangun UI-nya. Gradio hanyalah pustaka aplikasi ML berbasis Python yang bekerja sangat

00:01:14baik untuk hal semacam ini. Oke, bagian ini terlihat palsu jika Anda belum pernah melihatnya. Kebanyakan demo peningkatan audio

00:01:20berbuat curang dengan audio yang sempurna. Saya akan melakukan sebaliknya di sini. Saya akan menyalakan suara latar

00:01:24yang keras sekarang. Kebanyakan hanya musik. Ayo mulai. Saya berbicara normal, merekam diri saya berbicara

00:01:31diiringi musik ini. Inilah audio mentahnya. Ya, kedengarannya cukup buruk. Sekarang saksikan hasil yang telah ditingkatkan.

00:01:37Saya berbicara normal. Suara yang sama, derau dihilangkan, tanpa trik pascaproses. Dan inilah

00:01:44poin pentingnya. Ini berjalan dalam hitungan detik. Gunakan di aplikasi telepon, podcast, pembersihan audio, perangkat edge,

00:01:51apa pun yang punya mik dan akustik buruk. Kodenya: muat model, panggil "enhanced batch", selesai.

00:01:57Tapi dokumentasinya sejujurnya agak sulit, jadi saya harus mengembangkan kodenya agar bekerja lebih baik karena saya pakai Mac.

00:02:02Sering terjadi masalah. Berikutnya ada verifikasi pembicara, yang sempat saya singgung di

00:02:07awal tadi. Sekadar gambaran, orang sering mengira autentikasi suara itu rumit. Kabar

00:02:13terbaru, ternyata tidak, setidaknya tidak dengan alat ini. Saya akan mendaftarkan suara saya di sini. Hei, ini suara saya.

00:02:20Itu tadi rekaman pertama. Lalu saya akan melakukan hal yang sama lagi pada rekaman kedua di sini.

00:02:26Hei, ini suara saya. Sekarang verifikasi, pembicara sama. Skornya tinggi. Kecocokannya terkonfirmasi. Kita punya

00:02:36skor tersebut. Kita punya peringkat itu di hasilnya. Jika saya mencoba lagi tanpa menggunakan pengubah suara,

00:02:42mari kita lihat hasilnya. Apa yang kamu makan saat sarapan? Oke, sekarang biar saya ubah nadanya. Jangan

00:02:48tertawa ya. Apa yang kamu makan saat sarapan? Skor kemiripannya turun sedikit,

00:02:56tapi hasilnya tetap menyatakan bahwa saya memang pembicara yang sama. Ini sudah dilatih dengan Vox

00:03:01celeb. Sekali lagi, tes cepat dengan pengubah suara. Ini suara normal saya. Sekarang jika saya nyalakan

00:03:08pengubah suaranya, ini suara normal saya. Untuk memutarkannya kembali buat kalian, klip kedua

00:03:17terdengar seperti ini. Ini suara normal saya. Baiklah, agak kasar, kan? Kalian

00:03:22bisa mendengar pengubah itu. Ya, suaranya sama sekali tidak cocok, dan ini terbukti di hasilnya.

00:03:27Jika Anda sedang membangun aplikasi autentikasi suara multi-pengguna atau apa pun yang perlu menjawab siapa yang bicara,

00:03:32ini sangat cocok. Di demo terakhir saya, ya, ini dimaksudkan sebagai tulang punggungnya. Demo transkripsi

00:03:37langsung ASR biasanya terdengar mengesankan sampai Anda mencoba dengan ucapan ini. Sekarang saya akan bicara

00:03:43normal saja. Fitur ini sebenarnya tidak berfungsi dengan baik, dan dokumentasinya tidak banyak membantu,

00:03:48jadi saya tidak tahu apa yang saya rasakan tentang ini. Jujur saja, ini terasa seperti ucapan normal ke teks

00:03:53biasa. Seharusnya fitur ini melakukan transkripsi otomatis tapi malah menemui banyak masalah, bahkan tidak bisa

00:03:58melakukan itu. Jadi ya, ini memang mentranskripsi, tapi begitu juga dengan banyak pustaka lainnya. Fitur di sini

00:04:04tidak mengesankan, setidaknya bagi saya saat mencoba transkripsi otomatis. Itu tidak berhasil. Jadi

00:04:08ada beberapa hal yang sangat keren di sini, kan? Kita sudah melihat verifikasi suara, penghapusan suara latar,

00:04:13tapi beberapa hal memang belum sempurna. Itulah rangkuman tentang SpeechBrain.

00:04:18Secara keseluruhan, ini tetap cepat. Tetap terbuka. Tetap dibuat untuk pengembang. Kalian bisa

00:04:22mencobanya sendiri. Saya sudah menaruh tautannya di deskripsi, dan sampai jumpa

00:04:26di video lainnya.

Key Takeaway

SpeechBrain adalah solusi AI suara sumber terbuka yang sangat cepat dan kuat untuk verifikasi serta pembersihan audio, meskipun fitur transkripsi dan dokumentasinya masih perlu banyak perbaikan.

Highlights

SpeechBrain adalah toolkit AI suara sumber terbuka berbasis PyTorch yang mendukung fitur ASR, verifikasi pembicara, dan peningkatan audio.
Fitur peningkatan audio terbukti sangat efektif dalam menghilangkan gangguan suara latar yang keras secara instan.
Verifikasi pembicara mampu mengenali identitas suara meskipun nada bicara diubah, namun dapat mendeteksi manipulasi dari pengubah suara (voice changer).
Integrasi yang kuat dengan Hugging Face dan penggunaan pustaka Gradio memudahkan pengembang dalam membangun antarmuka pengguna.
Meskipun kaya fitur, dokumentasi SpeechBrain dinilai cukup sulit dipahami dan fitur transkripsi otomatis (ASR) dianggap kurang memuaskan.

Timeline

Pengenalan SpeechBrain dan Kemampuan Intinya

Video dimulai dengan memperkenalkan SpeechBrain sebagai toolkit asli PyTorch yang dirancang untuk membangun fitur AI suara tanpa perlu pelatihan ulang atau penyesuaian model yang rumit. Narator menjelaskan berbagai kapabilitas utama seperti penghapusan derau, verifikasi pembicara, hingga Automatic Speech Recognition (ASR). Demo awal menunjukkan bagaimana verifikasi suara dapat membedakan identitas asli pengguna bahkan saat menggunakan alat pengubah suara. Bagian ini memberikan landasan bagi penonton mengenai potensi alat ini dalam merilis fitur AI dengan cepat. Hal ini sangat penting bagi pengembang yang ingin mengintegrasikan teknologi suara mutakhir ke dalam aplikasi mereka.

Ekosistem Pengembang dan Persiapan Lingkungan

Bagian ini menyoroti aspek teknis dan popularitas SpeechBrain yang telah memiliki lebih dari 9.000 bintang di GitHub dan integrasi erat dengan platform Hugging Face. Narator menekankan kemudahan instalasi satu baris dan proses pemuatan model yang hanya membutuhkan sedikit kode, sehingga cocok untuk mereka yang mengutamakan kecepatan rilis. Untuk membangun antarmuka pengguna, narator memilih menggunakan Gradio, sebuah pustaka Python yang ideal untuk mendemonstrasikan aplikasi pembelajaran mesin. Penjelasan ini mencakup sumber kode yang sebagian besar diambil dari dokumentasi resmi SpeechBrain meskipun ada beberapa penyesuaian manual. Informasi ini sangat berguna bagi praktisi data yang ingin mengetahui tumpukan teknologi yang kompatibel dengan toolkit ini.

Uji Coba Peningkatan Audio dalam Kondisi Ekstrem

Narator melakukan pengujian fitur peningkatan audio dengan menggunakan gangguan suara latar berupa musik yang sangat keras untuk membuktikan efektivitas alat. Hasilnya menunjukkan bahwa SpeechBrain mampu menghilangkan derau secara signifikan dan menghasilkan suara yang jernih tanpa memerlukan trik pascaproses tambahan. Keunggulan utama yang ditekankan adalah kecepatan pemrosesan yang hanya memakan waktu beberapa detik, membuatnya ideal untuk aplikasi telepon atau perangkat edge. Namun, narator memberikan catatan kritis bahwa dokumentasi resminya agak sulit dipahami, terutama bagi pengguna perangkat Mac yang sering menemui kendala teknis. Bagian ini menyoroti kontras antara performa algoritma yang luar biasa dengan tantangan pengalaman pengguna dalam pengembangan.

Analisis Mendalam Verifikasi dan Otentikasi Pembicara

Sesi ini membahas fitur verifikasi pembicara yang sering dianggap rumit namun ternyata sangat mudah diimplementasikan dengan SpeechBrain. Melalui serangkaian tes rekaman, sistem menunjukkan skor kemiripan yang tinggi saat narator berbicara normal maupun saat mengubah nada bicaranya secara manual. Model ini telah dilatih menggunakan dataset VoxCeleb, yang memberikan keakuratan tinggi dalam mengenali karakteristik unik suara individu. Menariknya, ketika pengubah suara elektronik digunakan, sistem secara tegas memberikan skor rendah dan menyatakan suara tersebut tidak cocok. Fitur ini diposisikan sebagai tulang punggung yang sangat kuat bagi siapa pun yang ingin membangun sistem otentikasi biometrik suara multi-pengguna.

Evaluasi Fitur ASR dan Kesimpulan Akhir

Pada bagian akhir, narator menguji fitur transkripsi otomatis atau ASR yang sayangnya memberikan hasil yang mengecewakan dan tidak sesuai ekspektasi. Narator merasa fitur ini tidak lebih baik dari pustaka transkripsi standar lainnya dan merasa kesulitan karena minimnya bantuan dari dokumentasi terkait. Meskipun ada kekurangan pada aspek ASR dan dokumentasi, kesimpulan keseluruhan tetap menempatkan SpeechBrain sebagai toolkit yang berharga karena sifatnya yang terbuka dan cepat. Video diakhiri dengan ajakan bagi para pengembang untuk mencoba sendiri melalui tautan yang disediakan di deskripsi. Ringkasan ini menegaskan bahwa meskipun tidak sempurna, SpeechBrain tetap menjadi pilihan utama untuk fitur suara tertentu.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video