Transcript
00:00:00Mereka bilang ini adalah Olama-nya AI suara. Ia mengkloning suara, menghasilkan ucapan, mendikte ke aplikasi apa pun,
00:00:07dan berbicara dengan agen menggunakan suara yang benar-benar Anda miliki. Ini adalah VoiceBox, dan itulah yang dikatakannya
00:00:13di sini. Ini gratis dan merupakan alternatif lokal untuk 11 Labs, dan sejujurnya, ini sangat luar biasa.
00:00:19Ia memiliki sekitar 30.000 bintang di GitHub. Ia berjalan secara lokal, dan dalam 60 detik ke depan,
00:00:24saya akan menunjukkan kepada Anda kloning suara, pembuatan suara lokal, dan dikte di dalam editor.
00:00:29Seberapa bergunakah ini bagi kita, dan seberapa mudah untuk memulainya? Kita akan segera mengetahuinya.
00:00:39Sekarang, VoiceBox adalah studio suara AI lokal sumber terbuka. Cara mudah untuk memikirkannya adalah seperti ini.
00:00:46Olama ditujukan untuk model teks lokal. VoiceBox mencoba menjadi seperti itu untuk suara. Jadi ini bukan sekadar teks-ke-ucapan.
00:00:54Ia melakukan kloning suara, dikte seluruh sistem, penyuntingan kreatif, dan bahkan memiliki cerita serta
00:01:00linimasa, dan terhubung ke agen AI. Jadi ini memberi kita kendali nyata dan privasi yang lebih baik.
00:01:06Saya ingin membangun sesuatu tanpa bertanya, berapa banyak kredit yang baru saja saya gunakan untuk mengujinya? VoiceBox
00:01:12tidak menanyakan hal itu, karena VoiceBox berjalan di mesin kita sendiri. Jadi tidak ada langganan. Tidak ada
00:01:17batasan karakter. Ditambah lagi, ia menyatukan kloning, dikte berbasis Whisper, editor multi-track,
00:01:23aplikasi desktop, dukungan MCP, dan REST API lokal. Jadi alih-alih lima alat terpisah,
00:01:29Anda mendapatkan satu aplikasi desktop dengan segalanya di sini. Saya akan melakukan tiga hal dalam video ini.
00:01:36Saya akan mengkloning suara, saya akan membuatnya berbicara, dan kemudian saya akan menggunakan dikte di dalam
00:01:41editor. Setelah itu, saya akan menunjukkan kepada Anda mengapa integrasi agennya sangat keren, atau setidaknya
00:01:46kita akan membicarakannya. Jika Anda menikmati alat pengkodean yang mempercepat alur kerja Anda, pastikan untuk
00:01:50berlangganan. Kami terus merilis video. Baiklah, sekarang saya menjalankan ini di Mac M4 saya.
00:01:55Ini adalah VoiceBox. Saya sudah menyiapkan profil suara, tetapi alurnya sangat sederhana. Sekarang Anda bisa
00:02:02menjalankan ini dengan Docker, ya, tapi saya melakukannya, dan butuh waktu hampir 30 menit untuk menyiapkan kontainernya.
00:02:08Jadi untuk ini, saya memilih untuk mendapatkan aplikasi desktop, yang jauh lebih cepat, dan sejujurnya sangat
00:02:13bagus. Saya bisa menamai audionya di sini. Saya bisa menambahkan deskripsi dan bahkan memberi tahu cara kerjanya dengan
00:02:19model. Kemudian saya bisa merekam suara saya sendiri atau mengunggah file pendek untuk dianalisis sambil juga
00:02:26memasukkan transkripsi audio tersebut. Sekarang saya akan mengetik kalimat yang benar-benar ingin saya gunakan. Jadi
00:02:32mungkin sebagai pengembang, ini memberi saya kendali penuh atas AI suara tanpa biaya cloud dan semua hal terkait
00:02:38privasi. Saya akan memilih profil suara saya. Saya bisa memilih model yang saya inginkan dan menekan
00:02:44tombol generate. Sekarang, penggunaan pertama ini harus mengunduh modelnya. Jadi mungkin butuh
00:02:50beberapa waktu, tetapi setelah semua itu, dan kita menjalankannya, kita mendapatkan bentuk gelombang. Mari kita dengarkan.
00:02:57Sebagai pengembang, ini memberi saya kendali penuh atas AI suara tanpa biaya cloud dan semua hal terkait
00:03:02privasi. Audio tersebut dibuat secara lokal dari mesin saya dan saya mengkloning suara saya sendiri. Tidak ada tab peramban.
00:03:09Saya tidak perlu kunci API, tetapi inilah bagian yang terasa seperti alur kerja yang nyata. Dikte
00:03:16seluruh sistem. Saya bisa menekan tombol pintas global dan saya bisa mengucapkan apa pun yang saya pikirkan saat itu. Jika Anda suka
00:03:22menemukan alat dan trik pengkodean seperti ini, lihat saluran kami. Sekarang teksnya langsung masuk ke editor saya.
00:03:29Jadi, maksud saya, itu cukup berguna untuk catatan, komentar, atau apa pun seperti itu.
00:03:33Tetapi semua momen kecil di mana berbicara sebenarnya lebih cepat daripada mengetik, itu sangat besar. Ini
00:03:38bukan hanya untuk Anda berbicara dengan komputer. Agen Anda sekarang benar-benar bisa membalas.
00:03:43Clawed code, cursor, atau agen lokal Anda sendiri bisa memicu ucapan melalui VoiceBox sebagai gantinya,
00:03:49alih-alih hanya membuangnya ke terminal Anda. Kita sudah mendapatkan umpan balik dari AI kita.
00:03:55Mengapa tidak membiarkannya berbicara kepada kita? Sekarang mari kita bandingkan ini dengan alat yang sudah kita kenal.
00:03:59Untuk alasan yang jelas, benar, kita punya Eleven Labs. Eleven Labs itu hebat. Bravo. Saya pernah melakukan perbandingan tentang itu
00:04:05sebelumnya. Itu dihosting. Kita tahu kualitasnya luar biasa. Tapi sekali lagi, benar, ini berbasis cloud. Ini
00:04:11berbasis langganan. Jadi kita membayar untuk itu. Kita menaruh barang-barang kita di cloud.
00:04:16VoiceBox adalah kebalikan dari itu. Mengapa? Yah, itu lokal. Gratis. Tidak terbatas. Kita
00:04:22mengendalikan semua data yang masuk ke dalamnya. Eleven Labs mungkin masih menang jika Anda menggunakannya sepanjang hari,
00:04:27tetapi saya pikir saya akan tetap menggunakan VoiceBox karena saya suka betapa mudahnya itu. Dan sejujurnya, itu terdengar sangat layak
00:04:33juga. Bagi kita para pengembang, alat terbaik tidak selalu yang memiliki hasil paling cantik. Kita sebenarnya tidak
00:04:38terlalu peduli tentang itu sering kali. Terkadang itu adalah alat yang benar-benar bisa Anda kendalikan. Lalu ada
00:04:43seluruh sisi sumber terbuka. Anda sudah bisa menggunakan alat seperti Piper, Whisper, dan banyak skrip terpisah.
00:04:50Tetapi sekali lagi, hal utama di sana, kawan, adalah mereka semua terpisah, bukan? Kita punya satu alat untuk transkripsi,
00:04:56satu untuk kloning, satu untuk TTS, satu untuk UI, semua hal ini yang sebenarnya hanya kita gabungkan.
00:05:03VoiceBox mengemas seluruh alur kerja menjadi satu aplikasi studio. Input, output, penyuntingan, profil,
00:05:09dokumentasi, integrasi agen, dan heck, Anda juga bisa menggunakan server MCP. Seperti yang saya katakan,
00:05:14itu berarti Claude atau Cursor dapat memanggil VoiceBox sebagai alat alih-alih agen Anda hanya membalas
00:05:20dengan teks. Sekarang ia berbicara kembali kepada Anda. Tapi apakah Anda ingin mendengar diri Anda berbicara kembali? Saya tidak
00:05:25tahu. Mungkin ubah suaranya untuk itu. Tapi bayangkan agen pengkodean Anda berkata, build gagal. Tiga modul tes
00:05:30merusak modul otentikasi. Itu terdengar tidak nyata sampai Anda menyadari berapa kali sehari Anda sudah
00:05:36mendapatkan umpan balik dari alat Anda. VoiceBox hanya memberikan pembaruan itu suara yang nyata.
00:05:42Jadi mengapa saya sangat menyukai ini dibandingkan yang lain? Yah, oke, privasi dan biaya. Sejujurnya,
00:05:48itu adalah kemenangan yang sangat besar, setidaknya bagi saya. Itu adalah kemenangan yang mudah. Untuk sampel suara, audio,
00:05:53konten internal, atau apa pun yang benar-benar sensitif, lokal adalah yang kita inginkan. Ini bagus.
00:05:57Lalu ada integrasi agen, yang tidak saya masukkan ke dalam tes penuh di sini, tetapi pengembang sudah
00:06:02membicarakannya saat mereka mengintegrasikannya ke dalam Claude Code, Cursor. VoiceBox memberikan sistem tersebut
00:06:08lapisan suara tanpa memerlukan penyedia ucapan yang dihosting. Alur kerjanya cukup rapi. Saya suka
00:06:14bahwa semuanya ada di UI yang bisa kita kendalikan. Ini sangat mudah. Dan jika Anda menggunakan Apple Silicon,
00:06:18terutama kinerja lokal adalah salah satu alasan mengapa ini terasa sangat enak. Tapi inilah
00:06:23hal yang perlu diingat dengan semua ini. Ini dirilis tahun ini. Masih awal. Jadi akan ada
00:06:28masalah. Beberapa pengguna akan mengalami kesulitan jika Anda menggunakan Windows, terutama seputar
00:06:33deteksi GPU, pengaturan model, dan ekspor. Jika ini terjadi, cukup mulai ulang aplikasinya. Saya memiliki masalah
00:06:39di Mac saya. Memulai ulangnya memperbaiki ini. Konsistensi bentuk panjang juga masih bisa tertinggal dari 11 labs.
00:06:46Dalam pengendalian emosi, ini meningkat, tetapi itu tergantung pada model yang Anda pilih. Jika Anda memilih
00:06:50Shatterbox TTS Turbo, kita kemudian memiliki emosi tersebut di dalamnya.
00:06:55Jadi, haruskah Anda menginstal VoiceBox? Sejujurnya, itu sangat mudah. Ini benar-benar layak dicoba
00:07:00karena menghilangkan banyak hambatan yang kita miliki dari alur kerja yang hanya kita
00:07:04satukan. Nilai utamanya bukan hanya kualitas suara. Ini benar-benar kendali
00:07:09yang diberikan kepada kita di sini. Ini kendali atas data, kendali atas biaya, atas integrasi. Itulah
00:07:15mengapa ini semua sangat penting. Sekarang, memulainya sangat sederhana. Monyet pun bisa melakukannya. Buka
00:07:20situs web VoiceBox atau rilis GitHub, unduh penginstal untuk platform Anda, luncurkan aplikasi,
00:07:25lalu tarik model lokal yang Anda butuhkan. Tetapi gagasan inti di sini sangat kuat,
00:07:30dan sudah cukup berguna untuk benar-benar diinstal. Jika Anda menikmati alat pengkodean seperti ini,
00:07:35pastikan untuk berlangganan saluran BetterStack. Sampai jumpa di video berikutnya.