Saya Mencoba Alternatif Open Source ElevenLabs (Voicebox)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Mereka bilang ini adalah Olama-nya AI suara. Ia mengkloning suara, menghasilkan ucapan, mendikte ke aplikasi apa pun,
00:00:07dan berbicara dengan agen menggunakan suara yang benar-benar Anda miliki. Ini adalah VoiceBox, dan itulah yang dikatakannya
00:00:13di sini. Ini gratis dan merupakan alternatif lokal untuk 11 Labs, dan sejujurnya, ini sangat luar biasa.
00:00:19Ia memiliki sekitar 30.000 bintang di GitHub. Ia berjalan secara lokal, dan dalam 60 detik ke depan,
00:00:24saya akan menunjukkan kepada Anda kloning suara, pembuatan suara lokal, dan dikte di dalam editor.
00:00:29Seberapa bergunakah ini bagi kita, dan seberapa mudah untuk memulainya? Kita akan segera mengetahuinya.
00:00:39Sekarang, VoiceBox adalah studio suara AI lokal sumber terbuka. Cara mudah untuk memikirkannya adalah seperti ini.
00:00:46Olama ditujukan untuk model teks lokal. VoiceBox mencoba menjadi seperti itu untuk suara. Jadi ini bukan sekadar teks-ke-ucapan.
00:00:54Ia melakukan kloning suara, dikte seluruh sistem, penyuntingan kreatif, dan bahkan memiliki cerita serta
00:01:00linimasa, dan terhubung ke agen AI. Jadi ini memberi kita kendali nyata dan privasi yang lebih baik.
00:01:06Saya ingin membangun sesuatu tanpa bertanya, berapa banyak kredit yang baru saja saya gunakan untuk mengujinya? VoiceBox
00:01:12tidak menanyakan hal itu, karena VoiceBox berjalan di mesin kita sendiri. Jadi tidak ada langganan. Tidak ada
00:01:17batasan karakter. Ditambah lagi, ia menyatukan kloning, dikte berbasis Whisper, editor multi-track,
00:01:23aplikasi desktop, dukungan MCP, dan REST API lokal. Jadi alih-alih lima alat terpisah,
00:01:29Anda mendapatkan satu aplikasi desktop dengan segalanya di sini. Saya akan melakukan tiga hal dalam video ini.
00:01:36Saya akan mengkloning suara, saya akan membuatnya berbicara, dan kemudian saya akan menggunakan dikte di dalam
00:01:41editor. Setelah itu, saya akan menunjukkan kepada Anda mengapa integrasi agennya sangat keren, atau setidaknya
00:01:46kita akan membicarakannya. Jika Anda menikmati alat pengkodean yang mempercepat alur kerja Anda, pastikan untuk
00:01:50berlangganan. Kami terus merilis video. Baiklah, sekarang saya menjalankan ini di Mac M4 saya.
00:01:55Ini adalah VoiceBox. Saya sudah menyiapkan profil suara, tetapi alurnya sangat sederhana. Sekarang Anda bisa
00:02:02menjalankan ini dengan Docker, ya, tapi saya melakukannya, dan butuh waktu hampir 30 menit untuk menyiapkan kontainernya.
00:02:08Jadi untuk ini, saya memilih untuk mendapatkan aplikasi desktop, yang jauh lebih cepat, dan sejujurnya sangat
00:02:13bagus. Saya bisa menamai audionya di sini. Saya bisa menambahkan deskripsi dan bahkan memberi tahu cara kerjanya dengan
00:02:19model. Kemudian saya bisa merekam suara saya sendiri atau mengunggah file pendek untuk dianalisis sambil juga
00:02:26memasukkan transkripsi audio tersebut. Sekarang saya akan mengetik kalimat yang benar-benar ingin saya gunakan. Jadi
00:02:32mungkin sebagai pengembang, ini memberi saya kendali penuh atas AI suara tanpa biaya cloud dan semua hal terkait
00:02:38privasi. Saya akan memilih profil suara saya. Saya bisa memilih model yang saya inginkan dan menekan
00:02:44tombol generate. Sekarang, penggunaan pertama ini harus mengunduh modelnya. Jadi mungkin butuh
00:02:50beberapa waktu, tetapi setelah semua itu, dan kita menjalankannya, kita mendapatkan bentuk gelombang. Mari kita dengarkan.
00:02:57Sebagai pengembang, ini memberi saya kendali penuh atas AI suara tanpa biaya cloud dan semua hal terkait
00:03:02privasi. Audio tersebut dibuat secara lokal dari mesin saya dan saya mengkloning suara saya sendiri. Tidak ada tab peramban.
00:03:09Saya tidak perlu kunci API, tetapi inilah bagian yang terasa seperti alur kerja yang nyata. Dikte
00:03:16seluruh sistem. Saya bisa menekan tombol pintas global dan saya bisa mengucapkan apa pun yang saya pikirkan saat itu. Jika Anda suka
00:03:22menemukan alat dan trik pengkodean seperti ini, lihat saluran kami. Sekarang teksnya langsung masuk ke editor saya.
00:03:29Jadi, maksud saya, itu cukup berguna untuk catatan, komentar, atau apa pun seperti itu.
00:03:33Tetapi semua momen kecil di mana berbicara sebenarnya lebih cepat daripada mengetik, itu sangat besar. Ini
00:03:38bukan hanya untuk Anda berbicara dengan komputer. Agen Anda sekarang benar-benar bisa membalas.
00:03:43Clawed code, cursor, atau agen lokal Anda sendiri bisa memicu ucapan melalui VoiceBox sebagai gantinya,
00:03:49alih-alih hanya membuangnya ke terminal Anda. Kita sudah mendapatkan umpan balik dari AI kita.
00:03:55Mengapa tidak membiarkannya berbicara kepada kita? Sekarang mari kita bandingkan ini dengan alat yang sudah kita kenal.
00:03:59Untuk alasan yang jelas, benar, kita punya Eleven Labs. Eleven Labs itu hebat. Bravo. Saya pernah melakukan perbandingan tentang itu
00:04:05sebelumnya. Itu dihosting. Kita tahu kualitasnya luar biasa. Tapi sekali lagi, benar, ini berbasis cloud. Ini
00:04:11berbasis langganan. Jadi kita membayar untuk itu. Kita menaruh barang-barang kita di cloud.
00:04:16VoiceBox adalah kebalikan dari itu. Mengapa? Yah, itu lokal. Gratis. Tidak terbatas. Kita
00:04:22mengendalikan semua data yang masuk ke dalamnya. Eleven Labs mungkin masih menang jika Anda menggunakannya sepanjang hari,
00:04:27tetapi saya pikir saya akan tetap menggunakan VoiceBox karena saya suka betapa mudahnya itu. Dan sejujurnya, itu terdengar sangat layak
00:04:33juga. Bagi kita para pengembang, alat terbaik tidak selalu yang memiliki hasil paling cantik. Kita sebenarnya tidak
00:04:38terlalu peduli tentang itu sering kali. Terkadang itu adalah alat yang benar-benar bisa Anda kendalikan. Lalu ada
00:04:43seluruh sisi sumber terbuka. Anda sudah bisa menggunakan alat seperti Piper, Whisper, dan banyak skrip terpisah.
00:04:50Tetapi sekali lagi, hal utama di sana, kawan, adalah mereka semua terpisah, bukan? Kita punya satu alat untuk transkripsi,
00:04:56satu untuk kloning, satu untuk TTS, satu untuk UI, semua hal ini yang sebenarnya hanya kita gabungkan.
00:05:03VoiceBox mengemas seluruh alur kerja menjadi satu aplikasi studio. Input, output, penyuntingan, profil,
00:05:09dokumentasi, integrasi agen, dan heck, Anda juga bisa menggunakan server MCP. Seperti yang saya katakan,
00:05:14itu berarti Claude atau Cursor dapat memanggil VoiceBox sebagai alat alih-alih agen Anda hanya membalas
00:05:20dengan teks. Sekarang ia berbicara kembali kepada Anda. Tapi apakah Anda ingin mendengar diri Anda berbicara kembali? Saya tidak
00:05:25tahu. Mungkin ubah suaranya untuk itu. Tapi bayangkan agen pengkodean Anda berkata, build gagal. Tiga modul tes
00:05:30merusak modul otentikasi. Itu terdengar tidak nyata sampai Anda menyadari berapa kali sehari Anda sudah
00:05:36mendapatkan umpan balik dari alat Anda. VoiceBox hanya memberikan pembaruan itu suara yang nyata.
00:05:42Jadi mengapa saya sangat menyukai ini dibandingkan yang lain? Yah, oke, privasi dan biaya. Sejujurnya,
00:05:48itu adalah kemenangan yang sangat besar, setidaknya bagi saya. Itu adalah kemenangan yang mudah. Untuk sampel suara, audio,
00:05:53konten internal, atau apa pun yang benar-benar sensitif, lokal adalah yang kita inginkan. Ini bagus.
00:05:57Lalu ada integrasi agen, yang tidak saya masukkan ke dalam tes penuh di sini, tetapi pengembang sudah
00:06:02membicarakannya saat mereka mengintegrasikannya ke dalam Claude Code, Cursor. VoiceBox memberikan sistem tersebut
00:06:08lapisan suara tanpa memerlukan penyedia ucapan yang dihosting. Alur kerjanya cukup rapi. Saya suka
00:06:14bahwa semuanya ada di UI yang bisa kita kendalikan. Ini sangat mudah. Dan jika Anda menggunakan Apple Silicon,
00:06:18terutama kinerja lokal adalah salah satu alasan mengapa ini terasa sangat enak. Tapi inilah
00:06:23hal yang perlu diingat dengan semua ini. Ini dirilis tahun ini. Masih awal. Jadi akan ada
00:06:28masalah. Beberapa pengguna akan mengalami kesulitan jika Anda menggunakan Windows, terutama seputar
00:06:33deteksi GPU, pengaturan model, dan ekspor. Jika ini terjadi, cukup mulai ulang aplikasinya. Saya memiliki masalah
00:06:39di Mac saya. Memulai ulangnya memperbaiki ini. Konsistensi bentuk panjang juga masih bisa tertinggal dari 11 labs.
00:06:46Dalam pengendalian emosi, ini meningkat, tetapi itu tergantung pada model yang Anda pilih. Jika Anda memilih
00:06:50Shatterbox TTS Turbo, kita kemudian memiliki emosi tersebut di dalamnya.
00:06:55Jadi, haruskah Anda menginstal VoiceBox? Sejujurnya, itu sangat mudah. Ini benar-benar layak dicoba
00:07:00karena menghilangkan banyak hambatan yang kita miliki dari alur kerja yang hanya kita
00:07:04satukan. Nilai utamanya bukan hanya kualitas suara. Ini benar-benar kendali
00:07:09yang diberikan kepada kita di sini. Ini kendali atas data, kendali atas biaya, atas integrasi. Itulah
00:07:15mengapa ini semua sangat penting. Sekarang, memulainya sangat sederhana. Monyet pun bisa melakukannya. Buka
00:07:20situs web VoiceBox atau rilis GitHub, unduh penginstal untuk platform Anda, luncurkan aplikasi,
00:07:25lalu tarik model lokal yang Anda butuhkan. Tetapi gagasan inti di sini sangat kuat,
00:07:30dan sudah cukup berguna untuk benar-benar diinstal. Jika Anda menikmati alat pengkodean seperti ini,
00:07:35pastikan untuk berlangganan saluran BetterStack. Sampai jumpa di video berikutnya.

Key Takeaway

VoiceBox menyatukan kloning suara, dikte sistem, dan integrasi agen AI ke dalam satu studio desktop lokal yang memberikan privasi data dan kendali biaya penuh tanpa ketergantungan pada layanan cloud berbayar seperti ElevenLabs.

Highlights

  • VoiceBox menyediakan alternatif sumber terbuka lokal untuk kloning suara dan dikte tanpa biaya cloud atau batasan karakter.

  • Aplikasi ini mengonsolidasikan alur kerja kloning, dikte berbasis Whisper, penyuntingan multi-track, dan integrasi API lokal dalam satu studio desktop.

  • Pengguna dapat mengintegrasikan agen AI seperti Claude atau Cursor ke VoiceBox untuk memberikan umpan balik suara real-time saat menjalankan kode.

  • Aplikasi berjalan secara lokal di mesin pengguna, memastikan kendali penuh atas data sensitif dan privasi.

  • Proses instalasi melalui aplikasi desktop lebih cepat dibandingkan pengaturan kontainer Docker yang memakan waktu sekitar 30 menit.

Timeline

Konsep dan Keunggulan VoiceBox

  • VoiceBox berfungsi sebagai alternatif lokal sumber terbuka untuk kloning suara dan pembuatan ucapan.
  • Aplikasi ini menghilangkan kebutuhan akan langganan bulanan atau batasan penggunaan karakter yang ditemukan pada layanan cloud.
  • Satu aplikasi desktop menggabungkan fungsi transkripsi, kloning, TTS, dan dukungan API.

VoiceBox dirancang untuk menjadi 'Ollama-nya suara', memberikan fungsionalitas komprehensif bagi pengembang yang membutuhkan kontrol atas AI suara. Tanpa biaya cloud, alat ini memungkinkan pembuatan suara lokal di mesin pengguna sendiri. Dengan menyatukan berbagai alat yang sebelumnya terpisah, pengguna mendapatkan alur kerja yang lebih efisien dan terpadu.

Alur Kerja dan Implementasi Praktis

  • Pengguna dapat mengkloning suara sendiri dengan merekam atau mengunggah file audio pendek.
  • Fitur dikte global memungkinkan transkripsi langsung dari suara ke dalam editor teks.
  • Pemrosesan audio dilakukan sepenuhnya secara lokal pada mesin Mac M4.

Pengaturan VoiceBox melalui aplikasi desktop terbukti jauh lebih cepat dibandingkan menggunakan Docker. Setelah profil suara dipilih dan model diunduh, aplikasi menghasilkan audio berkualitas lokal. Dikte sistem memberikan akses cepat untuk mencatat ide secara lisan langsung ke lingkungan pengembangan tanpa harus mengetik.

Integrasi dan Perbandingan

  • Integrasi server MCP memungkinkan agen pengkodean memberikan respons suara alih-alih hanya teks terminal.
  • VoiceBox menawarkan kontrol data dan biaya yang lebih baik dibandingkan ElevenLabs untuk penggunaan intensif.
  • Aplikasi ini masih dalam tahap awal pengembangan, sehingga beberapa masalah teknis pada Windows atau konsistensi model mungkin terjadi.

Meskipun ElevenLabs masih unggul dalam kualitas suara untuk penggunaan umum, VoiceBox menawarkan keunggulan dalam privasi dan kemudahan kendali bagi pengembang. Dengan mengintegrasikan suara ke dalam agen seperti Claude atau Cursor, pengembang mendapatkan umpan balik langsung mengenai kegagalan build atau modul tes. Meskipun terdapat tantangan awal dalam penggunaan, kendali yang diberikan atas data dan integrasi menjadikannya solusi yang sangat layak digunakan.

Community Posts

View all posts