Model 82M Mungil Ini Baru Saja Mengalahkan Sebagian Besar API TTS (Berjalan Lokal)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)가전제품/카메라

Transcript

00:00:00Model dengan 82 juta parameter baru saja mengalahkan sistem TTS yang jauh lebih besar, dan ini berjalan secara lokal di
00:00:06laptop lebih cepat daripada kebanyakan API berbayar.
00:00:09Bulan lalu saya membayar untuk TTS berbasis cloud, tapi masih mengalami lag.
00:00:13Itu sama sekali tidak masuk akal bagi saya.
00:00:14Bagaimana bisa model open source ini mengalahkan sistem tersebut?
00:00:17Ini adalah Kokoro 82M, dan sudah mulai digunakan oleh beberapa pengembang.
00:00:22Mari kita lihat cara kerjanya dan yang lebih penting, bagaimana suaranya.
00:00:30Oke, sekarang jika Anda membangun sesuatu dengan text-to-speech, Anda biasanya memilih di antara dua opsi yang buruk.
00:00:36Opsi pertama jelas adalah API cloud, bukan?
00:00:39Mudah untuk dimulai, tapi sekarang Anda punya tagihan ini, lonjakan latensi, dan satu lagi ketergantungan
00:00:44setiap kali aplikasi Anda berbicara.
00:00:46Lalu opsi berikutnya adalah sesuatu seperti model terbuka yang besar ini, tapi sekarang Anda butuh lebih banyak
00:00:51perangkat keras, lebih banyak memori, dan jujur saja, itu tetap tidak secepat itu.
00:00:56Jadi sesuatu yang seharusnya terasa mulus akhirnya terasa lambat, mahal, atau
00:01:00malah rusak begitu saja.
00:01:02Di sinilah Kokoro berperan.
00:01:04Ia dilatih dengan kurang dari 100 jam data, namun tetap berada di puncak papan peringkat.
00:01:09Ia mengalahkan model yang jauh lebih besar dengan ukuran yang sangat kecil, berlisensi Apache 2.0, berjalan di CPU,
00:01:15sangat cepat di Apple Silicon, dan menghasilkan ucapan dengan kecepatan yang luar biasa.
00:01:19Jadi sekarang aplikasi suara lokal dan agen real-time sebenarnya mulai terasa lebih masuk akal.
00:01:24Jika Anda menyukai alat dan tips coding seperti ini, pastikan untuk berlangganan.
00:01:27Kami merilis video setiap saat.
00:01:29Baiklah, sekarang biarkan saya tunjukkan ini.
00:01:31Saya menjalankan semua ini secara lokal di Mac M4 Pro.
00:01:34Pengaturannya hanya butuh sekitar 30 detik, saya hanya menjalankan perintah pip di sini.
00:01:39Saya berada di lingkungan conda, tapi hanya itu saja.
00:01:42Saya punya seluruh skrip Python ini dari repo resmi mereka, saya tidak perlu mengubah apa pun
00:01:47untuk mencoba ini, tinggal tarik dan letakkan, kita mendapatkan semua output ini.
00:01:51Saya bisa memilih suara dan bahasa di sini, tapi untuk putaran pertama saya akan membiarkannya
00:01:56apa adanya karena sejujurnya suaranya sangat bagus.
00:02:00Saya akan menjalankannya dan mari kita dengarkan.
00:02:02Better Stack adalah platform observabilitas terkemuka.
00:02:05Itu membuat pemantauan menjadi sederhana.
00:02:07Ia memiliki AISRE, log, metrik, jejak, pelacakan kesalahan.
00:02:12Dan respons insiden semuanya di satu tempat.
00:02:14Tidak bohong, itu cukup bagus, dan keluar dengan sangat cepat.
00:02:19Sekarang jika saya ganti, mari gunakan bahasa Prancis dan ganti ke suara Prancis.
00:02:24Ubah teksnya sedikit dan mari jalankan lagi.
00:02:26Better Stack adalah platform untuk observabilitas secara paralel.
00:02:29Ini menyederhanakan pemantauan.
00:02:31Oke, bahasa Prancis saya agak berkarat jadi jangan terjemahkan kata demi kata, tapi itu terdengar cukup
00:02:36bagus juga.
00:02:37Kalian bisa menilainya sendiri.
00:02:39Semuanya disimpan sebagai file WAV jadi saya bisa mengunduhnya sesuka hati.
00:02:43Tidak ada cloud.
00:02:44Tidak ada GPU.
00:02:45Itu sangat luar biasa.
00:02:47Jadi sebenarnya apa itu Kokoro 82M?
00:02:49Secara garis besar, ini adalah model style TTS2 dengan vocoder ringan.
00:02:55Artinya, ini dibuat agar terdengar bagus tanpa menjadi besar, dan itulah kunci
00:02:59perbedaannya di sini.
00:03:00Kebanyakan opsi lain memilih ukuran yang lebih besar.
00:03:01Seperti XTTS, Cozy Voice, F5 TTS, ratusan juta hingga lebih dari satu miliar parameter.
00:03:08Lalu alat cloud seperti 11 Labs atau OpenAI memang menyelesaikan masalah perangkat keras, tapi sekarang kita
00:03:13membayar per permintaan dan mengirimkan data kita keluar.
00:03:16Kokoro mengambil arah yang berbeda.
00:03:19Ukurannya kecil, cepat untuk dimulai, dan berjalan secara lokal, plus menggunakan memori jauh lebih sedikit.
00:03:24Tapi kekurangannya adalah, ia tidak mendukung zero-shot voice cloning secara langsung, sebaliknya
00:03:29ia fokus pada efisiensi dan kualitas yang bisa kita luncurkan jauh lebih cepat.
00:03:33Kita tetap mendapatkan 8 bahasa, 54 suara, dan kontrol yang cukup baik dengan impor Misaki mereka.
00:03:39Saya bisa melihat di mana ini akan sangat cocok untuk berbagai jenis agen, tapi
00:03:42Anda tidak mendapatkan emosi apa pun, yang sebenarnya ingin saya lihat di sini.
00:03:47AI tanpa emosi akan tetap terdengar sangat seperti AI, yang menurut saya bisa bagus
00:03:52di waktu tertentu, bukan?
00:03:53Tapi akan menyenangkan untuk mencoba-coba emosi tersebut.
00:03:56Jadi mengapa para pengembang sebenarnya menggunakan ini?
00:03:58Nah, jika belum saya tunjukkan, mari kita bahas, karena ini memperbaiki hal-hal yang biasanya
00:04:02merusak fitur suara.
00:04:04Pertama adalah kecepatannya.
00:04:05Jika agen Anda berhenti terlalu lama dan tidak terasa nyata, Kokoro memangkas penundaan itu secara signifikan.
00:04:11Lalu ada penggunaan offline.
00:04:13Tanpa internet, tanpa kunci API, saya tidak mengalami kegagalan acak.
00:04:16Itu luar biasa.
00:04:17Privasi juga cukup penting karena Kokoro menjaga semuanya tetap lokal, jadi bagi saya, bagi banyak dari kalian,
00:04:22itu bisa menjadi keuntungan besar.
00:04:23Dan akhirnya, biaya dalam skala besar.
00:04:26Karena sangat ringan, Anda bisa menjalankan lebih banyak instans pada satu mesin.
00:04:30Apa yang bagus dan apa yang tidak, saya suka, ini cepat dan kecil.
00:04:33Terdengar alami untuk konten berdurasi panjang.
00:04:35Itu sangat keren.
00:04:36Saya telah mencoba banyak alat seperti ini.
00:04:38Lisensinya Apache 2.0, jadi Anda bisa meluncurkannya, dan setelah pengaturan, pada dasarnya gratis.
00:04:43Semua ini sangat, sangat bagus.
00:04:44Sekarang, saya suka hal-hal tersebut.
00:04:45Itu keren.
00:04:46Tapi ada hal-hal yang tidak saya sukai.
00:04:47Tidak ada kloning suara bawaan, tergantung apakah Anda butuh kloning suara, oke, harusnya
00:04:51bisa ada itu.
00:04:52Emosinya cukup netral.
00:04:54Bagus untuk narasi, tapi tidak bagus untuk sesuatu yang dramatis.
00:04:56Maksud saya, benar-benar tidak ada kemampuan untuk mengubah emosi di sini, ditambah suara non-Inggris
00:05:02masih terus dikembangkan.
00:05:03Jadi itu perlu ditambahkan, mungkin tidak juga, tergantung bagaimana Anda melihat ini.
00:05:07Jadi apakah ini sempurna?
00:05:08Tidak.
00:05:09Tapi untuk masalah yang sebenarnya dihadapi kebanyakan dari kita seperti biaya, latensi, privasi, dan penerapan.
00:05:14Tampaknya ia menyelesaikan masalah yang tepat saat ini.
00:05:18Cobalah sendiri dan beri tahu saya.
00:05:19Kokoro 82m membuktikan bahwa Anda tidak butuh model masif untuk mendapatkan TTS yang sangat bagus.
00:05:24Lebih kecil berarti lebih cepat, lebih cepat berarti bisa digunakan, dan dapat digunakan biasanya berarti Anda bisa benar-benar
00:05:29meluncurkannya.
00:05:30Jika Anda sedang membangun agen suara atau alat lokal, ini layak untuk dicoba.
00:05:34Jika Anda menikmati alat dan tips coding seperti ini, pastikan untuk berlangganan saluran Better Stack.
00:05:38Kita sampai jumpa di video lainnya.

Key Takeaway

Kokoro 82M membuktikan bahwa model TTS lokal dengan 82 juta parameter dapat mengungguli API berbayar dalam hal latensi dan biaya tanpa mengorbankan kualitas suara alami.

Highlights

Model Kokoro 82M memiliki hanya 82 juta parameter namun mampu mengalahkan sistem TTS yang jauh lebih besar dalam hal kecepatan dan kualitas.

Kokoro 82M menggunakan lisensi Apache 2.0 yang memungkinkan penggunaan gratis dan implementasi komersial tanpa biaya API cloud.

Proses instalasi dan setup lokal pada Mac M4 Pro hanya membutuhkan waktu sekitar 30 detik melalui perintah pip di lingkungan conda.

Model ini menyediakan akses ke 8 bahasa dan 54 jenis suara yang berbeda meskipun ukurannya sangat kecil.

Pengoperasian Kokoro 82M sepenuhnya berjalan di CPU tanpa memerlukan GPU atau koneksi internet untuk menghasilkan output suara.

Data pelatihan model ini mencakup kurang dari 100 jam data audio namun tetap menduduki posisi puncak di berbagai papan peringkat TTS.

Timeline

Perbandingan Solusi TTS Cloud dan Lokal

  • API cloud sering kali menyebabkan lonjakan latensi dan ketergantungan biaya per permintaan.
  • Model TTS terbuka yang besar membutuhkan perangkat keras dengan memori tinggi namun tetap beroperasi lambat.
  • Model Kokoro 82M memangkas penundaan pemrosesan sehingga interaksi agen suara terasa lebih nyata.

Banyak pengembang terjebak di antara dua pilihan yang kurang ideal yaitu API berbasis cloud yang mahal atau model lokal raksasa yang menuntut spesifikasi perangkat keras tinggi. Masalah utama pada sistem cloud adalah adanya lag yang tidak konsisten meskipun pengguna sudah membayar layanan tersebut. Kokoro hadir sebagai solusi yang berjalan lebih cepat daripada kebanyakan API berbayar langsung dari laptop pengguna.

Spesifikasi dan Keunggulan Teknis Kokoro 82M

  • Model ini berbasis arsitektur StyleTTS2 dengan vocoder ringan untuk efisiensi maksimal.
  • Integrasi skrip Python dari repositori resmi memungkinkan pengoperasian tanpa modifikasi kode.
  • Output suara disimpan dalam format file WAV secara lokal tanpa pengiriman data ke server eksternal.

Model ini sangat optimal untuk Apple Silicon dan tetap memberikan performa tinggi saat dijalankan hanya menggunakan CPU. Pengujian pada bahasa Inggris dan Prancis menunjukkan hasil artikulasi yang jernih dan natural meskipun bahasa non-Inggris masih dalam tahap pengembangan. Pengembang dapat menarik dan melepaskan skrip untuk segera mendapatkan output suara tanpa perlu konfigurasi yang rumit.

Analisis Efisiensi dan Batasan Model

  • Kokoro menggunakan memori jauh lebih sedikit dibandingkan model pesaing seperti XTTS atau Cozy Voice.
  • Fitur zero-shot voice cloning tidak tersedia secara bawaan karena fokus utama pada kecepatan peluncuran.
  • Emosi suara bersifat netral sehingga lebih cocok untuk narasi daripada konten dramatis.

Berbeda dengan model lain yang memiliki ratusan juta hingga miliaran parameter, Kokoro memilih jalur minimalis dengan 82 juta parameter. Hal ini memungkinkan pengguna menjalankan lebih banyak instans pada satu mesin yang sama. Meskipun unggul dalam efisiensi, model ini memiliki keterbatasan dalam mengekspresikan emosi yang kuat dan tidak mendukung kloning suara instan secara langsung.

Implementasi Praktis dan Privasi Pengembang

  • Penggunaan offline menghilangkan risiko kegagalan sistem akibat gangguan koneksi internet.
  • Data tetap berada di perangkat lokal untuk menjamin privasi pengguna sepenuhnya.
  • Lisensi Apache 2.0 memberikan kebebasan penuh untuk meluncurkan aplikasi tanpa biaya lisensi tambahan.

Keunggulan utama bagi pengembang adalah kemampuan untuk membangun agen suara real-time tanpa kunci API atau ketergantungan pada pihak ketiga. Kecepatan pemrosesan yang tinggi memperbaiki fitur suara yang biasanya rusak karena jeda respons yang terlalu lama. Ukuran yang kecil berarti teknologi ini bisa diterapkan pada berbagai jenis perangkat dengan biaya operasional yang hampir nol setelah tahap pengaturan awal.

Community Posts

View all posts