00:00:00Model dengan 82 juta parameter baru saja mengalahkan sistem TTS yang jauh lebih besar, dan ini berjalan secara lokal di
00:00:06laptop lebih cepat daripada kebanyakan API berbayar.
00:00:09Bulan lalu saya membayar untuk TTS berbasis cloud, tapi masih mengalami lag.
00:00:13Itu sama sekali tidak masuk akal bagi saya.
00:00:14Bagaimana bisa model open source ini mengalahkan sistem tersebut?
00:00:17Ini adalah Kokoro 82M, dan sudah mulai digunakan oleh beberapa pengembang.
00:00:22Mari kita lihat cara kerjanya dan yang lebih penting, bagaimana suaranya.
00:00:30Oke, sekarang jika Anda membangun sesuatu dengan text-to-speech, Anda biasanya memilih di antara dua opsi yang buruk.
00:00:36Opsi pertama jelas adalah API cloud, bukan?
00:00:39Mudah untuk dimulai, tapi sekarang Anda punya tagihan ini, lonjakan latensi, dan satu lagi ketergantungan
00:00:44setiap kali aplikasi Anda berbicara.
00:00:46Lalu opsi berikutnya adalah sesuatu seperti model terbuka yang besar ini, tapi sekarang Anda butuh lebih banyak
00:00:51perangkat keras, lebih banyak memori, dan jujur saja, itu tetap tidak secepat itu.
00:00:56Jadi sesuatu yang seharusnya terasa mulus akhirnya terasa lambat, mahal, atau
00:01:00malah rusak begitu saja.
00:01:02Di sinilah Kokoro berperan.
00:01:04Ia dilatih dengan kurang dari 100 jam data, namun tetap berada di puncak papan peringkat.
00:01:09Ia mengalahkan model yang jauh lebih besar dengan ukuran yang sangat kecil, berlisensi Apache 2.0, berjalan di CPU,
00:01:15sangat cepat di Apple Silicon, dan menghasilkan ucapan dengan kecepatan yang luar biasa.
00:01:19Jadi sekarang aplikasi suara lokal dan agen real-time sebenarnya mulai terasa lebih masuk akal.
00:01:24Jika Anda menyukai alat dan tips coding seperti ini, pastikan untuk berlangganan.
00:01:27Kami merilis video setiap saat.
00:01:29Baiklah, sekarang biarkan saya tunjukkan ini.
00:01:31Saya menjalankan semua ini secara lokal di Mac M4 Pro.
00:01:34Pengaturannya hanya butuh sekitar 30 detik, saya hanya menjalankan perintah pip di sini.
00:01:39Saya berada di lingkungan conda, tapi hanya itu saja.
00:01:42Saya punya seluruh skrip Python ini dari repo resmi mereka, saya tidak perlu mengubah apa pun
00:01:47untuk mencoba ini, tinggal tarik dan letakkan, kita mendapatkan semua output ini.
00:01:51Saya bisa memilih suara dan bahasa di sini, tapi untuk putaran pertama saya akan membiarkannya
00:01:56apa adanya karena sejujurnya suaranya sangat bagus.
00:02:00Saya akan menjalankannya dan mari kita dengarkan.
00:02:02Better Stack adalah platform observabilitas terkemuka.
00:02:05Itu membuat pemantauan menjadi sederhana.
00:02:07Ia memiliki AISRE, log, metrik, jejak, pelacakan kesalahan.
00:02:12Dan respons insiden semuanya di satu tempat.
00:02:14Tidak bohong, itu cukup bagus, dan keluar dengan sangat cepat.
00:02:19Sekarang jika saya ganti, mari gunakan bahasa Prancis dan ganti ke suara Prancis.
00:02:24Ubah teksnya sedikit dan mari jalankan lagi.
00:02:26Better Stack adalah platform untuk observabilitas secara paralel.
00:02:29Ini menyederhanakan pemantauan.
00:02:31Oke, bahasa Prancis saya agak berkarat jadi jangan terjemahkan kata demi kata, tapi itu terdengar cukup
00:02:36bagus juga.
00:02:37Kalian bisa menilainya sendiri.
00:02:39Semuanya disimpan sebagai file WAV jadi saya bisa mengunduhnya sesuka hati.
00:02:43Tidak ada cloud.
00:02:44Tidak ada GPU.
00:02:45Itu sangat luar biasa.
00:02:47Jadi sebenarnya apa itu Kokoro 82M?
00:02:49Secara garis besar, ini adalah model style TTS2 dengan vocoder ringan.
00:02:55Artinya, ini dibuat agar terdengar bagus tanpa menjadi besar, dan itulah kunci
00:02:59perbedaannya di sini.
00:03:00Kebanyakan opsi lain memilih ukuran yang lebih besar.
00:03:01Seperti XTTS, Cozy Voice, F5 TTS, ratusan juta hingga lebih dari satu miliar parameter.
00:03:08Lalu alat cloud seperti 11 Labs atau OpenAI memang menyelesaikan masalah perangkat keras, tapi sekarang kita
00:03:13membayar per permintaan dan mengirimkan data kita keluar.
00:03:16Kokoro mengambil arah yang berbeda.
00:03:19Ukurannya kecil, cepat untuk dimulai, dan berjalan secara lokal, plus menggunakan memori jauh lebih sedikit.
00:03:24Tapi kekurangannya adalah, ia tidak mendukung zero-shot voice cloning secara langsung, sebaliknya
00:03:29ia fokus pada efisiensi dan kualitas yang bisa kita luncurkan jauh lebih cepat.
00:03:33Kita tetap mendapatkan 8 bahasa, 54 suara, dan kontrol yang cukup baik dengan impor Misaki mereka.
00:03:39Saya bisa melihat di mana ini akan sangat cocok untuk berbagai jenis agen, tapi
00:03:42Anda tidak mendapatkan emosi apa pun, yang sebenarnya ingin saya lihat di sini.
00:03:47AI tanpa emosi akan tetap terdengar sangat seperti AI, yang menurut saya bisa bagus
00:03:52di waktu tertentu, bukan?
00:03:53Tapi akan menyenangkan untuk mencoba-coba emosi tersebut.
00:03:56Jadi mengapa para pengembang sebenarnya menggunakan ini?
00:03:58Nah, jika belum saya tunjukkan, mari kita bahas, karena ini memperbaiki hal-hal yang biasanya
00:04:02merusak fitur suara.
00:04:04Pertama adalah kecepatannya.
00:04:05Jika agen Anda berhenti terlalu lama dan tidak terasa nyata, Kokoro memangkas penundaan itu secara signifikan.
00:04:11Lalu ada penggunaan offline.
00:04:13Tanpa internet, tanpa kunci API, saya tidak mengalami kegagalan acak.
00:04:16Itu luar biasa.
00:04:17Privasi juga cukup penting karena Kokoro menjaga semuanya tetap lokal, jadi bagi saya, bagi banyak dari kalian,
00:04:22itu bisa menjadi keuntungan besar.
00:04:23Dan akhirnya, biaya dalam skala besar.
00:04:26Karena sangat ringan, Anda bisa menjalankan lebih banyak instans pada satu mesin.
00:04:30Apa yang bagus dan apa yang tidak, saya suka, ini cepat dan kecil.
00:04:33Terdengar alami untuk konten berdurasi panjang.
00:04:35Itu sangat keren.
00:04:36Saya telah mencoba banyak alat seperti ini.
00:04:38Lisensinya Apache 2.0, jadi Anda bisa meluncurkannya, dan setelah pengaturan, pada dasarnya gratis.
00:04:43Semua ini sangat, sangat bagus.
00:04:44Sekarang, saya suka hal-hal tersebut.
00:04:45Itu keren.
00:04:46Tapi ada hal-hal yang tidak saya sukai.
00:04:47Tidak ada kloning suara bawaan, tergantung apakah Anda butuh kloning suara, oke, harusnya
00:04:51bisa ada itu.
00:04:52Emosinya cukup netral.
00:04:54Bagus untuk narasi, tapi tidak bagus untuk sesuatu yang dramatis.
00:04:56Maksud saya, benar-benar tidak ada kemampuan untuk mengubah emosi di sini, ditambah suara non-Inggris
00:05:02masih terus dikembangkan.
00:05:03Jadi itu perlu ditambahkan, mungkin tidak juga, tergantung bagaimana Anda melihat ini.
00:05:07Jadi apakah ini sempurna?
00:05:08Tidak.
00:05:09Tapi untuk masalah yang sebenarnya dihadapi kebanyakan dari kita seperti biaya, latensi, privasi, dan penerapan.
00:05:14Tampaknya ia menyelesaikan masalah yang tepat saat ini.
00:05:18Cobalah sendiri dan beri tahu saya.
00:05:19Kokoro 82m membuktikan bahwa Anda tidak butuh model masif untuk mendapatkan TTS yang sangat bagus.
00:05:24Lebih kecil berarti lebih cepat, lebih cepat berarti bisa digunakan, dan dapat digunakan biasanya berarti Anda bisa benar-benar
00:05:29meluncurkannya.
00:05:30Jika Anda sedang membangun agen suara atau alat lokal, ini layak untuk dicoba.
00:05:34Jika Anda menikmati alat dan tips coding seperti ini, pastikan untuk berlangganan saluran Better Stack.
00:05:38Kita sampai jumpa di video lainnya.