00:00:00Ini seharusnya bisa dilakukan lewat email saja.
00:00:02Ini seharusnya bisa dilakukan lewat email saja.
00:00:04Kalimat yang sama, tapi dua pembawaan yang sangat berbeda.
00:00:07Saya baru saja mengetik “mulai normal” lalu perlahan berubah menjadi omelan frustrasi.
00:00:11Begitu saja.
00:00:12Tanpa markup, tanpa API yang mengirim data Anda ke tempat lain.
00:00:15Ini adalah Qwen 3 TTS.
00:00:17Model suara sumber terbuka baru mereka yang memungkinkan Anda mengatur nada dan benar-benar mendengarkan.
00:00:22Mari kita lihat bagaimana kemampuannya dibanding Eleven Labs atau bahkan Chatterbox.
00:00:30Banyak model suara sumber terbuka yang kurang memiliki emosi.
00:00:34Saya sudah mencoba Chatterbox dan itu sebenarnya lumayan bagus.
00:00:37Jadi, mengetahui Qwen memiliki fitur ini, saya tidak hanya ingin melihat kloning suaranya,
00:00:41tapi juga bagaimana emosi bahasanya jika dibandingkan dengan yang lain.
00:00:44Dan sejujurnya, saya cukup terkejut.
00:00:47Chatterbox memiliki slider emosi, sedangkan di Qwen,
00:00:50Anda benar-benar mengetikkan suara yang diinginkan sehingga memberikan kita lebih banyak kebebasan.
00:00:55Pada model yang lebih ringan, ia punya kloning suara tiga detik, yang akan kita coba nanti.
00:00:59Lalu saat kita tingkatkan ke model 1.7 B, fitur kloning suaranya hilang,
00:01:02tapi kita mendapatkan streaming waktu nyata dengan latensi 97 milidetik,
00:01:0510 bahasa dengan perpindahan kode alami, dan 100% berjalan secara lokal.
00:01:09Ini gratis.
00:01:09Lisensinya Apache 2.0.
00:01:11Artinya pembuatan prototipe lebih cepat, agen suara pribadi, dan alat bantu aksesibilitas.
00:01:16Jika Anda selalu mencari alat terbaru, pastikan untuk subscribe.
00:01:19Kami punya video baru setiap saat.
00:01:21Sekarang, melakukan kloning itu mudah.
00:01:22Yang sulit adalah emosinya.
00:01:23Jadi, mari kita coba mengujinya sampai batas maksimal.
00:01:25Kita akan menguji kloningnya terlebih dahulu.
00:01:28Pertama, saya akan mengunggah suara saya yang sudah direkam sebelumnya sebagai referensi di sini.
00:01:32Kemudian di bagian teks referensi, saya perlu mengetikkan apa yang saya ucapkan di audio tersebut.
00:01:37Di bagian teks target adalah tempat saya mengetikkan apa yang saya ingin hasilnya menjadi seperti apa.
00:01:42Itu saja.
00:01:43Ternyata proses menjalankannya jauh lebih lama dari yang saya kira.
00:01:46Jadi saya berharap kualitasnya sepadan, mari kita dengarkan.
00:01:49Bagaimana suaranya jika menggunakan model ini?
00:01:51Maksud saya, itu lumayan untuk model yang ringan, terutama Qwen,
00:01:55tapi Anda bisa mendengar jelas beberapa bagian yang terdengar seperti hasil buatan mesin.
00:01:59Jadi hasilnya tidaklah luar biasa.
00:02:01Audio kloning suara terbaik yang saya temukan adalah Vibe Voice dari Microsoft, itu gila sekali.
00:02:07Yang ini cuma biasa saja.
00:02:08Oke.
00:02:09Jadi kloning suara selesai.
00:02:10Selesai.
00:02:11Tapi sekarang mari kita tingkatkan dengan model 1.7b dan beralih untuk mulai menambahkan emosi
00:02:16ke dalam teks untuk melihat bagaimana Qwen menanganinya.
00:02:19Izinkan saya menunjukkan sesuatu yang terasa benar-benar berguna.
00:02:22Saya akan mengetik di kotak instruksi di sini, “ceritakan seperti narator yang menegangkan,
00:02:26bangun suasana perlahan, lalu akhiri dengan tawa lega.”
00:02:28Dan di sebelah sini, saya ingin dia mengucapkan info dasar tentang Qwen karena kita sedang membahas itu.
00:02:32Mengapa tidak?
00:02:33Mari kita dengarkan.
00:02:34Model teks-ke-ucapan sumber terbuka baru dari Alibaba yang
00:02:37akhirnya terasa seperti Anda sedang berbicara dengan pengisi suara asli.
00:02:42Oke.
00:02:42Jadi kita mendengar sedikit ketidaksesuaian.
00:02:44Ini tidak menangkap setiap nada, tapi banyak yang berhasil.
00:02:47Tidak ada menu tarik-turun, tidak ada preset.
00:02:49Kita membimbingnya ingin terdengar seperti apa.
00:02:51Sekarang mari kita buat suara yang terasa seperti seseorang yang mungkin benar-benar kita ajak berinteraksi.
00:02:55Mungkin kita sedang membangun sebuah proyek.
00:02:57Mari kita masukkan beberapa hal di sini.
00:02:58Saya akan mengatakan sesuatu tentang menulis tes.
00:03:01Dan di kotak instruksi, mari kita tulis “suara pengembang muda yang antusias,
00:03:03agak sarkastik, tapi ramah.”
00:03:07Nah, ini bukan saya yang memilih preset suara nomor 12.
00:03:10Saya mendeskripsikan dengan tepat bagaimana kepribadian suara itu seharusnya terdengar.
00:03:13Mari kita dengarkan.
00:03:14Menulis tes kode berarti memeriksa dengan cermat apakah program Anda berjalan sebagaimana mestinya.
00:03:20Sekarang Anda mungkin berpikir, bagaimana perbandingannya dengan yang lain?
00:03:22Eleven Labs masih menjadi rajanya, tapi itu berbayar dan data Anda keluar dari perangkat Anda.
00:03:26Chatterbox luar biasa.
00:03:28Salah satu yang terbaik yang pernah saya gunakan dan memiliki emosi yang bagus.
00:03:31Jika Anda masih mencari kloning suara, saya tetap merekomendasikan Vibe Voice yang sangat menakutkan kualitasnya.
00:03:36Qwen 3 TTS menang ketika Anda ingin mendeskripsikan suara secara alami dan melakukan iterasi dengan cepat.
00:03:41Jelas ada beberapa hal bagus di sini.
00:03:43Saya suka kontrol bahasa alami untuk iterasi tercepat.
00:03:47Ini sepenuhnya lokal dan privasi terjaga, siap untuk streaming
00:03:50agen waktu nyata, dan desain suaranya terasa jauh lebih intuitif.
00:03:55Lalu apa yang tidak kami sukai dari ini, atau yang harus saya katakan.
00:03:57Yang tidak saya sukai adalah ini model baru, kan?
00:04:00Jadi masih dalam tahap pengembangan di beberapa bahasa.
00:04:03Seperti TTS lainnya, GPU direkomendasikan untuk performa terbaik.
00:04:06Meski CPU bisa digunakan.
00:04:07Hanya saja akan terasa lebih lambat.
00:04:09Dan emosinya sangat bergantung pada seberapa baik Anda memberi prompt atau instruksi.
00:04:13Jika arahan Anda tidak jelas, hasilnya pun akan tidak jelas.
00:04:16Jadi pertanyaan besarnya adalah, apakah pengaturannya sulit?
00:04:19Tidak, sama sekali tidak.
00:04:20Sangat mudah.
00:04:22Clone repositorinya, instal dependensi, luncurkan UI webnya, buka localhost.
00:04:26Hanya itu yang saya lakukan di sini, dari nol sampai demo yang berfungsi hanya dalam beberapa menit.
00:04:32Tidak perlu kunci API.
00:04:33Tidak ada penagihan biaya.
00:04:34Dan semuanya ada di mesin Anda sendiri.
00:04:35Begitulah seharusnya suara sumber terbuka.
00:04:38Itulah mengapa mencoba alat suara sumber terbuka ini sangat keren untuk melihat fitur-fiturnya.
00:04:43Qwen 3 TTS, cepat, privat, dan lebih bisa dikontrol oleh pengembang.
00:04:46Jadi silakan coba sendiri.
00:04:48Saya sertakan tautannya di bawah.
00:04:49Dan jika Anda ingin lebih banyak alat lokal seperti ini, pastikan untuk subscribe.
00:04:52Sampai jumpa di video lainnya.