Qwen TTS Baru Saja Mengubah Standar Suara Open-Source

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00Ini seharusnya bisa dilakukan lewat email saja.
00:00:02Ini seharusnya bisa dilakukan lewat email saja.
00:00:04Kalimat yang sama, tapi dua pembawaan yang sangat berbeda.
00:00:07Saya baru saja mengetik “mulai normal” lalu perlahan berubah menjadi omelan frustrasi.
00:00:11Begitu saja.
00:00:12Tanpa markup, tanpa API yang mengirim data Anda ke tempat lain.
00:00:15Ini adalah Qwen 3 TTS.
00:00:17Model suara sumber terbuka baru mereka yang memungkinkan Anda mengatur nada dan benar-benar mendengarkan.
00:00:22Mari kita lihat bagaimana kemampuannya dibanding Eleven Labs atau bahkan Chatterbox.
00:00:30Banyak model suara sumber terbuka yang kurang memiliki emosi.
00:00:34Saya sudah mencoba Chatterbox dan itu sebenarnya lumayan bagus.
00:00:37Jadi, mengetahui Qwen memiliki fitur ini, saya tidak hanya ingin melihat kloning suaranya,
00:00:41tapi juga bagaimana emosi bahasanya jika dibandingkan dengan yang lain.
00:00:44Dan sejujurnya, saya cukup terkejut.
00:00:47Chatterbox memiliki slider emosi, sedangkan di Qwen,
00:00:50Anda benar-benar mengetikkan suara yang diinginkan sehingga memberikan kita lebih banyak kebebasan.
00:00:55Pada model yang lebih ringan, ia punya kloning suara tiga detik, yang akan kita coba nanti.
00:00:59Lalu saat kita tingkatkan ke model 1.7 B, fitur kloning suaranya hilang,
00:01:02tapi kita mendapatkan streaming waktu nyata dengan latensi 97 milidetik,
00:01:0510 bahasa dengan perpindahan kode alami, dan 100% berjalan secara lokal.
00:01:09Ini gratis.
00:01:09Lisensinya Apache 2.0.
00:01:11Artinya pembuatan prototipe lebih cepat, agen suara pribadi, dan alat bantu aksesibilitas.
00:01:16Jika Anda selalu mencari alat terbaru, pastikan untuk subscribe.
00:01:19Kami punya video baru setiap saat.
00:01:21Sekarang, melakukan kloning itu mudah.
00:01:22Yang sulit adalah emosinya.
00:01:23Jadi, mari kita coba mengujinya sampai batas maksimal.
00:01:25Kita akan menguji kloningnya terlebih dahulu.
00:01:28Pertama, saya akan mengunggah suara saya yang sudah direkam sebelumnya sebagai referensi di sini.
00:01:32Kemudian di bagian teks referensi, saya perlu mengetikkan apa yang saya ucapkan di audio tersebut.
00:01:37Di bagian teks target adalah tempat saya mengetikkan apa yang saya ingin hasilnya menjadi seperti apa.
00:01:42Itu saja.
00:01:43Ternyata proses menjalankannya jauh lebih lama dari yang saya kira.
00:01:46Jadi saya berharap kualitasnya sepadan, mari kita dengarkan.
00:01:49Bagaimana suaranya jika menggunakan model ini?
00:01:51Maksud saya, itu lumayan untuk model yang ringan, terutama Qwen,
00:01:55tapi Anda bisa mendengar jelas beberapa bagian yang terdengar seperti hasil buatan mesin.
00:01:59Jadi hasilnya tidaklah luar biasa.
00:02:01Audio kloning suara terbaik yang saya temukan adalah Vibe Voice dari Microsoft, itu gila sekali.
00:02:07Yang ini cuma biasa saja.
00:02:08Oke.
00:02:09Jadi kloning suara selesai.
00:02:10Selesai.
00:02:11Tapi sekarang mari kita tingkatkan dengan model 1.7b dan beralih untuk mulai menambahkan emosi
00:02:16ke dalam teks untuk melihat bagaimana Qwen menanganinya.
00:02:19Izinkan saya menunjukkan sesuatu yang terasa benar-benar berguna.
00:02:22Saya akan mengetik di kotak instruksi di sini, “ceritakan seperti narator yang menegangkan,
00:02:26bangun suasana perlahan, lalu akhiri dengan tawa lega.”
00:02:28Dan di sebelah sini, saya ingin dia mengucapkan info dasar tentang Qwen karena kita sedang membahas itu.
00:02:32Mengapa tidak?
00:02:33Mari kita dengarkan.
00:02:34Model teks-ke-ucapan sumber terbuka baru dari Alibaba yang
00:02:37akhirnya terasa seperti Anda sedang berbicara dengan pengisi suara asli.
00:02:42Oke.
00:02:42Jadi kita mendengar sedikit ketidaksesuaian.
00:02:44Ini tidak menangkap setiap nada, tapi banyak yang berhasil.
00:02:47Tidak ada menu tarik-turun, tidak ada preset.
00:02:49Kita membimbingnya ingin terdengar seperti apa.
00:02:51Sekarang mari kita buat suara yang terasa seperti seseorang yang mungkin benar-benar kita ajak berinteraksi.
00:02:55Mungkin kita sedang membangun sebuah proyek.
00:02:57Mari kita masukkan beberapa hal di sini.
00:02:58Saya akan mengatakan sesuatu tentang menulis tes.
00:03:01Dan di kotak instruksi, mari kita tulis “suara pengembang muda yang antusias,
00:03:03agak sarkastik, tapi ramah.”
00:03:07Nah, ini bukan saya yang memilih preset suara nomor 12.
00:03:10Saya mendeskripsikan dengan tepat bagaimana kepribadian suara itu seharusnya terdengar.
00:03:13Mari kita dengarkan.
00:03:14Menulis tes kode berarti memeriksa dengan cermat apakah program Anda berjalan sebagaimana mestinya.
00:03:20Sekarang Anda mungkin berpikir, bagaimana perbandingannya dengan yang lain?
00:03:22Eleven Labs masih menjadi rajanya, tapi itu berbayar dan data Anda keluar dari perangkat Anda.
00:03:26Chatterbox luar biasa.
00:03:28Salah satu yang terbaik yang pernah saya gunakan dan memiliki emosi yang bagus.
00:03:31Jika Anda masih mencari kloning suara, saya tetap merekomendasikan Vibe Voice yang sangat menakutkan kualitasnya.
00:03:36Qwen 3 TTS menang ketika Anda ingin mendeskripsikan suara secara alami dan melakukan iterasi dengan cepat.
00:03:41Jelas ada beberapa hal bagus di sini.
00:03:43Saya suka kontrol bahasa alami untuk iterasi tercepat.
00:03:47Ini sepenuhnya lokal dan privasi terjaga, siap untuk streaming
00:03:50agen waktu nyata, dan desain suaranya terasa jauh lebih intuitif.
00:03:55Lalu apa yang tidak kami sukai dari ini, atau yang harus saya katakan.
00:03:57Yang tidak saya sukai adalah ini model baru, kan?
00:04:00Jadi masih dalam tahap pengembangan di beberapa bahasa.
00:04:03Seperti TTS lainnya, GPU direkomendasikan untuk performa terbaik.
00:04:06Meski CPU bisa digunakan.
00:04:07Hanya saja akan terasa lebih lambat.
00:04:09Dan emosinya sangat bergantung pada seberapa baik Anda memberi prompt atau instruksi.
00:04:13Jika arahan Anda tidak jelas, hasilnya pun akan tidak jelas.
00:04:16Jadi pertanyaan besarnya adalah, apakah pengaturannya sulit?
00:04:19Tidak, sama sekali tidak.
00:04:20Sangat mudah.
00:04:22Clone repositorinya, instal dependensi, luncurkan UI webnya, buka localhost.
00:04:26Hanya itu yang saya lakukan di sini, dari nol sampai demo yang berfungsi hanya dalam beberapa menit.
00:04:32Tidak perlu kunci API.
00:04:33Tidak ada penagihan biaya.
00:04:34Dan semuanya ada di mesin Anda sendiri.
00:04:35Begitulah seharusnya suara sumber terbuka.
00:04:38Itulah mengapa mencoba alat suara sumber terbuka ini sangat keren untuk melihat fitur-fiturnya.
00:04:43Qwen 3 TTS, cepat, privat, dan lebih bisa dikontrol oleh pengembang.
00:04:46Jadi silakan coba sendiri.
00:04:48Saya sertakan tautannya di bawah.
00:04:49Dan jika Anda ingin lebih banyak alat lokal seperti ini, pastikan untuk subscribe.
00:04:52Sampai jumpa di video lainnya.

Key Takeaway

Qwen 3 TTS menetapkan standar baru untuk model suara open-source dengan memberikan kendali emosi berbasis bahasa alami yang intuitif dan privasi penuh melalui pemrosesan lokal.

Highlights

Qwen 3 TTS memungkinkan kontrol emosi melalui instruksi teks alami daripada menggunakan preset atau slider.

Model ini bersifat open-source dengan lisensi Apache 2.0 dan dapat dijalankan 100% secara lokal untuk privasi data.

Mendukung streaming waktu nyata dengan latensi sangat rendah sekitar 97 milidetik dan mencakup 10 bahasa.

Fitur kloning suara tersedia pada model ringan, meskipun kualitasnya dinilai masih di bawah Vibe Voice dari Microsoft.

Proses instalasi sangat mudah dan cepat tanpa memerlukan kunci API atau biaya berlangganan.

Performa terbaik membutuhkan GPU, walaupun tetap bisa dijalankan menggunakan CPU dengan kecepatan yang lebih lambat.

Timeline

Introduksi dan Demonstrasi Kontrol Emosi

Video dimulai dengan demonstrasi mencolok tentang bagaimana kalimat yang sama dapat diucapkan dengan nada normal maupun emosi frustrasi. Narator memperkenalkan Qwen 3 TTS sebagai model suara sumber terbuka terbaru yang memungkinkan pengaturan nada bicara secara fleksibel. Berbeda dengan model lain, teknologi ini tidak memerlukan markup rumit atau pengiriman data ke API eksternal. Bagian ini menekankan bahwa pengguna kini bisa benar-benar mendikte suasana hati dari teks yang dihasilkan. Ini menjadi pembuka yang kuat untuk membandingkan kemampuan Qwen dengan kompetitor besar seperti Eleven Labs.

Fitur Teknis dan Keunggulan Model 1.7B

Narator membahas kekurangan umum pada model suara open-source yang biasanya kurang memiliki kedalaman emosi. Qwen 3 TTS menawarkan solusi unik di mana pengguna cukup mengetikkan deskripsi suara yang diinginkan untuk mendapatkan hasil yang lebih bebas. Model 1.7B disorot karena kemampuannya dalam streaming waktu nyata dengan latensi rendah hanya 97 milidetik. Selain itu, model ini mendukung 10 bahasa dengan perpindahan kode yang alami dan berlisensi Apache 2.0 yang gratis. Keamanan data menjadi nilai tambah utama karena seluruh proses berjalan secara lokal di perangkat pengguna.

Uji Coba Kloning Suara

Sesi ini berfokus pada pengujian fitur kloning suara menggunakan sampel audio referensi selama tiga detik. Narator menjelaskan langkah-langkah teknis mulai dari mengunggah audio hingga mengetikkan teks target yang ingin diucapkan. Hasil pengujian menunjukkan bahwa meskipun fungsional, suara yang dihasilkan masih terdengar sedikit seperti buatan mesin pada beberapa bagian. Narator memberikan kritik jujur bahwa kualitas kloning Qwen masih berada di bawah Vibe Voice milik Microsoft. Namun, untuk kategori model ringan, performanya dianggap sudah cukup memadai bagi penggunaan dasar.

Eksperimen Instruksi Kepribadian Suara

Pengujian berlanjut ke model 1.7B dengan fokus pada pemberian instruksi kepribadian yang lebih kompleks. Narator mencoba memberikan perintah untuk bercerita seperti narator yang menegangkan dengan akhiran tawa lega. Hasilnya menunjukkan keberhasilan dalam menangkap sebagian besar nada emosi tanpa menggunakan menu drop-down atau preset tertentu. Eksperimen kedua menggunakan gaya pengembang muda yang sarkastik namun ramah untuk menjelaskan tentang pengujian kode. Bagian ini membuktikan bahwa kontrol bahasa alami membuat desain suara menjadi jauh lebih intuitif bagi pengembang.

Perbandingan Pasar dan Kesimpulan Akhir

Di bagian penutup, narator membandingkan Qwen dengan Eleven Labs yang berbayar dan Chatterbox yang memiliki fitur emosi bagus. Qwen 3 TTS dianggap unggul dalam hal iterasi cepat dan privasi karena sifatnya yang sepenuhnya lokal. Beberapa kekurangan tetap disebutkan, seperti ketergantungan pada kualitas prompt dan kebutuhan GPU untuk performa optimal. Cara instalasi dijelaskan secara singkat melalui repositori GitHub yang dapat dikonfigurasi dalam hitungan menit tanpa biaya penagihan. Narator menyimpulkan bahwa alat ini sangat layak dicoba bagi mereka yang mencari solusi suara yang privat dan terkendali.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video