00:00:00यह काम एक ईमेल से भी हो सकता था।
00:00:02यह काम एक ईमेल से भी हो सकता था।
00:00:04एक ही वाक्य, लेकिन दो बिल्कुल अलग अंदाज़।
00:00:07मैंने बस शुरुआत में सामान्य टाइप किया और फिर धीरे-धीरे इसे गुस्से भरी आवाज़ में बदल दिया।
00:00:11बस इतना ही।
00:00:12कोई मार्कअप नहीं, कोई API नहीं जो आपका डेटा कहीं और भेज रहा हो।
00:00:15यह है Quen 3 TTS।
00:00:17उनका नया ओपन सोर्स वॉयस मॉडल जो आपको टोन को निर्देशित करने देता है और वास्तव में आपकी सुनता है।
00:00:22चलिए देखते हैं कि यह Eleven Labs या यहाँ तक कि Chatterbox के सामने कैसा प्रदर्शन करता है।
00:00:30कई ओपन सोर्स वॉयस मॉडल्स में किसी भी तरह की भावनाओं की कमी होती है।
00:00:34मैंने Chatterbox का इस्तेमाल किया है और वह काफी अच्छा था।
00:00:37तो यह जानते हुए कि Quen में यह खूबी है, मैं न केवल वॉयस क्लोनिंग देखना चाहता था,
00:00:41बल्कि यह भी कि इसकी भाषाई भावनाएं दूसरों के मुकाबले कैसी हैं।
00:00:44और सच कहूँ तो, मैं काफी प्रभावित हुआ।
00:00:47Chatterbox में एक इमोशन स्लाइडर होता है, जबकि Quen में,
00:00:50आप सीधे टाइप करते हैं कि आप उसे कैसा सुनना चाहते हैं, जो हमें थोड़ी और आज़ादी देता है।
00:00:55इसके हल्के मॉडल में तीन सेकंड की वॉयस क्लोनिंग है, जिसे हम चेक करने वाले हैं।
00:00:59फिर जब हम इसे 1.7 B मॉडल पर ले जाते हैं, तो हम वॉयस क्लोनिंग खो देते हैं,
00:01:02लेकिन हमें 97 मिलीसेकंड की लेटेन्सी के साथ रियल-टाइम स्ट्रीमिंग मिलती है,
00:01:05नेचुरल कोड स्विचिंग के साथ 10 भाषाएँ, और यह 100% लोकल है।
00:01:09यह मुफ्त है।
00:01:09यह Apache 2.0 लाइसेंस पर है।
00:01:11इसका मतलब है तेज़ प्रोटोटाइपिंग, प्राइवेट वॉयस एजेंट्स और एक्सेसिबिलिटी टूल्स।
00:01:16अगर आप हमेशा नए टूल्स की तलाश में रहते हैं, तो सब्सक्राइब ज़रूर करें।
00:01:19हमारे वीडियो हर समय आते रहते हैं।
00:01:21अब क्लोनिंग करना आसान है।
00:01:22इमोशन डालना मुश्किल है।
00:01:23तो चलिए इसे परख कर देखते हैं।
00:01:25हम पहले क्लोनिंग का टेस्ट करेंगे।
00:01:28तो मैं सबसे पहले अपनी वो आवाज़ अपलोड करूँगा जिसे मैंने यहाँ रेफरेंस के तौर पर पहले ही रिकॉर्ड कर लिया है।
00:01:32फिर रेफरेंस टेक्स्ट में, मुझे वही टाइप करना होगा जो मैंने उस ऑडियो में रिकॉर्ड किया है।
00:01:37यहाँ टारगेट टेक्स्ट में मैं वो टाइप करूँगा जो मैं आउटपुट के रूप में चाहता हूँ।
00:01:42बस इतना ही।
00:01:43अब, इसे चलने में मेरी सोच से कहीं ज़्यादा समय लगा।
00:01:46तो मुझे उम्मीद थी कि क्वालिटी भी वैसी ही होगी, चलिए सुनते हैं।
00:01:49इस मॉडल का उपयोग करके यह कैसा सुनाई देता है?
00:01:51मतलब, एक हल्के मॉडल के लिए, खासकर Quen के लिए, यह ठीक था,
00:01:55लेकिन आप साफ तौर पर कुछ हिस्सों में सुन सकते हैं कि यह कंप्यूटर जनित है।
00:01:59तो यह किसी भी तरह से बहुत शानदार नहीं था।
00:02:01सबसे बेहतरीन वॉयस क्लोन ऑडियो जो मुझे मिला, वो माइक्रोसॉफ्ट का Vibe Voice था, जो कमाल का था।
00:02:07यह तो बस ठीक-ठाक था।
00:02:08ठीक है।
00:02:09तो वॉयस क्लोनिंग हो गई।
00:02:10चेक।
00:02:11लेकिन अब चलिए इसे 1.7b मॉडल के साथ और बेहतर बनाते हैं और इमोशन की ओर बढ़ते हैं
00:02:16ताकि यह देख सकें कि Quen टेक्स्ट-टू-स्पीच में भावनाओं को कैसे संभालता है।
00:02:19मैं आपको कुछ ऐसा दिखाता हूँ जो वास्तव में उपयोगी महसूस होता है।
00:02:22मैं यहाँ इंस्ट्रक्ट बॉक्स में टाइप करूँगा, “इसे एक रहस्यमयी कथावाचक की तरह सुनाओ,
00:02:26धीरे-धीरे सस्पेंस बढ़ाओ, और अंत में राहत भरी हँसी।”
00:02:28और यहाँ, मैं चाहता हूँ कि यह Quen के बारे में कुछ बुनियादी जानकारी दे क्योंकि हम वही कर रहे हैं।
00:02:32क्यों नहीं?
00:02:33चलिए सुनते हैं।
00:02:34अलीबाबा का नया ओपन सोर्स टेक्स्ट टू स्पीच मॉडल जो
00:02:37आखिरकार ऐसा महसूस कराता है जैसे आप किसी असली वॉयस एक्टर से बात कर रहे हों।
00:02:42ठीक है।
00:02:42तो हमें यहाँ थोड़ा फर्क सुनाई दिया।
00:02:44इसने हर टोन को नहीं पकड़ा, लेकिन काफी कुछ सही किया।
00:02:47यहाँ कोई ड्रॉपडाउन या प्रीसेट्स नहीं हैं।
00:02:49हम खुद उसे गाइड कर रहे हैं कि उसे कैसा सुनाई देना चाहिए।
00:02:51अब चलिए एक ऐसी आवाज़ बनाते हैं जिससे हम असल में बातचीत करना चाहें।
00:02:55शायद हम कोई प्रोजेक्ट बना रहे हैं।
00:02:57चलिए यहाँ कुछ चीज़ें डालते हैं।
00:02:58मैं कोड टेस्टिंग लिखने के बारे में कुछ कहने जा रहा हूँ।
00:03:01और फिर इंस्ट्रक्ट बॉक्स में, चलिए लिखते हैं “युवा,
00:03:03उत्साही डेवलपर की आवाज़, थोड़ी व्यंग्यात्मक लेकिन दोस्ताना।”
00:03:07अब यहाँ मैं कोई वॉयस प्रीसेट 12 नहीं चुन रहा हूँ।
00:03:10मैंने बिल्कुल वैसा ही वर्णन किया है जैसा मैं उस व्यक्तित्व को सुनाना चाहता हूँ।
00:03:13चलिए सुनते हैं।
00:03:14कोड टेस्ट लिखने का मतलब है ध्यान से यह जांचना कि आपका प्रोग्राम वही कर रहा है जो उसे करना चाहिए।
00:03:20अब आप सोच रहे होंगे, दूसरों की तुलना में यह कैसा है?
00:03:22वैसे, 11 labs अभी भी बादशाह है, लेकिन इसमें पैसे लगते हैं और आपका डेटा आपकी मशीन से बाहर जाता है।
00:03:26Chatterbox बेहतरीन है।
00:03:28मेरे द्वारा इस्तेमाल किए गए बेहतर मॉडलों में से एक और इसमें अच्छे इमोशन हैं।
00:03:31अगर आप अभी भी वॉयस क्लोनिंग की तलाश में हैं, तो मैं Vibe Voice की सलाह दूँगा, जो डरावनी हद तक अच्छा था।
00:03:36Quen 3 TTS तब जीतता है जब आप आवाज़ को स्वाभाविक रूप से समझाना और जल्दी बदलाव करना चाहते हैं।
00:03:41ज़ाहिर है यहाँ कुछ अच्छी चीज़ें हैं।
00:03:43मुझे सबसे तेज़ बदलाव के लिए नेचुरल लैंग्वेज कंट्रोल पसंद आया।
00:03:47यह पूरी तरह से लोकल और प्राइवेट है, रियल-टाइम एजेंट्स के लिए स्ट्रीमिंग के लिए तैयार है
00:03:50और यहाँ वॉयस डिजाइन करना थोड़ा ज़्यादा सहज महसूस होता है।
00:03:55अब वो चीज़ें जो हमें इसके बारे में पसंद नहीं हैं, या मुझे कहना चाहिए।
00:03:57मुझे जो पसंद नहीं आया वो यह है कि यह एक नया मॉडल है, है ना?
00:04:00तो यह अभी भी कुछ भाषाओं में परिपक्व हो रहा है।
00:04:03किसी भी TTS की तरह, बेहतर परफॉरमेंस के लिए GPU की सलाह दी जाती है।
00:04:06हालाँकि CPU पर भी यह काम करता है।
00:04:07बस यह थोड़ा धीमा होगा।
00:04:09और इमोशन इस बात पर निर्भर करते हैं कि आप इसे कितनी अच्छी तरह प्रॉम्प्ट या इंस्ट्रक्ट करते हैं।
00:04:13अगर आपका निर्देश अस्पष्ट है, तो आउटपुट भी अस्पष्ट ही होगा।
00:04:16तो बड़ा सवाल यह है कि क्या सेटअप करना मुश्किल है?
00:04:19नहीं, बिल्कुल नहीं।
00:04:20बहुत ही सीधा और आसान है।
00:04:22रेपो को क्लोन करें, डिपेंडेंसी इंस्टॉल करें, वेब UI लॉन्च करें, और लोकल होस्ट खोलें।
00:04:26शून्य से वर्किंग डेमो तक पहुँचने के लिए मैंने बस इतना ही किया, वो भी सिर्फ कुछ मिनटों में।
00:04:32कोई API की नहीं।
00:04:33कोई बिलिंग नहीं।
00:04:34और यह सब बस आपकी मशीन पर है।
00:04:35ओपन सोर्स आवाज़ को ऐसा ही महसूस होना चाहिए।
00:04:38इसीलिए इन ओपन सोर्स वॉयस टूल्स के साथ खेलना यह देखने के लिए वाकई कूल है कि किसमें क्या है।
00:04:43Quen 3 TTS तेज़, प्राइवेट और डेवलपर्स के लिए ज़्यादा कंट्रोल देने वाला है।
00:04:46तो इसे खुद आज़माएँ।
00:04:48मैंने लिंक नीचे दे दिए हैं।
00:04:49और अगर आप इस तरह के और लोकल टूल्स चाहते हैं, तो सब्सक्राइब करना न भूलें।
00:04:52मिलते हैं अगले वीडियो में।