Qwen TTS ने ओपन-सोर्स वॉइस की दुनिया बदल दी

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsLanguagesInternet Technology

Transcript

00:00:00यह काम एक ईमेल से भी हो सकता था।

00:00:02यह काम एक ईमेल से भी हो सकता था।

00:00:04एक ही वाक्य, लेकिन दो बिल्कुल अलग अंदाज़।

00:00:07मैंने बस शुरुआत में सामान्य टाइप किया और फिर धीरे-धीरे इसे गुस्से भरी आवाज़ में बदल दिया।

00:00:11बस इतना ही।

00:00:12कोई मार्कअप नहीं, कोई API नहीं जो आपका डेटा कहीं और भेज रहा हो।

00:00:15यह है Quen 3 TTS।

00:00:17उनका नया ओपन सोर्स वॉयस मॉडल जो आपको टोन को निर्देशित करने देता है और वास्तव में आपकी सुनता है।

00:00:22चलिए देखते हैं कि यह Eleven Labs या यहाँ तक कि Chatterbox के सामने कैसा प्रदर्शन करता है।

00:00:30कई ओपन सोर्स वॉयस मॉडल्स में किसी भी तरह की भावनाओं की कमी होती है।

00:00:34मैंने Chatterbox का इस्तेमाल किया है और वह काफी अच्छा था।

00:00:37तो यह जानते हुए कि Quen में यह खूबी है, मैं न केवल वॉयस क्लोनिंग देखना चाहता था,

00:00:41बल्कि यह भी कि इसकी भाषाई भावनाएं दूसरों के मुकाबले कैसी हैं।

00:00:44और सच कहूँ तो, मैं काफी प्रभावित हुआ।

00:00:47Chatterbox में एक इमोशन स्लाइडर होता है, जबकि Quen में,

00:00:50आप सीधे टाइप करते हैं कि आप उसे कैसा सुनना चाहते हैं, जो हमें थोड़ी और आज़ादी देता है।

00:00:55इसके हल्के मॉडल में तीन सेकंड की वॉयस क्लोनिंग है, जिसे हम चेक करने वाले हैं।

00:00:59फिर जब हम इसे 1.7 B मॉडल पर ले जाते हैं, तो हम वॉयस क्लोनिंग खो देते हैं,

00:01:02लेकिन हमें 97 मिलीसेकंड की लेटेन्सी के साथ रियल-टाइम स्ट्रीमिंग मिलती है,

00:01:05नेचुरल कोड स्विचिंग के साथ 10 भाषाएँ, और यह 100% लोकल है।

00:01:09यह मुफ्त है।

00:01:09यह Apache 2.0 लाइसेंस पर है।

00:01:11इसका मतलब है तेज़ प्रोटोटाइपिंग, प्राइवेट वॉयस एजेंट्स और एक्सेसिबिलिटी टूल्स।

00:01:16अगर आप हमेशा नए टूल्स की तलाश में रहते हैं, तो सब्सक्राइब ज़रूर करें।

00:01:19हमारे वीडियो हर समय आते रहते हैं।

00:01:21अब क्लोनिंग करना आसान है।

00:01:22इमोशन डालना मुश्किल है।

00:01:23तो चलिए इसे परख कर देखते हैं।

00:01:25हम पहले क्लोनिंग का टेस्ट करेंगे।

00:01:28तो मैं सबसे पहले अपनी वो आवाज़ अपलोड करूँगा जिसे मैंने यहाँ रेफरेंस के तौर पर पहले ही रिकॉर्ड कर लिया है।

00:01:32फिर रेफरेंस टेक्स्ट में, मुझे वही टाइप करना होगा जो मैंने उस ऑडियो में रिकॉर्ड किया है।

00:01:37यहाँ टारगेट टेक्स्ट में मैं वो टाइप करूँगा जो मैं आउटपुट के रूप में चाहता हूँ।

00:01:42बस इतना ही।

00:01:43अब, इसे चलने में मेरी सोच से कहीं ज़्यादा समय लगा।

00:01:46तो मुझे उम्मीद थी कि क्वालिटी भी वैसी ही होगी, चलिए सुनते हैं।

00:01:49इस मॉडल का उपयोग करके यह कैसा सुनाई देता है?

00:01:51मतलब, एक हल्के मॉडल के लिए, खासकर Quen के लिए, यह ठीक था,

00:01:55लेकिन आप साफ तौर पर कुछ हिस्सों में सुन सकते हैं कि यह कंप्यूटर जनित है।

00:01:59तो यह किसी भी तरह से बहुत शानदार नहीं था।

00:02:01सबसे बेहतरीन वॉयस क्लोन ऑडियो जो मुझे मिला, वो माइक्रोसॉफ्ट का Vibe Voice था, जो कमाल का था।

00:02:07यह तो बस ठीक-ठाक था।

00:02:08ठीक है।

00:02:09तो वॉयस क्लोनिंग हो गई।

00:02:10चेक।

00:02:11लेकिन अब चलिए इसे 1.7b मॉडल के साथ और बेहतर बनाते हैं और इमोशन की ओर बढ़ते हैं

00:02:16ताकि यह देख सकें कि Quen टेक्स्ट-टू-स्पीच में भावनाओं को कैसे संभालता है।

00:02:19मैं आपको कुछ ऐसा दिखाता हूँ जो वास्तव में उपयोगी महसूस होता है।

00:02:22मैं यहाँ इंस्ट्रक्ट बॉक्स में टाइप करूँगा, “इसे एक रहस्यमयी कथावाचक की तरह सुनाओ,

00:02:26धीरे-धीरे सस्पेंस बढ़ाओ, और अंत में राहत भरी हँसी।”

00:02:28और यहाँ, मैं चाहता हूँ कि यह Quen के बारे में कुछ बुनियादी जानकारी दे क्योंकि हम वही कर रहे हैं।

00:02:32क्यों नहीं?

00:02:33चलिए सुनते हैं।

00:02:34अलीबाबा का नया ओपन सोर्स टेक्स्ट टू स्पीच मॉडल जो

00:02:37आखिरकार ऐसा महसूस कराता है जैसे आप किसी असली वॉयस एक्टर से बात कर रहे हों।

00:02:42ठीक है।

00:02:42तो हमें यहाँ थोड़ा फर्क सुनाई दिया।

00:02:44इसने हर टोन को नहीं पकड़ा, लेकिन काफी कुछ सही किया।

00:02:47यहाँ कोई ड्रॉपडाउन या प्रीसेट्स नहीं हैं।

00:02:49हम खुद उसे गाइड कर रहे हैं कि उसे कैसा सुनाई देना चाहिए।

00:02:51अब चलिए एक ऐसी आवाज़ बनाते हैं जिससे हम असल में बातचीत करना चाहें।

00:02:55शायद हम कोई प्रोजेक्ट बना रहे हैं।

00:02:57चलिए यहाँ कुछ चीज़ें डालते हैं।

00:02:58मैं कोड टेस्टिंग लिखने के बारे में कुछ कहने जा रहा हूँ।

00:03:01और फिर इंस्ट्रक्ट बॉक्स में, चलिए लिखते हैं “युवा,

00:03:03उत्साही डेवलपर की आवाज़, थोड़ी व्यंग्यात्मक लेकिन दोस्ताना।”

00:03:07अब यहाँ मैं कोई वॉयस प्रीसेट 12 नहीं चुन रहा हूँ।

00:03:10मैंने बिल्कुल वैसा ही वर्णन किया है जैसा मैं उस व्यक्तित्व को सुनाना चाहता हूँ।

00:03:13चलिए सुनते हैं।

00:03:14कोड टेस्ट लिखने का मतलब है ध्यान से यह जांचना कि आपका प्रोग्राम वही कर रहा है जो उसे करना चाहिए।

00:03:20अब आप सोच रहे होंगे, दूसरों की तुलना में यह कैसा है?

00:03:22वैसे, 11 labs अभी भी बादशाह है, लेकिन इसमें पैसे लगते हैं और आपका डेटा आपकी मशीन से बाहर जाता है।

00:03:26Chatterbox बेहतरीन है।

00:03:28मेरे द्वारा इस्तेमाल किए गए बेहतर मॉडलों में से एक और इसमें अच्छे इमोशन हैं।

00:03:31अगर आप अभी भी वॉयस क्लोनिंग की तलाश में हैं, तो मैं Vibe Voice की सलाह दूँगा, जो डरावनी हद तक अच्छा था।

00:03:36Quen 3 TTS तब जीतता है जब आप आवाज़ को स्वाभाविक रूप से समझाना और जल्दी बदलाव करना चाहते हैं।

00:03:41ज़ाहिर है यहाँ कुछ अच्छी चीज़ें हैं।

00:03:43मुझे सबसे तेज़ बदलाव के लिए नेचुरल लैंग्वेज कंट्रोल पसंद आया।

00:03:47यह पूरी तरह से लोकल और प्राइवेट है, रियल-टाइम एजेंट्स के लिए स्ट्रीमिंग के लिए तैयार है

00:03:50और यहाँ वॉयस डिजाइन करना थोड़ा ज़्यादा सहज महसूस होता है।

00:03:55अब वो चीज़ें जो हमें इसके बारे में पसंद नहीं हैं, या मुझे कहना चाहिए।

00:03:57मुझे जो पसंद नहीं आया वो यह है कि यह एक नया मॉडल है, है ना?

00:04:00तो यह अभी भी कुछ भाषाओं में परिपक्व हो रहा है।

00:04:03किसी भी TTS की तरह, बेहतर परफॉरमेंस के लिए GPU की सलाह दी जाती है।

00:04:06हालाँकि CPU पर भी यह काम करता है।

00:04:07बस यह थोड़ा धीमा होगा।

00:04:09और इमोशन इस बात पर निर्भर करते हैं कि आप इसे कितनी अच्छी तरह प्रॉम्प्ट या इंस्ट्रक्ट करते हैं।

00:04:13अगर आपका निर्देश अस्पष्ट है, तो आउटपुट भी अस्पष्ट ही होगा।

00:04:16तो बड़ा सवाल यह है कि क्या सेटअप करना मुश्किल है?

00:04:19नहीं, बिल्कुल नहीं।

00:04:20बहुत ही सीधा और आसान है।

00:04:22रेपो को क्लोन करें, डिपेंडेंसी इंस्टॉल करें, वेब UI लॉन्च करें, और लोकल होस्ट खोलें।

00:04:26शून्य से वर्किंग डेमो तक पहुँचने के लिए मैंने बस इतना ही किया, वो भी सिर्फ कुछ मिनटों में।

00:04:32कोई API की नहीं।

00:04:33कोई बिलिंग नहीं।

00:04:34और यह सब बस आपकी मशीन पर है।

00:04:35ओपन सोर्स आवाज़ को ऐसा ही महसूस होना चाहिए।

00:04:38इसीलिए इन ओपन सोर्स वॉयस टूल्स के साथ खेलना यह देखने के लिए वाकई कूल है कि किसमें क्या है।

00:04:43Quen 3 TTS तेज़, प्राइवेट और डेवलपर्स के लिए ज़्यादा कंट्रोल देने वाला है।

00:04:46तो इसे खुद आज़माएँ।

00:04:48मैंने लिंक नीचे दे दिए हैं।

00:04:49और अगर आप इस तरह के और लोकल टूल्स चाहते हैं, तो सब्सक्राइब करना न भूलें।

00:04:52मिलते हैं अगले वीडियो में।

Key Takeaway

Qwen 3 TTS ओपन-सोर्स वॉयस तकनीक में एक बड़ी क्रांति है, जो बिना किसी API या लागत के स्थानीय स्तर पर अत्यधिक संवादात्मक और भावनाओं से भरपूर आवाज़ें उत्पन्न करने की शक्ति देती है।

Highlights

Qwen 3 TTS एक ओपन-सोर्स वॉयस मॉडल है जो टेक्स्ट के माध्यम से भावनाओं और टोन को नियंत्रित करने की अनुमति देता है।
यह मॉडल 100% लोकल और फ्री है, जो Apache 2.0 लाइसेंस के तहत काम करता है और डेटा प्राइवेसी सुनिश्चित करता है।
इसमें 1.7B मॉडल के साथ 97 मिलीसेकंड की बहुत कम लेटेन्सी और रियल-टाइम स्ट्रीमिंग की सुविधा मिलती है।
उपयोगकर्ता बिना किसी प्रीसेट के, केवल नेचुरल लैंग्वेज प्रॉम्प्ट का उपयोग करके आवाज़ के व्यक्तित्व को डिजाइन कर सकते हैं।
यह मॉडल 10 भाषाओं में नेचुरल कोड-स्विचन का समर्थन करता है, जो इसे वैश्विक उपयोग के लिए बहुमुखी बनाता है।
इसकी स्थापना प्रक्रिया बहुत सरल है, जिसमें केवल रेपो क्लोन करने और कुछ मिनटों में लोकल होस्ट पर चलाने की आवश्यकता होती है।

Timeline

Qwen 3 TTS का परिचय और मुख्य विशेषताएं

वीडियो की शुरुआत एक ही वाक्य को दो अलग-अलग अंदाजों में पेश करके की गई है, जिससे मॉडल की क्षमता का प्रदर्शन होता है। वक्ता Qwen 3 TTS को एक ऐसे ओपन-सोर्स मॉडल के रूप में पेश करता है जो बिना किसी जटिल मार्कअप के भावनाओं को समझता है। यह Eleven Labs और Chatterbox जैसे स्थापित विकल्पों के साथ तुलना करने की नींव रखता है। इसमें मुख्य रूप से टोन निर्देशन और डेटा सुरक्षा पर ज़ोर दिया गया है क्योंकि यह किसी बाहरी API का उपयोग नहीं करता है। यह अनुभाग दर्शकों को यह समझने में मदद करता है कि यह टूल वॉयस एआई की दुनिया में क्यों महत्वपूर्ण है।

मॉडल के प्रकार और तकनीकी क्षमताएं

यहाँ वक्ता Qwen और Chatterbox के बीच के अंतर को स्पष्ट करता है, जहाँ Qwen टाइप किए गए निर्देशों के आधार पर अधिक आज़ादी देता है। इसमें दो मॉडलों की चर्चा की गई है: एक हल्का मॉडल जो 3-सेकंड की वॉयस क्लोनिंग करता है, और दूसरा 1.7B मॉडल जो बेहतर लेटेन्सी प्रदान करता है। 97 मिलीसेकंड की लेटेन्सी और 10 भाषाओं में कोड स्विचिंग इसे रियल-टाइम अनुप्रयोगों के लिए आदर्श बनाती है। Apache 2.0 लाइसेंस के साथ इसकी उपलब्धता इसे डेवलपर्स के लिए प्रोटोटाइपिंग और प्राइवेट एजेंट्स बनाने हेतु मुफ्त बनाती है। यह हिस्सा मॉडल की तकनीकी श्रेष्ठता और इसके विभिन्न उपयोग के मामलों को गहराई से समझाता है।

वॉयस क्लोनिंग का व्यावहारिक परीक्षण

वक्ता अपनी आवाज़ को रेफरेंस के रूप में अपलोड करके वॉयस क्लोनिंग प्रक्रिया का लाइव प्रदर्शन करता है। क्लोनिंग के लिए रेफरेंस टेक्स्ट और टारगेट टेक्स्ट डालने की सरल प्रक्रिया को यहाँ दिखाया गया है। परीक्षण के परिणामों में पाया गया कि हल्के मॉडल की आवाज़ कुछ हद तक 'कंप्यूटर जनित' लगती है और बहुत शानदार नहीं है। वक्ता इसकी तुलना माइक्रोसॉफ्ट के Vibe Voice से करता है, जिसे वह क्लोनिंग के मामले में बेहतर मानता है। यह खंड स्पष्ट करता है कि क्लोनिंग आसान है लेकिन उच्च गुणवत्ता वाली आवाज़ पाना अभी भी एक चुनौती हो सकती है।

निर्देशों के माध्यम से भावनाओं का नियंत्रण

इस महत्वपूर्ण भाग में 1.7B मॉडल का उपयोग करके भावनाओं को जोड़ने की क्षमता का परीक्षण किया गया है। वक्ता 'रहस्यमयी कथावाचक' और 'उत्साही डेवलपर' जैसे विशिष्ट प्रॉम्प्ट का उपयोग करके आवाज़ का व्यक्तित्व बदलता है। मॉडल इन टोन को काफी हद तक सही तरीके से पकड़ता है, जो बिना किसी ड्रॉपडाउन मेनू के केवल टेक्स्ट कमांड से संभव होता है। यह उदाहरण दिखाता है कि कैसे एक ही टेक्स्ट को व्यंग्यात्मक या दोस्ताना अंदाज में बुलवाया जा सकता है। यह सेक्शन बताता है कि कैसे Qwen उपयोगकर्ताओं को अपनी पसंद की आवाज़ डिज़ाइन करने की सहजता देता है।

तुलना, कमियां और स्थापना प्रक्रिया

अंतिम भाग में Qwen 3 TTS की तुलना Eleven Labs और Chatterbox जैसे अन्य मॉडलों से की गई है, जहाँ Qwen को प्राइवेसी और लोकल कंट्रोल के मामले में विजेता बताया गया है। वक्ता इसकी कुछ कमियों जैसे कुछ भाषाओं में अभी परिपक्व न होना और बेहतर प्रदर्शन के लिए GPU की आवश्यकता का भी उल्लेख करता है। सेटअप प्रक्रिया को बहुत आसान बताया गया है, जिसमें रेपो क्लोन करना और बिना किसी बिलिंग या API की के इसे चलाना शामिल है। वक्ता दर्शकों को इसे खुद आज़माने के लिए प्रोत्साहित करता है क्योंकि यह पूरी तरह से आपकी मशीन पर चलता है। यह निष्कर्ष देता है कि ओपन-सोर्स टूल्स का भविष्य प्राइवेसी और डेवलपर कंट्रोल में निहित है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video