00:00:00यह Microsoft का Vibe Voice है, और मैंने इसका उपयोग अपनी खुद की आवाज़ को क्लोन करने के लिए किया है।
00:00:04एक ओपन सोर्स स्पीच स्टैक जिसकी तुलना अभी से 11 Labs, Chatterbox और Whisper से की जा रही है।
00:00:10लेकिन यह ऑफलाइन चलता है, और एक ही बार में कई वक्ताओं का 90 मिनट का ऑडियो तैयार कर सकता है।
00:00:1590 मिनट या इसके आसपास कुछ भी सुनने में थोड़ा अविश्वसनीय लगता है। तो क्या यह वास्तव में डेवलपर्स के लिए उपयोगी है,
00:00:20या यह सिर्फ एक और रिसर्च रेपो है जो चुपचाप हमारे GPU को खत्म कर देता है? मैं कुछ डेमो दिखाऊंगा,
00:00:26और फिर हम देखेंगे कि यह दूसरों की तुलना में कैसा है। हमारे वीडियो हर समय आते रहते हैं,
00:00:29इसलिए सब्सक्राइब करना न भूलें।
00:00:31आप यह सब उनके रेपो या Hugging Face से प्राप्त कर सकते हैं। अब तुलना करने से पहले,
00:00:40आइए बस इसके आउटपुट देखते हैं। यह सब तैयार है, सेट अप है, सामने चल रहा है,
00:00:45ताकि हम मुख्य चीज़ पर ध्यान केंद्रित कर सकें। मैंने दूसरों का उपयोग किया है, इसलिए मैं यह देखने के लिए उत्सुक हूँ कि Vibe Voice
00:00:51कैसा सुनाई देता है, यह कितना टिक पाता है, और हम इसके आउटपुट से कुछ उपयोगी कैसे प्राप्त कर सकते हैं।
00:00:56मैं यह सब मल्टी-स्पीकर आउटपुट, रियल-टाइम TTS और फिर वॉयस क्लोनिंग के रूप में करूँगा।
00:01:02यहाँ तीन वक्ताओं के साथ एक छोटा पॉडकास्ट-शैली का स्क्रिप्ट है, जिसमें बारी-बारी से बोलने और ऑडियो इमोशन्स का ध्यान रखा गया है।
00:01:08अब ज़्यादातर TTS डेमो से आप जो उम्मीद करते हैं वो यह है कि यह शुरुआत में ठीक लगता है और फिर भटकने लगता है,
00:01:14लेकिन यहाँ जो होता है उसे ज़रा सुनिए। वक्ताओं की आवाज़ की निरंतरता स्थिर रहती है,
00:01:18और ट्रांज़िशन वास्तव में खराब नहीं होते। चलिए एक नज़र डालते हैं।
00:01:26मेरा मतलब है, यह सुनने में ठीक लग रहा है, है ना? ऐसा नहीं लग रहा कि यह 20 सेकंड के बाद खुद से संदर्भ बना रहा है,
00:01:41है ना? तो यह रहा। यही सबसे बड़ी बात है। Microsoft ने इसे केवल छोटे प्रोजेक्ट्स के लिए नहीं बनाया है।
00:01:46यह लंबे संदर्भ वाले ऑडियो जनरेशन और ऑफलाइन उपयोग के लिए बनाया गया है। लेकिन इमोशन टैग जोड़ते समय,
00:01:52यह गड़बड़ाने लगता है। Chatterbox के विपरीत, उदाहरण के लिए, यह शब्दों के आधार पर ऑटो-इमोशन करता है,
00:01:58और वह वास्तव में उतना अच्छा नहीं है। मुझे वह पसंद नहीं आया। यहाँ Chatterbox ही जीता।
00:02:02लेकिन अगर आप AI पॉडकास्ट, नैरेटेड डॉक्स, लॉन्ग-फॉर्म एजेंट्स,
00:02:07या बस ट्रेनिंग डेटा जैसी चीजें बना रहे हैं, तो यह वास्तव में उनमें अच्छा काम कर सकता है।
00:02:11अब आइए रियल-टाइम मोड की ओर बढ़ते हैं। यह मल्टी-स्पीकर की तुलना में बहुत तेज़ चलता है,
00:02:16जिसने सच में जनरेट होने में बहुत समय लिया था। अब यह इंक्रीमेंटल स्ट्रीमिंग है, तो इसे
00:02:22चैटबॉट रिस्पॉन्स, वॉयस एजेंट्स और असिस्टेंट्स की तरह समझें। इसकी शुरुआती लेटेंसी लगभग 300 मिलीसेकंड है,
00:02:28जो कि इस्तेमाल के लायक है। यह सबसे तेज़ तो नहीं है जो मैंने इस्तेमाल किया है। यहाँ सुनिए।
00:02:32जापान में चेरी ब्लॉसम के नीचे हॉट चॉकलेट पीने की कल्पना करें।
00:02:35ठीक है। और हाँ, उनका कहना है कि यह गा सकता है या बैकग्राउंड म्यूजिक भी बना सकता है। अगर आप इसे ज़ोर दें,
00:02:40तो यह काम नहीं किया। मैंने कोशिश की, पर यह काम नहीं किया। लेकिन बात यहाँ यह है,
00:02:43क्या यह प्रोडक्शन के लिए तैयार रियल-टाइम टूल है? मुझे नहीं लगता। लेकिन प्रयोगों और एजेंट्स के लिए,
00:02:48हाँ, यह काफी अच्छा है। अब मज़ेदार बात। आइए वॉयस क्लोनिंग के बारे में बात करते हैं क्योंकि वह
00:02:53सच में बहुत शानदार था। उसके लिए मेरा सेटअप यह था। सबसे पहले, मैंने वॉयस मेमो पर खुद को रिकॉर्ड किया।
00:02:58मैं Mac पर हूँ। फिर मैंने उस फाइल को WAV फाइल में बदला, और इस कमांड के साथ Gradio लॉन्च किया।
00:03:04इस इंटरैक्टिव इंटरफ़ेस से, मैं अपनी आवाज़ को टारगेट भाषा के रूप में चुन सकता हूँ।
00:03:10बस इतना ही। बस एक सामान्य रिकॉर्डिंग। और आप जो उम्मीद करेंगे वह मेरी आवाज़ के करीब कुछ होगा,
00:03:14लेकिन ज़ाहिर है कि नकली। इसे सुनें। यह Vibe Voice का उपयोग करके क्लोन की गई मेरी आवाज़ है।
00:03:19यह सच में बहुत अच्छा लगता है। लगभग ज़रूरत से ज़्यादा अच्छा क्योंकि मैंने इनमें से कुछ भी नहीं कहा था। अब वह
00:03:25मेरे जैसा लग रहा था, लेकिन अगर आप मुझे जानते हैं, तो आप शायद अभी भी बता पाएंगे कि यह नकली है। कम से कम मुझे ऐसी उम्मीद है।
00:03:30अब यह एकदम सटीक नहीं है, लेकिन यह स्थिर है और लंबे आउटपुट में भी एक जैसा रहता है। यह
00:03:36बढ़िया है। Microsoft का कहना है कि यह स्टैक एक ही बार में लॉन्ग फॉर्म जनरेशन संभाल सकता है और व्यवहार में
00:03:41ऑडियो लंबा होने पर Whisper जैसे पाइपलाइनों की तुलना में काफी ज़्यादा स्थिर रहता है, है ना? और
00:03:47अगर आपने कभी एक छोटी क्लिप से ज़्यादा वॉयस क्लोन करने की कोशिश की है, तो आप जानते हैं कि यह क्यों मायने रखता है। तो हाँ,
00:03:52डेमो प्रभावशाली थे, मुझे लगता है। मुझे वॉयस क्लोनिंग के साथ मज़ा आया, लेकिन मैंने डॉक्स,
00:03:56इश्यूज़ और कुछ थ्रेड्स को देखा, और अन्य डेवलपर्स की मिली-जुली प्रतिक्रिया है। अब पहले फायदे, फिर वो चीज़ें
00:04:02जिनका आपको सामना करना पड़ेगा। यहाँ फायदे ज़्यादातर ठोस हैं। यह निश्चित रूप से लॉन्ग फॉर्म है,
00:04:08है ना? ज़्यादातर TTS सिस्टम कुछ मिनटों के बाद भटक जाते हैं, फीके पड़ जाते हैं या टूट जाते हैं। Vibe Voice
00:04:14लंबे ऑडियो के लिए बनाया गया है और इसने यहाँ और मेरे लंबे डेमो में यह साबित किया। फिर दक्षता और अभिव्यक्ति।
00:04:20यह लो-फ्रीक्वेंसी ऑडियो टोकेनाइज़र का उपयोग करता है, जो संदर्भ को अधिक प्रबंधनीय रखता है। और डिफ्यूजन के साथ एक
00:04:27LLM बैकबोन होने से आपको भारी कंप्यूट के बिना अर्थपूर्ण स्पीच मिलती है। यह डिज़ाइन से थोड़ा ज़्यादा डेव-फ्रेंडली
00:04:33लगा, है ना? यह अच्छा था। यह MIT लाइसेंस प्राप्त है। यह ऑफलाइन चलता है। यह रियल टाइम के लिए लगभग 7GB VRAM वाले उपभोक्ता GPU पर चलता है।
00:04:40और फाइन ट्यूनिंग कोड शामिल है, विशेष रूप से ASR के लिए। यह किसी भी तरह का लॉकडाउन नहीं है, बल्कि यह बहुत अच्छा है।
00:04:47अंत में, कुछ अन्य ओपन सोर्स की तरह, इसमें स्ट्रक्चर्ड ASR आउटपुट है। बड़ी जीत। इसमें स्पीकर डायराइजेशन
00:04:53और टाइमस्टैम्प पहले से ही मिलते हैं जो बाद के काम में बहुत समय बचाते हैं। अगर आपने ट्रांसक्रिप्शन पाइपलाइन बनाई है,
00:04:59तो आप जानते हैं कि यह कोई छोटी बात नहीं है। अब कमियाँ जो मैंने यहाँ महसूस कीं और देखीं भी।
00:05:04यह एक तरह से सिर्फ एक रिसर्च सॉफ्टवेयर जैसा है। Microsoft डीपफेक चिंताओं के कारण कुछ TTS कोड पाथ्स को हटा देता है,
00:05:11जो आपको सब कुछ बता देता है। इसका SDK पूरी तरह से सफल नहीं है। यह पॉलिश्ड नहीं है, ठीक है? ज़ाहिर है कि इसमें
00:05:17कुछ ऑडियो खामियाँ हैं जैसा कि मैंने अन्य सॉफ्टवेयर्स में पाया है। आपको कुछ रोबोटिक आवाज़ सुनाई दे सकती है।
00:05:23कभी-कभी गति (pacing) अजीब लग सकती है और दो या तीन से अधिक लोगों वाले मल्टी-स्पीकर सीन में यह खराब होने लगता है।
00:05:28डेवलपर्स टोकेनाइज़र को पसंद करते हैं और VRAM स्पाइक्स से नफरत करते हैं। और इसमें भाषा कवरेज बहुत सीमित है।
00:05:33तो चीनी और अंग्रेज़ी, ये बहुत बढ़िया हैं। लेकिन अगर आपको किसी अन्य प्रकार की भाषाओं की आवश्यकता है,
00:05:40तो Vibe Voice उसके लिए नहीं है। अंत में, ज़ीरो सिमेंटिक समझ की कमी, जैसे कि यह चीज़ टेक्स्ट पढ़ती तो है,
00:05:46लेकिन उसे समझती नहीं है। इमोशन टैग मदद कर सकते हैं, लेकिन अगर हम उन टैग्स को जोड़ रहे हैं तो वे अभी भी बहुत गड़बड़ करते हैं।
00:05:51तो ईमानदारी की बात यह है कि यह प्रयोगों और चीज़ों के लिए एक अविश्वसनीय टूल है, लेकिन लंबे समय में,
00:05:56मुझे यकीन नहीं है कि यह टिक पाएगा या नहीं।
00:06:02अब वो जवाब जो आप वास्तव में जानना चाहते हैं, क्या यह आपके वर्तमान वर्कफ़्लो की तुलना में समय देने के लायक है?
00:06:06Vibe Voice अन्य सामान्य प्रतिस्पर्धियों के मुकाबले कैसा है? चलिए Vibe Voice बनाम Chatterbox से शुरू करते हैं।
00:06:11मैंने एक वीडियो बनाया था और अतीत में Chatterbox के साथ प्रयोग किया था। वह सच में बहुत बढ़िया था।
00:06:16Chatterbox की लेटेंसी 200 मिलीसेकंड से कम थी, उसका इमोशनल प्रभाव ज़्यादा था और छोटे एजेंट रिप्लाई बेहतर थे।
00:06:22तो आपको लगेगा कि Chatterbox जीत गया, लेकिन Vibe Voice लॉन्ग फॉर्म में इसे पछाड़ देता है। Chatterbox 30 मिनट
00:06:28या उससे कम के मोनोलॉग या पॉडकास्ट आउटपुट के लिए बना है और Vibe Voice उस लॉन्ग फॉर्म को बहुत बेहतर तरीके से संभालता है।
00:06:35तो इसमें कुछ फायदे और कुछ नुकसान हैं। फिर निश्चित रूप से हमारे पास Vibe Voice और 11 Labs हैं।
00:06:42यह सीधा है, है ना? 11 Labs जीतता है क्योंकि इसमें बेहतर उच्चारण, ज़ीरो-शॉट वॉयस क्लोनिंग और शानदार UX है,
00:06:48लेकिन जहाँ Vibe Voice जीतता है वो है इसकी लागत। यह मुफ़्त है। यह ऑफ़लाइन है। यह ओपन सोर्स है, है ना? यह एक बड़ी जीत है।
00:06:54हम सॉफ्टवेयर के लिए भुगतान नहीं कर रहे हैं। आपके पास Vibe Voice और Whisper या यहाँ तक कि Cozy Voice भी है। यह Whisper को
00:07:00पीछे छोड़ देता है जब ऑडियो लंबा और स्ट्रक्चर्ड होता है। यह Cozy Voice से अधिक एक्सप्रेसिव है और Quen-आधारित TTS मॉडल
00:07:06बोलियों के मामले में बराबरी कर रहे हैं, लेकिन Vibe Voice अभी भी कंटेंट की लंबाई में आगे है। अगर आप एक डेवलपर हैं जो
00:07:13लोकल लेवल पर काम करते हैं, ओपन सोर्स पसंद करते हैं और लॉन्ग फॉर्म ऑडियो की परवाह करते हैं, तो मुझे लगता है कि Vibe Voice आपके समय के लायक है।
00:07:18अगर आप कुछ ऐसा चाहते हैं जो प्लग-एंड-प्ले और प्रोडक्शन के लिए तैयार हो, तो ईमानदारी से कहूँ तो आप फिलहाल इसे छोड़ सकते हैं।
00:07:23यह वॉयस क्लोनिंग सहित प्रयोग करने के लिए बस एक बहुत ही अच्छा प्रोजेक्ट है।
00:07:28Vibe Voice थोड़ा अस्त-व्यस्त है। यह शक्तिशाली है, लेकिन रोमांचक भी है। यह लॉन्ग फॉर्म AI स्पीच के लिए
00:07:33लंबे समय में देखे गए सबसे मज़बूत ओपन सोर्स ऑडियो स्टैक में से एक है। Hugging Face डेमो आज़माएं,
00:07:37कुछ डॉक्स पढ़ें, और हम आपसे दूसरे वीडियो में मिलेंगे।
00:07:43read some docs, and we'll see you in another video.