मैंने Microsoft के ओपन-सोर्स मॉडल से अपनी आवाज़ का क्लोन बनाया

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00यह Microsoft का Vibe Voice है, और मैंने इसका उपयोग अपनी खुद की आवाज़ को क्लोन करने के लिए किया है।

00:00:04एक ओपन सोर्स स्पीच स्टैक जिसकी तुलना अभी से 11 Labs, Chatterbox और Whisper से की जा रही है।

00:00:10लेकिन यह ऑफलाइन चलता है, और एक ही बार में कई वक्ताओं का 90 मिनट का ऑडियो तैयार कर सकता है।

00:00:1590 मिनट या इसके आसपास कुछ भी सुनने में थोड़ा अविश्वसनीय लगता है। तो क्या यह वास्तव में डेवलपर्स के लिए उपयोगी है,

00:00:20या यह सिर्फ एक और रिसर्च रेपो है जो चुपचाप हमारे GPU को खत्म कर देता है? मैं कुछ डेमो दिखाऊंगा,

00:00:26और फिर हम देखेंगे कि यह दूसरों की तुलना में कैसा है। हमारे वीडियो हर समय आते रहते हैं,

00:00:29इसलिए सब्सक्राइब करना न भूलें।

00:00:31आप यह सब उनके रेपो या Hugging Face से प्राप्त कर सकते हैं। अब तुलना करने से पहले,

00:00:40आइए बस इसके आउटपुट देखते हैं। यह सब तैयार है, सेट अप है, सामने चल रहा है,

00:00:45ताकि हम मुख्य चीज़ पर ध्यान केंद्रित कर सकें। मैंने दूसरों का उपयोग किया है, इसलिए मैं यह देखने के लिए उत्सुक हूँ कि Vibe Voice

00:00:51कैसा सुनाई देता है, यह कितना टिक पाता है, और हम इसके आउटपुट से कुछ उपयोगी कैसे प्राप्त कर सकते हैं।

00:00:56मैं यह सब मल्टी-स्पीकर आउटपुट, रियल-टाइम TTS और फिर वॉयस क्लोनिंग के रूप में करूँगा।

00:01:02यहाँ तीन वक्ताओं के साथ एक छोटा पॉडकास्ट-शैली का स्क्रिप्ट है, जिसमें बारी-बारी से बोलने और ऑडियो इमोशन्स का ध्यान रखा गया है।

00:01:08अब ज़्यादातर TTS डेमो से आप जो उम्मीद करते हैं वो यह है कि यह शुरुआत में ठीक लगता है और फिर भटकने लगता है,

00:01:14लेकिन यहाँ जो होता है उसे ज़रा सुनिए। वक्ताओं की आवाज़ की निरंतरता स्थिर रहती है,

00:01:18और ट्रांज़िशन वास्तव में खराब नहीं होते। चलिए एक नज़र डालते हैं।

00:01:26मेरा मतलब है, यह सुनने में ठीक लग रहा है, है ना? ऐसा नहीं लग रहा कि यह 20 सेकंड के बाद खुद से संदर्भ बना रहा है,

00:01:41है ना? तो यह रहा। यही सबसे बड़ी बात है। Microsoft ने इसे केवल छोटे प्रोजेक्ट्स के लिए नहीं बनाया है।

00:01:46यह लंबे संदर्भ वाले ऑडियो जनरेशन और ऑफलाइन उपयोग के लिए बनाया गया है। लेकिन इमोशन टैग जोड़ते समय,

00:01:52यह गड़बड़ाने लगता है। Chatterbox के विपरीत, उदाहरण के लिए, यह शब्दों के आधार पर ऑटो-इमोशन करता है,

00:01:58और वह वास्तव में उतना अच्छा नहीं है। मुझे वह पसंद नहीं आया। यहाँ Chatterbox ही जीता।

00:02:02लेकिन अगर आप AI पॉडकास्ट, नैरेटेड डॉक्स, लॉन्ग-फॉर्म एजेंट्स,

00:02:07या बस ट्रेनिंग डेटा जैसी चीजें बना रहे हैं, तो यह वास्तव में उनमें अच्छा काम कर सकता है।

00:02:11अब आइए रियल-टाइम मोड की ओर बढ़ते हैं। यह मल्टी-स्पीकर की तुलना में बहुत तेज़ चलता है,

00:02:16जिसने सच में जनरेट होने में बहुत समय लिया था। अब यह इंक्रीमेंटल स्ट्रीमिंग है, तो इसे

00:02:22चैटबॉट रिस्पॉन्स, वॉयस एजेंट्स और असिस्टेंट्स की तरह समझें। इसकी शुरुआती लेटेंसी लगभग 300 मिलीसेकंड है,

00:02:28जो कि इस्तेमाल के लायक है। यह सबसे तेज़ तो नहीं है जो मैंने इस्तेमाल किया है। यहाँ सुनिए।

00:02:32जापान में चेरी ब्लॉसम के नीचे हॉट चॉकलेट पीने की कल्पना करें।

00:02:35ठीक है। और हाँ, उनका कहना है कि यह गा सकता है या बैकग्राउंड म्यूजिक भी बना सकता है। अगर आप इसे ज़ोर दें,

00:02:40तो यह काम नहीं किया। मैंने कोशिश की, पर यह काम नहीं किया। लेकिन बात यहाँ यह है,

00:02:43क्या यह प्रोडक्शन के लिए तैयार रियल-टाइम टूल है? मुझे नहीं लगता। लेकिन प्रयोगों और एजेंट्स के लिए,

00:02:48हाँ, यह काफी अच्छा है। अब मज़ेदार बात। आइए वॉयस क्लोनिंग के बारे में बात करते हैं क्योंकि वह

00:02:53सच में बहुत शानदार था। उसके लिए मेरा सेटअप यह था। सबसे पहले, मैंने वॉयस मेमो पर खुद को रिकॉर्ड किया।

00:02:58मैं Mac पर हूँ। फिर मैंने उस फाइल को WAV फाइल में बदला, और इस कमांड के साथ Gradio लॉन्च किया।

00:03:04इस इंटरैक्टिव इंटरफ़ेस से, मैं अपनी आवाज़ को टारगेट भाषा के रूप में चुन सकता हूँ।

00:03:10बस इतना ही। बस एक सामान्य रिकॉर्डिंग। और आप जो उम्मीद करेंगे वह मेरी आवाज़ के करीब कुछ होगा,

00:03:14लेकिन ज़ाहिर है कि नकली। इसे सुनें। यह Vibe Voice का उपयोग करके क्लोन की गई मेरी आवाज़ है।

00:03:19यह सच में बहुत अच्छा लगता है। लगभग ज़रूरत से ज़्यादा अच्छा क्योंकि मैंने इनमें से कुछ भी नहीं कहा था। अब वह

00:03:25मेरे जैसा लग रहा था, लेकिन अगर आप मुझे जानते हैं, तो आप शायद अभी भी बता पाएंगे कि यह नकली है। कम से कम मुझे ऐसी उम्मीद है।

00:03:30अब यह एकदम सटीक नहीं है, लेकिन यह स्थिर है और लंबे आउटपुट में भी एक जैसा रहता है। यह

00:03:36बढ़िया है। Microsoft का कहना है कि यह स्टैक एक ही बार में लॉन्ग फॉर्म जनरेशन संभाल सकता है और व्यवहार में

00:03:41ऑडियो लंबा होने पर Whisper जैसे पाइपलाइनों की तुलना में काफी ज़्यादा स्थिर रहता है, है ना? और

00:03:47अगर आपने कभी एक छोटी क्लिप से ज़्यादा वॉयस क्लोन करने की कोशिश की है, तो आप जानते हैं कि यह क्यों मायने रखता है। तो हाँ,

00:03:52डेमो प्रभावशाली थे, मुझे लगता है। मुझे वॉयस क्लोनिंग के साथ मज़ा आया, लेकिन मैंने डॉक्स,

00:03:56इश्यूज़ और कुछ थ्रेड्स को देखा, और अन्य डेवलपर्स की मिली-जुली प्रतिक्रिया है। अब पहले फायदे, फिर वो चीज़ें

00:04:02जिनका आपको सामना करना पड़ेगा। यहाँ फायदे ज़्यादातर ठोस हैं। यह निश्चित रूप से लॉन्ग फॉर्म है,

00:04:08है ना? ज़्यादातर TTS सिस्टम कुछ मिनटों के बाद भटक जाते हैं, फीके पड़ जाते हैं या टूट जाते हैं। Vibe Voice

00:04:14लंबे ऑडियो के लिए बनाया गया है और इसने यहाँ और मेरे लंबे डेमो में यह साबित किया। फिर दक्षता और अभिव्यक्ति।

00:04:20यह लो-फ्रीक्वेंसी ऑडियो टोकेनाइज़र का उपयोग करता है, जो संदर्भ को अधिक प्रबंधनीय रखता है। और डिफ्यूजन के साथ एक

00:04:27LLM बैकबोन होने से आपको भारी कंप्यूट के बिना अर्थपूर्ण स्पीच मिलती है। यह डिज़ाइन से थोड़ा ज़्यादा डेव-फ्रेंडली

00:04:33लगा, है ना? यह अच्छा था। यह MIT लाइसेंस प्राप्त है। यह ऑफलाइन चलता है। यह रियल टाइम के लिए लगभग 7GB VRAM वाले उपभोक्ता GPU पर चलता है।

00:04:40और फाइन ट्यूनिंग कोड शामिल है, विशेष रूप से ASR के लिए। यह किसी भी तरह का लॉकडाउन नहीं है, बल्कि यह बहुत अच्छा है।

00:04:47अंत में, कुछ अन्य ओपन सोर्स की तरह, इसमें स्ट्रक्चर्ड ASR आउटपुट है। बड़ी जीत। इसमें स्पीकर डायराइजेशन

00:04:53और टाइमस्टैम्प पहले से ही मिलते हैं जो बाद के काम में बहुत समय बचाते हैं। अगर आपने ट्रांसक्रिप्शन पाइपलाइन बनाई है,

00:04:59तो आप जानते हैं कि यह कोई छोटी बात नहीं है। अब कमियाँ जो मैंने यहाँ महसूस कीं और देखीं भी।

00:05:04यह एक तरह से सिर्फ एक रिसर्च सॉफ्टवेयर जैसा है। Microsoft डीपफेक चिंताओं के कारण कुछ TTS कोड पाथ्स को हटा देता है,

00:05:11जो आपको सब कुछ बता देता है। इसका SDK पूरी तरह से सफल नहीं है। यह पॉलिश्ड नहीं है, ठीक है? ज़ाहिर है कि इसमें

00:05:17कुछ ऑडियो खामियाँ हैं जैसा कि मैंने अन्य सॉफ्टवेयर्स में पाया है। आपको कुछ रोबोटिक आवाज़ सुनाई दे सकती है।

00:05:23कभी-कभी गति (pacing) अजीब लग सकती है और दो या तीन से अधिक लोगों वाले मल्टी-स्पीकर सीन में यह खराब होने लगता है।

00:05:28डेवलपर्स टोकेनाइज़र को पसंद करते हैं और VRAM स्पाइक्स से नफरत करते हैं। और इसमें भाषा कवरेज बहुत सीमित है।

00:05:33तो चीनी और अंग्रेज़ी, ये बहुत बढ़िया हैं। लेकिन अगर आपको किसी अन्य प्रकार की भाषाओं की आवश्यकता है,

00:05:40तो Vibe Voice उसके लिए नहीं है। अंत में, ज़ीरो सिमेंटिक समझ की कमी, जैसे कि यह चीज़ टेक्स्ट पढ़ती तो है,

00:05:46लेकिन उसे समझती नहीं है। इमोशन टैग मदद कर सकते हैं, लेकिन अगर हम उन टैग्स को जोड़ रहे हैं तो वे अभी भी बहुत गड़बड़ करते हैं।

00:05:51तो ईमानदारी की बात यह है कि यह प्रयोगों और चीज़ों के लिए एक अविश्वसनीय टूल है, लेकिन लंबे समय में,

00:05:56मुझे यकीन नहीं है कि यह टिक पाएगा या नहीं।

00:06:02अब वो जवाब जो आप वास्तव में जानना चाहते हैं, क्या यह आपके वर्तमान वर्कफ़्लो की तुलना में समय देने के लायक है?

00:06:06Vibe Voice अन्य सामान्य प्रतिस्पर्धियों के मुकाबले कैसा है? चलिए Vibe Voice बनाम Chatterbox से शुरू करते हैं।

00:06:11मैंने एक वीडियो बनाया था और अतीत में Chatterbox के साथ प्रयोग किया था। वह सच में बहुत बढ़िया था।

00:06:16Chatterbox की लेटेंसी 200 मिलीसेकंड से कम थी, उसका इमोशनल प्रभाव ज़्यादा था और छोटे एजेंट रिप्लाई बेहतर थे।

00:06:22तो आपको लगेगा कि Chatterbox जीत गया, लेकिन Vibe Voice लॉन्ग फॉर्म में इसे पछाड़ देता है। Chatterbox 30 मिनट

00:06:28या उससे कम के मोनोलॉग या पॉडकास्ट आउटपुट के लिए बना है और Vibe Voice उस लॉन्ग फॉर्म को बहुत बेहतर तरीके से संभालता है।

00:06:35तो इसमें कुछ फायदे और कुछ नुकसान हैं। फिर निश्चित रूप से हमारे पास Vibe Voice और 11 Labs हैं।

00:06:42यह सीधा है, है ना? 11 Labs जीतता है क्योंकि इसमें बेहतर उच्चारण, ज़ीरो-शॉट वॉयस क्लोनिंग और शानदार UX है,

00:06:48लेकिन जहाँ Vibe Voice जीतता है वो है इसकी लागत। यह मुफ़्त है। यह ऑफ़लाइन है। यह ओपन सोर्स है, है ना? यह एक बड़ी जीत है।

00:06:54हम सॉफ्टवेयर के लिए भुगतान नहीं कर रहे हैं। आपके पास Vibe Voice और Whisper या यहाँ तक कि Cozy Voice भी है। यह Whisper को

00:07:00पीछे छोड़ देता है जब ऑडियो लंबा और स्ट्रक्चर्ड होता है। यह Cozy Voice से अधिक एक्सप्रेसिव है और Quen-आधारित TTS मॉडल

00:07:06बोलियों के मामले में बराबरी कर रहे हैं, लेकिन Vibe Voice अभी भी कंटेंट की लंबाई में आगे है। अगर आप एक डेवलपर हैं जो

00:07:13लोकल लेवल पर काम करते हैं, ओपन सोर्स पसंद करते हैं और लॉन्ग फॉर्म ऑडियो की परवाह करते हैं, तो मुझे लगता है कि Vibe Voice आपके समय के लायक है।

00:07:18अगर आप कुछ ऐसा चाहते हैं जो प्लग-एंड-प्ले और प्रोडक्शन के लिए तैयार हो, तो ईमानदारी से कहूँ तो आप फिलहाल इसे छोड़ सकते हैं।

00:07:23यह वॉयस क्लोनिंग सहित प्रयोग करने के लिए बस एक बहुत ही अच्छा प्रोजेक्ट है।

00:07:28Vibe Voice थोड़ा अस्त-व्यस्त है। यह शक्तिशाली है, लेकिन रोमांचक भी है। यह लॉन्ग फॉर्म AI स्पीच के लिए

00:07:33लंबे समय में देखे गए सबसे मज़बूत ओपन सोर्स ऑडियो स्टैक में से एक है। Hugging Face डेमो आज़माएं,

00:07:37कुछ डॉक्स पढ़ें, और हम आपसे दूसरे वीडियो में मिलेंगे।

00:07:43read some docs, and we'll see you in another video.

Key Takeaway

Vibe Voice लंबे ऑडियो जनरेशन के लिए एक शक्तिशाली ओपन-सोर्स समाधान है, जो लागत और प्राइवेसी के मामले में 11 Labs जैसे पेड टूल्स का एक मजबूत विकल्प पेश करता है।

Highlights

Microsoft का Vibe Voice एक ओपन-सोर्स स्पीच स्टैक है जो विशेष रूप से लॉन्ग-फॉर्म ऑडियो और ऑफलाइन उपयोग के लिए डिज़ाइन किया गया है।
यह मॉडल एक ही बार में कई वक्ताओं का 90 मिनट तक का ऑडियो तैयार करने की क्षमता रखता है, जो इसे अन्य TTS सिस्टम से अलग बनाता है।
इसमें 300ms की शुरुआती लेटेंसी के साथ रियल-टाइम स्ट्रीमिंग और वॉयस क्लोनिंग जैसी प्रभावशाली विशेषताएं शामिल हैं।
डेवलपर्स के लिए यह MIT लाइसेंस के तहत उपलब्ध है और 7GB VRAM वाले उपभोक्ता GPU पर आसानी से चल सकता है।
हालांकि इसमें लॉन्ग-फॉर्म स्थिरता बेहतर है, लेकिन यह इमोशन टैगिंग और भाषा कवरेज (केवल अंग्रेजी और चीनी) के मामले में पीछे है।

Timeline

Vibe Voice का परिचय और क्षमताएं

इस शुरुआती खंड में वक्ता Microsoft के नए ओपन-सोर्स स्पीच स्टैक, Vibe Voice का परिचय देता है। वह इसकी तुलना 11 Labs और Whisper जैसे लोकप्रिय टूल से करता है, और इसकी ऑफ़लाइन काम करने की विशिष्ट क्षमता पर जोर देता है। वीडियो में बताया गया है कि यह मॉडल 90 मिनट तक का मल्टी-स्पीकर ऑडियो तैयार कर सकता है, जो तकनीकी रूप से काफी चुनौतीपूर्ण कार्य है। वक्ता यह भी साझा करता है कि वह वीडियो में मल्टी-स्पीकर आउटपुट और रियल-टाइम TTS का डेमो दिखाएगा। यह खंड दर्शकों को यह समझने में मदद करता है कि यह केवल एक शोध परियोजना नहीं बल्कि व्यावहारिक उपयोग के लिए एक उपकरण है।

मल्टी-स्पीकर आउटपुट और ऑडियो निरंतरता

यहाँ वक्ता तीन अलग-अलग वक्ताओं वाली एक पॉडकास्ट-शैली की स्क्रिप्ट का उपयोग करके मॉडल का परीक्षण करता है। वह ध्यान देता है कि अधिकांश TTS सिस्टम समय के साथ अपनी आवाज़ की गुणवत्ता खो देते हैं, लेकिन Vibe Voice लंबी अवधि तक स्थिरता बनाए रखता है। हालांकि, वक्ता यह भी स्पष्ट करता है कि इमोशन टैग जोड़ने पर यह सिस्टम थोड़ा लड़खड़ाने लगता है और Chatterbox जैसा प्राकृतिक अनुभव नहीं देता। यह अनुभाग AI पॉडकास्ट और नैरेटेड डॉक्स बनाने वाले डेवलपर्स के लिए बहुत महत्वपूर्ण है। अंत में, यह निष्कर्ष निकाला गया है कि स्थिरता के मामले में यह मॉडल काफी भरोसेमंद है।

रियल-टाइम स्ट्रीमिंग और वॉयस क्लोनिंग डेमो

इस खंड में 300 मिलीसेकंड की लेटेंसी के साथ रियल-टाइम स्ट्रीमिंग मोड का प्रदर्शन किया गया है, जो वॉयस असिस्टेंट्स के लिए उपयोगी है। वक्ता अपनी खुद की आवाज़ को क्लोन करने की प्रक्रिया दिखाता है, जिसमें वॉयस मेमो को WAV फ़ाइल में बदलना और Gradio इंटरफ़ेस का उपयोग करना शामिल है। क्लोन की गई आवाज़ आश्चर्यजनक रूप से सटीक और स्थिर लगती है, भले ही वह पूरी तरह से 'असली' न हो। वक्ता यह भी उल्लेख करता है कि इसमें गाना गाने या बैकग्राउंड म्यूजिक बनाने के दावे वर्तमान में उतने प्रभावी नहीं हैं। यह हिस्सा दिखाता है कि कैसे एक साधारण रिकॉर्डिंग से उच्च-गुणवत्ता वाली नकली आवाज़ बनाई जा सकती है।

डेवलपर के लिए फायदे और तकनीकी लाभ

वक्ता Vibe Voice के तकनीकी फायदों पर विस्तार से चर्चा करता है, जैसे कि इसका लो-फ्रीक्वेंसी ऑडियो टोकेनाइज़र और LLM बैकबोन। यह डिज़ाइन इसे भारी कंप्यूटिंग शक्ति की आवश्यकता के बिना अर्थपूर्ण भाषण देने में सक्षम बनाता है, जो 7GB VRAM वाले GPU पर चल सकता है। इसका MIT लाइसेंस और ऑफलाइन काम करने की सुविधा इसे उन लोगों के लिए बेहतरीन बनाती है जो प्राइवेसी और कम लागत चाहते हैं। इसके अलावा, इसमें स्ट्रक्चर्ड ASR आउटपुट और स्पीकर डायराइजेशन जैसे फीचर्स पहले से शामिल हैं। यह जानकारी उन डेवलपर्स के लिए महत्वपूर्ण है जो अपनी ट्रांसक्रिप्शन पाइपलाइन बनाना चाहते हैं।

सीमाएं, कमियां और अन्य मॉडलों से तुलना

अंतिम भाग में मॉडल की कमियों पर चर्चा की गई है, जैसे कि सीमित भाषा समर्थन (चीनी और अंग्रेजी) और डीपफेक चिंताओं के कारण कुछ हटाए गए कोड पाथ। वक्ता इसकी तुलना Chatterbox और 11 Labs से करता है, जहाँ 11 Labs उच्चारण और UX में जीतता है, लेकिन Vibe Voice लागत और लंबाई में आगे है। यह बताया गया है कि इसमें सिमेंटिक समझ की कमी है, जिससे यह टेक्स्ट को सिर्फ पढ़ता है, समझता नहीं है। अंत में, वक्ता सुझाव देता है कि यदि आप प्रोडक्शन के लिए तैयार टूल चाहते हैं तो इसे छोड़ सकते हैं, लेकिन प्रयोगों के लिए यह शानदार है। यह पूरा विश्लेषण टूल की वर्तमान स्थिति का एक संतुलित दृष्टिकोण प्रदान करता है।

Community Posts

Write about this video