00:00:00यह SpeechBrain है, जो एक ओपन-सोर्स PyTorch-नेटिव टूलकिट है जिसकी मदद से हम स्पीच
00:00:05AI फीचर्स बना सकते हैं और प्री-ट्रेंड मॉडल्स का उपयोग कर सकते हैं। जैसे कि नॉइज़ रिमूवल, स्पीकर वेरिफिकेशन,
00:00:10और ASR। कोई ट्रेनिंग नहीं और कोई फाइन-ट्यूनिंग नहीं। यहाँ एक त्वरित ऑडियो वेरिफिकेशन करते हैं। आप शायद
00:00:15बेहतर ऑडियो की उम्मीद कर रहे होंगे। खैर, हाँ, वह यहाँ स्वाभाविक रूप से होता है। इसके अनुसार,
00:00:19मैं वही व्यक्ति नहीं हूँ, और ऐसा इसलिए है क्योंकि मैं दूसरी क्लिप में वॉयस ट्रांसफार्मर का उपयोग कर रहा हूँ।
00:00:23तो वॉयस वेरिफिकेशन काम करता है। अब देखते हैं कि यह और क्या कर सकता है। हमारे वीडियो हर समय
00:00:28आते रहते हैं। सब्सक्राइब करना न भूलें। पहले कुछ डेमो चलाने से पहले एक त्वरित विवरण।
00:00:38SpeechBrain में ASR एन्हांसमेंट, सेपरेशन, स्पीकर ID, TTS, वास्तव में पूरा स्टैक है।
00:00:44और यहाँ वह हिस्सा है जो मायने रखता है अगर आप वास्तव में कुछ बनाते हैं। 9000+ GitHub स्टार्स, टाइट हगिंग फेस
00:00:51इंटीग्रेशन, वन-लाइन इंस्टॉल, और मॉडल लोड करना बस कुछ ही स्टेप्स की बात है। यह उन लोगों के लिए बना है जो
00:00:56जल्दी शिप करना चाहते हैं, डॉक्यूमेंटेशन पढ़ने में समय बर्बाद नहीं करना चाहते। तो यहाँ वह शुरुआती कोड है जिसे मैंने इसे चलाने के लिए बढ़ाया है।
00:01:02और बहुत सारा कोड मुझे खुद डॉक्यूमेंटेशन साइट पर ही मिला। मैंने UI बनाने के लिए
00:01:08Gradio का उपयोग करना चुना। Gradio बस एक पायथन ML ऐप लाइब्रेरी है जो इस तरह की चीजों के लिए बहुत
00:01:14अच्छी तरह से काम करती है। ठीक है, यह हिस्सा नकली लग सकता है अगर आपने इसे नहीं देखा है। अधिकांश एन्हांसमेंट डेमो
00:01:20परफेक्ट ऑडियो के साथ धोखा करते हैं। मैं यहाँ इसके विपरीत करने जा रहा हूँ। मैं अभी कुछ बैकग्राउंड
00:01:24शोर बजाने वाला हूँ। ज्यादातर सिर्फ संगीत। यह रहा। मैं सामान्य रूप से बात कर रहा हूँ, इस संगीत के ऊपर
00:01:31खुद को रिकॉर्ड कर रहा हूँ। यहाँ रॉ ऑडियो है। हाँ, यह काफी खराब लग रहा है। अब एन्हांस्ड आउटपुट देखें।
00:01:37मैं सामान्य रूप से बात कर रहा हूँ। वही आवाज, शोर हटा दिया गया, कोई पोस्ट-प्रोसेसिंग हैक्स नहीं। और यहाँ खास बात यह है।
00:01:44यह सेकंडों में चलता है। इसे कॉल ऐप्स, पॉडकास्ट, क्लीनअप्स, एज डिवाइसेस, या
00:01:51माइक और खराब ध्वनिकी वाली किसी भी चीज़ में डाल दें। कोड है: मॉडल लोड करें, कॉल एन्हांस्ड बैच, बस हो गया।
00:01:57लेकिन सच कहूँ तो इसके डॉक्स थोड़े कठिन थे, इसलिए मुझे कोड को बढ़ाना पड़ा क्योंकि मैं मैक पर हूँ।
00:02:02इसमें कुछ दिक्कतें आ रही थीं। अगला है स्पीकर वेरिफिकेशन, जिसका ज़िक्र मैंने शुरुआत में किया था।
00:02:07और उम्मीदें साफ़ करने के लिए, लोग वॉयस ऑथेंटिकेशन को अक्सर जटिल मान लेते हैं। लेकिन बता दूँ,
00:02:13यह वास्तव में जटिल नहीं है, कम से कम इसके साथ तो नहीं। मैं यहाँ अपनी आवाज़ इनरोल करने जा रहा हूँ। हे, यह मेरी
00:02:20आवाज़ है। वह पहली रिकॉर्डिंग पर था। फिर मैं दूसरी बार यहाँ वही चीज़ करने जा रहा हूँ।
00:02:26हे, यह मेरी आवाज़ है। अब वेरीफाई करें, वही स्पीकर। स्कोर हाई है। मैच की पुष्टि हो गई। हमारे पास
00:02:36वह स्कोर है। आउटपुट में हमारे पास वह रैंकिंग है। यदि मैं वॉयस ट्रांसफार्मर का उपयोग किए बिना दोबारा प्रयास करूँ,
00:02:42तो देखते हैं कि यह अब कैसा है। आपने नाश्ते में क्या खाया? ठीक है, अब मुझे अपनी टोन बदलने दें। मुझ पर
00:02:48ज्यादा हंसना मत। आपने नाश्ते में क्या खाया? सिमिलरिटी स्कोर थोड़ा और गिर जाता है,
00:02:56लेकिन यह अभी भी आउटपुट देता है कि वास्तव में मैं वही स्पीकर हूँ। यह VoxCeleb पर
00:03:01प्री-ट्रेंड है। फिर से, वॉयस ट्रांसफार्मर के साथ एक त्वरित जाँच। यह मेरी सामान्य आवाज़ है। अब यदि मैं
00:03:08अपना वॉयस ट्रांसफार्मर चालू करता हूँ, तो यह मेरी सामान्य आवाज़ है। बस आप लोगों को सुनाने के लिए, दूसरी क्लिप
00:03:17कुछ इस तरह सुनाई देती है। यह मेरी सामान्य आवाज़ है। ठीक है, यह थोड़ा अजीब है, है ना?
00:03:22आप उस ट्रांसफार्मर को सुन सकते हैं। हाँ, वे बिल्कुल मेल नहीं खाते, और आउटपुट में भी यही दिख रहा है।
00:03:27यदि आप वॉयस ऑथेंटिकेशन मल्टी-यूज़र ऐप्स या ऐसी कोई भी चीज़ बना रहे हैं जिसमें “कौन बात कर रहा है” का जवाब चाहिए,
00:03:32तो यह बिल्कुल उसी के लिए है। मेरे अंतिम डेमो में, हाँ, इसे बैकबोन माना गया है। लाइव
00:03:37ट्रांसक्रिप्शन ASR डेमो आमतौर पर तब तक प्रभावशाली लगते हैं जब तक आप इसे इस स्पीच के साथ नहीं आज़माते। अब मैं बस
00:03:43सामान्य रूप से बात करने जा रहा हूँ। यह फीचर वास्तव में उतना अच्छा काम नहीं करता है, और डॉक्यूमेंटेशन से भी
00:03:48ज्यादा मदद नहीं मिली, इसलिए मुझे नहीं पता कि मैं इसके बारे में वास्तव में कैसा महसूस करता हूँ। यह ईमानदारी से बस सामान्य स्पीच-टू-टेक्स्ट
00:03:53जैसा लगता है। इसे ऑटो-सब्सक्राइब करना चाहिए था लेकिन अनगिनत समस्याएं आईं, और यह वह भी नहीं करता।
00:03:58तो हाँ, यह ट्रांसक्राइब तो करता है, लेकिन अनगिनत अन्य लाइब्रेरी भी ऐसा ही करती हैं। यह फीचर यहाँ
00:04:04प्रभावशाली नहीं था, कम से कम मेरे लिए इसे ऑटो-ट्रांसक्राइब करना काम नहीं आया। यह बस काम नहीं किया।
00:04:08तो यहाँ कुछ बहुत अच्छी चीज़ें हैं, है ना? हमने वॉयस वेरिफिकेशन और बैकग्राउंड
00:04:13नॉइज़ कैंसलेशन देखा, लेकिन कुछ चीज़ें अभी भी ठीक नहीं हैं। यही संक्षेप में SpeechBrain है।
00:04:18कुल मिलाकर, यह अभी भी तेज़ है। यह अभी भी ओपन है। यह अभी भी डेवलपर्स के लिए बनाया गया है। आप लोग
00:04:22इसे खुद आज़मा सकते हैं। मैंने डिस्क्रिप्शन में लिंक दे दिए हैं, और हम आपसे एक और
00:04:26वीडियो में मिलेंगे।