SpeechBrain: असल में क्या इस्तेमाल करने लायक है?

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00यह SpeechBrain है, जो एक ओपन-सोर्स PyTorch-नेटिव टूलकिट है जिसकी मदद से हम स्पीच

00:00:05AI फीचर्स बना सकते हैं और प्री-ट्रेंड मॉडल्स का उपयोग कर सकते हैं। जैसे कि नॉइज़ रिमूवल, स्पीकर वेरिफिकेशन,

00:00:10और ASR। कोई ट्रेनिंग नहीं और कोई फाइन-ट्यूनिंग नहीं। यहाँ एक त्वरित ऑडियो वेरिफिकेशन करते हैं। आप शायद

00:00:15बेहतर ऑडियो की उम्मीद कर रहे होंगे। खैर, हाँ, वह यहाँ स्वाभाविक रूप से होता है। इसके अनुसार,

00:00:19मैं वही व्यक्ति नहीं हूँ, और ऐसा इसलिए है क्योंकि मैं दूसरी क्लिप में वॉयस ट्रांसफार्मर का उपयोग कर रहा हूँ।

00:00:23तो वॉयस वेरिफिकेशन काम करता है। अब देखते हैं कि यह और क्या कर सकता है। हमारे वीडियो हर समय

00:00:28आते रहते हैं। सब्सक्राइब करना न भूलें। पहले कुछ डेमो चलाने से पहले एक त्वरित विवरण।

00:00:38SpeechBrain में ASR एन्हांसमेंट, सेपरेशन, स्पीकर ID, TTS, वास्तव में पूरा स्टैक है।

00:00:44और यहाँ वह हिस्सा है जो मायने रखता है अगर आप वास्तव में कुछ बनाते हैं। 9000+ GitHub स्टार्स, टाइट हगिंग फेस

00:00:51इंटीग्रेशन, वन-लाइन इंस्टॉल, और मॉडल लोड करना बस कुछ ही स्टेप्स की बात है। यह उन लोगों के लिए बना है जो

00:00:56जल्दी शिप करना चाहते हैं, डॉक्यूमेंटेशन पढ़ने में समय बर्बाद नहीं करना चाहते। तो यहाँ वह शुरुआती कोड है जिसे मैंने इसे चलाने के लिए बढ़ाया है।

00:01:02और बहुत सारा कोड मुझे खुद डॉक्यूमेंटेशन साइट पर ही मिला। मैंने UI बनाने के लिए

00:01:08Gradio का उपयोग करना चुना। Gradio बस एक पायथन ML ऐप लाइब्रेरी है जो इस तरह की चीजों के लिए बहुत

00:01:14अच्छी तरह से काम करती है। ठीक है, यह हिस्सा नकली लग सकता है अगर आपने इसे नहीं देखा है। अधिकांश एन्हांसमेंट डेमो

00:01:20परफेक्ट ऑडियो के साथ धोखा करते हैं। मैं यहाँ इसके विपरीत करने जा रहा हूँ। मैं अभी कुछ बैकग्राउंड

00:01:24शोर बजाने वाला हूँ। ज्यादातर सिर्फ संगीत। यह रहा। मैं सामान्य रूप से बात कर रहा हूँ, इस संगीत के ऊपर

00:01:31खुद को रिकॉर्ड कर रहा हूँ। यहाँ रॉ ऑडियो है। हाँ, यह काफी खराब लग रहा है। अब एन्हांस्ड आउटपुट देखें।

00:01:37मैं सामान्य रूप से बात कर रहा हूँ। वही आवाज, शोर हटा दिया गया, कोई पोस्ट-प्रोसेसिंग हैक्स नहीं। और यहाँ खास बात यह है।

00:01:44यह सेकंडों में चलता है। इसे कॉल ऐप्स, पॉडकास्ट, क्लीनअप्स, एज डिवाइसेस, या

00:01:51माइक और खराब ध्वनिकी वाली किसी भी चीज़ में डाल दें। कोड है: मॉडल लोड करें, कॉल एन्हांस्ड बैच, बस हो गया।

00:01:57लेकिन सच कहूँ तो इसके डॉक्स थोड़े कठिन थे, इसलिए मुझे कोड को बढ़ाना पड़ा क्योंकि मैं मैक पर हूँ।

00:02:02इसमें कुछ दिक्कतें आ रही थीं। अगला है स्पीकर वेरिफिकेशन, जिसका ज़िक्र मैंने शुरुआत में किया था।

00:02:07और उम्मीदें साफ़ करने के लिए, लोग वॉयस ऑथेंटिकेशन को अक्सर जटिल मान लेते हैं। लेकिन बता दूँ,

00:02:13यह वास्तव में जटिल नहीं है, कम से कम इसके साथ तो नहीं। मैं यहाँ अपनी आवाज़ इनरोल करने जा रहा हूँ। हे, यह मेरी

00:02:20आवाज़ है। वह पहली रिकॉर्डिंग पर था। फिर मैं दूसरी बार यहाँ वही चीज़ करने जा रहा हूँ।

00:02:26हे, यह मेरी आवाज़ है। अब वेरीफाई करें, वही स्पीकर। स्कोर हाई है। मैच की पुष्टि हो गई। हमारे पास

00:02:36वह स्कोर है। आउटपुट में हमारे पास वह रैंकिंग है। यदि मैं वॉयस ट्रांसफार्मर का उपयोग किए बिना दोबारा प्रयास करूँ,

00:02:42तो देखते हैं कि यह अब कैसा है। आपने नाश्ते में क्या खाया? ठीक है, अब मुझे अपनी टोन बदलने दें। मुझ पर

00:02:48ज्यादा हंसना मत। आपने नाश्ते में क्या खाया? सिमिलरिटी स्कोर थोड़ा और गिर जाता है,

00:02:56लेकिन यह अभी भी आउटपुट देता है कि वास्तव में मैं वही स्पीकर हूँ। यह VoxCeleb पर

00:03:01प्री-ट्रेंड है। फिर से, वॉयस ट्रांसफार्मर के साथ एक त्वरित जाँच। यह मेरी सामान्य आवाज़ है। अब यदि मैं

00:03:08अपना वॉयस ट्रांसफार्मर चालू करता हूँ, तो यह मेरी सामान्य आवाज़ है। बस आप लोगों को सुनाने के लिए, दूसरी क्लिप

00:03:17कुछ इस तरह सुनाई देती है। यह मेरी सामान्य आवाज़ है। ठीक है, यह थोड़ा अजीब है, है ना?

00:03:22आप उस ट्रांसफार्मर को सुन सकते हैं। हाँ, वे बिल्कुल मेल नहीं खाते, और आउटपुट में भी यही दिख रहा है।

00:03:27यदि आप वॉयस ऑथेंटिकेशन मल्टी-यूज़र ऐप्स या ऐसी कोई भी चीज़ बना रहे हैं जिसमें “कौन बात कर रहा है” का जवाब चाहिए,

00:03:32तो यह बिल्कुल उसी के लिए है। मेरे अंतिम डेमो में, हाँ, इसे बैकबोन माना गया है। लाइव

00:03:37ट्रांसक्रिप्शन ASR डेमो आमतौर पर तब तक प्रभावशाली लगते हैं जब तक आप इसे इस स्पीच के साथ नहीं आज़माते। अब मैं बस

00:03:43सामान्य रूप से बात करने जा रहा हूँ। यह फीचर वास्तव में उतना अच्छा काम नहीं करता है, और डॉक्यूमेंटेशन से भी

00:03:48ज्यादा मदद नहीं मिली, इसलिए मुझे नहीं पता कि मैं इसके बारे में वास्तव में कैसा महसूस करता हूँ। यह ईमानदारी से बस सामान्य स्पीच-टू-टेक्स्ट

00:03:53जैसा लगता है। इसे ऑटो-सब्सक्राइब करना चाहिए था लेकिन अनगिनत समस्याएं आईं, और यह वह भी नहीं करता।

00:03:58तो हाँ, यह ट्रांसक्राइब तो करता है, लेकिन अनगिनत अन्य लाइब्रेरी भी ऐसा ही करती हैं। यह फीचर यहाँ

00:04:04प्रभावशाली नहीं था, कम से कम मेरे लिए इसे ऑटो-ट्रांसक्राइब करना काम नहीं आया। यह बस काम नहीं किया।

00:04:08तो यहाँ कुछ बहुत अच्छी चीज़ें हैं, है ना? हमने वॉयस वेरिफिकेशन और बैकग्राउंड

00:04:13नॉइज़ कैंसलेशन देखा, लेकिन कुछ चीज़ें अभी भी ठीक नहीं हैं। यही संक्षेप में SpeechBrain है।

00:04:18कुल मिलाकर, यह अभी भी तेज़ है। यह अभी भी ओपन है। यह अभी भी डेवलपर्स के लिए बनाया गया है। आप लोग

00:04:22इसे खुद आज़मा सकते हैं। मैंने डिस्क्रिप्शन में लिंक दे दिए हैं, और हम आपसे एक और

00:04:26वीडियो में मिलेंगे।

Key Takeaway

SpeechBrain डेवलपर्स के लिए स्पीच AI को जल्दी लागू करने का एक शक्तिशाली उपकरण है, जो ऑडियो एन्हांसमेंट और पहचान में उत्कृष्ट है, हालाँकि इसके कुछ फीचर्स में अभी सुधार की आवश्यकता है।

Highlights

SpeechBrain एक ओपन-सोर्स PyTorch-नेटिव टूलकिट है जो स्पीच AI फीचर्स बनाने के लिए उपयोग किया जाता है।
इसमें नॉइज़ रिमूवल, स्पीकर वेरिफिकेशन और ASR जैसी सुविधाएँ बिना किसी जटिल ट्रेनिंग के उपलब्ध हैं।
9000 से अधिक GitHub स्टार्स और Hugging Face के साथ इसका गहरा एकीकरण इसे डेवलपर्स के लिए सुलभ बनाता है।
इसका बैकग्राउंड नॉइज़ कैंसलेशन फीचर संगीत और शोर के बीच भी आवाज़ को स्पष्ट रूप से साफ़ कर देता है।
स्पीकर वेरिफिकेशन फीचर VoxCeleb पर आधारित है और यह आवाज़ में बदलाव के बावजूद सटीक पहचान कर सकता है।
ASR और लाइव ट्रांसक्रिप्शन की सुविधा डॉक्यूमेंटेशन की कमी और तकनीकी खामियों के कारण उम्मीद के मुताबिक काम नहीं करती।

Timeline

SpeechBrain का परिचय और बुनियादी क्षमताएं

यह खंड SpeechBrain को एक PyTorch-आधारित ओपन-सोर्स टूलकिट के रूप में पेश करता है। इसमें बताया गया है कि यह बिना किसी जटिल ट्रेनिंग या फाइन-ट्यूनिंग के ऑडियो वेरिफिकेशन और नॉइज़ रिमूवल जैसे कार्य कर सकता है। स्पीकर एक वॉयस ट्रांसफार्मर का उपयोग करके यह प्रदर्शित करता है कि सिस्टम विभिन्न आवाजों के बीच अंतर कैसे कर सकता है। यह शुरुआती डेमो दर्शाता है कि प्री-ट्रेंड मॉडल्स का उपयोग करना कितना सरल है। यह वीडियो का आधार तैयार करता है और दर्शकों को टूल की बुनियादी कार्यक्षमता से परिचित कराता है।

तकनीकी विवरण और डेवलपर एकीकरण

यहाँ SpeechBrain के पूरे स्टैक की चर्चा की गई है, जिसमें ASR, सेपरेशन और TTS जैसे फीचर्स शामिल हैं। स्पीकर इसके 9000 से अधिक GitHub स्टार्स और Hugging Face के साथ आसान इंटीग्रेशन के महत्व पर ज़ोर देता है। उन्होंने ऐप का UI बनाने के लिए Gradio लाइब्रेरी का उपयोग करने का सुझाव दिया है। यह सेक्शन उन डेवलपर्स के लिए है जो कोड को जल्दी शिप करना चाहते हैं और लंबे डॉक्यूमेंटेशन से बचना चाहते हैं। मॉडल लोड करना और उसे इंस्टॉल करना केवल कुछ ही स्टेप्स की बात है।

ऑडियो एन्हांसमेंट और नॉइज़ कैंसलेशन डेमो

इस भाग में ऑडियो एन्हांसमेंट का एक वास्तविक दुनिया का परीक्षण किया गया है जहाँ तेज़ संगीत के पीछे स्पीकर की आवाज़ रिकॉर्ड की जाती है। SpeechBrain का एल्गोरिदम बिना किसी पोस्ट-प्रोसेसिंग हैक्स के बैकग्राउंड शोर को सफलतापूर्वक हटा देता है। यह प्रक्रिया बहुत तेज़ है और पॉडकास्ट या कॉल ऐप्स जैसे वास्तविक समय के अनुप्रयोगों के लिए उपयुक्त है। हालाँकि, मैक पर इसे चलाने के दौरान स्पीकर को कुछ तकनीकी दिक्कतों और डॉक्यूमेंटेशन की कमी का सामना करना पड़ा। यह खंड टूल की सबसे बड़ी ताकत और उसकी सीमाओं दोनों को उजागर करता है।

स्पीकर वेरिफिकेशन और ऑथेंटिकेशन परीक्षण

यहाँ वॉयस ऑथेंटिकेशन की प्रक्रिया को विस्तार से समझाया गया है कि यह वास्तव में जटिल नहीं है। स्पीकर अपनी आवाज़ इनरोल करता है और फिर उसे विभिन्न टोन और वॉयस ट्रांसफार्मर के साथ वेरीफाई करने का प्रयास करता है। सिस्टम VoxCeleb डेटासेट पर प्री-ट्रेंड है, जो इसे आवाज़ के उतार-चढ़ाव के बावजूद सटीक स्कोर देने में सक्षम बनाता है। यह फीचर उन मल्टी-यूज़र ऐप्स के लिए अत्यंत उपयोगी है जिन्हें यह पहचानने की आवश्यकता है कि कौन बात कर रहा है। परीक्षण से यह स्पष्ट होता है कि सुरक्षा और पहचान के लिए यह एक विश्वसनीय मॉड्यूल है।

ASR की कमियाँ और अंतिम निष्कर्ष

अंतिम खंड में लाइव ट्रांसक्रिप्शन (ASR) फीचर का परीक्षण किया गया है, जो स्पीकर को काफी निराशाजनक लगा। उन्होंने पाया कि यह फीचर ठीक से काम नहीं करता है और डॉक्यूमेंटेशन भी इसे सुलझाने में मदद नहीं करता है। स्पीकर के अनुसार, यह अन्य साधारण लाइब्रेरीज़ की तुलना में कुछ भी नया या बेहतर प्रदान नहीं करता है। निष्कर्ष में कहा गया है कि SpeechBrain तेज़ और ओपन-सोर्स होने के नाते बेहतरीन है, लेकिन कुछ फीचर्स में सुधार की गुंजाइश है। वीडियो का अंत डेवलपर्स को इसे खुद आज़माने के प्रोत्साहन के साथ होता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video