00:00:00एक 82 मिलियन पैरामीटर वाले मॉडल ने बड़े TTS सिस्टम को पछाड़ दिया है, और यह चलता है
00:00:06लैपटॉप पर स्थानीय रूप से, अधिकांश पेड API से भी तेज़।
00:00:09पिछले महीने मैंने क्लाउड TTS के लिए भुगतान किया, लेकिन फिर भी लैग मिला।
00:00:13यह बात मेरी समझ से बाहर थी।
00:00:14इनमें से कुछ ओपन सोर्स मॉडल इसे कैसे हरा रहे हैं?
00:00:17यह Kokoro 82M है, और कुछ डेवलपर्स ने इसे शिप करना शुरू भी कर दिया है।
00:00:22देखते हैं कि यह कैसे काम करता है और इससे भी बेहतर, यह सुनने में कैसा है।
00:00:30ठीक है, अगर आप टेक्स्ट-टू-स्पीच के साथ कुछ बना रहे हैं, तो आपके पास दो खराब विकल्प होते हैं।
00:00:36पहला विकल्प जाहिर तौर पर क्लाउड API है, है ना?
00:00:39उन्हें शुरू करना आसान है, लेकिन अब आपके पास ये बिल, लेटेंसी स्पाइक्स और एक और निर्भरता है
00:00:44जब भी आपका ऐप बोलता है।
00:00:46अगला विकल्प इन बड़े ओपन मॉडल जैसा कुछ होगा, लेकिन अब आपको बहुत
00:00:51अधिक हार्डवेयर, अधिक मेमोरी चाहिए और सच कहें तो, यह अभी भी उतना तेज़ नहीं है।
00:00:56तो, जो चीज़ सहज महसूस होनी चाहिए थी, वह धीमी, महंगी लगती है, या बस
00:01:00पूरी तरह से खराब हो जाती है।
00:01:02यहीं पर Kokoro फिट बैठता है।
00:01:04इसे 100 घंटे से भी कम डेटा पर ट्रेन किया गया था, फिर भी यह लीडरबोर्ड में टॉप पर है।
00:01:09यह अपने आकार के एक अंश के साथ बहुत बड़े मॉडल को हराता है, यह Apache 2.0 है, CPU पर चलता है,
00:01:15और Apple सिलिकॉन पर तो यह उड़ता है, और स्पीच को सच में बहुत तेज़ी से जेनरेट करता है।
00:01:19तो अब लोकल वॉयस ऐप्स और रियल-टाइम एजेंट्स वास्तव में अधिक समझ में आने लगते हैं।
00:01:24अगर आप इस तरह के कोडिंग टूल्स और टिप्स पसंद करते हैं, तो सब्सक्राइब ज़रूर करें।
00:01:27हमारे वीडियो हर समय आते रहते हैं।
00:01:29ठीक है, अब मैं आपको यह दिखाता हूँ।
00:01:31मैं यह सब स्थानीय रूप से Mac M4 Pro पर चला रहा हूँ।
00:01:34सेटअप में लगभग 30 सेकंड लगते हैं, मैं बस यहाँ इस pip कमांड के साथ इसे चलाऊँगा।
00:01:39मैं एक conda एनवायरमेंट में हूँ, बस इतना ही।
00:01:42मेरे पास उनके आधिकारिक रेपो से यह पूरी पायथन स्क्रिप्ट है, मुझे टेस्ट करने के लिए
00:01:47कुछ भी बदलने की ज़रूरत नहीं पड़ी, यह बस ड्रैग एंड ड्रॉप है, हमें ये सभी आउटपुट मिलते हैं।
00:01:51मैं यहाँ एक आवाज़ और भाषा चुन सकता हूँ, लेकिन पहले राउंड के लिए मैं इसे
00:01:56वैसा ही रहने दूँगा क्योंकि ईमानदारी से कहूँ तो यह बहुत अच्छा लग रहा है।
00:02:00मैं इसे चलाने जा रहा हूँ और फिर चलिए सुनते हैं।
00:02:02"Better Stack अग्रणी ऑब्जर्वैबिलिटी प्लेटफॉर्म है।"
00:02:05"जो मॉनिटरिंग को सरल बनाता है।"
00:02:07"इसमें AI SRE, लॉग्स, मेट्रिक्स, ट्रेसेस, एरर ट्रैकिंग है।"
00:02:12"और इंसिडेंट रिस्पॉन्स सब एक ही जगह पर।"
00:02:14झूठ नहीं बोलूँगा, वह काफी अच्छा था, और यह बहुत तेज़ी से बाहर आया।
00:02:19अब अगर मैं स्विच बदलूँ, तो चलिए फ्रेंच करते हैं और फ्रेंच आवाज़ पर स्विच करते हैं।
00:02:24टेक्स्ट को थोड़ा बदलें और फिर से इसे चलाएँ।
00:02:26"Better Stack समांतर में ऑब्जर्वैबिलिटी के लिए प्लेटफॉर्म है।"
00:02:29"यह मॉनिटरिंग को सरल बनाता है।"
00:02:31ठीक है, मेरी फ्रेंच थोड़ी कमज़ोर है इसलिए इसका शब्द-दर-शब्द अनुवाद न करें, लेकिन वह
00:02:36भी काफी अच्छा लग रहा था।
00:02:37हालांकि आप लोग इसके जज हो सकते हैं।
00:02:39यह सब WAV फ़ाइल के रूप में सेव होता है इसलिए मैं उन्हें अपनी इच्छानुसार डाउनलोड कर सकता हूँ।
00:02:43कोई क्लाउड नहीं है।
00:02:44कोई GPU नहीं है।
00:02:45वह काफी कमाल था।
00:02:47तो असल में Kokoro 82M क्या है?
00:02:49उच्च स्तर पर यह एक हल्के वोकोडर के साथ स्टाइल TTS2 मॉडल है।
00:02:55इसका मतलब सिर्फ इतना है कि इसे बड़ा हुए बिना अच्छा सुनने के लिए बनाया गया है, और यही मुख्य
00:02:59अंतर है।
00:03:00ज्यादातर अन्य विकल्प बड़े मॉडल की ओर जाते हैं।
00:03:01जैसे XTTS, Cozy Voice, F5 TTS, जिनमें सैकड़ों मिलियन से लेकर एक बिलियन से अधिक पैरामीटर हैं।
00:03:08फिर 11 Labs या OpenAI जैसे क्लाउड टूल्स हार्डवेयर की समस्या तो हल करते हैं, लेकिन अब हम
00:03:13प्रति रिक्वेस्ट भुगतान कर रहे हैं और अपना डेटा बाहर भेज रहे हैं।
00:03:16Kokoro दूसरी दिशा में जाता है।
00:03:19यह छोटा है, शुरू करने में तेज़ है, और स्थानीय रूप से चलता है, साथ ही यह बहुत कम मेमोरी का उपयोग करता है।
00:03:24लेकिन कमियां यह हैं कि, यह सीधे तौर पर ज़ीरो शॉट वॉयस क्लोनिंग नहीं करता है, इसके बजाय
00:03:29यह दक्षता और गुणवत्ता पर ध्यान केंद्रित करता है जिसे हम वास्तव में तेज़ी से शिप कर सकते हैं।
00:03:33हमें अभी भी 8 भाषाएँ, 54 आवाज़ें और उनके इम्पोर्ट Misaki के साथ काफी अच्छा नियंत्रण मिलता है।
00:03:39मैं देख सकता हूँ कि यह सब विभिन्न प्रकार के एजेंट्स में बहुत अच्छी तरह फिट होगा, लेकिन
00:03:42आपको किसी भी प्रकार की भावना (emotion) नहीं मिलती है, जिसे मैं वास्तव में यहाँ देखना चाहता था।
00:03:47भावना के बिना एक AI अभी भी काफी हद तक AI की तरह ही लगेगा, जो मुझे लगता है कि
00:03:52कभी-कभी अच्छा हो सकता है, है ना?
00:03:53लेकिन उस भावना के साथ खेलना मजेदार होता।
00:03:56तो डेवलपर्स वास्तव में इसका उपयोग क्यों कर रहे हैं?
00:03:58खैर, अगर मैंने आपको नहीं दिखाया, तो चलिए इस पर बात करते हैं, क्योंकि यह उन चीज़ों को ठीक करता है जो आमतौर पर
00:04:02वॉयस फीचर्स को खराब करती हैं।
00:04:04पहला है स्पीड।
00:04:05अगर आपका एजेंट बहुत देर तक रुकता है और वास्तविक नहीं लगता, तो Kokoro उस देरी को बहुत कम कर देता है।
00:04:11फिर ऑफलाइन उपयोग की सुविधा यहाँ है।
00:04:13कोई इंटरनेट नहीं है, कोई API कीज़ नहीं हैं, मुझे कोई अचानक विफलता नहीं मिलती।
00:04:16यह बहुत अच्छा है।
00:04:17प्राइवेसी काफी बड़ी बात है क्योंकि Kokoro सब कुछ स्थानीय रखता है, इसलिए मेरे लिए और आप में से कई लोगों के लिए,
00:04:22यह एक बड़ी जीत हो सकती है।
00:04:23और अंत में, बड़े पैमाने पर लागत।
00:04:26चूंकि यह बहुत हल्का है, आप एक ही मशीन पर कई और इंस्टेंस चला सकते हैं।
00:04:30क्या अच्छा है और क्या नहीं, मुझे पसंद आया कि यह तेज़ और छोटा है।
00:04:33यह लंबे कंटेंट के लिए स्वाभाविक लगता है।
00:04:35वह वास्तव में शानदार था।
00:04:36मैंने इनमें से कई के साथ प्रयोग किया है।
00:04:38यह Apache 2.0 है, इसलिए आप इसे शिप कर सकते हैं, और सेटअप के बाद, यह मूल रूप से मुफ़्त है।
00:04:43ये सभी सच में बहुत अच्छे हैं।
00:04:44अब, मुझे ये पसंद आए।
00:04:45वह शानदार था।
00:04:46लेकिन कुछ चीज़ें ऐसी थीं जो मुझे पसंद नहीं आईं।
00:04:47इसमें कोई नेटिव वॉयस क्लोनिंग नहीं है, यह निर्भर करता है कि आपको वॉयस क्लोनिंग चाहिए या नहीं, ठीक है, वह
00:04:51हो सकता था।
00:04:52इमोशन काफी न्यूट्रल है।
00:04:54कथा (narration) के लिए बढ़िया है, लेकिन किसी ड्रामेटिक चीज़ के लिए नहीं।
00:04:56मेरा मतलब है, यहाँ वास्तव में भावना बदलने की कोई क्षमता नहीं है, साथ ही गैर-अंग्रेजी आवाज़ों में
00:05:02अभी भी सुधार हो रहा है।
00:05:03तो इसे जोड़ने की ज़रूरत है, शायद नहीं, यह इस पर निर्भर करता है कि आप इसे कैसे देखते हैं।
00:05:07तो क्या यह परफेक्ट है?
00:05:08नहीं।
00:05:09लेकिन उन समस्याओं के लिए जो हममें से अधिकांश को होती हैं - लागत, लेटेंसी, प्राइवेसी, डिप्लॉयमेंट।
00:05:14यह अभी सही समस्याओं को हल करता हुआ प्रतीत होता है।
00:05:18इसके साथ प्रयोग करें और मुझे बताएं।
00:05:19Kokoro 82m साबित करता है कि बहुत अच्छा TTS पाने के लिए आपको बड़े मॉडल की आवश्यकता नहीं है।
00:05:24छोटा मतलब तेज़, तेज़ मतलब उपयोगी, और उपयोगी का आमतौर पर मतलब है कि आप वास्तव में
00:05:29इसे शिप कर सकते हैं।
00:05:30अगर आप वॉयस एजेंट्स या लोकल टूल्स बना रहे हैं, तो यह आज़माने लायक है।
00:05:34अगर आप इस तरह के कोडिंग टूल्स और टिप्स पसंद करते हैं, तो Better Stack चैनल को सब्सक्राइब ज़रूर करें।
00:05:38हम आपसे दूसरे वीडियो में मिलेंगे।