इस छोटे से 82M मॉडल ने ज़्यादातर TTS APIs को पीछे छोड़ दिया (लोकल चलता है)

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00एक 82 मिलियन पैरामीटर वाले मॉडल ने बड़े TTS सिस्टम को पछाड़ दिया है, और यह चलता है
00:00:06लैपटॉप पर स्थानीय रूप से, अधिकांश पेड API से भी तेज़।
00:00:09पिछले महीने मैंने क्लाउड TTS के लिए भुगतान किया, लेकिन फिर भी लैग मिला।
00:00:13यह बात मेरी समझ से बाहर थी।
00:00:14इनमें से कुछ ओपन सोर्स मॉडल इसे कैसे हरा रहे हैं?
00:00:17यह Kokoro 82M है, और कुछ डेवलपर्स ने इसे शिप करना शुरू भी कर दिया है।
00:00:22देखते हैं कि यह कैसे काम करता है और इससे भी बेहतर, यह सुनने में कैसा है।
00:00:30ठीक है, अगर आप टेक्स्ट-टू-स्पीच के साथ कुछ बना रहे हैं, तो आपके पास दो खराब विकल्प होते हैं।
00:00:36पहला विकल्प जाहिर तौर पर क्लाउड API है, है ना?
00:00:39उन्हें शुरू करना आसान है, लेकिन अब आपके पास ये बिल, लेटेंसी स्पाइक्स और एक और निर्भरता है
00:00:44जब भी आपका ऐप बोलता है।
00:00:46अगला विकल्प इन बड़े ओपन मॉडल जैसा कुछ होगा, लेकिन अब आपको बहुत
00:00:51अधिक हार्डवेयर, अधिक मेमोरी चाहिए और सच कहें तो, यह अभी भी उतना तेज़ नहीं है।
00:00:56तो, जो चीज़ सहज महसूस होनी चाहिए थी, वह धीमी, महंगी लगती है, या बस
00:01:00पूरी तरह से खराब हो जाती है।
00:01:02यहीं पर Kokoro फिट बैठता है।
00:01:04इसे 100 घंटे से भी कम डेटा पर ट्रेन किया गया था, फिर भी यह लीडरबोर्ड में टॉप पर है।
00:01:09यह अपने आकार के एक अंश के साथ बहुत बड़े मॉडल को हराता है, यह Apache 2.0 है, CPU पर चलता है,
00:01:15और Apple सिलिकॉन पर तो यह उड़ता है, और स्पीच को सच में बहुत तेज़ी से जेनरेट करता है।
00:01:19तो अब लोकल वॉयस ऐप्स और रियल-टाइम एजेंट्स वास्तव में अधिक समझ में आने लगते हैं।
00:01:24अगर आप इस तरह के कोडिंग टूल्स और टिप्स पसंद करते हैं, तो सब्सक्राइब ज़रूर करें।
00:01:27हमारे वीडियो हर समय आते रहते हैं।
00:01:29ठीक है, अब मैं आपको यह दिखाता हूँ।
00:01:31मैं यह सब स्थानीय रूप से Mac M4 Pro पर चला रहा हूँ।
00:01:34सेटअप में लगभग 30 सेकंड लगते हैं, मैं बस यहाँ इस pip कमांड के साथ इसे चलाऊँगा।
00:01:39मैं एक conda एनवायरमेंट में हूँ, बस इतना ही।
00:01:42मेरे पास उनके आधिकारिक रेपो से यह पूरी पायथन स्क्रिप्ट है, मुझे टेस्ट करने के लिए
00:01:47कुछ भी बदलने की ज़रूरत नहीं पड़ी, यह बस ड्रैग एंड ड्रॉप है, हमें ये सभी आउटपुट मिलते हैं।
00:01:51मैं यहाँ एक आवाज़ और भाषा चुन सकता हूँ, लेकिन पहले राउंड के लिए मैं इसे
00:01:56वैसा ही रहने दूँगा क्योंकि ईमानदारी से कहूँ तो यह बहुत अच्छा लग रहा है।
00:02:00मैं इसे चलाने जा रहा हूँ और फिर चलिए सुनते हैं।
00:02:02"Better Stack अग्रणी ऑब्जर्वैबिलिटी प्लेटफॉर्म है।"
00:02:05"जो मॉनिटरिंग को सरल बनाता है।"
00:02:07"इसमें AI SRE, लॉग्स, मेट्रिक्स, ट्रेसेस, एरर ट्रैकिंग है।"
00:02:12"और इंसिडेंट रिस्पॉन्स सब एक ही जगह पर।"
00:02:14झूठ नहीं बोलूँगा, वह काफी अच्छा था, और यह बहुत तेज़ी से बाहर आया।
00:02:19अब अगर मैं स्विच बदलूँ, तो चलिए फ्रेंच करते हैं और फ्रेंच आवाज़ पर स्विच करते हैं।
00:02:24टेक्स्ट को थोड़ा बदलें और फिर से इसे चलाएँ।
00:02:26"Better Stack समांतर में ऑब्जर्वैबिलिटी के लिए प्लेटफॉर्म है।"
00:02:29"यह मॉनिटरिंग को सरल बनाता है।"
00:02:31ठीक है, मेरी फ्रेंच थोड़ी कमज़ोर है इसलिए इसका शब्द-दर-शब्द अनुवाद न करें, लेकिन वह
00:02:36भी काफी अच्छा लग रहा था।
00:02:37हालांकि आप लोग इसके जज हो सकते हैं।
00:02:39यह सब WAV फ़ाइल के रूप में सेव होता है इसलिए मैं उन्हें अपनी इच्छानुसार डाउनलोड कर सकता हूँ।
00:02:43कोई क्लाउड नहीं है।
00:02:44कोई GPU नहीं है।
00:02:45वह काफी कमाल था।
00:02:47तो असल में Kokoro 82M क्या है?
00:02:49उच्च स्तर पर यह एक हल्के वोकोडर के साथ स्टाइल TTS2 मॉडल है।
00:02:55इसका मतलब सिर्फ इतना है कि इसे बड़ा हुए बिना अच्छा सुनने के लिए बनाया गया है, और यही मुख्य
00:02:59अंतर है।
00:03:00ज्यादातर अन्य विकल्प बड़े मॉडल की ओर जाते हैं।
00:03:01जैसे XTTS, Cozy Voice, F5 TTS, जिनमें सैकड़ों मिलियन से लेकर एक बिलियन से अधिक पैरामीटर हैं।
00:03:08फिर 11 Labs या OpenAI जैसे क्लाउड टूल्स हार्डवेयर की समस्या तो हल करते हैं, लेकिन अब हम
00:03:13प्रति रिक्वेस्ट भुगतान कर रहे हैं और अपना डेटा बाहर भेज रहे हैं।
00:03:16Kokoro दूसरी दिशा में जाता है।
00:03:19यह छोटा है, शुरू करने में तेज़ है, और स्थानीय रूप से चलता है, साथ ही यह बहुत कम मेमोरी का उपयोग करता है।
00:03:24लेकिन कमियां यह हैं कि, यह सीधे तौर पर ज़ीरो शॉट वॉयस क्लोनिंग नहीं करता है, इसके बजाय
00:03:29यह दक्षता और गुणवत्ता पर ध्यान केंद्रित करता है जिसे हम वास्तव में तेज़ी से शिप कर सकते हैं।
00:03:33हमें अभी भी 8 भाषाएँ, 54 आवाज़ें और उनके इम्पोर्ट Misaki के साथ काफी अच्छा नियंत्रण मिलता है।
00:03:39मैं देख सकता हूँ कि यह सब विभिन्न प्रकार के एजेंट्स में बहुत अच्छी तरह फिट होगा, लेकिन
00:03:42आपको किसी भी प्रकार की भावना (emotion) नहीं मिलती है, जिसे मैं वास्तव में यहाँ देखना चाहता था।
00:03:47भावना के बिना एक AI अभी भी काफी हद तक AI की तरह ही लगेगा, जो मुझे लगता है कि
00:03:52कभी-कभी अच्छा हो सकता है, है ना?
00:03:53लेकिन उस भावना के साथ खेलना मजेदार होता।
00:03:56तो डेवलपर्स वास्तव में इसका उपयोग क्यों कर रहे हैं?
00:03:58खैर, अगर मैंने आपको नहीं दिखाया, तो चलिए इस पर बात करते हैं, क्योंकि यह उन चीज़ों को ठीक करता है जो आमतौर पर
00:04:02वॉयस फीचर्स को खराब करती हैं।
00:04:04पहला है स्पीड।
00:04:05अगर आपका एजेंट बहुत देर तक रुकता है और वास्तविक नहीं लगता, तो Kokoro उस देरी को बहुत कम कर देता है।
00:04:11फिर ऑफलाइन उपयोग की सुविधा यहाँ है।
00:04:13कोई इंटरनेट नहीं है, कोई API कीज़ नहीं हैं, मुझे कोई अचानक विफलता नहीं मिलती।
00:04:16यह बहुत अच्छा है।
00:04:17प्राइवेसी काफी बड़ी बात है क्योंकि Kokoro सब कुछ स्थानीय रखता है, इसलिए मेरे लिए और आप में से कई लोगों के लिए,
00:04:22यह एक बड़ी जीत हो सकती है।
00:04:23और अंत में, बड़े पैमाने पर लागत।
00:04:26चूंकि यह बहुत हल्का है, आप एक ही मशीन पर कई और इंस्टेंस चला सकते हैं।
00:04:30क्या अच्छा है और क्या नहीं, मुझे पसंद आया कि यह तेज़ और छोटा है।
00:04:33यह लंबे कंटेंट के लिए स्वाभाविक लगता है।
00:04:35वह वास्तव में शानदार था।
00:04:36मैंने इनमें से कई के साथ प्रयोग किया है।
00:04:38यह Apache 2.0 है, इसलिए आप इसे शिप कर सकते हैं, और सेटअप के बाद, यह मूल रूप से मुफ़्त है।
00:04:43ये सभी सच में बहुत अच्छे हैं।
00:04:44अब, मुझे ये पसंद आए।
00:04:45वह शानदार था।
00:04:46लेकिन कुछ चीज़ें ऐसी थीं जो मुझे पसंद नहीं आईं।
00:04:47इसमें कोई नेटिव वॉयस क्लोनिंग नहीं है, यह निर्भर करता है कि आपको वॉयस क्लोनिंग चाहिए या नहीं, ठीक है, वह
00:04:51हो सकता था।
00:04:52इमोशन काफी न्यूट्रल है।
00:04:54कथा (narration) के लिए बढ़िया है, लेकिन किसी ड्रामेटिक चीज़ के लिए नहीं।
00:04:56मेरा मतलब है, यहाँ वास्तव में भावना बदलने की कोई क्षमता नहीं है, साथ ही गैर-अंग्रेजी आवाज़ों में
00:05:02अभी भी सुधार हो रहा है।
00:05:03तो इसे जोड़ने की ज़रूरत है, शायद नहीं, यह इस पर निर्भर करता है कि आप इसे कैसे देखते हैं।
00:05:07तो क्या यह परफेक्ट है?
00:05:08नहीं।
00:05:09लेकिन उन समस्याओं के लिए जो हममें से अधिकांश को होती हैं - लागत, लेटेंसी, प्राइवेसी, डिप्लॉयमेंट।
00:05:14यह अभी सही समस्याओं को हल करता हुआ प्रतीत होता है।
00:05:18इसके साथ प्रयोग करें और मुझे बताएं।
00:05:19Kokoro 82m साबित करता है कि बहुत अच्छा TTS पाने के लिए आपको बड़े मॉडल की आवश्यकता नहीं है।
00:05:24छोटा मतलब तेज़, तेज़ मतलब उपयोगी, और उपयोगी का आमतौर पर मतलब है कि आप वास्तव में
00:05:29इसे शिप कर सकते हैं।
00:05:30अगर आप वॉयस एजेंट्स या लोकल टूल्स बना रहे हैं, तो यह आज़माने लायक है।
00:05:34अगर आप इस तरह के कोडिंग टूल्स और टिप्स पसंद करते हैं, तो Better Stack चैनल को सब्सक्राइब ज़रूर करें।
00:05:38हम आपसे दूसरे वीडियो में मिलेंगे।

Key Takeaway

Kokoro 82M मॉडल यह साबित करता है कि स्थानीय स्तर पर चलने वाला 82 मिलियन पैरामीटर का छोटा मॉडल भी लेटेंसी और लागत को समाप्त करके क्लाउड TTS सेवाओं से बेहतर प्रदर्शन कर सकता है।

Highlights

Kokoro 82M एक ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल है जिसके केवल 82 मिलियन पैरामीटर्स हैं लेकिन यह बड़े मॉडल्स को प्रदर्शन में पीछे छोड़ देता है।

यह मॉडल स्थानीय रूप से CPU और Apple सिलिकॉन पर चलता है और अधिकांश पेड क्लाउड APIs की तुलना में अधिक तेज़ रिस्पॉन्स देता है।

Apache 2.0 लाइसेंस के तहत उपलब्ध यह टूल पूरी तरह से मुफ़्त है और इसे चलाने के लिए इंटरनेट कनेक्शन या बाहरी GPU की आवश्यकता नहीं होती है।

यह मॉडल 8 भाषाओं और 54 अलग-अलग आवाज़ों का समर्थन करता है और सेटअप करने में मात्र 30 सेकंड का समय लेता है।

Kokoro 82M को 100 घंटे से भी कम डेटा पर प्रशिक्षित किया गया है और यह बहुत कम मेमोरी का उपयोग करके उच्च गुणवत्ता वाली ध्वनि उत्पन्न करता है।

Timeline

क्लाउड TTS की समस्याएँ और Kokoro का आगमन

  • क्लाउड आधारित TTS सिस्टम में लेटेंसी स्पाइक्स और महंगी बिलिंग की समस्या होती है।
  • बड़े ओपन-सोर्स मॉडल्स को चलाने के लिए भारी हार्डवेयर और अधिक मेमोरी की ज़रूरत पड़ती है।
  • Kokoro 82M इन दोनों समस्याओं को हल करते हुए स्थानीय स्तर पर तेज़ गति से काम करता है।

क्लाउड APIs का उपयोग करते समय ऐप्स में बोलने के दौरान देरी का अनुभव होता है और डेटा पर निर्भरता बढ़ जाती है। बड़े मॉडल जैसे XTTS या Cozy Voice हार्डवेयर की मांग बढ़ाते हैं लेकिन फिर भी रीयल-टाइम प्रदर्शन में पीछे रह सकते हैं। Kokoro इन सीमाओं को तोड़कर लैपटॉप पर सहज अनुभव प्रदान करता है।

स्थानीय सेटअप और बहुभाषी प्रदर्शन

  • Mac M4 Pro पर Kokoro का सेटअप करने में केवल 30 सेकंड का समय लगता है।
  • यह मॉडल बिना GPU के केवल CPU पावर का उपयोग करके उच्च गुणवत्ता वाली WAV फ़ाइलें जनरेट करता है।
  • अंग्रेजी के अलावा यह फ्रेंच जैसी अन्य भाषाओं में भी प्रभावी ढंग से काम करता है।

पायथन स्क्रिप्ट और एक साधारण pip कमांड के माध्यम से इसे सक्रिय किया जा सकता है। आधिकारिक रिपॉजिटरी से मिली स्क्रिप्ट को बिना किसी बदलाव के सीधे चलाया जा सकता है। यह बिना किसी क्लाउड कनेक्शन के स्थानीय रूप से डेटा को प्रोसेस करके प्राइवेसी सुनिश्चित करता है।

तकनीकी संरचना और मॉडल्स की तुलना

  • Kokoro एक हल्के वोकोडर के साथ स्टाइल TTS2 मॉडल का उपयोग करता है।
  • यह मॉडल सीधा वॉयस क्लोनिंग नहीं करता बल्कि दक्षता और गति पर ध्यान केंद्रित करता है।
  • इसमें 8 भाषाओं और 54 आवाज़ों के साथ Misaki इम्पोर्ट के माध्यम से नियंत्रण मिलता है।

जहाँ 11 Labs या OpenAI प्रति रिक्वेस्ट शुल्क लेते हैं, वहीं Kokoro एक बार सेटअप होने के बाद मुफ़्त है। इसका मुख्य उद्देश्य आकार को छोटा रखकर गुणवत्ता को बनाए रखना है। हालांकि इसमें वर्तमान में भावनाओं (emotions) का अभाव है, जो आवाज़ को थोड़ा कृत्रिम बनाता है।

डेवलपर्स के लिए लाभ और सीमाएँ

  • रीयल-टाइम एजेंट्स में देरी को कम करने के लिए Kokoro सबसे उपयुक्त विकल्प है।
  • यह ऑफलाइन मोड में चलता है जिससे API कीज़ की विफलता का डर नहीं रहता।
  • मॉडल की न्यूट्रल टोन इसे कथावाचन (narration) के लिए आदर्श बनाती है लेकिन नाटकीय कार्यों के लिए नहीं।

बड़े पैमाने पर ऐप्स चलाने के लिए यह कम लागत वाला समाधान है क्योंकि एक ही मशीन पर कई इंस्टेंस चलाए जा सकते हैं। नेटिव वॉयस क्लोनिंग की कमी और गैर-अंग्रेजी आवाज़ों में सुधार की गुंजाइश इसकी मुख्य सीमाएँ हैं। यह मॉडल साबित करता है कि छोटा और तेज़ मॉडल रीयल-टाइम डिप्लॉयमेंट के लिए अधिक उपयोगी होता है।

Community Posts

View all posts