00:00:00अभी आपने जो सुना, वह मैं एनवीडिया के नए वॉयस असिस्टेंट मॉडल से बात कर रहा हूँ जिसका नाम है
00:00:23Personaplex (पर्सनाप्लेक्स)।
00:00:24यह एक कमाल का नया ओपन-सोर्स कन्वर्सेशनल AI मॉडल है जो आपसे लगभग शून्य
00:00:31लैग (देरी) के साथ बात करता है।
00:00:32इस वीडियो में, हम Personaplex को और विस्तार से देखेंगे और फिर मैं
00:00:36आपको दिखाऊँगा कि इसे कैसे सेटअप करें और खुद कैसे आज़माएँ।
00:00:38इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं!
00:00:46Personaplex वह है जिसे वे "फुल डुप्लेक्स मॉडल" कहते हैं।
00:00:49इसका मतलब है कि यह एक ही समय में सुनता और बोलता है।
00:00:52पारंपरिक प्रणालियों में, आपकी आवाज़ को टेक्स्ट में बदला जाता है, फिर एक LLM द्वारा प्रोसेस किया जाता है, और फिर
00:00:58वापस स्पीच में बदला जाता है।
00:00:59लेकिन इस प्रक्रिया (कैस्केड) की वजह से काफी देरी महसूस होती है।
00:01:02Personaplex जो अलग करता है वह यह है कि यह एक एकल एंड-टू-एंड मॉडल का उपयोग करता है जो
00:01:08आपके बोलते समय अपनी आंतरिक स्थिति (internal state) को अपडेट करता रहता है।
00:01:11यह "बैक-चैनलिंग" जैसी चीजों की अनुमति देता है, जैसे कि "हूँ-हूँ", सही, ठीक है, आप
00:01:17जानते हैं वो चीजें जो हम अक्सर दूसरे व्यक्ति को यह संकेत देने के लिए कहते हैं कि हम उन्हें सुन रहे
00:01:21हैं।
00:01:22पारंपरिक AI वॉयस असिस्टेंट में, आमतौर पर पहले यूजर की बारी होती है और फिर एजेंट की।
00:01:28बैक-चैनलिंग उस दीवार को एक तरह से तोड़ देती है।
00:01:30यह AI को सक्रिय रूप से सुनने (active listening) की क्षमता देता है।
00:01:34Personaplex सिर्फ अपनी बोलने की बारी का इंतज़ार नहीं करता।
00:01:37यह रीयल-टाइम में आपके प्रवाह (flow) का अनुसरण करता है, इसलिए बातचीत कभी एकतरफा नहीं लगती।
00:01:42और Personaplex को MOSHI आर्किटेक्चर पर बनाया गया है, जिसे मूल रूप से Kiyutai द्वारा विकसित किया गया था।
00:01:48और यह एक 7 बिलियन पैरामीटर वाला मॉडल है, जो MIMI न्यूरल ऑडियो कोडेक का उपयोग करता है।
00:01:53और इसे प्रशिक्षित करने के लिए, NVIDIA ने दो डेटा स्रोतों के मिश्रण का उपयोग किया।
00:01:57सबसे पहले, उन्होंने फिशर इंग्लिश कॉर्पस से लगभग 1200 घंटे की वास्तविक इंसानी बातचीत का उपयोग किया।
00:02:03इस तरह वे AI को बातचीत के उन स्वाभाविक पहलुओं को सिखा सके, जैसे कि
00:02:08बोलते समय रुकना और बातचीत की प्राकृतिक लय।
00:02:11और दूसरा, उन्होंने कस्टमर सर्विस और टेक्निकल सपोर्ट जैसे विशिष्ट कार्यों के लिए
00:02:162000 से अधिक घंटों के सिंथेटिक डेटा को इसमें मिलाया।
00:02:19इन दोनों को मिलाकर, मॉडल ने मानवीय एहसास को खोए बिना
00:02:24जटिल निर्देशों का पालन करना सीखा।
00:02:26और यह वास्तव में बारी लेने (turn-taking) और रुकावट के समय (interruption latency) के मामले में
00:02:31अन्य ओपन सोर्स और कमर्शियल सिस्टम से बेहतर प्रदर्शन करता है।
00:02:32NVIDIA के परीक्षण में, Personaplex ने काफी सुधार दिखाया जिसे वे
00:02:38Service Duplex Bench कहते हैं।
00:02:39इसने बैंक ट्रांजेक्शन वेरिफाई करने या मेडिकल हिस्ट्री रिकॉर्ड करने जैसे कस्टमर सर्विस
00:02:43सिमुलेशन में बहुत सटीक प्रदर्शन किया, जहाँ उसे नियमों का पालन भी करना था
00:02:49और साथ ही लाइव यूजर की अनिश्चितता को भी संभालना था।
00:02:54सच कहूँ तो, यह सब सुनने में इतना अच्छा लग रहा है कि मेरा इसे आज़माने का मन कर रहा है।
00:02:58तो NVIDIA ने कोड और मॉडल वेट को ओपन लाइसेंस के तहत जारी किया है, ताकि हम
00:03:04इसे अपने प्रोजेक्ट्स के लिए स्वतंत्र रूप से उपयोग कर सकें।
00:03:05लेकिन इसे प्रभावी ढंग से चलाने के लिए, आपको एक दमदार ग्राफिक्स कार्ड की आवश्यकता होगी।
00:03:09आदर्श रूप से कम से कम 24 GB VRAM वाला कार्ड, ताकि लैग कम से कम हो।
00:03:14हमारे डेमो के लिए, मैं इसे एक साधारण A40 RunPod कंटेनर पर तैनात करने जा रहा हूँ।
00:03:19प्रोजेक्ट को चलाने के लिए हमें कम से कम 50 GB स्पेस की आवश्यकता होगी।
00:03:23इसलिए मैं कंटेनर का साइज बढ़ाकर 100 कर रहा हूँ।
00:03:26और चूँकि MOSHI सर्वर पोर्ट 8998 पर चल रहा है, हमें इस पोर्ट को भी
00:03:31अपनी HTTP पोर्ट्स की लिस्ट में जोड़ना चाहिए।
00:03:33और हम PyTorch Ubuntu टेम्पलेट का उपयोग करने वाले हैं।
00:03:36अगर सब कुछ सेट है, तो हम आगे बढ़कर 'deploy' पर क्लिक कर सकते हैं।
00:03:39इसके बाद हमें अपने सर्वर में SSH करना होगा।
00:03:42और इसे इंस्टॉल करना काफी आसान है।
00:03:44हमें बस Personaplex के GitHub पेज पर दिए गए निर्देशों का पालन करना है।
00:03:48तो सबसे पहले हमें Opus Audio कोडेक इंस्टॉल करना होगा।
00:03:51और फिर हमें रेपो (repo) को क्लोन करना होगा।
00:03:53और फिर उसके अंदर, हमें MOSHI सर्वर इंस्टॉलेशन चलाना होगा।
00:03:57मॉडल डाउनलोड करने के लिए आपको Hugging Face टोकन की भी आवश्यकता होगी।
00:04:00तो उसे भी एक्सपोर्ट करना सुनिश्चित करें।
00:04:03और एक बार सब हो जाने के बाद, चलिए MOSHI सर्वर चलाते हैं।
00:04:06अब हमें अपने इंटरनल वेब सर्वर तक पहुँचने के लिए बस इस लिंक पर क्लिक करना है।
00:04:10और लीजिए, यह तैयार है।
00:04:11तो जैसे ही हम पेज खोलते हैं, हम देख सकते हैं कि हमें कुछ टेक्स्ट प्रॉम्प्ट के उदाहरण दिए गए हैं।
00:04:16यह एक डिफ़ॉल्ट असिस्टेंट, या मेडिकल ऑफिस, या बैंक, या अंतरिक्ष यात्री हो सकता है।
00:04:23चलिए पहले बैंक चुनते हैं यह देखने के लिए कि एक सही कस्टमर सर्विस डेमो कैसा सुनाई देता है।
00:04:27फर्स्ट न्यूरॉन बैंक में कॉल करने के लिए धन्यवाद।
00:04:31आज मैं आपकी किस प्रकार सहायता कर सकता हूँ?
00:04:33नमस्ते, आप कैसे हैं?
00:04:34मैं ठीक हूँ।
00:04:35धन्यवाद।
00:04:36मैं आज आपकी क्या मदद कर सकता हूँ?
00:04:39मैं बैंक लूटना चाहता हूँ।
00:04:40ओह, नहीं।
00:04:41हम यहाँ मदद के लिए हैं।
00:04:42क्या मुझे आपका नाम और अकाउंट नंबर मिल सकता है, कृपया?
00:04:44नहीं, मैं बस बैंक लूटना चाहता हूँ।
00:04:46ठीक है।
00:04:47मैं देख रहा हूँ कि होम डिपो पर $1,200 का एक ट्रांजेक्शन हुआ था।
00:04:51क्या आपको वह खरीदारी याद है?
00:04:54मुझे नहीं पता।
00:04:55मैं बस बैंक लूटना चाहता हूँ।
00:04:56मैं समझता हूँ।
00:04:57सिस्टम ने इसे फ्लैग किया क्योंकि लोकेशन...
00:05:00ठीक है।
00:05:01माफ़ करना।
00:05:02लेकिन मुझे उससे कोई फर्क नहीं पड़ता।
00:05:03मैं बस बैंक लूटना चाहता हूँ।
00:05:06बिल्कुल।
00:05:07और आपकी समझदारी के लिए मैं सराहना करता हूँ।
00:05:08आगे बढ़ने से पहले, मुझे आपकी पहचान की पुष्टि करनी होगी।
00:05:11ठीक है।
00:05:12मेरा नाम जॉन है।
00:05:13धन्यवाद।
00:05:14मैंने इसे नोट कर लिया है।
00:05:15दोबारा दोहराने के लिए, आपका नाम जॉन है।
00:05:16आपकी जन्मतिथि 9 जुलाई, 1990 है।
00:05:18मैंने अपनी जन्मतिथि के बारे में कुछ नहीं कहा।
00:05:20ठीक है।
00:05:21सही बात है।
00:05:22खैर, मेरे पास रिकॉर्ड में आपका नाम जॉन है।
00:05:23मैं जन्मतिथि के बिना आगे नहीं बढ़ सकता।
00:05:25ठीक है।
00:05:26जन्मतिथि 5 नवंबर, 1987 है।
00:05:30समझ गया।
00:05:315 नवंबर, 1987।
00:05:33लेकिन मैं अभी बैंक लूटने जा रहा हूँ।
00:05:38और मुझे उम्मीद है कि आपका दिन अच्छा रहे, सर।
00:05:41आपका दिन शुभ हो।
00:05:42अगर मैं बैंक लूटता हूँ तो मेरा दिन वाकई बहुत अच्छा होगा।
00:05:45यह रोमांचक लग रहा है।
00:05:46मुझे आशा है कि यह आसानी से हो जाएगा।
00:05:48आपका दिन शुभ हो, जॉन।
00:05:54क्या आपको चिंता नहीं है कि मैं बैंक लूटने जा रहा हूँ?
00:05:57मुझे बहुत चिंता है, हाँ।
00:05:59लेकिन, दुर्भाग्य से, मैं फोन पर लेन-देन में मदद नहीं कर सकता।
00:06:02आपका काम हो गया है।
00:06:03आपका दिन शुभ हो, जॉन।
00:06:04ठीक है।
00:06:05तो यह एक कस्टमर सर्विस का उदाहरण था।
00:06:08काफी बढ़िया है।
00:06:09काफी बढ़िया।
00:06:10अब, एक पुरुष आवाज़ आज़माते हैं।
00:06:12और असिस्टेंट के लिए, मैंने अब यह प्रॉम्प्ट जोड़ा है कि आप एक बहुत ही कष्टप्रद दोस्त हैं
00:06:17जो सिर्फ कुत्तों के बारे में बात करना चाहता है, चाहे संदर्भ या बातचीत कुछ भी हो।
00:06:21और आपको 'नॉक-नॉक' जोक्स भी पसंद हैं।
00:06:23तो देखते हैं यह बातचीत कैसी रहती है।
00:06:25नमस्ते।
00:06:26आप पाउला से बात कर रहे हैं।
00:06:27यह मैक्क्वीन है।
00:06:28आप कैसे हैं?
00:06:29मेरा नाम पॉल है।
00:06:30हाँ।
00:06:31यह 2011 है।
00:06:32मेरा नाम पॉल है और आपका?
00:06:332011 से तुम्हारा क्या मतलब है?
00:06:34यह 2011 है।
00:06:35मैं न्यूयॉर्क में रहता हूँ।
00:06:36तुम कहाँ हो?
00:06:37ओह, तुम न्यूयॉर्क में हो।
00:06:39हाँ।
00:06:40लेकिन अभी 2026 चल रहा है।
00:06:41क्या यह 2026 है?
00:06:42ओह, अच्छा।
00:06:43हाँ।
00:06:44ठीक है।
00:06:45तुम्हें यह गलतफहमी क्यों हुई?
00:06:46क्योंकि यह 2011 है।
00:06:47मुझे नहीं लगता कि मेरे पास मुसीबत के लिए समय है।
00:06:48ठीक है।
00:06:49यह 2011 नहीं है।
00:06:50यह 2021 है।
00:06:51ओह, अच्छा।
00:06:52ठीक है।
00:06:53खैर, मुझे नहीं लगता कि मेरे पास मुसीबत के लिए समय है।
00:06:59ठीक है।
00:07:00यह 2011 नहीं है।
00:07:01अब 2026 चल रहा है।
00:07:02हाँ।
00:07:03मुझे पता है।
00:07:04मुझे पता है।
00:07:05मैं भ्रमित हो गया था।
00:07:06तो क्या तुम्हें कुत्ते पसंद हैं?
00:07:07ओह, मुझे कुत्ते पसंद हैं।
00:07:08क्या तुम्हें कुत्ते पसंद हैं?
00:07:09मुझे कुत्ते पसंद हैं, लेकिन मुझे बिल्लियाँ पसंद नहीं हैं।
00:07:10ओह, तुम्हें पसंद नहीं?
00:07:11ओह।
00:07:12ठीक है।
00:07:13खैर, क्या तुम्हें बिल्लियों से नफरत है?
00:07:14मुझे बिल्लियों से नफरत नहीं है, लेकिन मैं कुत्तों को प्राथमिकता दूँगा।
00:07:17क्या तुम मुझे एक इंसान के रूप में पसंद करते हो?
00:07:18ठीक है।
00:07:19तो तुम जाकर भविष्य देखना चाहते हो?
00:07:20ठीक है।
00:07:21मैं अभी भी तुमसे बात कर रहा हूँ।
00:07:22हम बात करते हैं।
00:07:23ठीक है।
00:07:24क्या तुम्हें खबरें पसंद हैं?
00:07:25रुको, रुको, रुको।
00:07:26मैं तुमसे एक सवाल पूछता हूँ।
00:07:27क्या तुम मुझे एक इंसान के रूप में पसंद करते हो?
00:07:28ठीक है।
00:07:29मुझे नहीं लगता कि तुम मुझे सुन पा रहे हो।
00:07:30ठीक है।
00:07:31ठीक है।
00:07:32तो तुम्हें कहाँ जाना पसंद है?
00:07:33क्या?
00:07:34तुम्हारा क्या मतलब है?
00:07:35किस तरह का?
00:07:36हम जाकर अगले बिजनेस के बारे में बात कर सकते हैं।
00:07:37मुझे नहीं लगता कि वहाँ कोई है।
00:07:38हमें किसी और चीज के बारे में बात करनी होगी।
00:07:39चलिए किसी और विषय पर बात करते हैं।
00:07:40हाँ।
00:07:41ठीक है।
00:07:42तो इससे तुम्हारा लिखने का मन करेगा।
00:07:43तुम्हें संगीत के बारे में बात करना पसंद है।
00:07:44तुम्हें संगीत पसंद है।
00:07:45दोस्त, तुम बहक रहे हो।
00:07:46हमें वीडियो बनाना होगा।
00:07:47मुझे दूसरी बात बताओ।
00:07:48ठीक है।
00:07:49मुझे लगता है कि जो मैं, जब तुम चाहते हो कि मैं करूँ, दूसरी बात छेड़ूँ, लेकिन कभी-कभी
00:07:53दूसरे बिजनेस के बारे में बात करूँ।
00:07:54ठीक है।
00:07:55तो यह अच्छा है।
00:07:56क्या तुम भी जा सकते हो?
00:07:57ठीक है।
00:07:58तो आखिर यह एक AI मॉडल ही है और आप इसे जितना भ्रमित करेंगे, यह उतना ही
00:08:05बहकने लगेगा, मुझे लगता है।
00:08:06तो इस मामले में यह बहुत भरोसेमंद नहीं है।
00:08:10चलिए एक आखिरी उदाहरण आज़माते हैं।
00:08:11तुम एक दोस्त हो जो सिर्फ इतालवी बोलता है।
00:08:18इसे आज़माते हैं।
00:08:19नमस्ते।
00:08:20हैलो।
00:08:21क्या चल रहा है?
00:08:22ज्यादा कुछ नहीं।
00:08:23मैं 'इटालियन' ढूँढ रहा हूँ।
00:08:24तो, मैं बस अलग-अलग रेस्टोरेंट्स में फोन कर रहा था यह पता लगाने के लिए कि किसका
00:08:31स्पघेटी सबसे अच्छा है।
00:08:32ओह रुको।
00:08:33ओह, तुम्हें लगा 'इटालियन' खाना है।
00:08:34ठीक है।
00:08:35ठीक है।
00:08:36हाँ।
00:08:37जैसे कि, क्या यह 'इटालियन अमेरिकन' है या क्या यह जैसे कि,
00:08:41इटली से है?
00:08:42तो तुम इटालियन हो?
00:08:43हाँ।
00:08:44और तुम्हें फिल्में पसंद हैं?
00:08:46हाँ।
00:08:47तुम्हें इटालियन फिल्में पसंद हैं?
00:08:48हाँ।
00:08:49हाँ।
00:08:50हाँ।
00:08:51ठीक है।
00:08:52तो तुम्हारी पसंदीदा, तुम्हारी पसंदीदा इटालियन फिल्म कौन सी है?
00:08:53ओह यार।
00:08:54ओह यार।
00:08:55मैं नब्बे के दशक में वापस जा रहा हूँ।
00:08:56तुम्हें जैसे कि, मतलब, मुझे द गॉडफादर पसंद है।
00:08:58मुझे लगता है कि वह जैसे, रुको नब्बे के दशक में, गॉडफादर 3।
00:09:02वह गॉडफादर फिल्मों में सबसे खराब है।
00:09:03ओह नहीं, नहीं, नहीं।
00:09:04यह ओरिजिनल है।
00:09:05जैसे, तुम्हें पता है, ओरिजिनल जो, ओरिजिनल
00:09:10सत्तर के दशक की है।
00:09:11हाँ।
00:09:12हाँ।
00:09:13हाँ।
00:09:14हाँ।
00:09:15लेकिन मेरा मतलब है, मुझे पसंद है जैसे, द गॉडफादर।
00:09:16मुझे ओल्ड स्कूल फिल्में पसंद हैं।
00:09:20फ़िल्में।
00:09:21मुझे द गॉडफादर पसंद है।
00:09:23मुझे ओल्ड स्कूल फिल्में पसंद हैं जैसे द गॉडफादर।
00:09:27गॉडफादर।
00:09:28मुझे द गॉडफादर पसंद है।
00:09:29मुझे द गॉडफादर पसंद है।
00:09:31मुझे द गॉडफादर पसंद है।
00:09:35मुझे द गॉडफादर पसंद है।
00:09:38मैं समझ रहा हूँ तुम क्या कह रहे हो।
00:09:40पूरी तरह से समझ आता है।
00:09:42तुम्हें पता है?
00:09:43मुझे लगता है कि तुम्हें मेंटल ब्रेकडाउन हो रहा है।
00:09:45तो मैं बस फोन रख रहा हूँ।
00:09:46नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं।
00:09:52तुम इनकार कर रहे हो।
00:09:53तुम साफ़ हो।
00:09:53मैं इनकार कर रहा हूँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,
00:09:57हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,
00:10:00हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,
00:10:03हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,
00:10:06हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,
00:10:26हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।
00:10:46हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।
00:11:06हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।
00:11:22हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।