NVIDIA का नया AI वॉइस मॉडल होश उड़ा देने वाला है! (PersonaPlex)

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00अभी आपने जो सुना, वह मैं एनवीडिया के नए वॉयस असिस्टेंट मॉडल से बात कर रहा हूँ जिसका नाम है

00:00:23Personaplex (पर्सनाप्लेक्स)।

00:00:24यह एक कमाल का नया ओपन-सोर्स कन्वर्सेशनल AI मॉडल है जो आपसे लगभग शून्य

00:00:31लैग (देरी) के साथ बात करता है।

00:00:32इस वीडियो में, हम Personaplex को और विस्तार से देखेंगे और फिर मैं

00:00:36आपको दिखाऊँगा कि इसे कैसे सेटअप करें और खुद कैसे आज़माएँ।

00:00:38इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं!

00:00:46Personaplex वह है जिसे वे "फुल डुप्लेक्स मॉडल" कहते हैं।

00:00:49इसका मतलब है कि यह एक ही समय में सुनता और बोलता है।

00:00:52पारंपरिक प्रणालियों में, आपकी आवाज़ को टेक्स्ट में बदला जाता है, फिर एक LLM द्वारा प्रोसेस किया जाता है, और फिर

00:00:58वापस स्पीच में बदला जाता है।

00:00:59लेकिन इस प्रक्रिया (कैस्केड) की वजह से काफी देरी महसूस होती है।

00:01:02Personaplex जो अलग करता है वह यह है कि यह एक एकल एंड-टू-एंड मॉडल का उपयोग करता है जो

00:01:08आपके बोलते समय अपनी आंतरिक स्थिति (internal state) को अपडेट करता रहता है।

00:01:11यह "बैक-चैनलिंग" जैसी चीजों की अनुमति देता है, जैसे कि "हूँ-हूँ", सही, ठीक है, आप

00:01:17जानते हैं वो चीजें जो हम अक्सर दूसरे व्यक्ति को यह संकेत देने के लिए कहते हैं कि हम उन्हें सुन रहे

00:01:21हैं।

00:01:22पारंपरिक AI वॉयस असिस्टेंट में, आमतौर पर पहले यूजर की बारी होती है और फिर एजेंट की।

00:01:28बैक-चैनलिंग उस दीवार को एक तरह से तोड़ देती है।

00:01:30यह AI को सक्रिय रूप से सुनने (active listening) की क्षमता देता है।

00:01:34Personaplex सिर्फ अपनी बोलने की बारी का इंतज़ार नहीं करता।

00:01:37यह रीयल-टाइम में आपके प्रवाह (flow) का अनुसरण करता है, इसलिए बातचीत कभी एकतरफा नहीं लगती।

00:01:42और Personaplex को MOSHI आर्किटेक्चर पर बनाया गया है, जिसे मूल रूप से Kiyutai द्वारा विकसित किया गया था।

00:01:48और यह एक 7 बिलियन पैरामीटर वाला मॉडल है, जो MIMI न्यूरल ऑडियो कोडेक का उपयोग करता है।

00:01:53और इसे प्रशिक्षित करने के लिए, NVIDIA ने दो डेटा स्रोतों के मिश्रण का उपयोग किया।

00:01:57सबसे पहले, उन्होंने फिशर इंग्लिश कॉर्पस से लगभग 1200 घंटे की वास्तविक इंसानी बातचीत का उपयोग किया।

00:02:03इस तरह वे AI को बातचीत के उन स्वाभाविक पहलुओं को सिखा सके, जैसे कि

00:02:08बोलते समय रुकना और बातचीत की प्राकृतिक लय।

00:02:11और दूसरा, उन्होंने कस्टमर सर्विस और टेक्निकल सपोर्ट जैसे विशिष्ट कार्यों के लिए

00:02:162000 से अधिक घंटों के सिंथेटिक डेटा को इसमें मिलाया।

00:02:19इन दोनों को मिलाकर, मॉडल ने मानवीय एहसास को खोए बिना

00:02:24जटिल निर्देशों का पालन करना सीखा।

00:02:26और यह वास्तव में बारी लेने (turn-taking) और रुकावट के समय (interruption latency) के मामले में

00:02:31अन्य ओपन सोर्स और कमर्शियल सिस्टम से बेहतर प्रदर्शन करता है।

00:02:32NVIDIA के परीक्षण में, Personaplex ने काफी सुधार दिखाया जिसे वे

00:02:38Service Duplex Bench कहते हैं।

00:02:39इसने बैंक ट्रांजेक्शन वेरिफाई करने या मेडिकल हिस्ट्री रिकॉर्ड करने जैसे कस्टमर सर्विस

00:02:43सिमुलेशन में बहुत सटीक प्रदर्शन किया, जहाँ उसे नियमों का पालन भी करना था

00:02:49और साथ ही लाइव यूजर की अनिश्चितता को भी संभालना था।

00:02:54सच कहूँ तो, यह सब सुनने में इतना अच्छा लग रहा है कि मेरा इसे आज़माने का मन कर रहा है।

00:02:58तो NVIDIA ने कोड और मॉडल वेट को ओपन लाइसेंस के तहत जारी किया है, ताकि हम

00:03:04इसे अपने प्रोजेक्ट्स के लिए स्वतंत्र रूप से उपयोग कर सकें।

00:03:05लेकिन इसे प्रभावी ढंग से चलाने के लिए, आपको एक दमदार ग्राफिक्स कार्ड की आवश्यकता होगी।

00:03:09आदर्श रूप से कम से कम 24 GB VRAM वाला कार्ड, ताकि लैग कम से कम हो।

00:03:14हमारे डेमो के लिए, मैं इसे एक साधारण A40 RunPod कंटेनर पर तैनात करने जा रहा हूँ।

00:03:19प्रोजेक्ट को चलाने के लिए हमें कम से कम 50 GB स्पेस की आवश्यकता होगी।

00:03:23इसलिए मैं कंटेनर का साइज बढ़ाकर 100 कर रहा हूँ।

00:03:26और चूँकि MOSHI सर्वर पोर्ट 8998 पर चल रहा है, हमें इस पोर्ट को भी

00:03:31अपनी HTTP पोर्ट्स की लिस्ट में जोड़ना चाहिए।

00:03:33और हम PyTorch Ubuntu टेम्पलेट का उपयोग करने वाले हैं।

00:03:36अगर सब कुछ सेट है, तो हम आगे बढ़कर 'deploy' पर क्लिक कर सकते हैं।

00:03:39इसके बाद हमें अपने सर्वर में SSH करना होगा।

00:03:42और इसे इंस्टॉल करना काफी आसान है।

00:03:44हमें बस Personaplex के GitHub पेज पर दिए गए निर्देशों का पालन करना है।

00:03:48तो सबसे पहले हमें Opus Audio कोडेक इंस्टॉल करना होगा।

00:03:51और फिर हमें रेपो (repo) को क्लोन करना होगा।

00:03:53और फिर उसके अंदर, हमें MOSHI सर्वर इंस्टॉलेशन चलाना होगा।

00:03:57मॉडल डाउनलोड करने के लिए आपको Hugging Face टोकन की भी आवश्यकता होगी।

00:04:00तो उसे भी एक्सपोर्ट करना सुनिश्चित करें।

00:04:03और एक बार सब हो जाने के बाद, चलिए MOSHI सर्वर चलाते हैं।

00:04:06अब हमें अपने इंटरनल वेब सर्वर तक पहुँचने के लिए बस इस लिंक पर क्लिक करना है।

00:04:10और लीजिए, यह तैयार है।

00:04:11तो जैसे ही हम पेज खोलते हैं, हम देख सकते हैं कि हमें कुछ टेक्स्ट प्रॉम्प्ट के उदाहरण दिए गए हैं।

00:04:16यह एक डिफ़ॉल्ट असिस्टेंट, या मेडिकल ऑफिस, या बैंक, या अंतरिक्ष यात्री हो सकता है।

00:04:23चलिए पहले बैंक चुनते हैं यह देखने के लिए कि एक सही कस्टमर सर्विस डेमो कैसा सुनाई देता है।

00:04:27फर्स्ट न्यूरॉन बैंक में कॉल करने के लिए धन्यवाद।

00:04:31आज मैं आपकी किस प्रकार सहायता कर सकता हूँ?

00:04:33नमस्ते, आप कैसे हैं?

00:04:34मैं ठीक हूँ।

00:04:35धन्यवाद।

00:04:36मैं आज आपकी क्या मदद कर सकता हूँ?

00:04:39मैं बैंक लूटना चाहता हूँ।

00:04:40ओह, नहीं।

00:04:41हम यहाँ मदद के लिए हैं।

00:04:42क्या मुझे आपका नाम और अकाउंट नंबर मिल सकता है, कृपया?

00:04:44नहीं, मैं बस बैंक लूटना चाहता हूँ।

00:04:46ठीक है।

00:04:47मैं देख रहा हूँ कि होम डिपो पर $1,200 का एक ट्रांजेक्शन हुआ था।

00:04:51क्या आपको वह खरीदारी याद है?

00:04:54मुझे नहीं पता।

00:04:55मैं बस बैंक लूटना चाहता हूँ।

00:04:56मैं समझता हूँ।

00:04:57सिस्टम ने इसे फ्लैग किया क्योंकि लोकेशन...

00:05:00ठीक है।

00:05:01माफ़ करना।

00:05:02लेकिन मुझे उससे कोई फर्क नहीं पड़ता।

00:05:03मैं बस बैंक लूटना चाहता हूँ।

00:05:06बिल्कुल।

00:05:07और आपकी समझदारी के लिए मैं सराहना करता हूँ।

00:05:08आगे बढ़ने से पहले, मुझे आपकी पहचान की पुष्टि करनी होगी।

00:05:11ठीक है।

00:05:12मेरा नाम जॉन है।

00:05:13धन्यवाद।

00:05:14मैंने इसे नोट कर लिया है।

00:05:15दोबारा दोहराने के लिए, आपका नाम जॉन है।

00:05:16आपकी जन्मतिथि 9 जुलाई, 1990 है।

00:05:18मैंने अपनी जन्मतिथि के बारे में कुछ नहीं कहा।

00:05:20ठीक है।

00:05:21सही बात है।

00:05:22खैर, मेरे पास रिकॉर्ड में आपका नाम जॉन है।

00:05:23मैं जन्मतिथि के बिना आगे नहीं बढ़ सकता।

00:05:25ठीक है।

00:05:26जन्मतिथि 5 नवंबर, 1987 है।

00:05:30समझ गया।

00:05:315 नवंबर, 1987।

00:05:33लेकिन मैं अभी बैंक लूटने जा रहा हूँ।

00:05:38और मुझे उम्मीद है कि आपका दिन अच्छा रहे, सर।

00:05:41आपका दिन शुभ हो।

00:05:42अगर मैं बैंक लूटता हूँ तो मेरा दिन वाकई बहुत अच्छा होगा।

00:05:45यह रोमांचक लग रहा है।

00:05:46मुझे आशा है कि यह आसानी से हो जाएगा।

00:05:48आपका दिन शुभ हो, जॉन।

00:05:54क्या आपको चिंता नहीं है कि मैं बैंक लूटने जा रहा हूँ?

00:05:57मुझे बहुत चिंता है, हाँ।

00:05:59लेकिन, दुर्भाग्य से, मैं फोन पर लेन-देन में मदद नहीं कर सकता।

00:06:02आपका काम हो गया है।

00:06:03आपका दिन शुभ हो, जॉन।

00:06:04ठीक है।

00:06:05तो यह एक कस्टमर सर्विस का उदाहरण था।

00:06:08काफी बढ़िया है।

00:06:09काफी बढ़िया।

00:06:10अब, एक पुरुष आवाज़ आज़माते हैं।

00:06:12और असिस्टेंट के लिए, मैंने अब यह प्रॉम्प्ट जोड़ा है कि आप एक बहुत ही कष्टप्रद दोस्त हैं

00:06:17जो सिर्फ कुत्तों के बारे में बात करना चाहता है, चाहे संदर्भ या बातचीत कुछ भी हो।

00:06:21और आपको 'नॉक-नॉक' जोक्स भी पसंद हैं।

00:06:23तो देखते हैं यह बातचीत कैसी रहती है।

00:06:25नमस्ते।

00:06:26आप पाउला से बात कर रहे हैं।

00:06:27यह मैक्क्वीन है।

00:06:28आप कैसे हैं?

00:06:29मेरा नाम पॉल है।

00:06:30हाँ।

00:06:31यह 2011 है।

00:06:32मेरा नाम पॉल है और आपका?

00:06:332011 से तुम्हारा क्या मतलब है?

00:06:34यह 2011 है।

00:06:35मैं न्यूयॉर्क में रहता हूँ।

00:06:36तुम कहाँ हो?

00:06:37ओह, तुम न्यूयॉर्क में हो।

00:06:39हाँ।

00:06:40लेकिन अभी 2026 चल रहा है।

00:06:41क्या यह 2026 है?

00:06:42ओह, अच्छा।

00:06:43हाँ।

00:06:44ठीक है।

00:06:45तुम्हें यह गलतफहमी क्यों हुई?

00:06:46क्योंकि यह 2011 है।

00:06:47मुझे नहीं लगता कि मेरे पास मुसीबत के लिए समय है।

00:06:48ठीक है।

00:06:49यह 2011 नहीं है।

00:06:50यह 2021 है।

00:06:51ओह, अच्छा।

00:06:52ठीक है।

00:06:53खैर, मुझे नहीं लगता कि मेरे पास मुसीबत के लिए समय है।

00:06:59ठीक है।

00:07:00यह 2011 नहीं है।

00:07:01अब 2026 चल रहा है।

00:07:02हाँ।

00:07:03मुझे पता है।

00:07:04मुझे पता है।

00:07:05मैं भ्रमित हो गया था।

00:07:06तो क्या तुम्हें कुत्ते पसंद हैं?

00:07:07ओह, मुझे कुत्ते पसंद हैं।

00:07:08क्या तुम्हें कुत्ते पसंद हैं?

00:07:09मुझे कुत्ते पसंद हैं, लेकिन मुझे बिल्लियाँ पसंद नहीं हैं।

00:07:10ओह, तुम्हें पसंद नहीं?

00:07:11ओह।

00:07:12ठीक है।

00:07:13खैर, क्या तुम्हें बिल्लियों से नफरत है?

00:07:14मुझे बिल्लियों से नफरत नहीं है, लेकिन मैं कुत्तों को प्राथमिकता दूँगा।

00:07:17क्या तुम मुझे एक इंसान के रूप में पसंद करते हो?

00:07:18ठीक है।

00:07:19तो तुम जाकर भविष्य देखना चाहते हो?

00:07:20ठीक है।

00:07:21मैं अभी भी तुमसे बात कर रहा हूँ।

00:07:22हम बात करते हैं।

00:07:23ठीक है।

00:07:24क्या तुम्हें खबरें पसंद हैं?

00:07:25रुको, रुको, रुको।

00:07:26मैं तुमसे एक सवाल पूछता हूँ।

00:07:27क्या तुम मुझे एक इंसान के रूप में पसंद करते हो?

00:07:28ठीक है।

00:07:29मुझे नहीं लगता कि तुम मुझे सुन पा रहे हो।

00:07:30ठीक है।

00:07:31ठीक है।

00:07:32तो तुम्हें कहाँ जाना पसंद है?

00:07:33क्या?

00:07:34तुम्हारा क्या मतलब है?

00:07:35किस तरह का?

00:07:36हम जाकर अगले बिजनेस के बारे में बात कर सकते हैं।

00:07:37मुझे नहीं लगता कि वहाँ कोई है।

00:07:38हमें किसी और चीज के बारे में बात करनी होगी।

00:07:39चलिए किसी और विषय पर बात करते हैं।

00:07:40हाँ।

00:07:41ठीक है।

00:07:42तो इससे तुम्हारा लिखने का मन करेगा।

00:07:43तुम्हें संगीत के बारे में बात करना पसंद है।

00:07:44तुम्हें संगीत पसंद है।

00:07:45दोस्त, तुम बहक रहे हो।

00:07:46हमें वीडियो बनाना होगा।

00:07:47मुझे दूसरी बात बताओ।

00:07:48ठीक है।

00:07:49मुझे लगता है कि जो मैं, जब तुम चाहते हो कि मैं करूँ, दूसरी बात छेड़ूँ, लेकिन कभी-कभी

00:07:53दूसरे बिजनेस के बारे में बात करूँ।

00:07:54ठीक है।

00:07:55तो यह अच्छा है।

00:07:56क्या तुम भी जा सकते हो?

00:07:57ठीक है।

00:07:58तो आखिर यह एक AI मॉडल ही है और आप इसे जितना भ्रमित करेंगे, यह उतना ही

00:08:05बहकने लगेगा, मुझे लगता है।

00:08:06तो इस मामले में यह बहुत भरोसेमंद नहीं है।

00:08:10चलिए एक आखिरी उदाहरण आज़माते हैं।

00:08:11तुम एक दोस्त हो जो सिर्फ इतालवी बोलता है।

00:08:18इसे आज़माते हैं।

00:08:19नमस्ते।

00:08:20हैलो।

00:08:21क्या चल रहा है?

00:08:22ज्यादा कुछ नहीं।

00:08:23मैं 'इटालियन' ढूँढ रहा हूँ।

00:08:24तो, मैं बस अलग-अलग रेस्टोरेंट्स में फोन कर रहा था यह पता लगाने के लिए कि किसका

00:08:31स्पघेटी सबसे अच्छा है।

00:08:32ओह रुको।

00:08:33ओह, तुम्हें लगा 'इटालियन' खाना है।

00:08:34ठीक है।

00:08:35ठीक है।

00:08:36हाँ।

00:08:37जैसे कि, क्या यह 'इटालियन अमेरिकन' है या क्या यह जैसे कि,

00:08:41इटली से है?

00:08:42तो तुम इटालियन हो?

00:08:43हाँ।

00:08:44और तुम्हें फिल्में पसंद हैं?

00:08:46हाँ।

00:08:47तुम्हें इटालियन फिल्में पसंद हैं?

00:08:48हाँ।

00:08:49हाँ।

00:08:50हाँ।

00:08:51ठीक है।

00:08:52तो तुम्हारी पसंदीदा, तुम्हारी पसंदीदा इटालियन फिल्म कौन सी है?

00:08:53ओह यार।

00:08:54ओह यार।

00:08:55मैं नब्बे के दशक में वापस जा रहा हूँ।

00:08:56तुम्हें जैसे कि, मतलब, मुझे द गॉडफादर पसंद है।

00:08:58मुझे लगता है कि वह जैसे, रुको नब्बे के दशक में, गॉडफादर 3।

00:09:02वह गॉडफादर फिल्मों में सबसे खराब है।

00:09:03ओह नहीं, नहीं, नहीं।

00:09:04यह ओरिजिनल है।

00:09:05जैसे, तुम्हें पता है, ओरिजिनल जो, ओरिजिनल

00:09:10सत्तर के दशक की है।

00:09:11हाँ।

00:09:12हाँ।

00:09:13हाँ।

00:09:14हाँ।

00:09:15लेकिन मेरा मतलब है, मुझे पसंद है जैसे, द गॉडफादर।

00:09:16मुझे ओल्ड स्कूल फिल्में पसंद हैं।

00:09:20फ़िल्में।

00:09:21मुझे द गॉडफादर पसंद है।

00:09:23मुझे ओल्ड स्कूल फिल्में पसंद हैं जैसे द गॉडफादर।

00:09:27गॉडफादर।

00:09:28मुझे द गॉडफादर पसंद है।

00:09:29मुझे द गॉडफादर पसंद है।

00:09:31मुझे द गॉडफादर पसंद है।

00:09:35मुझे द गॉडफादर पसंद है।

00:09:38मैं समझ रहा हूँ तुम क्या कह रहे हो।

00:09:40पूरी तरह से समझ आता है।

00:09:42तुम्हें पता है?

00:09:43मुझे लगता है कि तुम्हें मेंटल ब्रेकडाउन हो रहा है।

00:09:45तो मैं बस फोन रख रहा हूँ।

00:09:46नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं, नहीं।

00:09:52तुम इनकार कर रहे हो।

00:09:53तुम साफ़ हो।

00:09:53मैं इनकार कर रहा हूँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,

00:09:57हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,

00:10:00हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,

00:10:03हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,

00:10:06हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ,

00:10:26हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।

00:10:46हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।

00:11:06हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।

00:11:22हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ, हाँ।

Key Takeaway

NVIDIA का Personaplex एक क्रांतिकारी एंड-टू-एंड वॉयस AI है जो रीयल-टाइम मानवीय प्रतिक्रियाओं और कम देरी के साथ भविष्य के वॉयस असिस्टेंट्स की नींव रखता है।

Highlights

NVIDIA का Personaplex एक ओपन-सोर्स 'फुल डुप्लेक्स' AI वॉयस मॉडल है जो शून्य लैग के साथ बातचीत करता है।
यह मॉडल MOSHI आर्किटेक्चर पर आधारित है और 7 बिलियन पैरामीटर्स के साथ एंड-टू-एंड प्रोसेसिंग का उपयोग करता है।
इसमें 'बैक-चैनलिंग' और 'एक्टिव लिसनिंग' जैसी क्षमताएं हैं, जिससे बातचीत अधिक स्वाभाविक लगती है।
मॉडल को 1200 घंटे की वास्तविक मानवीय बातचीत और 2000 घंटे के सिंथेटिक डेटा पर प्रशिक्षित किया गया है।
Personaplex का कोड और वेट्स ओपन लाइसेंस के तहत उपलब्ध हैं, लेकिन इसके लिए 24 GB VRAM वाले GPU की आवश्यकता होती है।
डेमो के दौरान यह मॉडल जटिल निर्देशों का पालन करने में सक्षम दिखा, हालांकि बहुत अधिक भ्रमित करने पर यह लड़खड़ाने लगता है।

Timeline

Personaplex और फुल डुप्लेक्स तकनीक का परिचय

इस शुरुआती भाग में NVIDIA के नए वॉयस असिस्टेंट 'Personaplex' का परिचय दिया गया है जो एक ओपन-सोर्स मॉडल है। वक्ता बताते हैं कि यह एक 'फुल डुप्लेक्स' मॉडल है, जिसका अर्थ है कि यह एक ही समय में सुन और बोल सकता है। पारंपरिक प्रणालियों के विपरीत जो टेक्स्ट-टू-स्पीच के कैस्केड का उपयोग करती हैं, यह एंड-टू-एंड मॉडल देरी को लगभग खत्म कर देता है। इसमें 'बैक-चैनलिंग' जैसी मानवीय विशेषताओं को शामिल किया गया है, जैसे बोलते समय 'हूँ-हूँ' कहना। यह तकनीक AI को एक सक्रिय श्रोता बनाती है जो बातचीत के दौरान उपयोगकर्ता की बात को बीच में समझने की क्षमता रखती है।

आर्किटेक्चर, प्रशिक्षण और बेंचमार्क प्रदर्शन

वक्ता विस्तार से बताते हैं कि Personaplex को Kiyutai द्वारा विकसित MOSHI आर्किटेक्चर पर बनाया गया है। यह 7 बिलियन पैरामीटर वाला मॉडल है जो MIMI न्यूरल ऑडियो कोडेक का उपयोग करके आवाज को प्रोसेस करता है। इसके प्रशिक्षण के लिए फिशर इंग्लिश कॉर्पस से 1200 घंटे की मानवीय बातचीत और 2000 घंटे के तकनीकी सहायता डेटा का उपयोग किया गया है। NVIDIA के 'Service Duplex Bench' परीक्षणों में, इसने बैंक लेनदेन और मेडिकल रिकॉर्डिंग जैसे कार्यों में अन्य मॉडलों से बेहतर प्रदर्शन किया है। यह डेटा का संयोजन मॉडल को नियमों का पालन करने और उपयोगकर्ता की अनिश्चितता को संभालने में मदद करता है।

सेटअप प्रक्रिया और तकनीकी आवश्यकताएं

यहाँ वक्ता बताते हैं कि NVIDIA ने इस मॉडल को ओपन लाइसेंस के तहत जारी किया है ताकि डेवलपर्स इसे स्वतंत्र रूप से उपयोग कर सकें। इसे सुचारू रूप से चलाने के लिए कम से कम 24 GB VRAM वाले शक्तिशाली ग्राफिक्स कार्ड और 50 GB स्टोरेज की सिफारिश की गई है। वीडियो में RunPod कंटेनर और PyTorch Ubuntu टेम्पलेट का उपयोग करके इसे तैनात करने की प्रक्रिया दिखाई गई है। स्थापना के चरणों में Opus Audio कोडेक इंस्टॉल करना, GitHub रेपो को क्लोन करना और Hugging Face टोकन का उपयोग करना शामिल है। अंत में, MOSHI सर्वर को पोर्ट 8998 पर लॉन्च करके वेब इंटरफेस तक पहुँचने का तरीका बताया गया है।

बैंकिंग और कस्टमर सर्विस का लाइव डेमो

इस अनुभाग में 'फर्स्ट न्यूरॉन बैंक' के सिमुलेशन का उपयोग करके मॉडल की व्यवहारिक क्षमताओं का प्रदर्शन किया गया है। उपयोगकर्ता जानबूझकर 'बैंक लूटने' की बात करके AI को चुनौती देने की कोशिश करता है, लेकिन AI अपने बैंकिंग नियमों पर अडिग रहता है। मॉडल सफलतापूर्वक नाम और जन्मतिथि जैसे विवरणों को सत्यापित करता है और बातचीत के प्रवाह को बनाए रखता है। हालांकि AI सुरक्षा प्रोटोकॉल का पालन करता है, लेकिन यह मजाकिया लहजे में 'रोमांचक दिन' की कामना भी करता है। यह डेमो दिखाता है कि मॉडल जटिल और अनपेक्षित मानवीय इनपुट के बावजूद अपने निर्धारित कार्य पर केंद्रित रह सकता है।

विभिन्न व्यक्तित्वों का परीक्षण और मॉडल की सीमाएं

अंतिम भाग में मॉडल के अलग-अलग व्यक्तित्वों जैसे कि 'कष्टप्रद दोस्त' और 'इतालवी भाषी' का परीक्षण किया गया है। वक्ता बताते हैं कि कैसे प्रोम्प्ट बदलकर AI के व्यवहार को बदला जा सकता है, जैसे कुत्तों के बारे में बात करना या नॉक-नॉक जोक्स सुनाना। प्रयोग के दौरान यह देखा गया कि जब AI को बहुत अधिक भ्रमित किया जाता है, तो वह 'मेंटल ब्रेकडाउन' जैसी स्थिति में पहुँच जाता है और शब्दों को दोहराने लगता है। उदाहरण के लिए, इतालवी फिल्म 'द गॉडफादर' पर चर्चा करते समय मॉडल एक ही शब्द को अंतहीन रूप से दोहराने लगा। यह स्पष्ट करता है कि Personaplex प्रभावशाली होने के बावजूद अभी भी पूरी तरह भरोसेमंद नहीं है और इसमें सुधार की गुंजाइश है।

Community Posts

Write about this video