क्या यह दुनिया का सबसे तेज़ AI मॉडल है?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00अरे वाह, ShowMe, आप जानते हैं कि फोन बनाने वाली चीनी कंपनी ने अभी एक AI मॉडल बनाया है जो
00:00:05शायद दुनिया में सबसे तेज़ है। इसका नाम ShowMe Mimo V2.5 Ultra Speed है और यह वाकई
00:00:13दिमाग हिला देने वाला है। आज के वीडियो में हम इस मॉडल को देखेंगे, समझेंगे कि यह कैसे काम करता है और मुझे वास्तव में
00:00:18इस मॉडल का शुरुआती एक्सेस मिल गया था, इसलिए हम कुछ दिलचस्प उदाहरणों के साथ इसका परीक्षण भी करेंगे
00:00:24यह देखने के लिए कि यह वास्तव में कितना तेज़ है। यह बहुत मज़ेदार होने वाला है, तो चलिए शुरू करते हैं।
00:00:30इस मॉडल की गहराई में जाने से पहले, आइए देखें कि हम वास्तव में किन बड़े अंतरों के बारे
00:00:39में बात कर रहे हैं। GPT 5.5 या Claude 4 Opus जैसे फ्रंटियर मॉडल पर, आप अक्सर
00:00:46भारी रीजनिंग लैग से जूझते हैं, जो लगभग 50 या 60 टोकन प्रति सेकंड पर काम करते हैं। अब यह बुरा नहीं है लेकिन यह
00:00:54थोड़ा धीमा है। लेकिन ShowMe का नया Mimo Ultra Speed मॉडल 1000 टोकन प्रति सेकंड से अधिक की गति दे रहा है
00:01:00और इससे भी ज्यादा हैरानी की बात यह है कि यह मॉडल आकार में भी बहुत बड़ा है। यह 1 ट्रिलियन पैरामीटर का
00:01:07मिक्सचर ऑफ एक्सपर्ट्स मॉडल है। तो आप सोच रहे होंगे, ठीक है, वे शायद इसके लिए किसी प्रकार के सुपर
00:01:13एडवांस्ड कस्टम हार्डवेयर सेटअप का उपयोग कर रहे होंगे। खैर, वास्तव में ऐसा नहीं है। ShowMe ने अपने
00:01:19सिस्टम पार्टनर Tile RT के साथ मिलकर काम किया और उन्होंने इसे केवल आठ कमोडिटी GPU वाले एक सिंगल
00:01:25स्टैंडर्ड सर्वर का उपयोग करके हासिल किया। लेकिन अगर यह जवाब नहीं है तो यह सवाल उठता है, कि आप कैसे एक ट्रिलियन
00:01:31पैरामीटर वाले मॉडल को स्टैंडर्ड हार्डवेयर पर माइक्रोसेकंड की गति से टेक्स्ट बाहर निकालने के लिए मजबूर करते हैं? खैर, उन्होंने
00:01:39कुछ ऐसा निकाला जिसे वे एक्सट्रीम मॉडल सिस्टम को-डिजाइन कहते हैं। उन्होंने लेटेंसी बाधा पर
00:01:44तीन अलग-अलग कोणों से एक साथ हमला किया। सबसे पहले, उन्होंने मेमोरी बैंडविड्थ को अनुकूलित किया। टेक्स्ट जनरेशन चरण के दौरान GPU मेमोरी
00:01:50के माध्यम से एक ट्रिलियन पैरामीटर ले जाना भारी ट्रैफिक जाम पैदा करता है। इसे ठीक करने के लिए,
00:01:57ShowMe ने MXFP4 क्वांटाइजेशन का उपयोग किया। लेकिन क्योंकि 4-बिट कंप्रेशन आम तौर पर एक AI को
00:02:04कम सटीक बना सकता है, इसलिए उन्होंने क्वांटाइजेशन अवेयर ट्रेनिंग या QAT का उपयोग किया और उन्होंने कोर राउटिंग लेयर्स को उच्च
00:02:12सटीकता पर रखा। इसने मॉडल की बुद्धिमत्ता को अनकंप्रेस्ड वर्जन के लगभग समान रखते हुए मेमोरी के दबाव को कम किया।
00:02:18दूसरा, उन्होंने आखिरकार शब्दों की भविष्यवाणी करने का तरीका बदल दिया। तो स्टैंडर्ड
00:02:25स्पेक्युलेटिव डिकोडिंग इस तरह काम करती है कि एक छोटा ड्राफ्ट मॉडल कुछ शब्दों का अनुमान आगे लगाता है और फिर विशाल मुख्य
00:02:32मॉडल गणित की जांच करता है। लेकिन ShowMe ने यहाँ कुछ अलग किया जिसे वे D-Flash कहते हैं। एक-एक
00:02:39टोकन का अनुमान लगाने के बजाय, यह पैरेलल फॉरवर्ड पास में एक साथ छिपे हुए टोकन के पूरे ब्लॉक की भविष्यवाणी करता है। और
00:02:46परीक्षण के माध्यम से, उन्होंने पाया कि जब आप इसका उपयोग कोडिंग कार्यों के लिए करते हैं, तो मुख्य मॉडल वास्तव में D-Flash द्वारा
00:02:52अनुमानित हर आठ टोकन में से औसतन 6.3 को बनाए रखता है। तो यह अनिवार्य रूप से मॉडल को छोटे कदम उठाने के बजाय
00:02:58एक बार में बड़े आठ टोकन की छलांग आगे लगाने देता है। और तीसरा, वे विशेष
00:03:04इंजन का उपयोग करते हैं जो वास्तव में कष्टप्रद हार्डवेयर बाधा को हल करता है। तो जब आप एक हजार टोकन प्रति सेकंड की गति से काम कर रहे होते हैं,
00:03:11स्टैंडर्ड GPU वास्तव में निर्देश तर्क के साथ तालमेल नहीं रख सकते। आम तौर पर, एक GPU एक गणित
00:03:17ऑपरेशन लॉन्च करता है, इसे पूरा करता है, मेमोरी साफ़ करता है और फिर अगले को लॉन्च करने के लिए इंतजार करता है। और भले ही ये
00:03:23विराम केवल माइक्रोसेकंड तक ही रहते हैं, वे पूरी तरह से आपकी गति को खत्म कर देते हैं। इसे ठीक करने के लिए, TileRT ने एक पर्सिस्टेंट
00:03:30इंजन कर्नेल बनाया जो बस GPU के अंदर बैठता है और कभी नहीं छोड़ता। उन्होंने वार्प स्पेशलाइजेशन नामक एक ट्रिक का उपयोग किया
00:03:37ताकि हार्डवेयर के विभिन्न हिस्सों को स्थायी भूमिकाएँ सौंपी जा सकें। जब एक सेक्शन डेटा ले जा रहा होता है,
00:03:42दूसरा गणित चला रहा होता है, और तीसरा एक ही समय पर कम्युनिकेशन को संभाल रहा होता है। तो पाइपलाइन
00:03:48शाब्दिक रूप से चलना बंद नहीं करती है। और यह बहुत दिलचस्प है क्योंकि मैंने अभी डिफ्यूजन
00:03:55Gemma पर एक वीडियो बनाया है, जो बहुत तेज़ है, लेकिन यह एक बहुत ही अलग तरीके से इसी समस्या से निपटता है। तो उस वीडियो को देखें
00:04:00यदि आप रुचि रखते हैं। और मेरे दोस्तों, इसी तरह ShowMe 1000 टोकन प्रति सेकंड की गति तक पहुँचता है,
00:04:07कथित तौर पर। लेकिन अब आइए वास्तव में इसका परीक्षण करें और देखें कि क्या यह वादा पूरा होता है। तो मेरे पहले परीक्षण के लिए,
00:04:14मैंने Lead Code के कठिन सवालों में से एक को लिया और इसे मॉडल द्वारा रन किया। और यह बहुत ही तेज़ था।
00:04:20यह कितना जंगली है? इसके अलावा, जैसा कि हम यहाँ देख सकते हैं, यह 3451 टोकन प्रति सेकंड पर चरम पर था, जो बिल्कुल पागलपन भरा है।
00:04:29अब, एक संभावना हो सकती है कि यह Lead Code प्रश्न मॉडल के ट्रेनिंग डेटा का हिस्सा था।
00:04:34तो जितना प्रभावशाली यह दिखता है, यह शायद उचित तुलना नहीं है। तो चलिए कुछ और परिष्कृत पर चलते हैं।
00:04:41अगला, मैंने इसे बिना किसी बाहरी लाइब्रेरी के एक सिंगल HTML फ़ाइल में एक साधारण UI पर्सनल फाइनेंस डैशबोर्ड बनाने के लिए कहा
00:04:48और कुछ भी ज्यादा फैंसी नहीं। और इस परीक्षण में, हम अब वास्तव में देख सकते हैं कि यह कितना अविश्वसनीय रूप से
00:04:54परफॉरमेंट है। यह रीजनिंग वाले हिस्से के लिए लगभग 700 टोकन प्रति सेकंड और आउटपुट ऑपरेशन के लिए लगभग 1000 टोकन
00:05:02प्रति सेकंड की औसत गति दे रहा था। और मॉडल को कार्य पूरा करने में केवल 65 सेकंड लगे।
00:05:09और मुझे लगता है कि परिणाम काफी अच्छा है। भले ही कुछ बटन काम नहीं कर रहे हैं और कुछ
00:05:14एक्शन टूटे हुए हैं, लेकिन कुल मिलाकर डिज़ाइन काफी अच्छा है। मेरा मतलब है, एक मिनट के काम के लिए बुरा नहीं है।
00:05:21तो मैंने मॉडल को और भी अधिक परिष्कृत कुछ बनाने की चुनौती देने का फैसला किया। मैंने इसे
00:05:26खान अकादमी शैली का गणित समझाने वाला वेब पेज बनाने के लिए कहा, जिसमें 10 लोकप्रिय गणित अवधारणाओं को दिखाया गया हो ताकि यह देखा जा सके कि
00:05:34हम वास्तव में यहाँ कितनी जटिल वेबसाइट बना सकते हैं। और यहीं से चीजें थोड़ी कठिन होने लगीं।
00:05:40मैंने यह परीक्षण दो बार आजमाया और दोनों बार लगभग दो या तीन मिनट के बाद, मॉडल ने बस जनरेट करना
00:05:45बंद कर दिया और पूरी तरह से फ्रीज हो गया। तो मैंने मान लिया कि इस कार्य के साथ, मैं मॉडल की कॉन्टेक्स्ट लिमिट तक पहुँच गया हूँ या
00:05:51शायद ShowMe ने किसी प्रकार का रेट लिमिटर लगा दिया है। तो फिर मैंने कार्य को थोड़ा सरल बनाने का फैसला किया और इसे
00:05:58केवल पांच गणितीय अवधारणाओं वाला वेब पेज डिज़ाइन करने के लिए कहा। और इस बार यह अंततः काम कर गया। इसने
00:06:0475 सेकंड में कार्य पूरा कर लिया। और आउटपुट वास्तव में काफी अच्छा है। और पहली तीन गणितीय
00:06:10अवधारणा विजेट वास्तव में कार्यात्मक हैं, लेकिन उसके बाद की हर चीज टूटी हुई, गैर-कार्यात्मक या खाली है।
00:06:17तो मुझे नहीं पता कि यहाँ वास्तव में क्या हुआ। शायद मॉडल ने रीजनिंग चरण के दौरान अपना कुछ कॉन्टेक्स्ट छोड़ दिया,
00:06:23लेकिन फिर भी, मुझे लगता है कि यह काफी अच्छा परिणाम है, विशेष रूप से यह ध्यान में रखते हुए कि
00:06:29हम रीजनिंग चरण के दौरान 500 टोकन प्रति सेकंड का औसत रख रहे थे। और अपने अंतिम परीक्षण के लिए, मैंने फैसला किया कि
00:06:34थोड़ा और मज़ेदार काम किया जाए। मैंने बस इस बहुत ही छोटे वाक्य को प्रॉम्प्ट किया कि Three JS का उपयोग करके एक सबवे सर्फर
00:06:41क्लोन बनाएं, और इसने वास्तव में केवल 50 सेकंड में एक पूरी तरह से कार्यात्मक सबवे सर्फर क्लोन बनाने में कामयाबी हासिल की।
00:06:49अब यह पागलपन है। मुझे यह कहना होगा कि हालांकि यह कार्यात्मक है, जैसा कि आप यहाँ देख सकते हैं, यह
00:06:55इसमें कोई बाधा या सिक्के या ऐसा कुछ भी शामिल नहीं है। तो यह थोड़ा उबाऊ है। तो मैंने फिर इसे
00:07:01इन छोटी समस्याओं को ठीक करने के लिए एक फॉलो-अप प्रॉम्प्ट देने का फैसला किया। और दो पास के बाद, इसने सफलतापूर्वक
00:07:07कुछ सिक्के और कुछ बाधाएं जोड़ने में कामयाबी हासिल की। और ईमानदारी से, जब मैं इसका परीक्षण कर रहा था, तो यह एक निर्दोष डेमो था।
00:07:14कार्यात्मकता वहाँ थी। सब कुछ काम कर रहा था। यह हर दौर के बाद मेरा हाई स्कोर भी सेव कर रहा था।
00:07:20तो इस विशेष डेमो ने मुझे बहुत सकारात्मक तरीके से चौंका दिया। मुझे यकीन है कि आजकल हम सभी
00:07:26अन्य मॉडलों के साथ भी सबवे सर्फर क्लोन बना सकते हैं। लेकिन तथ्य यह है कि मुझे एक काम करने वाला प्रोटोटाइप मिल गया,
00:07:32जो पूरी तरह से भयानक नहीं है और जो वास्तव में खेलने में मज़ेदार है और वह सब कुछ केवल 50 सेकंड में
00:07:39कुछ फॉलो-अप प्रॉम्प्ट्स के साथ, यह काफी प्रभावशाली है। तो जैसा कि हमने परीक्षणों में देखा, मॉडल
00:07:453000 टोकन प्रति सेकंड से अधिक की रिकॉर्ड गति तक पहुँचने में कामयाब रहा। तो यह वास्तव में अब तक का सबसे तेज़ मॉडल है
00:07:52जो मैंने कभी देखा है। और जहाँ तक आउटपुट की बात है, मेरा मतलब है, हाँ, निश्चित रूप से। उनमें से कुछ टूटे हुए हैं। उनमें से कुछ
00:07:58आधे-अधूरे हैं। निश्चित रूप से यह कोई Claude Opus या GPT 5.5 नहीं है। लेकिन मुझे यकीन है कि Xiaomi के मॉडल निश्चित रूप से समय के साथ बेहतर होते रहेंगे।
00:08:06तो यह देखना बहुत दिलचस्प होगा कि वे भविष्य में क्या लेकर आते हैं।
00:08:12तो यह लीजिए, दोस्तों। यह संक्षेप में Xiaomi Mimo V2.5 Ultra Speed है। तो आप इस मॉडल के बारे में क्या सोचते हैं?
00:08:18क्या आप प्रभावित हैं? निराश? उदासीन? हमें नीचे कमेंट सेक्शन में बताएं।
00:08:24और दोस्तों, अगर आपको इस प्रकार के तकनीकी विश्लेषण पसंद हैं, तो कृपया मुझे वीडियो के नीचे
00:08:29दिए गए लाइक बटन को दबाकर बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:08:33मैं BetterStack से Andrus हूँ, और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

Xiaomi का Mimo V2.5 Ultra Speed मॉडल 1 ट्रिलियन पैरामीटर के बावजूद 'एक्सट्रीम मॉडल सिस्टम को-डिजाइन' तकनीकों, जैसे कि D-Flash और पर्सिस्टेंट इंजन कर्नेल, के उपयोग से 1,000 से 3,000 टोकन प्रति सेकंड की अभूतपूर्व गति हासिल करता है।

Highlights

  • Xiaomi का Mimo V2.5 Ultra Speed AI मॉडल 1,000 टोकन प्रति सेकंड से अधिक की गति से टेक्स्ट उत्पन्न करने में सक्षम है।

  • यह 1 ट्रिलियन पैरामीटर वाला 'मिक्सचर ऑफ एक्सपर्ट्स' (MoE) मॉडल है, जिसे केवल आठ कमोडिटी GPU वाले एक स्टैंडर्ड सर्वर पर चलाया गया है।

  • मेमोरी बाधाओं को दूर करने के लिए MXFP4 क्वांटाइजेशन और क्वांटाइजेशन अवेयर ट्रेनिंग (QAT) का उपयोग किया गया है।

  • D-Flash तकनीक के माध्यम से मॉडल एक बार में आठ टोकन के ब्लॉक की भविष्यवाणी करता है, जो मानक स्पेक्युलेटिव डिकोडिंग से अधिक प्रभावी है।

  • TileRT द्वारा विकसित पर्सिस्टेंट इंजन कर्नेल और वार्प स्पेशलाइजेशन तकनीक GPU के भीतर निरंतर डेटा पाइपलाइन सुनिश्चित करते हैं।

  • परीक्षण के दौरान, यह मॉडल कोडिंग कार्यों में 3,451 टोकन प्रति सेकंड तक की चरम गति पर पहुँच गया।

Timeline

मॉडल की गति और हार्डवेयर क्षमताएं

  • Mimo Ultra Speed मॉडल 1,000 टोकन प्रति सेकंड से अधिक की गति प्रदान करता है।
  • यह 1 ट्रिलियन पैरामीटर का मिक्सचर ऑफ एक्सपर्ट्स मॉडल है।
  • इसे केवल आठ कमोडिटी GPU वाले एक स्टैंडर्ड सर्वर पर संचालित किया गया है।

यह मॉडल GPT 5.5 या Claude 4 Opus जैसे फ्रंटियर मॉडल की 50-60 टोकन प्रति सेकंड की गति को पीछे छोड़ देता है। उच्च पैरामीटर संख्या और सीमित हार्डवेयर के बावजूद, सिस्टम 'एक्सट्रीम मॉडल सिस्टम को-डिजाइन' के माध्यम से उच्च प्रदर्शन बनाए रखता है। यह दृष्टिकोण विशेष रूप से मेमोरी और प्रोसेसिंग बाधाओं को दूर करने के लिए बनाया गया है।

प्रदर्शन अनुकूलन के लिए तकनीकी रणनीतियां

  • MXFP4 क्वांटाइजेशन और QAT का उपयोग मेमोरी दबाव को कम करने के लिए किया गया है।
  • D-Flash तकनीक आठ टोकन के ब्लॉक का समानांतर अनुमान लगाकर स्पेक्युलेटिव डिकोडिंग को गति देती है।
  • पर्सिस्टेंट इंजन कर्नेल GPU को निरंतर कार्यशील रखकर माइक्रोसेकंड के विराम को खत्म करता है।

मेमोरी बैंडविड्थ समस्याओं को हल करने के लिए MXFP4 क्वांटाइजेशन का उपयोग किया गया है, जबकि QAT सटीकता को उच्च स्तर पर रखता है। D-Flash विधि मुख्य मॉडल को एक-एक टोकन के बजाय आठ टोकन के ब्लॉक पर आगे बढ़ने की अनुमति देती है। इसके अतिरिक्त, TileRT का इंजन कर्नेल वार्प स्पेशलाइजेशन का उपयोग करके डेटा प्रोसेसिंग और कम्युनिकेशन को एक साथ संभालता है, जिससे पाइपलाइन कभी नहीं रुकती।

व्यावहारिक परीक्षण और प्रदर्शन परिणाम

  • LeetCode कोडिंग परीक्षण में यह मॉडल 3,451 टोकन प्रति सेकंड तक पहुँच गया।
  • यह 50 सेकंड के भीतर कार्यात्मक सबवे सर्फर क्लोन बनाने में सक्षम रहा।
  • जटिल गणितीय वेब पेज निर्माण में मॉडल को कॉन्टेक्स्ट लिमिट या रेट लिमिटिंग का सामना करना पड़ा।

विभिन्न परीक्षणों में मॉडल की गति और सटीकता का मूल्यांकन किया गया। कोडिंग और सरल UI निर्माण में इसने अत्यधिक गति दिखाई, हालांकि अत्यधिक जटिल कार्यों में यह फ्रीज हो गया या परिणाम अधूरा रहा। सबवे सर्फर क्लोन का निर्माण इसके तर्क और कोडिंग क्षमताओं का एक प्रभावी प्रदर्शन था, जिसे फॉलो-अप प्रॉम्प्ट्स के माध्यम से पूरी तरह कार्यात्मक बनाया गया।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video