00:00:00Minimax ने अभी-अभी M2.5 लॉन्च किया है, जो एक ऐसा कोडिंग मॉडल है जो Claude Opus 4.6 को कड़ी टक्कर देता है, लेकिन इसकी कीमत उससे सिर्फ दसवां हिस्सा है।
00:00:07यह कुछ ही दिन पहले आया है, इसके वेट्स (weights) ओपन हैं, इसमें 230 बिलियन पैरामीटर्स हैं, और इसे खास तौर पर एजेंट वर्कफ़्लो के लिए बनाया गया है।
00:00:14अगर आप AI एजेंट्स, को-पायलट्स, या ऑटोमेशन टूल्स बना रहे हैं, तो यह रातों-रात आपकी लागत बदल देगा।
00:00:19और कमाल की बात सिर्फ इसके बेंचमार्क्स नहीं, बल्कि इसकी कीमत भी है।
00:00:23हमारे वीडियो लगातार आते रहते हैं, तो सब्सक्राइब ज़रूर करें।
00:00:31Minimax M2.5 एक 'मिक्सचर ऑफ एक्सपर्ट्स' मॉडल है जिसमें कुल 230 बिलियन पैरामीटर्स हैं, लेकिन चलते समय इसके केवल 10 बिलियन पैरामीटर्स ही एक्टिव होते हैं।
00:00:39तो आपको एक विशाल मॉडल का फायदा मिलता है, बिना हर बार पूरी कीमत चुकाए।
00:00:43इसे रियल-वर्ल्ड डेवलपमेंट वर्कफ़्लो के लिए बनाया गया है, जैसे कि Python, Java, Rust, मल्टी-फाइल रिफैक्टर, टूल कॉलिंग लूप्स, यहाँ तक कि Word और Excel ऑटोमेशन के लिए।
00:00:53इसके दो वर्जन हैं, एक स्टैंडर्ड जो 50 टोकन प्रति सेकंड देता है, और दूसरा लाइटनिंग जो 100 टोकन प्रति सेकंड देता है।
00:01:01यह बहुभाषी है और इसके वेट्स Hugging Face पर पूरी तरह से ओपन हैं।
00:01:05इसका मतलब है कि आप इसे फाइन-ट्यून कर सकते हैं, अपने सर्वर पर चला सकते हैं, और किसी एक प्लेटफॉर्म के भरोसे रहने से बच सकते हैं, और यहीं से एजेंट्स के लिए चीज़ें दिलचस्प हो जाती हैं।
00:01:12मैंने एक फुल-स्टैक कानबान (Kanban) बोर्ड बनाने के लिए Opus और Minimax दोनों पर एक ही प्रॉम्प्ट का इस्तेमाल किया।
00:01:18यह कोई बहुत जटिल काम नहीं था, बस इतना था कि वे कुछ बनाकर दिखाएं ताकि उनकी तुलना की जा सके।
00:01:23मैंने जो सटीक प्रॉम्प्ट इस्तेमाल किया, वह डिस्क्रिप्शन में दे दिया है, लेकिन पहले हम यहाँ Opus वर्जन को देखेंगे, जिसे चलने में लगभग 4 मिनट लगे।
00:01:31जैसा कि उम्मीद थी, मुझे दोबारा प्रॉम्प्ट नहीं देना पड़ा, यह फाइनल आउटपुट था।
00:01:37यहाँ सब कुछ बहुत स्मूथ है, यह बहुत अच्छा काम करता है, और एक शुरुआती वर्जन के हिसाब से UI भी काफी अच्छा दिख रहा है।
00:01:44ड्रैग एंड ड्रॉप सही से काम कर रहा है, टास्क एडिटिंग भी वैसी ही है जैसी होनी चाहिए। मुझे हर कार्ड पर सही फोल्डर वाला यह छोटा लेबल बहुत पसंद आया, और ड्रैग करते ही यह बदल जाता है। यह एक अच्छा बोनस है।
00:01:55कुल मिलाकर, Opus ने यहाँ बेहतरीन काम किया, जिसकी मुझे पहले से ही उम्मीद थी।
00:02:00अब, Minimax की बात करते हैं। इसे पूरा होने में लगभग 8 मिनट लगे, शायद इसलिए क्योंकि मैंने इसे उनकी साइट पर चलाने के बजाय Cursor में इम्पोर्ट किया था, लेकिन मैं इसे Cursor में ही चाहता था।
00:02:10भले ही इसमें ज़्यादा समय लगा, लेकिन इसकी कीमत दस गुना कम थी, तो मुझे इससे कोई शिकायत नहीं है।
00:02:14कुल मिलाकर, सिर्फ एक प्रॉम्प्ट पर इसने बहुत अच्छा काम किया। Opus के मुकाबले UI थोड़ा कमज़ोर है, लेकिन फंक्शनलिटी हमें वही मिली है।
00:02:22मैं टास्क बना सकता हूँ, उन्हें सही कॉलम में ड्रैग और ड्रॉप कर सकता हूँ, तो वह सब बढ़िया काम करता है।
00:02:27सिर्फ एक चीज़ जो इसने नहीं की, वह थी हर कार्ड पर वह छोटा लेबल जोड़ना जो Opus ने किया था।
00:02:33एक और कमी यह थी कि यह बॉक्स के डिस्क्रिप्शन को एडिट करने की सुविधा सही से नहीं दे पाया।
00:02:38अगर मैं डिस्क्रिप्शन एडिट करता हूँ, तो आप देख सकते हैं कि यहाँ कुछ भी नहीं बदलता।
00:02:42तो इसे सही से काम करवाने के लिए मुझे शायद इसे दूसरी बार रन करना पड़ता।
00:02:48लेकिन यह फिर भी ठीक है, क्योंकि कीमत फिर से वही—सिर्फ दसवां हिस्सा।
00:02:51अब बात करते हैं उस चीज़ की जो डेवलपर्स के लिए मायने रखती है। M2.5 टास्क डिकम्पोजिशन (काम को टुकड़ों में बाँटने) के लिए रीइन्फोर्समेंट लर्निंग का इस्तेमाल करता है।
00:02:58इसलिए यह समस्याओं को बेहतर तरीके से तोड़ता है, जिससे 20% कम टूल कॉल्स और 5% कम टोकन की बर्बादी होती है।
00:03:06अगर आपने पहले एजेंट्स बनाए हैं, तो आप जानते हैं कि टूल कॉल्स ही खर्च बढ़ाते हैं और गड़बड़ी भी पैदा कर सकते हैं।
00:03:13यह मल्टी-फाइल एडिट्स, रन, डिबग, फिक्स लूप्स जैसी चीज़ों को भी संभालता है और टूल्स के बीच स्विच करते समय बिखरता नहीं है।
00:03:21सर्च बेंचमार्क्स पर, यह उनके पिछले M2.1 मॉडल की तुलना में सर्च राउंड्स को 20% तक कम कर देता है।
00:03:27यह कैशिंग (caching) को भी सपोर्ट करता है, जिसका मतलब है कि बार-बार की जाने वाली क्वेरीज़ की लागत समय के साथ कम हो सकती है।
00:03:32आप इसे सीधे Ollama, लोकल क्लस्टर्स, GitHub ऑटोमेशन, या अपनी CI पाइपलाइनों में जोड़ सकते हैं।
00:03:37अब बेंचमार्क्स की बात करें, तो मैं यहाँ इसकी तुलना Opus से कर रहा हूँ।
00:03:40SWE-bench Verified पर, M2.5 ने 80% से ज़्यादा स्कोर किया।
00:03:45Claude Opus 4.6 इससे थोड़ा ही आगे है, उसका स्कोर भी 80% के आसपास ही है। यह अंतर वाकई बहुत कम है।
00:03:52Multi-SWE-bench पर, यह 51% से ज़्यादा स्कोर करता है और अन्य ओपन मॉडल्स को पीछे छोड़ देता है।
00:03:58और DROID पर, यह वास्तव में Opus को .2% से हरा देता है, तो यह इस पर निर्भर करता है कि आप कहाँ देख रहे हैं।
00:04:05अब स्पीड की बात। यह पिछले मॉडल से 37% तेज़ है। हालांकि, यहाँ इसे फिर भी 8 मिनट लगे।
00:04:11Opus 4.6 की औसत स्पीड थोड़ी ज़्यादा है, लेकिन सही फॉर्मेट में चलाने पर यह लगभग बराबर हो जाती है।
00:04:18तो आपके लिए इसका क्या मतलब है? इसके कई मायने हो सकते हैं।
00:04:20इसका मतलब हो सकता है कम रिट्राय (retries), साफ़-सुथरे CI रन, कम टोकन खर्च और ज़्यादा पुल रिक्वेस्ट (PR) का मर्ज होना।
00:04:26और एजेंटिक टास्क परफॉर्मेंस के मामले में, यह GPT-5 या Gemini 3 Pro जैसे लेवल्स को टक्कर दे रहा है,
00:04:32लेकिन ओपन वेट्स के साथ। तो अब उस हिस्से की बात करते हैं जो सब कुछ बदल देता है,
00:04:37और वह है इसकी कीमत, भले ही इसने थोड़ा ज़्यादा समय लिया।
00:04:40M2.5 स्टैंडर्ड की लागत $0.15 प्रति मिलियन इनपुट टोकन और $1.20 प्रति मिलियन आउटपुट टोकन है।
00:04:47लाइटनिंग वर्जन की कीमत इससे दोगुनी है। यानी $0.30 प्रति मिलियन इनपुट और $2.40 प्रति मिलियन आउटपुट।
00:04:53लाइटनिंग को 100 टोकन प्रति सेकंड पर एक घंटे चलाने का खर्च लगभग एक डॉलर है।
00:04:56अगर आप स्टैंडर्ड वर्जन चलाते हैं, जैसा कि मैंने यहाँ किया, तो यह लगभग 30 सेंट प्रति घंटा बैठता है।
00:05:00अब इसकी तुलना Claude Opus 4.6 से करें। बहुत बड़ा अंतर है।
00:05:04$5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन।
00:05:09प्रति SWE टास्क, इसकी लागत Opus की तुलना में लगभग 10% है, जिसका श्रेय इसकी कार्यक्षमता और कम टूल कॉल्स को जाता है।
00:05:15एक फ्री API टियर भी है, जो अभी लाइव है। हालांकि मैंने इसके लिए भुगतान किया था,
00:05:20लेकिन उनके पास वह विकल्प भी है। और यहीं से आर्थिक समीकरण असल में बदलने लगते हैं।
00:05:24तो क्या आपको Opus 4.6 से स्विच कर लेना चाहिए? परफॉर्मेंस के मामले में, वे लगभग एक जैसे हैं।
00:05:30इसमें थोड़ा ज़्यादा समय लगा, है न? मैं स्टैंडर्ड का इस्तेमाल कर रहा था, लाइटनिंग का नहीं, लेकिन वे काफी हद तक समान हैं।
00:05:34टास्क पूरा करने का समय मूल रूप से एक ही है। रीजनिंग की गहराई भी तुलनीय थी।
00:05:39हालांकि, कीमत के मामले में यह बहुत ज़्यादा सस्ता है। तो अब आप खुद ही सोचिए।
00:05:43जैसा कि मैंने पहले कहा, यह 20% कम टूल कॉल्स का इस्तेमाल करता है और टोकन बर्बाद नहीं करता।
00:05:47फ्लेक्सिबिलिटी की बात करें तो इसके वेट्स ओपन हैं। आप इसे लोकली डिप्लॉय कर सकते हैं और इसे फाइन-ट्यून भी कर सकते हैं।
00:05:52हालांकि, बहुत हाई-एंड प्रीमियम इंटेलिजेंस के मामले में Opus अब भी थोड़ा आगे है।
00:05:57तो, वह प्रीमियम मॉडल है जिसके साथ हम अभी भी काम कर रहे हैं।
00:06:00अब यह क्यों मायने रखता है, क्योंकि अब आप बिना भारी खर्च की चिंता के बड़े पैमाने पर एजेंट्स चला सकते हैं।
00:06:05क्योंकि M2.5 का एडवांस्ड एजेंट बेंचमार्क्स पर 59% विन रेट है, आप ऑटोनामस
00:06:12रेपो बॉट्स बना सकते हैं, लगातार चलने वाले कोडिंग एजेंट्स चला सकते हैं, एंटरप्राइज वर्कफ़्लो को ऑटोमेट कर सकते हैं। यह एकदम परफेक्ट नहीं है,
00:06:17लेकिन हमने यहाँ जो देखा, उसके हिसाब से यह वाकई बहुत अच्छा है। और इसकी कीमत आपको खुलकर प्रयोग करने की अनुमति देगी।
00:06:22और Minimax बहुत तेज़ी से नए अपडेट्स ला रहा है, यह महीनों के काम को हफ्तों में कर रहा है।
00:06:27Ollama और GitHub इंटीग्रेशन पहले से ही बढ़ रहे हैं।
00:06:32Minimax M2.5, ओपन वेट्स के साथ बजट कीमत में Opus लेवल की कोडिंग परफॉर्मेंस देता है। यह
00:06:38कॉम्बिनेशन मिलना मुश्किल है, लेकिन 2026 में कौन जानता है कि हम और क्या देखेंगे। आप इसे Minimax पर मुफ्त में आज़मा सकते हैं या इसे Ollama पर चला सकते हैं या मेरी तरह API ले सकते हैं।
00:06:43क्या यह डेवलपर एजेंट्स के लिए नया डिफॉल्ट मॉडल बनेगा? मुझे लगता है कि यह तो वक्त ही बताएगा।
00:06:48मिलते हैं अगले वीडियो में।