क्या यह वाकई Opus के जितना बेहतरीन है?

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Minimax ने अभी-अभी M2.5 लॉन्च किया है, जो एक ऐसा कोडिंग मॉडल है जो Claude Opus 4.6 को कड़ी टक्कर देता है, लेकिन इसकी कीमत उससे सिर्फ दसवां हिस्सा है।
00:00:07यह कुछ ही दिन पहले आया है, इसके वेट्स (weights) ओपन हैं, इसमें 230 बिलियन पैरामीटर्स हैं, और इसे खास तौर पर एजेंट वर्कफ़्लो के लिए बनाया गया है।
00:00:14अगर आप AI एजेंट्स, को-पायलट्स, या ऑटोमेशन टूल्स बना रहे हैं, तो यह रातों-रात आपकी लागत बदल देगा।
00:00:19और कमाल की बात सिर्फ इसके बेंचमार्क्स नहीं, बल्कि इसकी कीमत भी है।
00:00:23हमारे वीडियो लगातार आते रहते हैं, तो सब्सक्राइब ज़रूर करें।
00:00:31Minimax M2.5 एक 'मिक्सचर ऑफ एक्सपर्ट्स' मॉडल है जिसमें कुल 230 बिलियन पैरामीटर्स हैं, लेकिन चलते समय इसके केवल 10 बिलियन पैरामीटर्स ही एक्टिव होते हैं।
00:00:39तो आपको एक विशाल मॉडल का फायदा मिलता है, बिना हर बार पूरी कीमत चुकाए।
00:00:43इसे रियल-वर्ल्ड डेवलपमेंट वर्कफ़्लो के लिए बनाया गया है, जैसे कि Python, Java, Rust, मल्टी-फाइल रिफैक्टर, टूल कॉलिंग लूप्स, यहाँ तक कि Word और Excel ऑटोमेशन के लिए।
00:00:53इसके दो वर्जन हैं, एक स्टैंडर्ड जो 50 टोकन प्रति सेकंड देता है, और दूसरा लाइटनिंग जो 100 टोकन प्रति सेकंड देता है।
00:01:01यह बहुभाषी है और इसके वेट्स Hugging Face पर पूरी तरह से ओपन हैं।
00:01:05इसका मतलब है कि आप इसे फाइन-ट्यून कर सकते हैं, अपने सर्वर पर चला सकते हैं, और किसी एक प्लेटफॉर्म के भरोसे रहने से बच सकते हैं, और यहीं से एजेंट्स के लिए चीज़ें दिलचस्प हो जाती हैं।
00:01:12मैंने एक फुल-स्टैक कानबान (Kanban) बोर्ड बनाने के लिए Opus और Minimax दोनों पर एक ही प्रॉम्प्ट का इस्तेमाल किया।
00:01:18यह कोई बहुत जटिल काम नहीं था, बस इतना था कि वे कुछ बनाकर दिखाएं ताकि उनकी तुलना की जा सके।
00:01:23मैंने जो सटीक प्रॉम्प्ट इस्तेमाल किया, वह डिस्क्रिप्शन में दे दिया है, लेकिन पहले हम यहाँ Opus वर्जन को देखेंगे, जिसे चलने में लगभग 4 मिनट लगे।
00:01:31जैसा कि उम्मीद थी, मुझे दोबारा प्रॉम्प्ट नहीं देना पड़ा, यह फाइनल आउटपुट था।
00:01:37यहाँ सब कुछ बहुत स्मूथ है, यह बहुत अच्छा काम करता है, और एक शुरुआती वर्जन के हिसाब से UI भी काफी अच्छा दिख रहा है।
00:01:44ड्रैग एंड ड्रॉप सही से काम कर रहा है, टास्क एडिटिंग भी वैसी ही है जैसी होनी चाहिए। मुझे हर कार्ड पर सही फोल्डर वाला यह छोटा लेबल बहुत पसंद आया, और ड्रैग करते ही यह बदल जाता है। यह एक अच्छा बोनस है।
00:01:55कुल मिलाकर, Opus ने यहाँ बेहतरीन काम किया, जिसकी मुझे पहले से ही उम्मीद थी।
00:02:00अब, Minimax की बात करते हैं। इसे पूरा होने में लगभग 8 मिनट लगे, शायद इसलिए क्योंकि मैंने इसे उनकी साइट पर चलाने के बजाय Cursor में इम्पोर्ट किया था, लेकिन मैं इसे Cursor में ही चाहता था।
00:02:10भले ही इसमें ज़्यादा समय लगा, लेकिन इसकी कीमत दस गुना कम थी, तो मुझे इससे कोई शिकायत नहीं है।
00:02:14कुल मिलाकर, सिर्फ एक प्रॉम्प्ट पर इसने बहुत अच्छा काम किया। Opus के मुकाबले UI थोड़ा कमज़ोर है, लेकिन फंक्शनलिटी हमें वही मिली है।
00:02:22मैं टास्क बना सकता हूँ, उन्हें सही कॉलम में ड्रैग और ड्रॉप कर सकता हूँ, तो वह सब बढ़िया काम करता है।
00:02:27सिर्फ एक चीज़ जो इसने नहीं की, वह थी हर कार्ड पर वह छोटा लेबल जोड़ना जो Opus ने किया था।
00:02:33एक और कमी यह थी कि यह बॉक्स के डिस्क्रिप्शन को एडिट करने की सुविधा सही से नहीं दे पाया।
00:02:38अगर मैं डिस्क्रिप्शन एडिट करता हूँ, तो आप देख सकते हैं कि यहाँ कुछ भी नहीं बदलता।
00:02:42तो इसे सही से काम करवाने के लिए मुझे शायद इसे दूसरी बार रन करना पड़ता।
00:02:48लेकिन यह फिर भी ठीक है, क्योंकि कीमत फिर से वही—सिर्फ दसवां हिस्सा।
00:02:51अब बात करते हैं उस चीज़ की जो डेवलपर्स के लिए मायने रखती है। M2.5 टास्क डिकम्पोजिशन (काम को टुकड़ों में बाँटने) के लिए रीइन्फोर्समेंट लर्निंग का इस्तेमाल करता है।
00:02:58इसलिए यह समस्याओं को बेहतर तरीके से तोड़ता है, जिससे 20% कम टूल कॉल्स और 5% कम टोकन की बर्बादी होती है।
00:03:06अगर आपने पहले एजेंट्स बनाए हैं, तो आप जानते हैं कि टूल कॉल्स ही खर्च बढ़ाते हैं और गड़बड़ी भी पैदा कर सकते हैं।
00:03:13यह मल्टी-फाइल एडिट्स, रन, डिबग, फिक्स लूप्स जैसी चीज़ों को भी संभालता है और टूल्स के बीच स्विच करते समय बिखरता नहीं है।
00:03:21सर्च बेंचमार्क्स पर, यह उनके पिछले M2.1 मॉडल की तुलना में सर्च राउंड्स को 20% तक कम कर देता है।
00:03:27यह कैशिंग (caching) को भी सपोर्ट करता है, जिसका मतलब है कि बार-बार की जाने वाली क्वेरीज़ की लागत समय के साथ कम हो सकती है।
00:03:32आप इसे सीधे Ollama, लोकल क्लस्टर्स, GitHub ऑटोमेशन, या अपनी CI पाइपलाइनों में जोड़ सकते हैं।
00:03:37अब बेंचमार्क्स की बात करें, तो मैं यहाँ इसकी तुलना Opus से कर रहा हूँ।
00:03:40SWE-bench Verified पर, M2.5 ने 80% से ज़्यादा स्कोर किया।
00:03:45Claude Opus 4.6 इससे थोड़ा ही आगे है, उसका स्कोर भी 80% के आसपास ही है। यह अंतर वाकई बहुत कम है।
00:03:52Multi-SWE-bench पर, यह 51% से ज़्यादा स्कोर करता है और अन्य ओपन मॉडल्स को पीछे छोड़ देता है।
00:03:58और DROID पर, यह वास्तव में Opus को .2% से हरा देता है, तो यह इस पर निर्भर करता है कि आप कहाँ देख रहे हैं।
00:04:05अब स्पीड की बात। यह पिछले मॉडल से 37% तेज़ है। हालांकि, यहाँ इसे फिर भी 8 मिनट लगे।
00:04:11Opus 4.6 की औसत स्पीड थोड़ी ज़्यादा है, लेकिन सही फॉर्मेट में चलाने पर यह लगभग बराबर हो जाती है।
00:04:18तो आपके लिए इसका क्या मतलब है? इसके कई मायने हो सकते हैं।
00:04:20इसका मतलब हो सकता है कम रिट्राय (retries), साफ़-सुथरे CI रन, कम टोकन खर्च और ज़्यादा पुल रिक्वेस्ट (PR) का मर्ज होना।
00:04:26और एजेंटिक टास्क परफॉर्मेंस के मामले में, यह GPT-5 या Gemini 3 Pro जैसे लेवल्स को टक्कर दे रहा है,
00:04:32लेकिन ओपन वेट्स के साथ। तो अब उस हिस्से की बात करते हैं जो सब कुछ बदल देता है,
00:04:37और वह है इसकी कीमत, भले ही इसने थोड़ा ज़्यादा समय लिया।
00:04:40M2.5 स्टैंडर्ड की लागत $0.15 प्रति मिलियन इनपुट टोकन और $1.20 प्रति मिलियन आउटपुट टोकन है।
00:04:47लाइटनिंग वर्जन की कीमत इससे दोगुनी है। यानी $0.30 प्रति मिलियन इनपुट और $2.40 प्रति मिलियन आउटपुट।
00:04:53लाइटनिंग को 100 टोकन प्रति सेकंड पर एक घंटे चलाने का खर्च लगभग एक डॉलर है।
00:04:56अगर आप स्टैंडर्ड वर्जन चलाते हैं, जैसा कि मैंने यहाँ किया, तो यह लगभग 30 सेंट प्रति घंटा बैठता है।
00:05:00अब इसकी तुलना Claude Opus 4.6 से करें। बहुत बड़ा अंतर है।
00:05:04$5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन।
00:05:09प्रति SWE टास्क, इसकी लागत Opus की तुलना में लगभग 10% है, जिसका श्रेय इसकी कार्यक्षमता और कम टूल कॉल्स को जाता है।
00:05:15एक फ्री API टियर भी है, जो अभी लाइव है। हालांकि मैंने इसके लिए भुगतान किया था,
00:05:20लेकिन उनके पास वह विकल्प भी है। और यहीं से आर्थिक समीकरण असल में बदलने लगते हैं।
00:05:24तो क्या आपको Opus 4.6 से स्विच कर लेना चाहिए? परफॉर्मेंस के मामले में, वे लगभग एक जैसे हैं।
00:05:30इसमें थोड़ा ज़्यादा समय लगा, है न? मैं स्टैंडर्ड का इस्तेमाल कर रहा था, लाइटनिंग का नहीं, लेकिन वे काफी हद तक समान हैं।
00:05:34टास्क पूरा करने का समय मूल रूप से एक ही है। रीजनिंग की गहराई भी तुलनीय थी।
00:05:39हालांकि, कीमत के मामले में यह बहुत ज़्यादा सस्ता है। तो अब आप खुद ही सोचिए।
00:05:43जैसा कि मैंने पहले कहा, यह 20% कम टूल कॉल्स का इस्तेमाल करता है और टोकन बर्बाद नहीं करता।
00:05:47फ्लेक्सिबिलिटी की बात करें तो इसके वेट्स ओपन हैं। आप इसे लोकली डिप्लॉय कर सकते हैं और इसे फाइन-ट्यून भी कर सकते हैं।
00:05:52हालांकि, बहुत हाई-एंड प्रीमियम इंटेलिजेंस के मामले में Opus अब भी थोड़ा आगे है।
00:05:57तो, वह प्रीमियम मॉडल है जिसके साथ हम अभी भी काम कर रहे हैं।
00:06:00अब यह क्यों मायने रखता है, क्योंकि अब आप बिना भारी खर्च की चिंता के बड़े पैमाने पर एजेंट्स चला सकते हैं।
00:06:05क्योंकि M2.5 का एडवांस्ड एजेंट बेंचमार्क्स पर 59% विन रेट है, आप ऑटोनामस
00:06:12रेपो बॉट्स बना सकते हैं, लगातार चलने वाले कोडिंग एजेंट्स चला सकते हैं, एंटरप्राइज वर्कफ़्लो को ऑटोमेट कर सकते हैं। यह एकदम परफेक्ट नहीं है,
00:06:17लेकिन हमने यहाँ जो देखा, उसके हिसाब से यह वाकई बहुत अच्छा है। और इसकी कीमत आपको खुलकर प्रयोग करने की अनुमति देगी।
00:06:22और Minimax बहुत तेज़ी से नए अपडेट्स ला रहा है, यह महीनों के काम को हफ्तों में कर रहा है।
00:06:27Ollama और GitHub इंटीग्रेशन पहले से ही बढ़ रहे हैं।
00:06:32Minimax M2.5, ओपन वेट्स के साथ बजट कीमत में Opus लेवल की कोडिंग परफॉर्मेंस देता है। यह
00:06:38कॉम्बिनेशन मिलना मुश्किल है, लेकिन 2026 में कौन जानता है कि हम और क्या देखेंगे। आप इसे Minimax पर मुफ्त में आज़मा सकते हैं या इसे Ollama पर चला सकते हैं या मेरी तरह API ले सकते हैं।
00:06:43क्या यह डेवलपर एजेंट्स के लिए नया डिफॉल्ट मॉडल बनेगा? मुझे लगता है कि यह तो वक्त ही बताएगा।
00:06:48मिलते हैं अगले वीडियो में।

Key Takeaway

Minimax M2.5 ओपन-सोर्स लचीलेपन और बेहद कम लागत के साथ Claude Opus जैसी उच्च-स्तरीय कोडिंग क्षमता प्रदान करके AI एजेंट विकास के परिदृश्य को बदल रहा है।

Highlights

Minimax M2.5 एक शक्तिशाली 'मिक्सचर ऑफ एक्सपर्ट्स' (MoE) कोडिंग मॉडल है जिसमें 230 बिलियन पैरामीटर्स हैं।

यह मॉडल Claude Opus 4.6 के स्तर की परफॉर्मेंस देता है, लेकिन इसकी कीमत उसकी तुलना में केवल 10% है।

M2.5 को विशेष रूप से AI एजेंट्स के लिए डिज़ाइन किया गया है, जो टूल कॉल्स में 20% की बचत करता है।

इसके वेट्स (weights) Hugging Face पर ओपन-सोर्स के रूप में उपलब्ध हैं, जिससे स्थानीय स्तर पर डिप्लॉयमेंट संभव है।

बेंचमार्क परीक्षणों में, इसने SWE-bench पर 80% से अधिक स्कोर प्राप्त किया, जो इसे प्रीमियम मॉडल्स के बराबर खड़ा करता है।

Timeline

Minimax M2.5 का परिचय और मुख्य विशेषताएं

इस शुरुआती खंड में वक्ता ने Minimax M2.5 मॉडल को लॉन्च करने की घोषणा की है, जिसे कोडिंग और एजेंट वर्कफ़्लो के लिए एक क्रांतिकारी टूल बताया गया है। इसमें 230 बिलियन पैरामीटर्स हैं, लेकिन कार्यक्षमता के दौरान केवल 10 बिलियन ही सक्रिय होते हैं, जो इसे तेज़ और सस्ता बनाता है। यह मॉडल विशेष रूप से Python, Java और Rust जैसी भाषाओं के साथ-साथ Excel ऑटोमेशन में भी सक्षम है। इसके दो संस्करण, स्टैंडर्ड और लाइटनिंग, क्रमशः 50 और 100 टोकन प्रति सेकंड की गति प्रदान करते हैं। सबसे महत्वपूर्ण बात यह है कि इसके ओपन वेट्स डेवलपर्स को किसी एक प्लेटफॉर्म पर निर्भर रहने से बचाते हैं।

Claude Opus बनाम Minimax: कोडिंग प्रदर्शन का परीक्षण

वक्ता ने एक फुल-स्टैक कानबान बोर्ड बनाने के प्रॉम्प्ट का उपयोग करके Claude Opus और Minimax M2.5 के बीच सीधा मुकाबला दिखाया है। जहाँ Opus को कार्य पूरा करने में 4 मिनट लगे और उसका UI थोड़ा बेहतर था, वहीं Minimax को 8 मिनट लगे लेकिन उसने समान कार्यक्षमता प्रदान की। Minimax में टास्क एडिटिंग और ड्रैग-एंड-ड्रॉप जैसी मुख्य सुविधाएँ सही ढंग से काम कर रही थीं, हालाँकि कुछ छोटे लेबल्स की कमी दिखी। वक्ता इस बात पर जोर देता है कि थोड़ा अधिक समय लगने के बावजूद, इसकी लागत Opus से दस गुना कम है। यह खंड दर्शाता है कि बजट के अनुकूल होने के बावजूद यह मॉडल जटिल कोडिंग कार्यों को प्रभावी ढंग से संभाल सकता है।

तकनीकी दक्षता और एजेंटिक क्षमताएं

यहाँ मॉडल की उन तकनीकी विशेषताओं पर चर्चा की गई है जो इसे डेवलपर्स के लिए उपयोगी बनाती हैं, जैसे टास्क डिकम्पोजिशन के लिए रीइन्फोर्समेंट लर्निंग का उपयोग। यह तकनीक टूल कॉल्स को 20% तक कम करती है और टोकन की बर्बादी को 5% तक घटा देती है, जिससे खर्च में भारी कटौती होती है। मॉडल मल्टी-फाइल एडिट्स और डिबगिंग लूप्स को बिना किसी त्रुटि के संभालने में सक्षम है। इसमें सर्च राउंड्स को कम करने के लिए बेहतर एल्गोरिदम और लागत कम करने के लिए कैशिंग सपोर्ट भी दिया गया है। यह खंड स्पष्ट करता है कि कैसे यह मॉडल बड़े पैमाने पर AI एजेंट्स चलाने के लिए आर्थिक रूप से व्यवहार्य है।

बेंचमार्क स्कोर और गति का विश्लेषण

इस भाग में Minimax M2.5 के प्रदर्शन की तुलना उद्योग के अग्रणी मॉडल्स जैसे Claude Opus 4.6 और GPT-5 के संभावित स्तरों से की गई है। SWE-bench Verified पर मॉडल ने 80% से अधिक स्कोर किया है, जो इसे शीर्ष कोडिंग मॉडल्स की श्रेणी में रखता है। कुछ विशिष्ट बेंचमार्क्स जैसे DROID पर, इसने Opus को 0.2% के मामूली अंतर से पीछे भी छोड़ दिया है। गति के मामले में, यह अपने पिछले संस्करण से 37% तेज़ है, जिससे CI पाइपलाइनों में पुल रिक्वेस्ट को मर्ज करना आसान हो जाता है। वक्ता का तर्क है कि ओपन वेट्स के साथ इस स्तर का प्रदर्शन मिलना डेवलपर्स के लिए एक बड़ी जीत है।

लागत संरचना और अंतिम निष्कर्ष

वीडियो के अंतिम भाग में लागत के सटीक आंकड़ों की तुलना की गई है, जहाँ Minimax का स्टैंडर्ड वर्जन मात्र $0.15 प्रति मिलियन इनपुट टोकन से शुरू होता है। इसके मुकाबले Claude Opus की कीमत $5 प्रति मिलियन टोकन है, जो एक विशाल अंतर को दर्शाता है। वक्ता सुझाव देता है कि भले ही Opus बहुत उच्च-स्तरीय बुद्धिमत्ता में थोड़ा आगे हो, लेकिन बड़े पैमाने पर प्रयोग करने के लिए Minimax बेहतर है। उपयोगकर्ता इसे Ollama पर लोकली चला सकते हैं या उनके मुफ्त API टियर का लाभ उठा सकते हैं। अंत में, यह निष्कर्ष निकाला गया है कि Minimax M2.5 भविष्य में कोडिंग एजेंट्स के लिए एक नया मानक (default model) बन सकता है।

Community Posts

View all posts