GLM 5.2 मेरा नया पसंदीदा मॉडल है...

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00दुनिया का सबसे बेहतरीन ओपन मॉडल अभी किसी OpenAI नाम की कंपनी से नहीं,

00:00:04बल्कि एक चीनी लैब से है और यह है ZAI का GLM 5.2, यह मॉडल वाकई में काफी प्रभावशाली है जो

00:00:10कुछ बेंचमार्क पर GPT 5.5 की बराबरी कर रहा है और एक कैटेगरी में तो यह

00:00:15Fable से भी आगे निकल गया है, और वो भी MIT लाइसेंस के तहत ओपन होने के साथ। आइए इसे देखते हैं, GLM 5.2 एक 744 बिलियन पैरामीटर का मॉडल है

00:00:26जिसमें 40 बिलियन सक्रिय पैरामीटर्स हैं और यह असल में अपने पूर्ववर्ती GLM 5.1 के ही आकार का है

00:00:31यही कारण है कि यह बहुत प्रभावशाली है कि उन्होंने इंटेलिजेंस इंडेक्स में इतनी बड़ी छलांग लगाई है

00:00:35Artificial Analysis से। यह कई बेंचमार्क का एक संयुक्त स्कोर है, जैसे रीजनिंग, कोडिंग,

00:00:40साइंस, सब कुछ। GLM 5.2 ने 51 का स्कोर हासिल किया है जो इसके पिछले वर्जन से 11 ज्यादा है

00:00:45और यह काफी अच्छे अंतर से टॉप ओपन मॉडल है। आप देख सकते हैं कि Qwen 3.7 अगले स्थान पर है, फिर Minimax M3

00:00:51उसके बाद Kimmy K 2.6 आता है। यह असल में इसे Gemini 3.5 Flash और GPT 5.4 के दायरे में लाता है

00:00:57मैक्स एफर्ट पर, जो काफी पागलपन भरा है। और इस इंडेक्स में शामिल कुछ बेंचमार्क पर, जैसे GPT Val,

00:01:03यह असल में GPT 5.5 से बेहतर स्कोर करता है। अगर हम खास तौर पर कोडिंग पर ध्यान दें, तो यह कोडिंग इंडेक्स पर भी शानदार है

00:01:09इसका स्कोर Gemini 3.1 Pro के बराबर है और यह वास्तव में Sonic 4.6 को हराता है और यह टॉप

00:01:14फ्रंटियर मॉडलों से भी ज्यादा पीछे नहीं है। यह Kimmy K 2.7 Code से काफी आगे है, जो हमारा नया मॉडल है, जिसके बारे में मैं जानता हूँ

00:01:19कि बहुत से लोग, मैं भी शामिल हूँ, बड़े प्रशंसक हैं। मुझे हमेशा लगा है कि Kimmy मॉडल्स का एक

00:01:23बहुत अच्छा अनुभव है। कोडिंग इंडेक्स के अलावा, एक और बेंचमार्क जो आजकल लोगों को बहुत पसंद आ रहा है,

00:01:27वह है Deep SWE, तो अगर हम वहाँ देखें, तो यह मीडियम एफर्ट पर Opus 4.7 से भी बेहतर स्कोर करता है

00:01:33यह वाकई बहुत प्रभावशाली है। हालांकि यहाँ यह ध्यान देना जरूरी है कि हर एक मॉडल को

00:01:38इस पर टेस्ट नहीं किया गया है और इस्तेमाल किया गया हार्नेस वास्तव में Claude Code था, बस थोड़ा API

00:01:42ट्रिकरी के जरिए Anthropic की जगह ZAI की ओर पॉइंट किया गया है। बेंचमार्क का अंतिम सेट जिसे मैं पसंद करता हूँ, वह है Design Arena,

00:01:47और यहीं से चीजें दिलचस्प हो जाती हैं। GLM 5.2 ने Design Arena के

00:01:53सिंगल-टर्न HTML वेब डिज़ाइन लीडरबोर्ड में कुल मिलाकर पहला स्थान हासिल किया है, और ऐसा करने वाला पहला मॉडल बन गया है जिसने

00:01:58Claude लाइन, जिसमें Fable 5 भी शामिल है, को पीछे छोड़ दिया है। ऐसा लगता है कि यह मॉडल का फोकस क्षेत्र रहा होगा, क्योंकि

00:02:02Design Arena द्वारा की गई जांच से पता चलता है कि GLM 5.2 में विशेषज्ञ टेम्प्लेट्स का एक मजबूत सेट है जो सामान्य

00:02:08AI एंटी-पैटर्न्स से बचता है, इसलिए आपको कम पर्पल ग्रेडिएंट्स मिलने चाहिए और यह सामान्य लाइब्रेरीज़ जैसे

00:02:12Chart.js, 3.js और Tailwind के साथ भी बहुत अच्छा काम करता है। इसमें एक छोटा सा ट्रेड-ऑफ है कि

00:02:18यह थोड़ा धीमा है, लेकिन मैं इस पर बाद में आऊंगा। यह Design Arena पर हर जगह नंबर एक नहीं है,

00:02:22यह गेम डेव, डेटा विज़ और 3D पर दूसरे स्थान पर है, और UI कॉम्पोनेंट्स के मामले में चौथे स्थान पर है, लेकिन यह

00:02:28अभी भी बहुत प्रभावशाली है। मैंने सोचा कि मैं इसे कुछ डेमो ऐप्स पर आज़माता हूँ और पहला वास्तव में

00:02:32Linear को फिर से बनाने का था, लेकिन GLM 5.2 के बारे में एक कष्टप्रद बात, जो थोड़ी नुकसानदेह है,

00:02:37वह यह है कि यह केवल टेक्स्ट मोडैलिटी स्वीकार करता है, इसलिए आप स्क्रीनशॉट अपलोड करके यह नहीं कह सकते कि इसे फिर से बनाओ।

00:02:42तो मैंने असल में जो किया वह यह कि Claude को एक स्क्रीनशॉट भेजा और कहा कि इसे फिर से बनाने के लिए मुझे एक प्रॉम्प्ट दें,

00:02:46और वही प्रॉम्प्ट है जो मैंने अंततः GLM 5.2 को दिया। इसके बावजूद, जो नतीजे मुझे मिले वो बेहद

00:02:51प्रभावशाली थे। बाईं ओर मेरे पास असली Linear वेब पेज है और दाईं ओर हमारे पास GLM

00:02:55रिक्रिएशन है। आप देख सकते हैं कि इसने कुल एलिमेंट्स को सही रखा और स्क्रीनशॉट के लिए यहां वास्तव में

00:02:59UI को फिर से बनाया जो मुझे बहुत अच्छा लगा। जैसे हम नीचे स्क्रॉल करते हैं, आप देख सकते हैं कि इसने कुल मिलाकर

00:03:04Linear वेबसाइट का एहसास दिलाया और मुझे सच में लगता है कि यह बहुत अच्छा दिख रहा है। तो इसमें कुछ मजबूत UI डिज़ाइन

00:03:09कौशल हैं। जाहिर है यह एकदम सही नहीं है क्योंकि यह स्क्रीनशॉट नहीं ले सका, इसलिए यह एक तरह से

00:03:14उस टेक्स्ट प्रॉम्प्ट का रिक्रिएशन कर रहा है जो मैंने आपको दिखाया था, लेकिन यह वेब पेज तुलना के लिए वास्तव में अच्छा लग रहा है

00:03:19बाईं ओर मेरे पास वह है जो Claude Opus 4.8 ने मुझे उसी सटीक प्रॉम्प्ट के साथ दिया था और यह

00:03:23Kimmy K 2.7 Code है और फिर से, उन सभी ने वेबसाइट को सिर्फ उस प्रॉम्प्ट से फिर से बनाने में काफी अच्छा काम किया

00:03:29और मुझे असल में लगता है कि शायद मुझे Kimmy K 2.7 का सबसे ज्यादा पसंद है, इसमें बस कुल मिलाकर

00:03:34सबसे अच्छा अनुभव है और मेरी राय में यह सबसे पूरा दिखता है। इसके बाद मैंने सोचा कि यह अच्छा होगा

00:03:38कि इन मॉडलों को एक नई वेबसाइट दी जाए जिसे शायद इसने पहले नहीं देखा है, क्योंकि Linear शायद इन

00:03:42मॉडलों के ट्रेनिंग डेटा में बहुत सारे हैं, तो मैंने बस कहा कि North Star नामक एक काल्पनिक उत्पाद के लिए

00:03:46एक सुंदर सिंगल-पेज वेबसाइट डिज़ाइन और बिल्ड करें। यह एक AI संचालित व्यक्तिगत नियोजन ऐप है, आप देख सकते हैं

00:03:50कि यहाँ कुछ डिज़ाइन निर्देश भी हैं जैसे हमें एक हीरो सेक्शन, कुछ सोशल प्रूफ, प्राइसिंग

00:03:56सेक्शन, सभी सामान्य चीजें चाहिए और यहाँ नीचे डिज़ाइन निर्देश क्लीन प्रीमियम SaaS एस्थेटिक है,

00:04:00सॉफ्ट ग्रेडिएंट, मजबूत टाइपोग्राफी, राउंडेड कार्ड्स वगैरह। यह वह नतीजा है जो मुझे दो

00:04:06मॉडलों से वापस मिला और मैं आपको अंत में बताऊंगा कि कौन सा क्या है, लेकिन आप देख सकते हैं कि जैसे हम नीचे स्क्रॉल करते हैं, मुझे लगता है कि यह

00:04:10बहुत अच्छा लग रहा है और मुझे लगता है कि इसने काफी अच्छा काम किया है। यह आपके सामान्य प्राइसिंग सेक्शन आदि के साथ एक काफी बेसिक स्टार्टअप वेबसाइट है

00:04:15और दाईं ओर भी वही। मुझे शायद यह स्टाइल थोड़ा बेहतर पसंद है,

00:04:20लेकिन आप देख सकते हैं कि इसने उस तरह का पर्पल ग्रेडिएंट AI लुक अपनाया है, लेकिन मुझे लगता है कि इस वेबसाइट के बारे में कुछ तो है जो मुझे थोड़ा क्लीन और अधिक पूरा लगता है, लेकिन वह

00:04:25पूरी तरह से राय है। यदि आपका कोई पसंदीदा है, तो मुझे नीचे टिप्पणियों में बताएं और सदस्यता लें

00:04:29जब आप वहाँ हों। यहाँ बाईं ओर वाला असल में GLM 5.2 था और यह Claude Opus 4.8 था

00:04:33पूरा करने के लिए, यह वही है जो Kimmy K 2.7 Code ने मुझे दिया और मुझे सच में लगता है कि यह उस तरह

00:04:39के AI लुक और फील में गिर जाता है, उन पर्पल ग्रेडिएंट्स के साथ, यह Claude वाले के समान है, बस कम

00:04:43एनिमेशन और कम फिनिश के साथ। मैं यह भी जल्दी से देखना चाहता था कि GLM 5.2 क्या करेगा यदि मैंने इसे कोई

00:04:48डिज़ाइन निर्देश नहीं दिए, तो मैंने इसे बस प्रॉम्प्ट का शुरुआती हिस्सा दिया है और मुझे नहीं लगता

00:04:53कि आउटपुट बुरा दिखता है, लेकिन मुझे यकीन नहीं है कि मैं Design Arena से सहमत हो सकता हूँ कि इसमें

00:04:56सामान्य AI लुक नहीं है, यह वास्तव में उन पर्पल ग्रेडिएंट्स का अधिकतम उपयोग कर रहा है। अगले टेस्ट के लिए मैंने

00:05:01सोचा कि मैं उन्हें 3GS एप्लिकेशन को वन-शॉट करने पर टेस्ट करूंगा और मैंने बस कहा कि एक 3GS गेम बनाएं

00:05:05जहाँ मैं Silverstone के चारों ओर एक F1 कार दौड़ा सकूं। आप देख सकते हैं कि इसने यहाँ काम करना शुरू कर दिया और इसमें

00:05:10कुल मिलाकर लगभग 10 मिनट लगे। अगर हम नीचे तक स्क्रॉल करें, 40,000 टोकन का उपयोग किया और 32

00:05:15सेंट खर्च हुए। यह वह आउटपुट है जो GLM 5.2 ने हमें दिया था, आप देख सकते हैं कि यह Silverstone F1 और अपना इंजन स्टार्ट करने के लिए कहता है,

00:05:20वैसे Lewis Hamilton ने अभी-अभी Ferrari के लिए जीत हासिल की है, यह बिल्कुल अद्भुत है। मुझे खुशी है कि हमारे पास यहाँ

00:05:25एक लाल कार है जैसे Ferrari, हालांकि हम निश्चित रूप से उस गति से थोड़े धीमे हैं जो मैं

00:05:30चाहूंगा कि एक Ferrari Silverstone के चारों ओर जाए। और एक चीज जो मैं यहाँ नोटिस कर रहा हूँ कि अगर मैं A दबाता हूँ, तो मैं दाईं ओर जाता हूँ

00:05:35और D दबाने पर बाईं ओर, तो कंट्रोल्स इनवर्टेड हैं, लेकिन तीर कुंजियों (arrow keys) पर ऐसा नहीं लगता,

00:05:40और यह निश्चित रूप से वह गति नहीं है जिस पर मैं

00:05:45एक Ferrari को Silverstone के चारों ओर ले जाना चाहूंगा, लेकिन मेरा मतलब है कि यह पहले प्रयास के लिए इतना बुरा नहीं है।

00:05:51ऐसा लगता है कि अगर मैं रिवर्स में जाऊं तो तेज चलता हूँ, तो शायद अगर मैं ट्रैक के चारों ओर रिवर्स में जाऊं तो यह बेहतर होगा। मैंने

00:05:55Kimmy K 2.7 Code के साथ वही टेस्ट आज़माया, लेकिन मुझे एक ही प्रॉम्प्ट में कोई

00:05:59काम करने वाला उदाहरण वापस नहीं मिला। यहाँ नीचे कहीं, मेरे पास कुछ कंसोल त्रुटियाँ थीं जो लगातार लूप कर रही थीं, तो मुझे

00:06:04उसे यह बताना पड़ा कि मेरे पास कुछ त्रुटियाँ थीं, लेकिन फिर उसने दूसरे प्रॉम्प्ट में उन्हें ठीक कर दिया और आप देख सकते हैं

00:06:08कि इसने वास्तव में 110,000 टोकन का अधिक उपयोग किया और 81 सेंट खर्च किए। जो नतीजा मुझे मिला वह भी

00:06:14कम खेलने योग्य था, ऐसा लगता है कि हमारे पास थोड़ी अधिक गति है लेकिन हमारा टर्निंग सर्कल भयानक है। मुझे

00:06:19नहीं लगता कि मैंने कभी किसी F1 ड्राइवर को इस तरह मोड़ते देखा है और हम यहाँ कुछ इमारतों

00:06:23से भी गाड़ी चला सकते हैं। यह अच्छा है कि उन्हें Silverstone के कोनों के नाम पता हैं, लेकिन कोई ट्रैक नहीं है, यह

00:06:27स्पष्ट रूप से सिर्फ बोलार्ड्स हैं। अंतिम एक Opus 4.8 है और यह थोड़ा अधिक खेलने योग्य है

00:06:33इस तथ्य के अलावा कि मुझे नहीं लगता कि Silverstone ट्रैक के बीच में पेड़ हैं, मेरा मतलब है

00:06:37पिछली बार जब मैंने चेक किया था तो नहीं थे, और हाँ, यह कुल मिलाकर काफी अच्छा गेम है। हमारे पास यहाँ कुछ कैमरा

00:06:42कंट्रोल्स हैं। अगर मैं F1 ड्राइवर होता तो शायद मेरे पहिये उन्हें पसंद नहीं करते, लेकिन यह

00:06:47सब ठीक से संभाल रहा है और ट्रैक खुद भी सबसे भ्रमित करने वाले ट्रैकों में से एक है जिसे मैंने

00:06:52किसी को भी दौड़ते हुए देखा है। यहाँ बहुत ओवरलैपिंग हो रही है और मुझे वास्तव में नहीं पता कि किस रास्ते

00:06:57जाना है, लेकिन मैं कहूंगा कि Opus 4.8 ने हमें एक ही प्रॉम्प्ट में सबसे खेलने योग्य डेमो दिया। अंतिम टेस्ट जो मैंने किया

00:07:02वह थोड़ा अधिक शामिल है, यह एक व्यक्तिगत वित्त प्रबंधन डैशबोर्ड का एक फ्रंट-एंड और एक बैक-एंड

00:07:07खरोंच से है, जिसमें कुछ फीचर्स यहाँ सूचीबद्ध हैं और यहाँ सामान्य विचार यह

00:07:11देखना है कि यह कौन सा स्टैक चुनता है जब यह बिल्कुल नया शुरू होता है और यह भी कि क्या यह फ्रंट-एंड और बैक-एंड को

00:07:16बिना किसी त्रुटि के एक ही प्रॉम्प्ट में लिंक कर सकता है। यहाँ GLM 5.2 का प्रयास है और मुझे कहना होगा हाँ, यह

00:07:22काफी बेसिक दिखने वाला डैशबोर्ड है, कुछ भी फैंसी नहीं है लेकिन बहुत सारी फैंसी चीजें भी नहीं हैं जो

00:07:26आप उस प्रॉम्प्ट के साथ कर सकते हैं जो मैंने इसे दिया था। सब कुछ काम करता हुआ प्रतीत होता है, मैंने डेटाबेस में चीजें जोड़ी हैं,

00:07:32मैंने यहाँ अपनी Fable 5 सदस्यता के लिए भुगतान किया, ये सभी पेज क्लिक करने योग्य हैं और जब मैं इन पर क्लिक करता हूँ तो सब कुछ उनके बीच

00:07:37ट्रांसफर होता है। मैंने इसे टेस्ट किया है, तो ऐसा लगता है कि इसने उस एकल प्रॉम्प्ट से बहुत अच्छा काम किया है।

00:07:41मैं हमेशा यह जानने के लिए उत्सुक रहता हूँ कि इसने कौन सा स्टैक चुना और इसने एक Next.js

00:07:46एप्लिकेशन के साथ जाने का फैसला किया और इसने डेटाबेस के लिए Prisma का उपयोग किया और हम देख सकते हैं कि इसमें हमारे पास एक डेवलपमेंट

00:07:50डेटाबेस भी है। मैंने शायद पसंद किया होता कि इसने Drizzle और शायद TanStack का उपयोग किया होता, लेकिन मैं वास्तव में

00:07:55शिकायत नहीं कर सकता। मैंने इसे कोई निर्देश नहीं दिया था। यह वास्तव में वह है जो Kimmy K 2.7 Code ने मुझे दिया और आप देख सकते हैं कि यह

00:07:59लगभग सटीक वही एप्लिकेशन है, बस मैं कहूंगा कि इतना फैंसी नहीं है। उनके पास निश्चित रूप से

00:08:04उनके ट्रेनिंग में कुछ वही टेम्प्लेट्स हैं जो बिल्कुल ऐसे दिखते हैं, और फिर से, हाँ मैं

00:08:09इस बारे में बहुत ज्यादा शिकायत नहीं कर सकता, लेकिन यह उन सभी एक्स्ट्रा बटन्स को मिस कर रहा है जिन्हें

00:08:13ट्रांसफर करने में सक्षम होने की आवश्यकता है। मेरे पास खाता जोड़ने की सुविधाएँ और ट्रांजैक्शन जोड़ने की सुविधा है, वे काम करते हैं लेकिन मैं बस कहूंगा कि

00:08:18इसका समग्र UI और उपयोगकर्ता अनुभव थोड़ा खराब है क्योंकि इसमें वह जानकारी

00:08:23यहाँ क्लिक करने योग्य नहीं है। डिफ़ॉल्ट स्टैक जिसे इसने चुना, मैं यह भी तर्क दूंगा कि थोड़ा खराब है, इसने React का

00:08:28उपयोग किया और बस एक सामान्य Vite सेटअप और React Router, जिसमें मुझे कोई समस्या नहीं है, लेकिन बैक-एंड में यह

00:08:33Express के साथ चला गया और अगर हम वास्तविक डेटाबेस फाइल को देखें, तो यह इसे लिखने के लिए बस Node SQLite का उपयोग कर रहा है और

00:08:39टेक्स्ट में स्कीमा लिख रहा है जो मुझे लगता है कि थोड़ा कम स्केलेबल होगा। अगर मैं

00:08:43पूरी तरह से वाइब कोडिंग कर रहा होता और स्टैक के बारे में कुछ नहीं जानता होता, तो मैं शायद GLM 5.2 चाहता, लेकिन अगर मैं

00:08:48Kimmy K 2.7 Code का उपयोग कर रहा होता, तो मैंने शायद इसे Drizzle, Next.js और अन्य चीजें उपयोग करने के लिए निर्देश दिए होते,

00:08:53तो यह बस इस बात पर निर्भर करता है कि आपको क्या पसंद है। राय वाले की बात करें तो,

00:08:58यह वास्तव में वह है जो Claude Opus 4.8 ने मुझे दिया। इसने निश्चित रूप से एक पूरी तरह से अलग स्टाइल

00:09:03अपनाया है जो हमने पहले देखा है, लेकिन यह टेक्स्ट की उस तरह की स्टाइल है जो Claude को इस

00:09:07समय पसंद है। यह निश्चित रूप से वह है जिसे उन्होंने ट्रेनिंग डेटा में रखा है या इसे उसकी ओर धकेल रहे हैं, और

00:09:11यह सब वास्तव में अच्छा काम करता है और हाँ, मुझे लगता है कि यह बहुत अच्छा दिख रहा है। मैं शायद इसे अलग फोंट और एक अलग कलर स्कीम

00:09:16उपयोग करने के लिए प्रॉम्प्ट करता, लेकिन इसका आधार बहुत अच्छा है। इसने वास्तव में इसके लिए अलग पेज

00:09:20नहीं बनाए, बस अलग सेक्शन बनाए, तो शायद वह खराब है, लेकिन फिर से,

00:09:25यह प्रॉम्प्ट पर निर्भर करता है। सभी फीचर्स और इस तरह की हर चीज काम कर रही है। देखते हैं

00:09:29उस वास्तविक कोड को जो Opus ने मुझे दिया, मुझे वास्तव में लगता है कि GLM 5.2 शायद इसमें जीत गया है। Opus

00:09:34ने जो किया वह है कि इसने बस एक सामान्य React एप्लिकेशन का उपयोग किया, इसने React Router के साथ जहमत नहीं उठाई क्योंकि यह

00:09:38सब उस सिंगल पेज पर था और इसने अपने बैक-एंड के लिए Express का उपयोग किया लेकिन फिर इसने

00:09:43वास्तव में डेटाबेस से कोई कनेक्शन नहीं किया, सब कुछ बस एक इन-मेमोरी स्टोर है जिसे हम यहाँ देख सकते हैं,

00:09:48जहाँ यह डेटा को सीड करता है और यह सब एक JavaScript ऑब्जेक्ट से चलता है, जो फिर से शायद

00:09:53वह नहीं है जो मुझे चाहिए अगर मैं भविष्य में इसे स्केल करने वाला हूँ, लेकिन यह प्रॉम्प्ट पर निर्भर करता है। मुझे लगता है कि

00:09:58पिछले कुछ दिनों में इस मॉडल को टेस्ट करते समय मेरा यही मुख्य निष्कर्ष है। मुझे लगता है कि बहुत से

00:10:02कार्यों के लिए आप चुपके से GLM 5.2 को सरल कार्यों के लिए Sonnet या यहाँ तक कि Opus की जगह रख सकते हैं और मुझे

00:10:07शायद पता नहीं चलेगा। यह वास्तव में एक सक्षम मॉडल है और यदि आप इसे सही दिशा देते हैं तो आपको

00:10:12वास्तव में अच्छे परिणाम मिलते हैं। यह पहले ओपन मॉडलों में से एक है जिसे मुझे उपयोग करने के लिए संघर्ष महसूस नहीं हुआ,

00:10:16और यह भी पहले ओपन मॉडलों में से एक है जहाँ इसे उपयोग करते समय मुझे वह एहसास नहीं हुआ कि मुझे पता है कि Claude

00:10:21इसे बेहतर या तेज कर सकता था। तो इसे पूरा करने के लिए अंतिम चीजें टोकन, लागत और

00:10:25गति हैं। GLM 5.2 के नुकसानों में से एक यह हो सकता है कि यह अपनी क्लास के अन्य मॉडलों की तुलना में

00:10:31थोड़ा अधिक टोकन भूखा है। इसने प्रति कार्य औसतन 43,000 टोकन का उपयोग किया जो Kimmy K 2.6,

00:10:37Minimax और DeepSeek से ज्यादा है। लेकिन अच्छी खबर यह है कि यह वास्तव में उतना खर्च नहीं करता, प्रोवाइडर के आधार पर

00:10:41यह एक मिलियन इनपुट टोकन के लिए लगभग 1.40 डॉलर और एक मिलियन आउटपुट टोकन के लिए 4.40 डॉलर है। और Artificial Analysis के

00:10:47बेंचमार्क पर, इसकी लागत वास्तव में प्रति कार्य लगभग 50 सेंट थी और आप देख सकते हैं कि यह एक

00:10:52काफी अच्छी जगह है जब हम लागत बनाम इंटेलिजेंस को देखते हैं। यहाँ Gemini लेबल को नजरअंदाज करें, यह वास्तव में यह नीला

00:10:57डॉट है और आप देख सकते हैं कि यह काफी भीड़भाड़ वाला चार्ट है, लेकिन यह वास्तव में जो दिखाता है वह यह है कि अपनी इंटेलिजेंस

00:11:02लेवल पर GLM 5.2 सबसे सस्ता मॉडल है। हालांकि मैं यहाँ कहूंगा कि यदि आप इंटेलिजेंस पर हिट ले सकते हैं,

00:11:07तो मुझे लगता है कि Minimax और विशेष रूप से DeepSeek V4 उस कीमत के लिए बहुत अच्छे हैं। जब गति की बात आती है,

00:11:12GLM 5.2 वास्तव में बिल्कुल भी बुरा नहीं है। इसने अपनी इंटेलिजेंस लेवल के पास के अधिकांश ओपन मॉडलों को पीछे छोड़ दिया,

00:11:17जैसे DeepSeek V4, Kimmy 2.7 Code और Minimax, और यह Gemini 3.1 Pro जैसे फ्रंटियर मॉडल से थोड़ा पीछे है

00:11:24जिसका इंटेलिजेंस लेवल समान है, लेकिन वह एक फ्रंटियर मॉडल है और मैं यह भी देखना पसंद करूंगा कि Gemini

00:11:283.5 Pro को इस सूची में जोड़ा जाए, Google कृपया उसे रिलीज़ करें। जब गति की बात आती है, तो Design Arena

00:11:33को वास्तव में थोड़ा अलग नतीजा मिला जहाँ वे कहते हैं कि GLM 5.2 डिज़ाइन की उपयोगकर्ता प्राथमिकता पर

00:11:38उच्चतम स्कोर करता है, लेकिन यह शीर्ष मॉडलों में सबसे धीमा भी था, हालांकि यह भी

00:11:42ध्यान देने योग्य है कि वे सभी शीर्ष मॉडल फ्रंटियर वाले हैं और ओपन वाले नहीं। कुल मिलाकर, यह वास्तव में

00:11:47ऐसा महसूस होता है कि हम उस बिंदु पर हैं जहाँ ये ओपन मॉडल चार से छह महीने पीछे हैं, तो

00:11:51शायद बहुत आशावादी रूप से हम अगले साल तक एक Fable मॉडल देख सकते हैं और मेरा मतलब है, वे खुद

00:11:56वास्तव में Q1 तक का वादा कर रहे हैं और मुझे इस अगले व्यक्ति से किसी भी बात पर सहमत होने से नफरत है, लेकिन वह

00:12:01यहाँ एक अच्छा बिंदु बनाता है कि शायद बेंचमार्क पर वे Fable को पकड़ सकते हैं, लेकिन वास्तविक उपयोगिता थोड़ी

00:12:06अलग महसूस होती है और यही Anthropic बहुत अच्छा है। यह वास्तव में उन्हें यहाँ

00:12:10तारीफ देते हुए देखना बहुत दुर्लभ है, लेकिन मुझे उस भावना से सहमत होना होगा जहाँ वास्तव में

00:12:14इन मॉडलों का उपयोग करना थोड़ा अलग महसूस होता है, लेकिन मुझे लगता है कि GLM 5.2 पहले मॉडलों में से एक है जिसने मेरे लिए

00:12:19उस चक्र को तोड़ दिया है। मुझे लगता है कि अगर आपने मुझे एक साल पहले बताया होता कि ये ओपन मॉडल

00:12:23इतने अच्छे होंगे तो मैं बिल्कुल हैरान हो जाता और शायद आप पर विश्वास नहीं करता। और मैं वास्तव में

00:12:27डूomsday prepper नहीं हूँ, लेकिन मुझे लगता है कि हाल ही में Fable बैन के साथ, मैं बस GLM 5.2 को डाउनलोड करना चाहता हूँ और

00:12:31इसे एक SSD पर स्टोर करना चाहता हूँ, बस अगर मुझे बाद में इसकी आवश्यकता हो। मुझे नीचे कमेंट्स में बताएं कि आप इस मॉडल के बारे में क्या सोचते हैं

00:12:36और यह भी बताएं कि आपका पसंदीदा ओपन मॉडल कौन सा है। जब आप वहाँ हों, सब्सक्राइब करें

00:12:40और हमेशा की तरह, अगले वीडियो में मिलते हैं।

Key Takeaway

GLM 5.2 अपनी उच्च इंटेलिजेंस और कम लागत के साथ ओपन मॉडल श्रेणी में नया बेंचमार्क स्थापित करता है, जो कोडिंग और वेब डिज़ाइन कार्यों में फ्रंटियर मॉडलों के स्तर का प्रदर्शन करता है।

Highlights

GLM 5.2 एक 744 बिलियन पैरामीटर का मॉडल है जिसमें 40 बिलियन सक्रिय पैरामीटर्स हैं।
यह इंटेलिजेंस इंडेक्स पर 51 का संयुक्त स्कोर हासिल करता है, जो पिछले संस्करण से 11 अंक अधिक है।
Design Arena के सिंगल-टर्न HTML वेब डिज़ाइन लीडरबोर्ड पर यह मॉडल प्रथम स्थान पर है।
यह 1 मिलियन इनपुट टोकन के लिए लगभग 1.40 डॉलर और आउटपुट के लिए 4.40 डॉलर की लागत पर उपलब्ध है।
मॉडल केवल टेक्स्ट मोडैलिटी स्वीकार करता है, इसलिए स्क्रीनशॉट के माध्यम से सीधे इनपुट संभव नहीं है।
यह कोडिंग इंडेक्स पर Gemini 3.1 Pro के बराबर प्रदर्शन करता है।

Timeline

GLM 5.2 की तकनीकी क्षमता और बेंचमार्क

GLM 5.2 इंटेलिजेंस इंडेक्स में GPT 5.5 के समान स्तर पर है।
यह मॉडल 744 बिलियन पैरामीटर्स और 40 बिलियन सक्रिय पैरामीटर्स का उपयोग करता है।
कोडिंग इंडेक्स पर इसका स्कोर Gemini 3.1 Pro के बराबर दर्ज किया गया है।

यह मॉडल अपने पिछले संस्करण GLM 5.1 के समान आकार में होने के बावजूद प्रदर्शन में महत्वपूर्ण सुधार लाता है। विभिन्न बेंचमार्क में यह Qwen 3.7 और Minimax M3 जैसे मॉडलों से आगे निकल गया है। कोडिंग और रीजनिंग के साथ-साथ यह Deep SWE बेंचमार्क पर Opus 4.7 से बेहतर प्रदर्शन करने में सक्षम है।

डिजाइन और कोडिंग प्रदर्शन

वेब डिज़ाइन लीडरबोर्ड पर यह पहला ओपन मॉडल है जो Claude मॉडलों को पीछे छोड़ता है।
यह चार्ट और Tailwind जैसी सामान्य लाइब्रेरी के साथ कुशल काम करता है।
3GS गेम निर्माण कार्यों में यह तार्किक निर्देशों का पालन करने में सक्षम है।

Design Arena के परीक्षणों में यह मॉडल विशिष्ट AI एंटी-पैटर्न्स से बचने में सफल रहा है। हालांकि इसमें स्क्रीनशॉट इनपुट की कमी है, लेकिन यह टेक्स्ट प्रॉम्प्ट्स के माध्यम से उच्च स्तरीय UI रिक्रिएशन प्रदान करता है। गेम डेवलपमेंट परीक्षणों में, अन्य मॉडलों की तुलना में इसके शुरुआती प्रयास अधिक संतुलित और खेलने योग्य रहे।

विकास और उपयोगिता विश्लेषण

यह जटिल डैशबोर्ड निर्माण और फ्रंट-एंड बैक-एंड लिंकिंग कार्यों में सक्षम है।
लागत की दृष्टि से यह अपनी इंटेलिजेंस श्रेणी में सबसे किफायती विकल्प है।
43,000 टोकन का औसत उपयोग इसे कुछ अन्य मॉडलों की तुलना में अधिक टोकन-सघन बनाता है।

व्यक्तिगत वित्त डैशबोर्ड निर्माण के दौरान, यह मॉडल Next.js और Prisma स्टैक के साथ एक स्थिर एप्लिकेशन बनाने में सक्षम रहा। लागत विश्लेषण के अनुसार, इंटेलिजेंस और मूल्य के अनुपात में यह बाजार में सबसे प्रतिस्पर्धी मॉडलों में से एक है। इसकी गति सीमाएं फ्रंटियर मॉडलों से थोड़ी पीछे हैं, लेकिन ओपन मॉडल श्रेणी में यह अब तक का सबसे प्रभावी अनुभव प्रदान करता है।

Community Posts

Write about this video