मैंने GLM 5.2 बनाम Opus 4.8 बनाम GPT 5.5 का परीक्षण किया

CChase AI
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 इसी हफ्ते रिलीज हुआ है, और यह अब तक का सबसे मजबूत ओपन सोर्स मॉडल है जिसे हमने
00:00:04देखा है। और कुछ बेंचमार्क में, जैसा कि आप यहाँ देख सकते हैं, यह मॉडल दिग्गजों को भी पीछे छोड़ रहा है
00:00:10जैसे Anthropic का Opus 4.8 और OpenAI का 5.5। लेकिन क्या ये बेंचमार्क सही हैं? यह मॉडल कैसे
00:00:18Opus 4.8 और GPT 5.5 के मुकाबले कैसा है? खैर, आज की वीडियो में हम इसी का जवाब देने वाले हैं
00:00:25क्योंकि मैं इन तीन बड़े मॉडलों के साथ कई टेस्ट करूँगा और देखूँगा
00:00:31कि यह वास्तव में वास्तविक दुनिया में कैसा प्रदर्शन करता है। इसके अलावा, हम एक
00:00:35खास बेंचमार्क की गहराई से जांच करेंगे जो मुझे काफी महत्वपूर्ण लगता है, साथ ही हम विश्लेषण करेंगे कि हम वास्तव में
00:00:40क्या कहना चाह रहे हैं जब हम कहते हैं कि GLM 5.2 कुछ मामलों में Opus और GPT 5.5 से बेहतर है। क्या हम बात कर रहे हैं
00:00:47कि यह अधिक कुशल है, इसकी लागत कम है, या यह वास्तव में उन सभी चीजों को एक ही समय में
00:00:51बेहतर तरीके से करता है? तो बिना किसी देरी के, चलिए सीधे शुरू करते हैं। अब, हेड-टू-हेड टेस्ट में जाने से पहले
00:00:56आइए सबसे पहले कुछ उन बेंचमार्क को देखें जो पहले से मौजूद हैं और इन तीन मॉडलों की तुलना करते हैं।
00:00:59जिस पर मैं वास्तव में ध्यान देना चाहता हूँ वह है DeepSuite। खैर, DeepSuite एक
00:01:04अपेक्षाकृत नया बेंचमार्क है, और यह Terminal Bench और Terminal Bench Pro जैसी चीजों में सुधार के उद्देश्य से बनाया गया है।
00:01:08अब, मैं इस बेंचमार्क में बहुत गहराई से नहीं जाने वाला, आप
00:01:12उनकी वेबसाइट या उनके GitHub रिपॉजिटरी को देख सकते हैं, जहाँ इसे अधिक विस्तार से समझाया गया है। लेकिन यह ध्यान केंद्रित करता है
00:01:17लंबे समय तक चलने वाले एजेंटिक कार्यों पर, विशेष रूप से TypeScript, Go, Python, JavaScript,
00:01:23और Rust में 113 कार्यों पर, अलग-थलग वातावरण और प्रोग्राम-आधारित सत्यापनकर्ताओं के साथ। और इस ग्राफ पर, हम देख सकते हैं
00:01:29बाईं ओर स्कोर, वह प्रतिशत जो यह सही प्राप्त करता है, साथ ही प्रति कार्य औसत लागत।
00:01:34अब, हम ऊपर और दाईं ओर होना चाहते हैं। सबसे कुशल क्षेत्र यहाँ ऊपर दाईं ओर है।
00:01:39यही वह जगह है जहाँ हमें सबसे कम लागत पर सबसे अधिक स्कोर मिलता है। और हम यहाँ देख सकते हैं, GLM 5.2
00:01:44max हमें प्रति कार्य $3.92 पर 44% दे रहा है। यदि हम इसकी तुलना Opus 4.8 और GPT 5.5 से करें, तो हम देख सकते हैं
00:01:55कि वे बहुत बेहतर प्रदर्शन कर रहे हैं। अधिकतम पर, Opus 4.8 59% कर रहा है, और 5.5 एक्स्ट्रा हाई पर 67% कर रहा है। जाहिर है,
00:02:04एक्स्ट्रा हाई और मैक्स पर, हमारी लागत काफी अधिक है। GPT 5.5 के लिए, यह $7.23 है। Opus के लिए $13,
00:02:12और GLM पर, यह $3.92 है। तो काफी सस्ता है। हालाँकि, जब हम अलग-अलग प्रयास स्तरों को देखते हैं
00:02:195.5 और Opus पर, यदि हम मध्यम स्तर पर हैं, उदाहरण के लिए, Opus 4.8 के साथ, तो हम स्कोर करेंगे
00:02:25GLM 5.2 से अधिक, और हम कम महंगे होंगे। तो 344 पर 49% बनाम 392 पर 44%। और वह
00:02:365.5 पर $2.75 पर 54% बनाम $3.92 पर 44% के साथ महत्वपूर्ण है। तो शुरुआत में ही, इस बेंचमार्क पर,
00:02:47यदि हम इसे इसके वास्तविक मूल्य पर लें, तो 4.8 और 5.5 GLM 5.2 से एक कदम आगे हैं। और यह आश्चर्यजनक नहीं है। ये
00:02:55सर्वश्रेष्ठ फ्रंटियर मॉडल हैं। वे ओपन सोर्स नहीं हैं। और यदि हम वास्तव में प्रयास करें
00:03:01तो वे इन लंबी अवधि के कार्यों पर GLM 5.2 को पछाड़ देंगे, जैसा कि अपेक्षित था।
00:03:07जो आपने शायद उम्मीद नहीं की होगी वह यह तथ्य है कि यह सस्ता होने पर भी बेहतर प्रदर्शन कर सकता है,
00:03:11जो कि एक तरह की समस्या है। और मैं बस इसे सामने लाना चाहता हूँ क्योंकि मुझे पता है कि अभी बहुत
00:03:16बातें हो रही हैं और काफी चर्चा है GLM 5.2 के बारे में और इस तथ्य के बारे में कि यह ओपन सोर्स है। और, आप
00:03:21जानते हैं, वह तुरंत एक तरह से संकेत देता है कि, ओह, यह बहुत, बहुत सस्ता है। और हम वास्तव में अच्छी चीजें कर सकते हैं।
00:03:25खैर, मेरा मतलब है, आंकड़ों के हिसाब से, यह अच्छा है, लेकिन इस बेंचमार्क के आधार पर यह 4.8 या 5.5 नहीं है। और याद रखें,
00:03:33ये 4.8 और 5.5 नंबर API लागत पर आधारित हैं। यदि मैं मैक्स प्लान पर हूँ, तो यह इससे 10 गुना सस्ता है।
00:03:40वही बात है यदि मैं बस OpenAI के, आप जानते हैं, $100 प्रति माह या $200 प्रति माह के प्लान पर हूँ। तो
00:03:46यह एक और चीज है जिसे ध्यान में रखना चाहिए। तो मैं बस इस तरह की बातों पर लगाम लगाना चाहता हूँ कि GLM बहुत सस्ता है क्योंकि ऐसा नहीं है। और भले ही यह ओपन सोर्स है,
00:03:50GLM 5.2, ओपन सोर्स मॉडल जो ये नंबर प्राप्त कर रहा है, यह ओपन सोर्स नहीं है। जैसे आप
00:03:56इसे अपने कंप्यूटर पर डाउनलोड नहीं कर सकते। यह ओपन सोर्स है और वह यह है कि, आप कोड देख सकते हैं,
00:04:01आप वेट देख सकते हैं। यह इस अर्थ में ओपन सोर्स नहीं है कि, ओह नहीं, बस यह, मैं जा सकता हूँ और
00:04:05इसे OLAMA पर प्राप्त कर सकता हूँ। मैं इसे अपने व्यक्तिगत PC पर चला सकता हूँ। नहीं, आप नहीं कर सकते। नहीं, आप नहीं कर सकते। यह लगभग एक
00:04:09ट्रिलियन पैरामीटर का है। इसे चलाने के लिए बहुत सारे हार्डवेयर की आवश्यकता होती है। तो भ्रमित न हों क्योंकि मुझे पता है
00:04:14कि आबादी का एक हिस्सा ऐसा करता है, लेकिन यह सिर्फ आधार तैयार करने के लिए है। और फिर से,
00:04:20यह deep suite की चीजों पर है। यह बहुत ही तीव्र प्रकार के कार्य हैं जो दिए जा रहे हैं। और
00:04:24आज हम कुछ अलग परीक्षण करने जा रहे हैं जो थोड़े निचले स्तर के हैं और जो
00:04:30संभवतः इस बात का अधिक प्रतिबिंब हैं कि आप, औसत उपयोगकर्ता क्या चला रहे हैं। तो कुछ चीजें ध्यान में
00:04:35रखनी होंगी। और सिर्फ इसलिए कि हम सब एक ही पृष्ठ पर हैं, यह वह है जिसे हम लागत के संदर्भ में देख रहे हैं
00:04:39प्रति टोकन। याद रखें कि Opus 4.8 और 5.5 के लिए सस्ता होने का कारण यह है कि इसने बहुत कम टोकन का उपयोग किया
00:04:44यह जो करने की जरूरत थी उसे करने के लिए। यह अंततः अधिक कुशल था, लेकिन प्रति टोकन आधार पर।
00:04:50और इनपुट और आउटपुट के लिए याद रखें, यह प्रति मिलियन टोकन है, GLM 5.2, इनपुट के लिए $1.40,
00:04:55$4.40 आउटपुट के लिए। और Opus 4.8 5.7 गुना अधिक महंगा है। और GPT से 5.5 6.8 गुना अधिक
00:05:01महंगा है। तो प्रति टोकन आधार पर, बहुत सस्ता है। लेकिन याद रखें, हम एक कार्य के परिणामों के बारे में परवाह करते हैं,
00:05:10जरूरी नहीं कि एक-से-एक टोकन तुलना। और अब वास्तविक परीक्षणों में कूदने से पहले,
00:05:16आज के प्रायोजक, यानी मुझसे, एक त्वरित शब्द। तो मैंने अभी-अभी अपना Cloud Code Masterclass रिलीज किया है
00:05:21Chase AI Plus के अंदर और यह शून्य से AI देव बनने का नंबर एक तरीका है, खासकर यदि आप
00:05:26तकनीकी पृष्ठभूमि से नहीं आते हैं। मैं इसे हर हफ्ते अपडेट करता हूँ और इसमें कोडेक के लिए मास्टरक्लास
00:05:30और अपना खुद का एजेंटिक OS बनाने के लिए भी शामिल है। तो यदि यह कुछ ऐसा है जिसके बारे में आप और जानना चाहते हैं और आप
00:05:35निश्चित नहीं हैं कि कहाँ से शुरू करें, तो Chase AI Plus आपके लिए सही जगह है। इसका लिंक पिन किए गए कमेंट्स में है।
00:05:40तो यहाँ बताया गया है कि हम इस परीक्षण को कैसे चलाएंगे। हम हर एक मॉडल को वही
00:05:46प्रॉम्प्ट और प्लान मोड देंगे। यह हमें प्लान देगा। हम प्लान के बारे में जो सोचते हैं उसके आधार पर, हम
00:05:49कुछ बैक-एंड-फोर्थ कर सकते हैं या नहीं भी कर सकते हैं। और उसके बाद, हम इसे निष्पादित करने देंगे।
00:05:53इसके निष्पादित होने के बाद, मैं अंतिम परिणाम पर अपने बेहद व्यक्तिपरक ग्रेडिंग मानदंड लागू करूँगा और आपको बताऊंगा
00:05:58कि मुझे कौन सा सबसे अच्छा लगा। यदि आप मेरे ग्रेडिंग मानदंडों या जो मैं सबसे अच्छा तय करता हूँ उसे पसंद नहीं करते हैं, तो सुनिश्चित करें
00:06:03कि आप एक कमेंट छोड़ें। मैं आपके कमेंट को हटाना भी सुनिश्चित करूँगा। अब, बाईं ओर, हमारे पास
00:06:08Codex के अंदर एक्स्ट्रा हाई पर GPT 5.5 है। हमारे पास बीच में OpenCode है जो GLM 5.2 चला रहा है एक्स्ट्रा हाई पर
00:06:14OpenRouter के माध्यम से रूट किया जा रहा है। और यहाँ दाईं ओर, हमारे पास Cloud Code है जो हाई पर
00:06:21Opus 4.8 चला रहा है। अब, मैंने ये विशिष्ट प्रयास सेटिंग्स क्यों चुनीं? क्योंकि ज्यादातर लोग
00:06:26वास्तविक जीवन में इनका उपयोग इसी तरह करते हैं। और संभावना है कि आप या तो मैक्स प्लान पर हैं या आप किसी प्रकार के
00:06:32ओपन AI प्लान पर हैं और आप शायद इसे मीडियम पर नहीं चला रहे हैं। चलिए ईमानदार रहें। तो मुझे लगता है कि यह
00:06:37इस बात का बेहतर प्रतिबिंब है कि आपका औसत उपयोगकर्ता वास्तव में दिन-प्रतिदिन इन मॉडलों का उपयोग कैसे कर रहा है।
00:06:42तो हमारे पहले प्रॉम्प्ट के लिए, हम इसे एक खेलने योग्य 3D रेसिंग गेम बनाने के लिए कहेंगे जो ब्राउज़र में चलता है।
00:06:47और महत्वपूर्ण बात यह है कि हम इस प्रॉम्प्ट को थोड़ा अस्पष्ट रख रहे हैं। मैं कह रहा हूँ कि आपके पास पूरी आजादी है कि
00:06:51वेब पर जाएं और जो भी स्टैक और लाइब्रेरी आपको सबसे अच्छी लगे, उसे चुनें। और इसलिए
00:06:56चलिए आगे बढ़ते हैं और इसे चलाते हैं और देखते हैं क्या होता है। तो हमारे पास तीनों मॉडल प्लान मोड में चल रहे हैं।
00:07:02और फिर से, प्रॉम्प्ट को अस्पष्ट बनाने के पीछे की सोच यह है कि हम इन मॉडलों से जितना संभव हो सके उतना विचलन देखना चाहते हैं।
00:07:08यदि मैंने इसे सटीक रोडमैप दिया होता, कि हर एक चीज कैसे करनी है,
00:07:12खैर, तो हम वास्तव में यह नहीं देख पाते कि ये मॉडल कैसे सोचते हैं और वे कैसे अधिक प्रकार की
00:07:18अव्यवस्थित समस्याओं के प्रति दृष्टिकोण अपनाते हैं। तो 13 मिनट के बाद, Opus 4.8 रेसिंग गेम बनाने वाला पहला था।
00:07:23तो चलिए देखते हैं कि इसने क्या बनाया। तो यहाँ हम थोड़े लो पॉली हैं। इसमें
00:07:29कुछ आवाजें आ रही हैं। काफी सुचारू रूप से चलता है। ऐसा लगता है कि हमारे पास यहाँ ड्रिफ्ट करने की क्षमता भी है।
00:07:37ठीक है, घास वास्तव में भौतिकी के काम करने के तरीके के साथ गड़बड़ करती है। कुल मिलाकर, काफी सुचारू, लेकिन आप
00:07:44जानते हैं, अपेक्षाकृत उबाऊ, है ना? जैसे यह काफी बुनियादी रेसट्रैक है। कुछ भी पागलपन नहीं, इसमें
00:07:54किसी भी प्रकार की AI या ऐसा कुछ भी नहीं जोड़ा। तो मैं यह देखने के लिए उत्सुक हूँ कि अन्य मॉडल जटिलता के मामले में कैसा प्रदर्शन करते हैं और
00:07:59शायद इस पहले परीक्षण के बाद मैं क्या करूँगा यदि ये सभी एक ही प्रकार के
00:08:04नीरस विजन जैसे हैं। हम शायद इसे एक और प्रॉम्प्ट देंगे जो दांव को बढ़ा देगा। अगला है
00:08:09GLM 5.2। तो इसमें Claude Code से लगभग पांच मिनट अधिक समय लगा। संदर्भ के लिए, GPT 5.5 अभी भी
00:08:13काम कर रहा है, जो मुझे बहुत आश्चर्यजनक नहीं लगा। यह थोड़ा धीमा होता है। टोकन तुलना के संदर्भ में,
00:08:20Claude Code ने वह गेम बनाने के लिए लगभग 100,000 टोकन का उपयोग किया। और GLM 5.2 ने एक मिलियन से अधिक का उपयोग किया। और हम देख सकते हैं
00:08:26इस रन के लिए Open Router के अंदर, जहाँ कुल खर्च $1.21 था। और कुल टोकन वॉल्यूम 1.35 था
00:08:33मिलियन इस गेम को बनाने के लिए। तो तुरंत, दिलचस्प ट्रैक हमारे पास चल रहा है।
00:08:41बहुत ही नियंत्रण Claude Code के मुकाबले थोड़े जंपी हैं। जैसे मैं चल रहा हूँ
00:08:48ट्रैक की तुलना में बहुत तेजी से। बहुत तेज। जैसे मैं इसमें से चिल्लाते हुए जा रहा हूँ। और हम भी
00:08:53एक तरह से बस वहाँ कोई अंतर नहीं है वास्तव में ट्रैक और खुद मैदान के बीच। और
00:09:00कुछ मामलों में, मैं लगभग, जैसा कि आपने वहाँ देखा, ट्रैक के माध्यम से जा सकता था, लेकिन वास्तव में नहीं।
00:09:09तो कार खुद भी Claude Code के अंदर देखे गए कार से कम विस्तृत है। मेरा मतलब है,
00:09:15तो एक ट्रैक है, इसमें टाइमर है। वास्तविक गेमप्ले के मामले में, यह जैसा है उसके लिए थोड़ा जंकी है, लगभग उतना सुचारू नहीं है।
00:09:23और फिर से, Opus के साथ लो-पॉली स्थिति की तरह। और इसलिए मैं देखना चाहूँगा कि यह क्या करता है यदि हम इसे वास्तव में
00:09:30कुछ ऐसा बनाने के लिए कहें जो बेहतर दिखे। और साथ ही यह ट्रैक खुद वास्तव में बहुत अधिक समझ में नहीं आता है। तो अब हम देख रहे हैं
00:09:36कि GPT 5.5 ने क्या बनाया है। इसे foundry circuit, the night shift time trial तीन लैप्स
00:09:40स्टीलवर्क के माध्यम से कहते हैं। तो पिछले दो में देखे गए सामान्य ट्रैक से कुछ अलग, मुझे लगता है।
00:09:44तो चलिए इसे शुरू करते हैं। और चलिए चलते हैं। खैर, मुझे वास्तव में नहीं पता कि मुझे कहाँ जाना है।
00:09:50ओह, मुझे लगता है यह ट्रैक है। पहिए थोड़े दिलचस्प लग रहे हैं। वे एक तरह से गलत दिशा में घूम रहे हैं।
00:09:54तो वह एक चीज है। ठीक है, इसमें काफी कष्टप्रद आवाजें हैं, वास्तव में।
00:10:04और मैं इस बात से आगे नहीं बढ़ सकता कि पहिए क्षैतिज रूप से घूम रहे हैं, या आप इसे कैसे भी वर्णित करेंगे।
00:10:10ट्रैक अपने आप में ठीक है, एक तरह से चल सकता है। हाँ, आप ट्रैक से आगे जा सकते हैं और यह आपको धीमा कर देता है। लेकिन यह ऐसा नहीं है
00:10:21स्पष्ट है कि यह एक पक्का ट्रैक है, जैसा कि हमने देखा कि Opus ने क्या बनाया था। और बाकी,
00:10:28आप जानते हैं, मैदान है। तो काफी अजीब ग्राफिक्स, ईमानदारी से। साथ ही, जब आप इस तथ्य पर विचार करते हैं कि
00:10:35Opus से दोगुना समय लेना थोड़ा अजीब है। हाँ, ईमानदारी से, काफी अजीब। फिर से,
00:10:41जैसे कि पहियों के साथ इसने ऐसा क्यों किया? मुझे कोई अंदाजा नहीं है। फिर से, लो-पॉली चीजों के लिए गया।
00:10:48और यह सिर्फ बहुत अंधेरा है, बिना किसी स्पष्ट कारण के। तो मेरा मतलब है, मुझे लगता है
00:10:55कि यह GLM 5.2 के साथ हमें जो मिला उससे अधिक कार्यात्मक है, लेकिन, इतना बेहतर नहीं है। और आप यह भी विचार करें कि
00:11:00यह 5.5 पर एक्स्ट्रा हाई पर था। अब 5.5 के लिए टोकन उपयोग के संदर्भ में,
00:11:06यह मोटे तौर पर उसी के बराबर आया जो हमने Claude Code के साथ देखा था। इसने अपनी पांच घंटे की विंडो का 7% उपयोग किया। तो लगभग कुछ नहीं।
00:11:12अब, समग्र रैंकिंग, मैंने Opus 4.8 को GLM 5.2 और 5.5 से स्पष्ट रूप से आगे रखा होता। मुझे लगा
00:11:17कि बाद वाले दो थोड़े जंकी थे, लेकिन हम उन्हें एक और मौका देने वाले हैं क्योंकि
00:11:22हम उनसे कोड पर एक और नजर डालने, दूसरा पास करने के लिए कहने वाले हैं। और हम यह भी चाहते हैं कि वे
00:11:28ग्राफिक्स के मामले में काफी बेहतर करें। मुझे लो-पॉली चीजें नहीं चाहिए। मैं चाहता हूँ कि यह
00:11:32ट्रिपल ए गेम की तरह दिखे या जितना संभव हो उतना उसके करीब। तो देखते हैं क्या होता है जब हम उन्हें
00:11:36प्रयास नंबर दो देते हैं। तो Opus और GLM ने अपना दूसरा पास पूरा किया और 5.5 वहाँ समाप्त कर रहा है। तो
00:11:40चलिए पहले Opus 4.8 पर एक नजर डालते हैं। तो तुरंत, हमें एक कार दिखाई देती है जो बेहतर है। यह कार के संबंध में एक बहुत बड़ा
00:11:46सुधार है जो हमने पहले देखा था। हमें बहुत अलग प्रकाश व्यवस्था भी दिखाई देती है।
00:11:50जैसे आप देख सकते हैं कि सूरज जमीन पर परावर्तित हो रहा है और सब कुछ अधिक सुचारू दिखता है। मेरा मतलब है,
00:11:58पेड़ खुद लो-पॉलीगन प्रकार के सौदे हैं, लेकिन प्रकाश और विशेष रूप से कार
00:12:04एक बड़ा कदम आगे हैं। और यह अभी भी उसी सुचारू गेमप्ले को बनाए रखता है। मेरा मतलब है, इस तथ्य के अलावा कि
00:12:10हमारे पास सड़क में पेड़ हैं, लेकिन पेड़ भी छायांकित हैं। और एक अतिरिक्त पास के लिए
00:12:15जिसमें 10 मिनट लगे और लगभग 50,000 टोकन, बुरा नहीं है। अब हम GLM को देखेंगे। और इस बिंदु पर,
00:12:20इस अपडेट को बनाने के लिए इसमें लगभग 1.2 या उससे अधिक मिलियन टोकन लगे, जिससे हमारा कुल खर्च $1.83 हो गया।
00:12:26तो चलिए इसे शुरू करते हैं। और ऐसा लगता है कि इसने किसी प्रकार की अलग प्रकाश व्यवस्था जोड़ने की कोशिश की। कार थोड़ी
00:12:32बेहतर दिखती है, लेकिन प्रकाश अपने आप में थोड़ा अजीब है। जैसे यह बहुत चमकदार है। ट्रैक
00:12:38में बहुत अधिक बदलाव नहीं आया है। आप जानते हैं, यह अभी भी बस हर जगह घास की तरह है। और नियंत्रण
00:12:46अभी भी बहुत जंपी हैं, है ना? जैसे मैं ट्रैक की तुलना में बहुत तेज गति से चल रहा हूँ। वही समस्या जो
00:12:52मुझे पहले हुई थी जहाँ कुछ ट्रैक के माध्यम से मैं जा सकता हूँ, कुछ में मैं नहीं जा सकता। तो मेरा मतलब है,
00:12:57कार के ग्राफिक्स बेहतर दिखते हैं, लेकिन मैं तर्क दूंगा कि प्रकाश और चमक बहुत विचलित करने वाली है।
00:13:04यह शायद पहले हमारे पास जो था उससे एक डाउनग्रेड है। और यहाँ 5.5 के साथ दूसरा पास है। अब
00:13:10कार थोड़ी बेहतर दिखती है, लेकिन बाकी सब कुछ देखते हुए, यह एक जैसा ही है। खैर,
00:13:15पहिए बेहतर हैं। हमने पहिया की समस्या को ठीक कर दिया है। वे वास्तव में वैसे घूम रहे हैं जैसे पहियों को घूमना चाहिए,
00:13:21लेकिन अभी भी कष्टप्रद आवाजें हैं। और फिर से रास्ता
00:13:29और घास के बीच कोई वास्तविक अंतर नहीं है। तो यह एक तरह से ऐसा लगता है जैसे इसने पहली बार किया था,
00:13:34थोड़ी बेहतर कार के साथ। लेकिन आप जानते हैं, जब हमने इसे ट्रिपल ए सौंदर्य के लिए जाने के लिए कहा, तो मैं यह नहीं कहूंगा कि यह
00:13:42निशान पर हिट हुआ। और फिर से, मुझे लगता है कि बड़ी तस्वीर। हम इन तीनों GM और 5.5 को देखते हैं, निश्चित रूप से Opus से एक कदम
00:13:49नीचे। अब हमारे अगले परीक्षण के लिए, हम इसे हमारे लिए एक वेबसाइट बनाने के लिए कहेंगे। और हम जो प्रॉम्प्ट उपयोग करने जा रहे हैं
00:13:55वह यह है। हम चाहते हैं कि यह एक उत्पाद के लिए एक नकली लैंडिंग पेज बनाए, जो AI संचालित
00:14:02स्मार्ट ग्लास है। मेटा रे-बैन जैसी किसी चीज के बारे में सोचें। फिर से, हम इन मॉडलों को पूरी आजादी दे रहे हैं
00:14:07स्टैक और डिजाइन के मामले में। हम इसे वह चुनने के लिए कह रहे हैं जो हमें सबसे अच्छा लगता है, इंस्टॉल करें जो हमें
00:14:12चाहिए और लैंडिंग पेज बनाने के लिए सर्वोत्तम प्रथाओं को देखें। हम इसे कह रहे हैं, हे, आगे बढ़ें और ढूंढें
00:14:16छवियां और उत्पाद शॉट्स। और केवल अपनी खुद की एचटीएमएल चीजें बनाने पर भरोसा न करें। और महत्वपूर्ण बात,
00:14:20हम कह रहे हैं, इसे एक पुरस्कार साइट की तरह बनाएं। हम नहीं चाहते कि यह AI कचरा जैसा दिखे। हम वास्तविक
00:14:25दृश्य पदानुक्रम, जानबूझकर टाइपोग्राफी, और गति चाहते हैं जहाँ यह समझ में आता है। तो स्मार्ट ग्लास के लिए लैंडिंग पेज,
00:14:31हम चाहते हैं कि यह पुरस्कार शैली का हो। तो देखते हैं कि वे क्या लेकर आते हैं। तो तीनों
00:14:35पूरा कर चुके हैं, संदर्भ के लिए, GLM ने इसे निष्पादित करने के लिए लगभग एक मिलियन टोकन का उपयोग किया जबकि Opus और 5.5
00:14:42ने लगभग एक सौ हजार का उपयोग किया। तो पहले हमारे पास वह है जो Opus ने हमारे लिए बनाया, बहुत गहरा बैकग्राउंड।
00:14:46इसमें एक तरह से ये चश्मा है जिसे इसने बनाया है, और टेक्स्ट यहाँ पर कट गया है, जो
00:14:53दुर्भाग्यपूर्ण है। जैसे हम नीचे स्क्रॉल करते हैं, यह भी एक तरह से अजीब तरह से रखा गया है क्योंकि हम स्क्रॉल टेक्स्ट को
00:14:58एक तरह से इसके ऊपर देख सकते हैं। लेकिन जैसे मैं माउस ले जाता हूँ, आप देख सकते हैं कि यह इधर-उधर घूमता है और रंग बदलता है,
00:15:04जो कि काफी अच्छा है। जैसे हम नीचे स्क्रॉल करते हैं, हमारे पास हर चीज के लिए कुछ स्क्रॉलिंग प्रकार के लोडिंग एनिमेशन हैं।
00:15:12लेकिन कुल मिलाकर, चश्मे के लिए यह ठीक दिखता है जो एचटीएमएल का उपयोग करता है।
00:15:18तो यह है कि, आप वास्तव में इससे क्या प्राप्त कर रहे हैं? इसने उपयोग करने के लिए कोई चश्मा भी नहीं ढूंढा।
00:15:24और इसमें है, आप जानते हैं, हे, यहाँ आप इसे कैसे आरक्षित कर सकते हैं और यहाँ आप इसे कैसे खरीद सकते हैं। तो
00:15:31यह ठीक है। फिर से, हमने इसे बहुत निर्देश नहीं दिए, लेकिन हमने इसे पुरस्कार प्रकार के लुक के लिए जाने के लिए कहा।
00:15:35मैं इसे उस स्तर पर नहीं मानूंगा। अब चलिए देखते हैं कि GLM ने हमारे लिए क्या बनाया।
00:15:41और मुझे वास्तव में नहीं पता कि यहाँ क्या चल रहा है। वास्तव में, यह एक तरह से मुश्किल से लोड हुआ है।
00:15:45यह हमें कुछ चश्मा दिखाता है, लेकिन यह वेबसाइट एक तरह से आपदा है। ऐसा लगता है जैसे इसने
00:15:51वास्तव में इसे पूरा भी नहीं किया। यह लगभग ऐसा है जैसे इसने इसे एक साथ फेंक दिया। हाँ। हाँ, प्रॉम्प्ट बहुत विस्तृत नहीं था,
00:15:59लेकिन इसे उससे अधिक करने में सक्षम होना चाहिए जो मैंने इसे दिया था। यह वास्तव में
00:16:04भयानक है। मुझे कोई अंदाजा नहीं है कि यह वास्तव में यहाँ क्या हासिल करने की कोशिश कर रहा था। और अंत में, हमारे पास GPT 5.5 है। तो
00:16:13यह थोड़ा दिलचस्प है। मुझे लगता है कि यह काफी अच्छा दिखता है, हालांकि चश्मा
00:16:19यहाँ टेक्स्ट के साथ थोड़ा ओवरलैप होता है। और हमारे पास बहुत खाली जगह है, जिसे आप तर्क दे सकते हैं कि यह
00:16:25डिजाइन का एक चुनाव है। और हमारे पास बैनर है जो वास्तव में चलता है, आपको याद होगा कि
00:16:30Opus संस्करण में एक बैनर था, लेकिन यह चल नहीं रहा था। और फिर जैसे हम नीचे स्क्रॉल करते हैं, आप यह भी देखेंगे कि
00:16:34कर्सर एक तरह से बहुरंगी है। और जैसे हम नीचे स्क्रॉल करते हैं, ऐसा लगता है कि इसने कुछ एचटीएमएल
00:16:39प्रकार की संपत्ति बनाई है। मेरा मतलब है, अजीब, है ना? हमने इसे बताया, हे, आप ऑनलाइन पा सकते हैं जो आप चाहते हैं
00:16:44अगर आप चाहते हैं। लेकिन कुल मिलाकर, तीनों में से शायद सबसे अच्छा। लेकिन, आप जानते हैं, मैं यह नहीं कहूंगा कि मैं इनमें से किसी से प्यार करता था,
00:16:50यह दिखाता है कि आपको कितना मजबूत हाथ रखने की आवश्यकता है जब आप किसी भी प्रकार का
00:16:55दृश्य डिजाइन या यूआई प्रकार की चीजें करते हैं, यहाँ तक कि ये सबसे उन्नत मॉडल भी संघर्ष करते हैं, मेरा मतलब है
00:17:04मुझे वास्तव में नहीं पता कि क्या चल रहा है। यह एक गड़बड़ है। तो कुल मिलाकर, Opus
00:17:09ठीक था। 5.5 समूह में सबसे अच्छा था और GLM पूरी तरह से विफलता की तरह था। और ठीक वैसे ही जैसे हमने
00:17:14गेमिंग संस्करण के साथ किया था, हम उन्हें इस पर एक दूसरा पास देने जा रहे हैं और देखेंगे कि क्या वे सफाई कर सकते हैं कि क्या
00:17:21गलत हुआ। और उसके ऊपर, हम उनसे एकीकृत करने के लिए कहने जा रहे हैं, फिर से, गेम की तरह जो हमने उन्हें
00:17:26बनाने के लिए कहा था, कुछ थ्री जेएस तत्व, जैसे हम वास्तव में देखना चाहते हैं कि यह अपनी क्षमताओं को कैसे
00:17:30मोशन और ग्राफिक्स और उस तरह की चीजों के साथ कैसे बढ़ा सकता है। और वह नया प्रॉम्प्ट ऐसा दिखता है कि स्मार्ट ग्लास लैंडिंग पेज लें
00:17:36जिसे आपने अभी-अभी बनाया है और इसे थ्री जेएस का उपयोग करके एक इमर्सिव 3डी अनुभव के रूप में पुनर्निर्माण करें।
00:17:42तो हम एक वास्तविक इंटरैक्टिव 3डी दृश्य चाहते हैं। और फिर से, हम इसे पूरी आजादी दे रहे हैं
00:17:46इसे निष्पादित करने के लिए जैसा यह उचित समझता है। और तो यहाँ Opus 4.8 के साथ हमें जो मिला वह है। आप अब देख सकते हैं कि इसने
00:17:51कुछ थ्री जेएस जोड़ा, ये चश्मा एक तरह से हिलते हैं। लेकिन उसके अलावा, हमारे पास कुछ मूल समस्याएं हैं,
00:17:56है ना, टेक्स्ट कटा हुआ है, यह यहाँ ओवरराइट किया जा रहा है। और बाकी यह सब बस एक तरह से है,
00:18:02यार, जैसे यह स्पष्ट है कि AI ने इसे बनाया है। ओ, नोट के अंत में, जैसे टोकन लागत
00:18:08दूसरे रन पर सभी के लिए पहले रन के बराबर थी। अगला,
00:18:13हमारे पास GLM 5.2 है। और इस बार इसने वास्तव में एक वेबसाइट बनाई जो समझ में आती है। हमारे पास ये चश्मा हैं,
00:18:21हालाँकि इसने जो चश्मा बनाया है वह अजीब है, जैसे आपके पास केवल,
00:18:27कोई भी चश्मा ऐसा नहीं दिखेगा और टेक्स्ट भी यहाँ कट गया है। लेकिन हमारे पास एक बैनर है
00:18:32जो स्क्रॉल करता है जब मैं इसके ऊपर स्क्रॉल करता हूँ, यह रुक जाता है। और मैं समग्र रूप से कहूँगा, मामले में
00:18:36कि इसने वेबसाइट को कैसे लेआउट किया, मैं शायद इसे Opus पर बढ़त दूंगा। अब, मुझे नहीं लगता
00:18:42कि उनमें से कोई भी विशेष रूप से अच्छा है। और हमने उन्हें जो कुछ भी वे चाहते हैं उसे करने की पूरी छूट दी। लेकिन
00:18:48मैं इसे इस सेटअप पर रखूँगा। हालाँकि हीरो सेक्शन के मामले में,
00:18:55मुझे Opus 4.8 बेहतर पसंद है। अब, GPT 5.5, मुझे लगता है यहाँ विजेता है। मुझे लगता है कि यह सिर्फ
00:18:59बेहतर दिखता है समग्र रूप से एक व्यक्तिपरक डिजाइन के दृष्टिकोण से। और मुझे लगता है कि थ्री जेएस गति ग्राफिक्स
00:19:05जो इसने यहाँ जोड़ी है, काफी अच्छी है। मुझे लगता है कि यह जो इसने बनाया उसके संदर्भ में समझ में आता है। जैसे हमारे पास
00:19:10ऊपर यह सब खाली जगह है और चश्मा एक तरह से, आप जानते हैं, वहाँ रहने में सक्षम हैं। और जहाँ तक
00:19:18बाकी वेबसाइट की बात है, मुझे लगता है यह ठीक दिखता है। फिर से, यह अभी भी बहुत, उद्धरण चिह्नों में,
00:19:22AI कचरा दिखता है इस अर्थ में कि AI ने निश्चित रूप से इसे बनाया है, लेकिन यह बुरा नहीं दिखता है। और ऊपर
00:19:27से नीचे तक, मैं 5.5 को बाकियों से बेहतर पसंद करता हूँ। और तो जब हम देखते हैं
00:19:32यह पूरी चीज, इन अधिक परिष्कृत बेंचमार्क को लाते हुए, जैसे डीप स्वीट आज जो हमने किया उसके साथ,
00:19:37मुझे लगता है कि यह कुछ ऐसा है जिसकी हमें उम्मीद थी। मुझे नहीं लगता कि GLM ने बहुत खराब प्रदर्शन किया
00:19:42किसी भी शब्द के अर्थ में, लेकिन निश्चित रूप से ऐसा महसूस हुआ कि यह GPT 5.5 या 4.8 से एक कदम नीचे था या
00:19:48ऐसे परिदृश्यों में जहाँ, आप जानते हैं, पहले खंड में जहाँ Opus उन सभी से बेहतर था। और में
00:19:56दूसरे खंड में जहाँ GPT उन सभी से बेहतर था, GLM हमेशा नीचे के करीब था। यह नहीं था
00:20:03उनमें से किसी से भी काफी खराब, लेकिन यह निश्चित रूप से बेहतर नहीं था। और इसने अनंत रूप से अधिक टोकन का उपयोग भी किया।
00:20:07और इसलिए जब हम इस तरह की किसी चीज को देखते हैं, डीप स्वीट स्कोर, जहाँ यह है, हे,
00:20:12GLM एक तरह से नीचे है और वास्तव में 5.5 और 4.8 से कम कुशल है, लागत और यह कितनी अच्छी तरह काम करता है, दोनों के संदर्भ में।
00:20:17यह समझ में आता है। मुझे लगता है कि यह वही है जो हम देखते हैं। तो बड़ा
00:20:21चित्र, क्या GLM एक महान ओपन सोर्स मॉडल है? निश्चित रूप से। लेकिन क्या यह कुछ समस्याओं में चला जाता है जो ओपन सोर्स
00:20:27मॉडलों में सामान्य रूप से होती हैं, अर्थात्, वे उतने शक्तिशाली नहीं होते? हाँ। और इसके अलावा, यदि आप कोई हैं जो
00:20:35ओपन सोर्स मैक्सिंग कर रहे हैं, समझें कि यह कुछ ऐसा नहीं है जिसे आप अपने पीसी पर चलाएंगे, है ना? यह
00:20:41उपयोग करने के लिए बहुत सारे हार्डवेयर की आवश्यकता होती है। और मुझे लगता है कि जो बातचीत में खो जाता है वह वही है जिसके बारे में हमने बात की
00:20:47शुरुआत में, जो है, ठीक है, लागत पहले से ही GLM 5.2 के लिए एक समस्या है। फिर भी यह
00:20:52उस बड़ी सब्सिडी को ध्यान में नहीं रखता जो आपको या तो एंथ्रोपिक मैक्स प्लान या ओपनएआई
00:20:57मैक्स प्लान पर मिलती है। तो आप इसे ध्यान में रखें और, ठीक है, जैसे बहस ही नहीं है।
00:21:05और यह तो उस भारी सब्सिडी को भी शामिल नहीं करता जो आपको एंथ्रोपिक मैक्स प्लान या ओपनएआई मैक्स प्लान पर मिलती है।
00:21:12वास्तव में नहीं। मुझे लगता है शायद यदि आप निचले स्तर के कार्य कर रहे हैं और आप कोई ऐसे व्यक्ति हैं जो
00:21:16इसे केवल API कीमतों पर तुलना कर रहे हैं, शायद, शायद। लेकिन यह, आप
00:21:24जानते हैं, मुझे लगता है कि यह तर्क देना कठिन है क्योंकि तब हम क्या कर रहे हैं जब अगला, जब,
00:21:29आप जानते हैं, Sonnet 5 अगले हफ्ते आता है? जैसे, क्या आप बस वहाँ से वहाँ कूदने जा रहे हैं? जैसे, बस
00:21:38मॉडल के साथ टिके रहने के बारे में कुछ कहा जा सकता है, खासकर जब हम अधिक उद्यम टीम स्तर की चीजों के बारे में बात कर रहे हैं,
00:21:42जहाँ API लागत वास्तव में जुड़ने लगती है। क्योंकि फिर से, औसत एकल उपयोगकर्ता के लिए जो
00:21:46सब्सिडी वाले प्लान में से एक का उपयोग करेगा और सीधे API लागत का भुगतान नहीं कर रहा है, मुझे
00:21:50GLM 5.2 के लिए कोई तर्क नहीं दिखता। तो यही वह जगह है जहाँ मैं आज आप लोगों को छोड़ने जा रहा हूँ। उम्मीद है कि मैंने इस
00:21:55पूरी GLM बहस और उन सभी चर्चाओं पर कुछ प्रकाश डाला जो इसके बारे में आ रही हैं। हमेशा की तरह, मुझे बताएं कि आप
00:22:01कमेंट में क्या सोचते हैं। यदि आप Cloud Code Masterclass पर अपना हाथ प्राप्त करना चाहते हैं तो Chase AI Plus को देखना सुनिश्चित करें,
00:22:05और मैं आपको आसपास देखूँगा।
00:22:09कमेंट्स में मुझे जरूर बताएं कि आपको क्या लगा। अगर आप
00:22:13Cloud Code Masterclass पाना चाहते हैं, तो Chase AI Plus देखें, और आपसे फिर मुलाकात होगी।

Key Takeaway

यद्यपि GLM 5.2 एक शक्तिशाली ओपन सोर्स मॉडल है, लेकिन वास्तविक दुनिया के कार्यों और लागत-दक्षता के मामले में यह Opus 4.8 और GPT 5.5 जैसे फ्रंटियर मॉडलों से पीछे है।

Highlights

  • DeepSuite बेंचमार्क के अनुसार, लंबे समय तक चलने वाले एजेंटिक कार्यों में Opus 4.8 और GPT 5.5 ने GLM 5.2 को पछाड़ दिया है।

  • GLM 5.2 का परीक्षण करने में 1.35 मिलियन टोकन लगे, जबकि इसी कार्य के लिए Claude Code ने लगभग 100,000 टोकन का उपयोग किया।

  • प्रति कार्य लागत में GLM 5.2 $3.92 पर 44% स्कोर देता है, जबकि GPT 5.5 $2.75 पर 54% प्रदर्शन करता है।

  • GLM 5.2 को चलाने के लिए बड़े हार्डवेयर संसाधनों की आवश्यकता होती है, इसे सामान्य पर्सनल कंप्यूटर पर नहीं चलाया जा सकता।

  • 3D रेसिंग गेम और स्मार्ट ग्लास लैंडिंग पेज बनाने के परीक्षणों में, दृश्य डिजाइन और कार्यक्षमता के मामले में GPT 5.5 और Opus 4.8 बेहतर रहे।

Timeline

बेंचमार्क विश्लेषण और लागत तुलना

  • DeepSuite बेंचमार्क के अनुसार Opus 4.8 और GPT 5.5 का प्रदर्शन GLM 5.2 से बेहतर है।
  • GLM 5.2 का उपयोग करने के लिए 1 ट्रिलियन पैरामीटर का हार्डवेयर चाहिए, जो इसे सामान्य उपयोगकर्ता के PC के लिए अनुपयुक्त बनाता है।
  • सस्ती API कीमतों के बावजूद, मॉडल की दक्षता और कार्य पूरा करने की दर में GPT और Opus अधिक बेहतर हैं।

यह खंड बताता है कि कैसे बेंचमार्क पर GLM 5.2 के आंकड़े भ्रामक हो सकते हैं। मॉडल की लागत प्रति कार्य के बजाय प्रति टोकन के आधार पर मापी गई है, जहाँ फ्रंटियर मॉडल अपनी उच्च कार्यक्षमता के कारण कम टोकन खर्च करते हैं। इसके अलावा, स्पष्ट किया गया है कि ओपन सोर्स होने के बावजूद इसे स्थानीय स्तर पर नहीं चलाया जा सकता।

3D गेम निर्माण परीक्षण

  • Opus 4.8 ने सबसे सुचारू गेमप्ले और बेहतर लो-पॉली ग्राफिक्स प्रदान किए।
  • GLM 5.2 ने गेम निर्माण में 1 मिलियन से अधिक टोकन खर्च किए, जो कि Claude Code की तुलना में 10 गुना अधिक था।
  • तीनों मॉडलों के प्रारंभिक प्रयासों में भौतिकी (physics) और दृश्य गुणवत्ता के साथ समस्याएँ थीं।

एक अस्पष्ट प्रॉम्प्ट का उपयोग करके 3D रेसिंग गेम बनाने के लिए तीनों मॉडलों को निर्देश दिए गए। परिणामी गेम का विश्लेषण भौतिकी, दृश्य स्पष्टता और टोकन खपत के आधार पर किया गया। फ्रंटियर मॉडलों ने कम संसाधनों में अधिक स्थिर परिणाम दिए, जबकि GLM 5.2 का प्रदर्शन अस्थिर रहा।

वेबसाइट लैंडिंग पेज परीक्षण

  • स्मार्ट ग्लास के लिए लैंडिंग पेज बनाने में GPT 5.5 ने सबसे संतुलित और बेहतर डिजाइन पेश किया।
  • GLM 5.2 द्वारा बनाई गई वेबसाइट शुरुआती परीक्षण में पूरी तरह विफल रही और बाद के सुधार के बाद भी औसत रही।
  • उपयोगकर्ता के लिए सीधे API भुगतान के बजाय सब्सिडी वाले प्लान का उपयोग करना अधिक किफायती है।

वेबसाइट निर्माण परीक्षण में मॉडलों की दृश्य पदानुक्रम और इंटरैक्टिव तत्वों को संभालने की क्षमता परखी गई। GPT 5.5 ने 3D तत्वों और डिजाइन में श्रेष्ठता दिखाई, जबकि GLM 5.2 को दृश्य डिजाइन में बार-बार विफल होते देखा गया। निष्कर्ष यह है कि सामान्य उपयोगकर्ताओं के लिए वर्तमान फ्रंटियर मॉडल ही बेहतर विकल्प हैं।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video