00:00:00ZAI के लड़कों ने अभी GLM 4.7 लॉन्च किया है,
00:00:02और $29 सालाना में,
00:00:04यह एक ऐसे मॉडल के लिए अविश्वसनीय रूप से सस्ता है जो SWE bench पर 73% हासिल करने का दावा करता है,
00:00:10जो Sonnet 4.5 के बराबर है।
00:00:11यह टाइमिंग बिना कारण नहीं है। वे सार्वजनिक हो रहे हैं और पश्चिमी बाजार में अपनी उपस्थिति दिखानी चाहते हैं।
00:00:15उन्होंने Reddit पर एक लाइव Q&A भी किया,
00:00:17जो मैंने किसी चीनी AI लैब को करते हुए कभी नहीं देखा।
00:00:19लेकिन 4.6 में असली समस्याएं थीं। क्या 4.7 वाकई ठीक है?
00:00:23सभी को नमस्ते,
00:00:23अगर आप यहाँ नए हैं,
00:00:24तो यह AI Labs है,
00:00:25और आपका स्वागत है Debunked के एक और एपिसोड में,
00:00:27एक सीरीज़ जहाँ हम AI टूल्स और AI मॉडल लेते हैं,
00:00:29मार्केटिंग हाइप को हटाते हैं,
00:00:31और दिखाते हैं कि वे असली टेस्टिंग और ईमानदार परिणामों के साथ वास्तव में क्या कर सकते हैं।
00:00:35नया मॉडल मुख्यतः पोस्ट-ट्रेनिंग के माध्यम से सुधारा गया है,
00:00:38आर्किटेक्चर में बदलाव नहीं।
00:00:40यह Claude कोड के लिए भारी रूप से अनुकूलित है,
00:00:42और ZAI टीम ने स्पष्ट रूप से कहा कि यह उनका प्राथमिकता ढांचा है।
00:00:46फिलहाल,
00:00:46यह बहुत सारे शीर्ष स्तर के मॉडल को मात दे रहा है,
00:00:49जिसमें GPT-5 भी शामिल है,
00:00:50विशेषकर कोडिंग बेंचमार्क में।
00:00:52उनकी सभी कोडिंग योजनाओं में,
00:00:53एक अतिरिक्त चीज़ जो वे जोड़ी हैं वह ये नई MCP टूल्स हैं,
00:00:57जो सीधे एकीकृत नहीं हैं।
00:00:58ये अलग MCP सर्वर हैं। उन्होंने अभी तीन सूचीबद्ध किए हैं।
00:01:02और इन सभी को काम करने के लिए,
00:01:03आपको बस एक API कुंजी चाहिए। इसीलिए ये योजना के साथ शामिल हैं,
00:01:06लेकिन मॉडल से अलग।
00:01:07उपयोग की सीमाओं के बारे में, वे बस 4.6 जैसी ही हैं।
00:01:11लेकिन अगर आप नहीं जानते कि पहले क्या थे,
00:01:13तो मैंने वास्तव में इस पर एक रिपोर्ट तैयार की।
00:01:15मजेदार बात यह है कि मैंने पहले इसे Gemini 3 से बनाने की कोशिश की,
00:01:19और किसी कारण से यह योजनाओं की सही तुलना नहीं दे सका।
00:01:22मैं फिर से Claude के पास गया,
00:01:23और इसने इसे अच्छी तरह से खोज निकाला।
00:01:24मूल रूप से,
00:01:24आपको जो जानना है वह यह है कि एंट्री-लेवल प्लान के लिए,
00:01:27आपको Claude कोड में 10 से 40 प्रॉम्प्ट मिलते हैं,
00:01:30जबकि GLM कोडिंग में,
00:01:31आप सिर्फ $3 में 120 प्रॉम्प्ट पा रहे हैं,
00:01:33जो एक बहुत बड़ा अंतर है।
00:01:34यह केवल तब बढ़ता है जब आप उच्च स्तर में जाते हैं,
00:01:37जहाँ $200 की योजना आपको Claude में 5 घंटे की विंडो में 800 प्रॉम्प्ट तक ले जाती है,
00:01:43जबकि $30 आपको 2,
00:01:44400 देता है।
00:01:44ये सभी दरें पहले महीने के लिए छूट दी जाती हैं,
00:01:46फिर वे दोगुनी हो जाती हैं।
00:01:48लेकिन अगर आप वार्षिक योजना पर हैं, तो यह बहुत अधिक सस्ती है।
00:01:50एक और महत्वपूर्ण बेंचमार्क मानवता की अंतिम परीक्षा थी।
00:01:53जिन लोगों को यह नहीं पता,
00:01:54इसके लिए,
00:01:55यह उन असंतृप्त बेंचमार्कों में से एक है,
00:01:56और अधिकांश नए मॉडल इस पर अभी भी कम स्कोर करते हैं क्योंकि यह वास्तव में कठिन है।
00:02:00UI को वास्तव में टेस्ट करने के लिए,
00:02:02हमारे पास यह प्रॉम्प्ट है,
00:02:03जो आर्किटेक्चर पर वास्तव में ध्यान केंद्रित नहीं करता।
00:02:05यह मुख्य रूप से डिज़ाइन लॉजिक पर केंद्रित है जो मॉडल को लागू करना माना जाता है,
00:02:09साथ ही कुछ डिज़ाइन विकल्प भी प्रदान करता है।
00:02:11हम तब देख सकते हैं,
00:02:12उस कंपनी के आधार पर जो मैं प्रस्ताव दे रहा हूँ,
00:02:14जो इस मामले में एक AI-संचालित कोड समीक्षा प्लेटफॉर्म है,
00:02:17यह क्या बनाता है।
00:02:18हम MAX योजना की भी सदस्यता लेते हैं,
00:02:20और Claude कोड के साथ इसे जोड़ने के दो तरीके हैं।
00:02:22दोनों ही मामलों में,
00:02:23आप settings.json को बदलते हैं,
00:02:25लेकिन एक आपकी प्रोजेक्ट के रूट में स्थित है,
00:02:27जो वैश्विक सेटिंग्स को बदलता है।
00:02:29अगर आप इसे अपनी प्रोजेक्ट के अंदर करते हैं,
00:02:31तो यह केवल उस प्रोजेक्ट के लिए इसे बदल देता है।
00:02:33हमने ऐसा किया ताकि हम इसे Sonnet 4.5 के साथ तुलना कर सकें।
00:02:36यह Sonnet 4.5 के साथ आया।
00:02:38प्रॉम्प्ट वास्तव में बहुत अच्छा है,
00:02:40और हम इसे यह पहचानने के लिए उपयोग कर रहे हैं कि ये मॉडल UI कैसे बनाते हैं और वह करने में कितने रचनात्मक हैं।
00:02:45यह साधारण vanilla JS है,
00:02:46इसलिए हम अभी आर्किटेक्चर नहीं देख रहे हैं,
00:02:49बस डिज़ाइन।
00:02:49यह GLM 4.7 के साथ आया।
00:02:52डिज़ाइन के संदर्भ में,
00:02:53यह बहुत अच्छा है,
00:02:53लेकिन इसने यहाँ एक त्रुटि की जहाँ इसने वास्तव में लंबाई के लिए नहीं सोचा,
00:02:57इसीलिए artifacts थोड़ा टूट रहे हैं।
00:02:59उसके अलावा,
00:02:59डिज़ाइन मजबूत है,
00:03:00लेकिन मुझे ये emoji बिल्कुल पसंद नहीं हैं।
00:03:02Sonnet ने कोई emoji का उपयोग नहीं किया,
00:03:04जो अच्छा है और डिज़ाइन भाषा से मेल खाता है।
00:03:06उन दोनों को वास्तव में टेस्ट करने के लिए,
00:03:09मेरे पास यह पूर्व-निर्मित Next.js प्रोजेक्ट है,
00:03:11जिसके पास यह संदर्भ आरंभीकृत है कि इसे एक स्केलेबल और बैकएंड-तैयार UI बनाना है।
00:03:15यह हिस्सा महत्वपूर्ण है क्योंकि,
00:03:17जैसा कि मैं GLM के बेहतर प्रदर्शन के कारणों का मूल्यांकन करने जा रहा हूँ,
00:03:21यह इस बिंदु पर वापस आने वाला है।
00:03:22Framer Motion और ShadCN घटकों को पहले से ही UI बनाने के लिए स्थापित किया गया है।
00:03:27दोनों को Netflix जैसे स्ट्रीमिंग प्लेटफॉर्म के लिए मुख्य ब्राउज़र पृष्ठ बनाने के लिए कहा गया है।
00:03:32उन्हें निर्दिष्ट किया गया है कि वास्तव में क्या बनाना है और पृष्ठ पर क्या होना चाहिए।
00:03:35अगर आप Claude कोड के साथ GLM मॉडल की उपयोगिता के बारे में बात कर रहे हैं,
00:03:40तो GLM 4.6 की एक समस्या यह थी कि यह कोड जनरेशन में अत्यंत धीमा था।
00:03:43यहाँ,
00:03:44वह समस्या,
00:03:45मेरे अनुभव में,
00:03:45हल नहीं की गई है। यह अभी भी अत्यंत धीमा है।
00:03:48लेकिन एक बदलाव है। GLM 4.6 के साथ,
00:03:50मॉडल वास्तव में नहीं सोचता था,
00:03:52मतलब यह Claude कोड के अंदर नहीं सोचता था।
00:03:54विस्तृत प्रतिलेख जो आप यहाँ पाते हैं,
00:03:56स्पष्ट रूप से सोचना दिखाता है,
00:03:57लेकिन वह 4.6 में दिखाई नहीं दे रहा था।
00:03:59आप स्पष्ट रूप से देख सकते हैं कि यह 4.7 मॉडल के साथ सोचता है,
00:04:02इसलिए वह ठीक हो गया है।
00:04:04उसके अलावा,
00:04:04कुछ विचित्रताएं हैं जो आपको जानने की जरूरत है। GLM 4.7 बहुत स्वायत्त नहीं है।
00:04:09मैंने इसे अपनी परीक्षा के दौरान पाया। जैसा कि आप यहाँ देख सकते हैं,
00:04:12इस GLM फ़ोल्डर में पहले से ही एक UI बेंचमार्क फ़ोल्डर है जिसमें इसे ऐप लागू करना है,
00:04:16लेकिन इसने इसे अनदेखा करने का चुनाव किया।
00:04:18हालांकि यह स्पष्ट रूप से संदर्भ में लिखा हुआ था,
00:04:20यह आगे बढ़ा और अपने आप पर एक और Next.js ऐप बना दिया।
00:04:22इसने इसे शुरू भी नहीं किया,
00:04:24यह बस कोड लिखने लगा। कभी-कभी यह वास्तव में बेवकूफ़ी भरा काम करता है।
00:04:27लेकिन मैंने इसे ठीक किया और इसे सही दिशा में निर्देशित किया,
00:04:30कार्यान्वयन के संदर्भ में,
00:04:31यह Claude ने बनाया।
00:04:32फिर से, उच्च मॉडल होने के नाते, यह UI में बहुत अच्छा है।
00:04:35यह GLM 4.7 ने बनाया। Claude ने स्पष्ट रूप से एक बेहतर UI बनाया क्योंकि,
00:04:39हमारी राय में,
00:04:40यह डिज़ाइन में अभी भी बेहतर है।
00:04:42कीमत के लिए,
00:04:43वह ठीक है। लेकिन मैंने कोड को देखा और इसमें खोदा,
00:04:45क्योंकि उन्हें बताया गया था कि यह वापस और तैयार होना चाहिए और कि अभी के लिए उन्हें mock data का उपयोग करने की आवश्यकता है,
00:04:52GLM मॉडल ने सभी mock data को एक फ़ाइल में रखकर एक बेहतर architecture लागू किया।
00:04:56फिर जब हमें इसे बदलने की आवश्यकता हो,
00:04:58हमें बस उस फ़ाइल को बदलना होगा क्योंकि imports वहाँ जुड़े हैं,
00:05:01जबकि Claude ने जो लागू किया है उसके विपरीत जहाँ हर दूसरे घटक के अपने import हैं।
00:05:05जब हम वास्तव में backend लागू करते हैं,
00:05:07तो हमें उन सभी फ़ाइलों को एक-एक करके बदलना होगा।
00:05:09बुनियादी architecture और कोड गुणवत्ता के संदर्भ में,
00:05:12GLM वास्तव में अच्छी तरह से काम किया,
00:05:13और इसने मुझे आश्चर्यचकित किया क्योंकि 4.6 मेरी परीक्षा में इतना अच्छा नहीं था।
00:05:17पिछली योजना वास्तव में मैंने इसे कितना निर्देशित किया और कितनी गलतियां कीं,
00:05:20इससे सही न्याय नहीं किया गया,
00:05:22लेकिन यह निश्चित रूप से एक बहुत बड़ी छलांग है।
00:05:24ये बेंचमार्क निश्चित रूप से मैंने की गई परीक्षा से सही साबित होते हैं।
00:05:27मैंने कोड में कुछ और छोटी चीज़ों को भी देखा है,
00:05:30और GLM 4.7 वास्तव में एक अच्छा मॉडल है।
00:05:32इन अप्रत्याशित परिणामों को देखते हुए,
00:05:35हम सभी को $29 प्रति वर्ष योजना लेने की सिफारिश कर रहे हैं।
00:05:38अगर आपके पास पहले से ही $20 की Claude योजना है,
00:05:41तो यह तुलना में बस कुछ भी नहीं है।
00:05:42कहा जा रहा है,
00:05:43यह अभी भी एक ऐसा मॉडल नहीं है जिसका आप पूरी तरह स्वायत्त कोडिंग के लिए उपयोग करेंगे।
00:05:46भले ही Claude ने architecture को बहुत गड़बड़ा दिया है,
00:05:49यह काफी अच्छा है कि बाद में इसे ठीक और सुधार सकता है।
00:05:52लेकिन GLM के छोटे quirks के साथ,
00:05:53हम नहीं सोचते कि इसी पर पूरी तरह निर्भर रहना एक अच्छा विचार है।
00:05:57यह हमें इस वीडियो के अंत तक ले जाता है।
00:05:58अगर आप चैनल को सपोर्ट करना चाहते हैं और हमें इस तरह के वीडियो बनाने में मदद करना चाहते हैं,
00:06:02तो आप नीचे super thanks बटन का उपयोग करके ऐसा कर सकते हैं।
00:06:05हमेशा की तरह,
00:06:06देखने के लिए धन्यवाद और मैं अगले एक में आपको देखूँगा।