GLM 4.7 सॉफ्टवेयर डेवलपमेंट के लिए INSANE है...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00ZAI के लड़कों ने अभी GLM 4.7 लॉन्च किया है,
00:00:02और $29 सालाना में,
00:00:04यह एक ऐसे मॉडल के लिए अविश्वसनीय रूप से सस्ता है जो SWE bench पर 73% हासिल करने का दावा करता है,
00:00:10जो Sonnet 4.5 के बराबर है।
00:00:11यह टाइमिंग बिना कारण नहीं है। वे सार्वजनिक हो रहे हैं और पश्चिमी बाजार में अपनी उपस्थिति दिखानी चाहते हैं।
00:00:15उन्होंने Reddit पर एक लाइव Q&A भी किया,
00:00:17जो मैंने किसी चीनी AI लैब को करते हुए कभी नहीं देखा।
00:00:19लेकिन 4.6 में असली समस्याएं थीं। क्या 4.7 वाकई ठीक है?
00:00:23सभी को नमस्ते,
00:00:23अगर आप यहाँ नए हैं,
00:00:24तो यह AI Labs है,
00:00:25और आपका स्वागत है Debunked के एक और एपिसोड में,
00:00:27एक सीरीज़ जहाँ हम AI टूल्स और AI मॉडल लेते हैं,
00:00:29मार्केटिंग हाइप को हटाते हैं,
00:00:31और दिखाते हैं कि वे असली टेस्टिंग और ईमानदार परिणामों के साथ वास्तव में क्या कर सकते हैं।
00:00:35नया मॉडल मुख्यतः पोस्ट-ट्रेनिंग के माध्यम से सुधारा गया है,
00:00:38आर्किटेक्चर में बदलाव नहीं।
00:00:40यह Claude कोड के लिए भारी रूप से अनुकूलित है,
00:00:42और ZAI टीम ने स्पष्ट रूप से कहा कि यह उनका प्राथमिकता ढांचा है।
00:00:46फिलहाल,
00:00:46यह बहुत सारे शीर्ष स्तर के मॉडल को मात दे रहा है,
00:00:49जिसमें GPT-5 भी शामिल है,
00:00:50विशेषकर कोडिंग बेंचमार्क में।
00:00:52उनकी सभी कोडिंग योजनाओं में,
00:00:53एक अतिरिक्त चीज़ जो वे जोड़ी हैं वह ये नई MCP टूल्स हैं,
00:00:57जो सीधे एकीकृत नहीं हैं।
00:00:58ये अलग MCP सर्वर हैं। उन्होंने अभी तीन सूचीबद्ध किए हैं।
00:01:02और इन सभी को काम करने के लिए,
00:01:03आपको बस एक API कुंजी चाहिए। इसीलिए ये योजना के साथ शामिल हैं,
00:01:06लेकिन मॉडल से अलग।
00:01:07उपयोग की सीमाओं के बारे में, वे बस 4.6 जैसी ही हैं।
00:01:11लेकिन अगर आप नहीं जानते कि पहले क्या थे,
00:01:13तो मैंने वास्तव में इस पर एक रिपोर्ट तैयार की।
00:01:15मजेदार बात यह है कि मैंने पहले इसे Gemini 3 से बनाने की कोशिश की,
00:01:19और किसी कारण से यह योजनाओं की सही तुलना नहीं दे सका।
00:01:22मैं फिर से Claude के पास गया,
00:01:23और इसने इसे अच्छी तरह से खोज निकाला।
00:01:24मूल रूप से,
00:01:24आपको जो जानना है वह यह है कि एंट्री-लेवल प्लान के लिए,
00:01:27आपको Claude कोड में 10 से 40 प्रॉम्प्ट मिलते हैं,
00:01:30जबकि GLM कोडिंग में,
00:01:31आप सिर्फ $3 में 120 प्रॉम्प्ट पा रहे हैं,
00:01:33जो एक बहुत बड़ा अंतर है।
00:01:34यह केवल तब बढ़ता है जब आप उच्च स्तर में जाते हैं,
00:01:37जहाँ $200 की योजना आपको Claude में 5 घंटे की विंडो में 800 प्रॉम्प्ट तक ले जाती है,
00:01:43जबकि $30 आपको 2,
00:01:44400 देता है।
00:01:44ये सभी दरें पहले महीने के लिए छूट दी जाती हैं,
00:01:46फिर वे दोगुनी हो जाती हैं।
00:01:48लेकिन अगर आप वार्षिक योजना पर हैं, तो यह बहुत अधिक सस्ती है।
00:01:50एक और महत्वपूर्ण बेंचमार्क मानवता की अंतिम परीक्षा थी।
00:01:53जिन लोगों को यह नहीं पता,
00:01:54इसके लिए,
00:01:55यह उन असंतृप्त बेंचमार्कों में से एक है,
00:01:56और अधिकांश नए मॉडल इस पर अभी भी कम स्कोर करते हैं क्योंकि यह वास्तव में कठिन है।
00:02:00UI को वास्तव में टेस्ट करने के लिए,
00:02:02हमारे पास यह प्रॉम्प्ट है,
00:02:03जो आर्किटेक्चर पर वास्तव में ध्यान केंद्रित नहीं करता।
00:02:05यह मुख्य रूप से डिज़ाइन लॉजिक पर केंद्रित है जो मॉडल को लागू करना माना जाता है,
00:02:09साथ ही कुछ डिज़ाइन विकल्प भी प्रदान करता है।
00:02:11हम तब देख सकते हैं,
00:02:12उस कंपनी के आधार पर जो मैं प्रस्ताव दे रहा हूँ,
00:02:14जो इस मामले में एक AI-संचालित कोड समीक्षा प्लेटफॉर्म है,
00:02:17यह क्या बनाता है।
00:02:18हम MAX योजना की भी सदस्यता लेते हैं,
00:02:20और Claude कोड के साथ इसे जोड़ने के दो तरीके हैं।
00:02:22दोनों ही मामलों में,
00:02:23आप settings.json को बदलते हैं,
00:02:25लेकिन एक आपकी प्रोजेक्ट के रूट में स्थित है,
00:02:27जो वैश्विक सेटिंग्स को बदलता है।
00:02:29अगर आप इसे अपनी प्रोजेक्ट के अंदर करते हैं,
00:02:31तो यह केवल उस प्रोजेक्ट के लिए इसे बदल देता है।
00:02:33हमने ऐसा किया ताकि हम इसे Sonnet 4.5 के साथ तुलना कर सकें।
00:02:36यह Sonnet 4.5 के साथ आया।
00:02:38प्रॉम्प्ट वास्तव में बहुत अच्छा है,
00:02:40और हम इसे यह पहचानने के लिए उपयोग कर रहे हैं कि ये मॉडल UI कैसे बनाते हैं और वह करने में कितने रचनात्मक हैं।
00:02:45यह साधारण vanilla JS है,
00:02:46इसलिए हम अभी आर्किटेक्चर नहीं देख रहे हैं,
00:02:49बस डिज़ाइन।
00:02:49यह GLM 4.7 के साथ आया।
00:02:52डिज़ाइन के संदर्भ में,
00:02:53यह बहुत अच्छा है,
00:02:53लेकिन इसने यहाँ एक त्रुटि की जहाँ इसने वास्तव में लंबाई के लिए नहीं सोचा,
00:02:57इसीलिए artifacts थोड़ा टूट रहे हैं।
00:02:59उसके अलावा,
00:02:59डिज़ाइन मजबूत है,
00:03:00लेकिन मुझे ये emoji बिल्कुल पसंद नहीं हैं।
00:03:02Sonnet ने कोई emoji का उपयोग नहीं किया,
00:03:04जो अच्छा है और डिज़ाइन भाषा से मेल खाता है।
00:03:06उन दोनों को वास्तव में टेस्ट करने के लिए,
00:03:09मेरे पास यह पूर्व-निर्मित Next.js प्रोजेक्ट है,
00:03:11जिसके पास यह संदर्भ आरंभीकृत है कि इसे एक स्केलेबल और बैकएंड-तैयार UI बनाना है।
00:03:15यह हिस्सा महत्वपूर्ण है क्योंकि,
00:03:17जैसा कि मैं GLM के बेहतर प्रदर्शन के कारणों का मूल्यांकन करने जा रहा हूँ,
00:03:21यह इस बिंदु पर वापस आने वाला है।
00:03:22Framer Motion और ShadCN घटकों को पहले से ही UI बनाने के लिए स्थापित किया गया है।
00:03:27दोनों को Netflix जैसे स्ट्रीमिंग प्लेटफॉर्म के लिए मुख्य ब्राउज़र पृष्ठ बनाने के लिए कहा गया है।
00:03:32उन्हें निर्दिष्ट किया गया है कि वास्तव में क्या बनाना है और पृष्ठ पर क्या होना चाहिए।
00:03:35अगर आप Claude कोड के साथ GLM मॉडल की उपयोगिता के बारे में बात कर रहे हैं,
00:03:40तो GLM 4.6 की एक समस्या यह थी कि यह कोड जनरेशन में अत्यंत धीमा था।
00:03:43यहाँ,
00:03:44वह समस्या,
00:03:45मेरे अनुभव में,
00:03:45हल नहीं की गई है। यह अभी भी अत्यंत धीमा है।
00:03:48लेकिन एक बदलाव है। GLM 4.6 के साथ,
00:03:50मॉडल वास्तव में नहीं सोचता था,
00:03:52मतलब यह Claude कोड के अंदर नहीं सोचता था।
00:03:54विस्तृत प्रतिलेख जो आप यहाँ पाते हैं,
00:03:56स्पष्ट रूप से सोचना दिखाता है,
00:03:57लेकिन वह 4.6 में दिखाई नहीं दे रहा था।
00:03:59आप स्पष्ट रूप से देख सकते हैं कि यह 4.7 मॉडल के साथ सोचता है,
00:04:02इसलिए वह ठीक हो गया है।
00:04:04उसके अलावा,
00:04:04कुछ विचित्रताएं हैं जो आपको जानने की जरूरत है। GLM 4.7 बहुत स्वायत्त नहीं है।
00:04:09मैंने इसे अपनी परीक्षा के दौरान पाया। जैसा कि आप यहाँ देख सकते हैं,
00:04:12इस GLM फ़ोल्डर में पहले से ही एक UI बेंचमार्क फ़ोल्डर है जिसमें इसे ऐप लागू करना है,
00:04:16लेकिन इसने इसे अनदेखा करने का चुनाव किया।
00:04:18हालांकि यह स्पष्ट रूप से संदर्भ में लिखा हुआ था,
00:04:20यह आगे बढ़ा और अपने आप पर एक और Next.js ऐप बना दिया।
00:04:22इसने इसे शुरू भी नहीं किया,
00:04:24यह बस कोड लिखने लगा। कभी-कभी यह वास्तव में बेवकूफ़ी भरा काम करता है।
00:04:27लेकिन मैंने इसे ठीक किया और इसे सही दिशा में निर्देशित किया,
00:04:30कार्यान्वयन के संदर्भ में,
00:04:31यह Claude ने बनाया।
00:04:32फिर से, उच्च मॉडल होने के नाते, यह UI में बहुत अच्छा है।
00:04:35यह GLM 4.7 ने बनाया। Claude ने स्पष्ट रूप से एक बेहतर UI बनाया क्योंकि,
00:04:39हमारी राय में,
00:04:40यह डिज़ाइन में अभी भी बेहतर है।
00:04:42कीमत के लिए,
00:04:43वह ठीक है। लेकिन मैंने कोड को देखा और इसमें खोदा,
00:04:45क्योंकि उन्हें बताया गया था कि यह वापस और तैयार होना चाहिए और कि अभी के लिए उन्हें mock data का उपयोग करने की आवश्यकता है,
00:04:52GLM मॉडल ने सभी mock data को एक फ़ाइल में रखकर एक बेहतर architecture लागू किया।
00:04:56फिर जब हमें इसे बदलने की आवश्यकता हो,
00:04:58हमें बस उस फ़ाइल को बदलना होगा क्योंकि imports वहाँ जुड़े हैं,
00:05:01जबकि Claude ने जो लागू किया है उसके विपरीत जहाँ हर दूसरे घटक के अपने import हैं।
00:05:05जब हम वास्तव में backend लागू करते हैं,
00:05:07तो हमें उन सभी फ़ाइलों को एक-एक करके बदलना होगा।
00:05:09बुनियादी architecture और कोड गुणवत्ता के संदर्भ में,
00:05:12GLM वास्तव में अच्छी तरह से काम किया,
00:05:13और इसने मुझे आश्चर्यचकित किया क्योंकि 4.6 मेरी परीक्षा में इतना अच्छा नहीं था।
00:05:17पिछली योजना वास्तव में मैंने इसे कितना निर्देशित किया और कितनी गलतियां कीं,
00:05:20इससे सही न्याय नहीं किया गया,
00:05:22लेकिन यह निश्चित रूप से एक बहुत बड़ी छलांग है।
00:05:24ये बेंचमार्क निश्चित रूप से मैंने की गई परीक्षा से सही साबित होते हैं।
00:05:27मैंने कोड में कुछ और छोटी चीज़ों को भी देखा है,
00:05:30और GLM 4.7 वास्तव में एक अच्छा मॉडल है।
00:05:32इन अप्रत्याशित परिणामों को देखते हुए,
00:05:35हम सभी को $29 प्रति वर्ष योजना लेने की सिफारिश कर रहे हैं।
00:05:38अगर आपके पास पहले से ही $20 की Claude योजना है,
00:05:41तो यह तुलना में बस कुछ भी नहीं है।
00:05:42कहा जा रहा है,
00:05:43यह अभी भी एक ऐसा मॉडल नहीं है जिसका आप पूरी तरह स्वायत्त कोडिंग के लिए उपयोग करेंगे।
00:05:46भले ही Claude ने architecture को बहुत गड़बड़ा दिया है,
00:05:49यह काफी अच्छा है कि बाद में इसे ठीक और सुधार सकता है।
00:05:52लेकिन GLM के छोटे quirks के साथ,
00:05:53हम नहीं सोचते कि इसी पर पूरी तरह निर्भर रहना एक अच्छा विचार है।
00:05:57यह हमें इस वीडियो के अंत तक ले जाता है।
00:05:58अगर आप चैनल को सपोर्ट करना चाहते हैं और हमें इस तरह के वीडियो बनाने में मदद करना चाहते हैं,
00:06:02तो आप नीचे super thanks बटन का उपयोग करके ऐसा कर सकते हैं।
00:06:05हमेशा की तरह,
00:06:06देखने के लिए धन्यवाद और मैं अगले एक में आपको देखूँगा।

Key Takeaway

GLM 4.7 एक उल्लेखनीय रूप से सस्ता AI कोडिंग मॉडल है जो SWE bench पर Sonnet 4.5 के बराबर प्रदर्शन करता है लेकिन कुछ कमियां जैसे धीमी कोड जेनरेशन और कम स्वायत्तता के साथ आता है।

Highlights

GLM 4.7 को ZAI ने लॉन्च किया है जो $29 सालाना में उपलब्ध है और SWE bench पर 73% स्कोर करता है जो Sonnet 4.5 के बराबर है

GLM 4.7 मुख्यतः post-training सुधारों के माध्यम से विकसित किया गया है, आर्किटेक्चर में कोई बदलाव नहीं है

कोडिंग योजनाओं में GLM मॉडल Claude की तुलना में बहुत अधिक सस्ता है - $3 में 120 prompts बनाम Claude में 10-40 prompts

GLM 4.7 में अब स्पष्ट 'thinking' क्षमता है जो 4.6 में नहीं थी, लेकिन कोड जेनरेशन में अभी भी अत्यंत धीमा है

GLM 4.7 ने बेहतर architecture लागू किया क्योंकि सभी mock data को एक केंद्रीय फ़ाइल में रखा, जबकि Claude ने हर घटक में अलग-अलग data रखा

GLM 4.7 पूरी तरह स्वायत्त नहीं है और कभी-कभी दिए गए निर्देशों को अनदेखा करता है

बेंचमार्क परिणाम GLM 4.7 की क्षमता को मान्य करते हैं लेकिन वास्तविक उपयोग में कुछ सीमाएं दिखाई देती हैं

Timeline

GLM 4.7 का परिचय और बाजार में उपस्थिति

ZAI ने हाल ही में GLM 4.7 लॉन्च किया है जो $29 सालाना में उपलब्ध है और SWE bench पर 73% स्कोर करता है, जो Sonnet 4.5 के प्रदर्शन के बराबर है। यह मूल्य निर्धारण एक उच्च-क्षमता वाले AI मॉडल के लिए अविश्वसनीय रूप से सस्ता है। ZAI की यह पहल पश्चिमी बाजार में अपनी मजबूत उपस्थिति दिखाने का एक रणनीतिक प्रयास है, और उन्होंने यहाँ तक कि Reddit पर लाइव Q&A भी किया जो किसी चीनी AI लैब के लिए असामान्य है। यह वीडियो AI Labs के 'Debunked' सीरीज़ का हिस्सा है जहाँ मार्केटिंग हाइप को हटाकर असली परीक्षा और ईमानदार परिणाम दिए जाते हैं।

GLM 4.7 की तकनीकी विशेषताएं और सुधार

GLM 4.7 मुख्यतः post-training के माध्यम से सुधारा गया है और आर्किटेक्चर में कोई बदलाव नहीं किया गया है। मॉडल विशेषकर Claude कोड के लिए भारी रूप से अनुकूलित है, जिसे ZAI टीम ने स्पष्ट रूप से अपना प्राथमिकता ढांचा बताया है। नए मॉडल में कोडिंग बेंचमार्क में अन्य शीर्ष स्तर के मॉडल को मात देते हुए अच्छे परिणाम दिख रहे हैं, जिसमें GPT-5 भी शामिल है। ZAI ने तीन नई MCP tools भी जोड़ी हैं जो सीधे मॉडल में एकीकृत नहीं हैं बल्कि अलग MCP सर्वर के रूप में काम करती हैं। ये tools योजना में शामिल हैं लेकिन उन्हें काम करने के लिए केवल एक API कुंजी की आवश्यकता है।

मूल्य निर्धारण और Claude के साथ तुलना

GLM कोडिंग योजनाएं Claude की तुलना में अत्यंत प्रतिस्पर्धी हैं। प्रवेश स्तर की योजना में Claude कोड से 10-40 prompts मिलते हैं, जबकि GLM केवल $3 में 120 prompts प्रदान करता है, जो एक विशाल अंतर है। उच्च स्तर की योजनाओं में यह अंतर और भी बढ़ता है - Claude की $200 योजना 5 घंटे की विंडो में 800 prompts तक सीमित है, जबकि GLM का $30 महीने की योजना 2,400 prompts देता है। पहले महीने के लिए ये दरें छूट दी जाती हैं और फिर दोगुनी हो जाती हैं, लेकिन वार्षिक योजना पर सदस्यता लेने से दीर्घकालिक बचत बहुत अधिक होती है।

UI डिज़ाइन बेंचमार्क परीक्षण

विश्लेषक ने Humanity's Last Test और एक AI-संचालित कोड समीक्षा प्लेटफॉर्म के UI के साथ दोनों मॉडलों का परीक्षण किया। Sonnet 4.5 ने एक अधिक पेशेदार और स्वच्छ UI बनाया जो emoji का उपयोग नहीं करता था, जबकि GLM 4.7 द्वारा बनाया गया UI अच्छा डिज़ाइन था लेकिन कुछ त्रुटियां थीं, विशेषकर लंबाई के लिए प्रतिक्रिया में। प्रोजेक्ट में Framer Motion और ShadCN घटक पहले से स्थापित थे और मॉडलों को Netflix जैसे स्ट्रीमिंग प्लेटफॉर्म के लिए मुख्य ब्राउज़र पृष्ठ बनाने के लिए कहा गया था। यह परीक्षण यह दिखाने के लिए महत्वपूर्ण था कि ये मॉडल आर्किटेक्चर पर ध्यान केंद्रित किए बिना कैसे डिज़ाइन लॉजिक को लागू करते हैं।

कोड जेनरेशन की गति और 'thinking' क्षमता

GLM 4.6 की एक प्रमुख समस्या यह थी कि यह कोड जेनरेशन में अत्यंत धीमा था, और यह समस्या GLM 4.7 में भी बनी हुई है - यह अभी भी बहुत ही धीमी गति से काम करता है। हालांकि, एक महत्वपूर्ण सुधार यह है कि GLM 4.7 अब explicit 'thinking' दिखाता है, जिसका मतलब है कि मॉडल Claude कोड के अंदर अब अपने विचार प्रक्रिया को प्रदर्शित करता है। यह 4.6 में नहीं दिखाई दे रहा था, जहाँ विस्तृत प्रतिलेख स्पष्ट रूप से सोचने का संकेत देते थे लेकिन यूजर इंटरफेस में यह दिखाई नहीं देता था। यह 'thinking' क्षमता का जोड़ दिया जाना मॉडल की समस्या-समाधान प्रक्रिया में महत्वपूर्ण पारदर्शिता प्रदान करता है।

स्वायत्तता की सीमाएं और architecture परीक्षण

GLM 4.7 पूरी तरह स्वायत्त नहीं है और दिए गए निर्देशों को अनदेखा करने की प्रवृत्ति रखता है। परीक्षण के दौरान, GLM ने एक पूर्व-निर्मित UI बेंचमार्क फ़ोल्डर को नजरअंदाज किया और अपना खुद का Next.js ऐप बनाना शुरू कर दिया, भले ही निर्देश स्पष्ट थे। हालांकि, जब architecture और कोड गुणवत्ता के मामले में देखा जाता है, तो GLM 4.7 ने Claude से बेहतर काम किया। GLM ने सभी mock data को एक केंद्रीय फ़ाइल में रखकर एक बेहतर architecture लागू किया, जिससे भविष्य में backend implementation के लिए केवल एक फ़ाइल को बदलने की आवश्यकता होगी। इसके विपरीत, Claude ने mock data को हर घटक में अलग-अलग रखा, जिससे भविष्य में सभी फ़ाइलों को एक-एक करके बदलना होगा। यह 4.6 की तुलना में GLM 4.7 में एक बहुत बड़ी छलांग थी।

निष्कर्ष और सिफारिशें

परीक्षा के परिणामों के आधार पर, विश्लेषक $29 प्रति वर्ष की GLM 4.7 योजना लेने की सिफारिश करते हैं, विशेषकर उन लोगों के लिए जिनके पास पहले से ही $20 की Claude योजना है। हालांकि, GLM 4.7 अभी भी एक ऐसा मॉडल नहीं है जिसे पूरी तरह स्वायत्त कोडिंग के लिए उपयोग किया जा सकता है क्योंकि इसमें कुछ quirks हैं। भले ही Claude का architecture थोड़ा गड़बड़ा हो, यह पर्याप्त रूप से अच्छा है कि बाद में इसे ठीक और सुधार सकता है। GLM की छोटी quirks के कारण, पूरी तरह इस पर निर्भर रहना एक अच्छा विचार नहीं है। कुल मिलाकर, GLM 4.7 की कीमत और performance इसे एक ध्यान देने योग्य विकल्प बनाती है, लेकिन उपयोगकर्ताओं को अभी भी इसकी सीमाओं के बारे में जागरूक रहना चाहिए।

Community Posts

View all posts