00:00:00ज़्यादातर AI कोडिंग मॉडल्स के साथ एक बहुत बड़ी समस्या है - वे Swift को बिल्कुल भी हैंडल नहीं कर पाते।
00:00:06हम सभी ने एजेंटों द्वारा सेकंडों में वेब ऐप्स और जावास्क्रिप्ट टूल बनाने के शानदार डेमो देखे हैं,
00:00:11लेकिन जैसे ही आप उनसे Swift कोड को छूने के लिए कहते हैं, चीज़ें तेज़ी से बिगड़ने लगती हैं।
00:00:16अब सवाल यह है कि दुनिया के सबसे स्मार्ट मॉडल्स iOS डेवलपमेंट में क्यों फेल हो रहे हैं?
00:00:22तो, आज के इस वीडियो में हम इसी का पता लगाने वाले हैं।
00:00:25आज मैं टॉप कोडिंग एजेंटों को एक ही Swift ऐप कोडिंग चैलेंज दे रहा हूँ ताकि देख सकूँ कि
00:00:30कौन से मॉडल्स वास्तव में इस काम को कर सकते हैं और कौन से सिर्फ वेब-डेवलपमेंट के लिए ही बने हैं।
00:00:36मैं आपको थोड़ा स्पॉइलर दे दूँ - इनमें से एक मॉडल ने वास्तव में इस टेस्ट को पूरी तरह से पास कर लिया।
00:00:40वह कौन सा मॉडल है, यह आप वीडियो में आगे देखेंगे।
00:00:43इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं।
00:00:50तो सबसे पहले, मुख्य मुद्दे पर बात करते हैं।
00:00:52आखिर AI कोडिंग मॉडल्स Swift डेवलपमेंट में इतने खराब क्यों हैं?
00:00:56और साफ कर दूँ कि यह सिर्फ मेरा ऑब्जर्वेशन नहीं है।
00:00:59“इवैल्यूएटिंग लार्ज लैंग्वेज मॉडल्स फॉर कोड जनरेशन - ए कंपैरेटिव स्टडी” नामक एक स्टडी में
00:01:05पायथन, जावा और Swift पर किए गए टेस्ट में पाया गया कि GPT और Claude सहित सभी मॉडल्स का
00:01:12Swift में प्रदर्शन पायथन या जावा की तुलना में लगातार कम रहा।
00:01:17और इसका कारण तीन मुख्य बाधाएँ हैं जो Apple के इकोसिस्टम में AI की क्षमता को कम कर देती हैं।
00:01:24सबसे पहले आता है डेटा गैप।
00:01:25जहाँ वेब पर ओपन सोर्स जावास्क्रिप्ट और पायथन कोड की भरमार है, वहीं प्रोफेशनल Swift कोड का एक बड़ा हिस्सा
00:01:31प्राइवेट या कमर्शियल रिपॉजिटरी में बंद रहता है।
00:01:36दूसरा है API ड्रिफ्ट।
00:01:38Apple चीज़ों को तेज़ी से बदलने और पुराने को छोड़ने के लिए मशहूर है।
00:01:42SwiftUI और Swift के कॉनकरेंसी मॉडल्स में पिछले तीन सालों में उससे ज़्यादा बदलाव आए हैं जितने
00:01:47कुछ वेब स्टैंडर्ड्स में एक दशक में आते हैं।
00:01:49और क्योंकि ज़्यादातर AI मॉडल्स का एक नॉलेज कट-ऑफ होता है, वे अक्सर Swift कोड लिखने के लिए
00:01:54उन पुराने नियमों का उपयोग करते हैं जो Xcode के लेटेस्ट वर्ज़न में काम नहीं करते।
00:01:59और अंत में आता है बेंचमार्किंग बायस।
00:02:02आज हम जिन मॉडल्स का टेस्ट कर रहे हैं, जैसे Qwen या Grok, वे स्पेसिफिक टेस्ट्स के लिए ट्रेंड हैं।
00:02:08वे 'HumanEval' जैसे बड़े बेंचमार्क पास करने के लिए ऑप्टिमाइज़ किए गए हैं जो लगभग पूरी तरह से
00:02:13पायथन और वेब-आधारित लॉजिक पर केंद्रित होते हैं।
00:02:16चूंकि कॉम्प्लेक्स iOS UI के लिए ज़्यादा बड़े बेंचमार्क उपलब्ध नहीं हैं, इसलिए इन मॉडल्स को
00:02:21एक फंक्शनल ऐप बनाने की क्षमता पर आंका ही नहीं गया है।
00:02:25इसलिए मैंने बाहर उपलब्ध कुछ सबसे लोकप्रिय AI कोडिंग मॉडल्स को चुना और उनमें से प्रत्येक को
00:02:30बिल्कुल एक ही प्रॉम्प्ट दिया।
00:02:32मैंने उनमें से हर एक को Swift का उपयोग करके 'Dogtinder' नाम का एक सरल टिंडर-जैसा ऐप क्लोन बनाने का काम दिया,
00:02:38जहाँ 'Dog CEO API' का उपयोग करके आपको अलग-अलग कुत्ते दिखाए जाते हैं।
00:02:43आप अपनी पसंद के हिसाब से स्वाइप लेफ्ट या राइट कर सकते हैं और अगर मैच होता है,
00:02:47तो आप मैच हुए कुत्ते के साथ मज़ेदार मैसेज भेजने के लिए चैट इंटरफेस खोल सकते हैं।
00:02:52तो यह काफी प्यारा और सरल ऐप है जिसे एक एजेंट पूरा कर सके, और इसमें कुछ दिलचस्प चुनौतियाँ भी हैं
00:02:58जैसे नेटिव Swift में स्वाइप एनीमेशन फंक्शनलिटी बनाना।
00:03:03टेस्ट के लिए, हम सबसे खराब प्रदर्शन करने वाले मॉडल से शुरुआत करेंगे और
00:03:07सबसे अच्छे प्रदर्शन करने वाले की ओर बढ़ेंगे।
00:03:09सबसे खराब स्थान पर दुर्भाग्य से हमारे पास नया Qwen 2.5 Coder मॉडल है।
00:03:15Qwen इस नए मॉडल को Kimi या Claude जैसे दिग्गजों के ओपन सोर्स विकल्प के रूप में प्रमोट कर रहा है,
00:03:20जिसका मॉडल साइज छोटा है लेकिन परफॉरमेंस हाई है।
00:03:25हालांकि वेब ऐप्स के लिए यह सच हो सकता है, लेकिन Swift चैलेंज के लिए यह टिक नहीं सका।
00:03:32जहाँ भी संभव हो, मैंने उनके अपने CLI टूल्स का उपयोग करने की कोशिश की
00:03:37और इस मामले में, मैंने इस चैलेंज को करने के लिए Qwen CLI टूल का उपयोग किया।
00:03:42जब इसने कोड जनरेट कर लिया, तब मैं उस प्रोजेक्ट फ़ाइल को नहीं खोल सका
00:03:46जो Qwen ने बनाई थी।
00:03:48तो मैंने इसे वह एरर ठीक करने का प्रॉम्प्ट दिया जो फ़ाइल खोलने की कोशिश करते समय आई थी।
00:03:53लेकिन इसके बावजूद, Qwen एरर ठीक नहीं कर सका और इसके बजाय उसने मुझे एक लंबी 'README' फ़ाइल दे दी
00:03:58कि कैसे इस प्रोजेक्ट को खुद स्क्रैच से बनाया जाए और फिर फ़ाइलों को प्रोजेक्ट फ़ोल्डर में कॉपी किया जाए,
00:04:03जो मैं इस चैलेंज के लिए मैन्युअल रूप से नहीं करना चाहता था क्योंकि
00:04:08उससे इस चैलेंज का उद्देश्य ही खत्म हो जाता।
00:04:09जैसा कि आप बाद में देखेंगे, मैंने गौर किया कि कुछ मॉडल्स के लिए प्रोजेक्ट की फ़ाइलों का फाइनल सेट बनाना
00:04:14काफी मुश्किल था, जिसे हम पहली बार में सफलतापूर्वक खोल सकें।
00:04:20तो Qwen जैसे मामलों के लिए, मैंने इसे एक आसान चुनौती देने का फैसला किया।
00:04:26मैंने Xcode पर मैन्युअल रूप से एक नया iOS ऐप प्रोजेक्ट बनाया, और मुझे लगा कि यह
00:04:31Xcode के नए वर्ज़न के साथ आने वाले नए कोडिंग इंटेलिजेंस फीचर को आज़माने का अच्छा समय है।
00:04:38यह काफी कूल है क्योंकि आखिरकार Xcode का अपना AI असिस्टेंट फीचर आ गया है।
00:04:43तो मैंने इसे अपने OpenRouter अकाउंट से जोड़ा और ड्रॉपडाउन से Qwen 2.5 Coder मॉडल को चुना
00:04:49और फिर से चैलेंज शुरू किया।
00:04:52इतनी मदद के बावजूद, Qwen पहली बार में सफल प्रोजेक्ट नहीं बना सका
00:04:57क्योंकि यहाँ Swift मॉडल्स को सटीक रूप से सेटअप करने में कुछ दिक्कतें आईं।
00:05:02अब नए AI असिस्टेंट फीचर के साथ, हम इन सभी समस्याओं को हाइलाइट कर सकते हैं और
00:05:07असिस्टेंट को एक साथ सभी चुनिंदा समस्याओं का समाधान जनरेट करने का काम दे सकते हैं।
00:05:12आखिरकार, Qwen को बाकी समस्याओं को ठीक करने के लिए कुछ बार प्रॉम्प्ट देने के बाद,
00:05:16हमें डॉग टिंडर ऐप का एक वर्किंग वर्ज़न मिला, लेकिन सच कहूँ तो रिज़ल्ट काफी खराब था।
00:05:23यह Dog CEO API से इमेज भी लोड नहीं कर सका और पूरा UI भी बहुत पुराना सा था
00:05:29और बिल्कुल भी एक्साइटिंग नहीं था।
00:05:32यही नहीं, मैच सेक्शन में एक बग था जहाँ कोई भी मैच
00:05:36वास्तव में दिखाई नहीं दे रहा था।
00:05:37तो दुर्भाग्य से, Qwen Xcode ऐप चैलेंज में पूरी तरह फेल रहा।
00:05:42आगे बढ़ते हुए, हमारे दूसरे सबसे निचले स्थान पर Grok अपने 'Grok Code Fast' मॉडल के साथ है।
00:05:48इसके लिए, मैंने VS Code पर VS Copilot एक्सटेंशन के माध्यम से इसका उपयोग करने की कोशिश की और एक बार फिर,
00:05:53मुझे वही समस्या आई जहाँ Grok पूरे Swift प्रोजेक्ट पैकेज के लिए ज़रूरी
00:05:59सभी प्रोजेक्ट फ़ाइलें नहीं बना सका।
00:06:02इसके बजाय इसने मुझे फ़ाइलों को मैन्युअल रूप से कॉपी करने के निर्देश दिए।
00:06:06तो एक बार फिर, मुझे OpenRouter से Grok मॉडल का उपयोग करके
00:06:12Xcode पर AI असिस्टेंट का उपयोग करना पड़ा।
00:06:14Grok को भी कुछ समस्याओं का सामना करना पड़ा, इसलिए मुझे बाकी एरर्स ठीक करने के लिए इसे दो बार प्रॉम्प्ट देना पड़ा।
00:06:20लेकिन इन सब के बाद, यह ऐप को सफलतापूर्वक पूरा करने में सक्षम था।
00:06:23और पहली नज़र में, Grok ने डिज़ाइन के मामले में बहुत ही खराब काम किया।
00:06:27डिज़ाइन बिल्कुल भी अच्छा नहीं था और यहाँ तक कि कोई ऐसा सेक्शन भी नहीं था जहाँ हम
00:06:32मैच देख सकें।
00:06:33Grok को Qwen से ऊपर रखने का एकमात्र कारण यह है कि कम से कम फंक्शनलिटी के स्तर पर
00:06:38चैट फंक्शनलिटी सहित सब कुछ काम कर रहा है, लेकिन ईमानदारी से कहूँ तो, दोनों का
00:06:44परफॉरमेंस लगभग एक जैसा ही खराब था।
00:06:48और इस ऐप के बारे में कुछ भी रोमांचक या दिखने में सुंदर नहीं लगता।
00:06:51तो मैं यह नहीं कहूँगा कि Grok चैलेंज में फेल हो गया, लेकिन इसे सबसे कम संभव
00:06:57पासिंग ग्रेड मिलता है।
00:06:58हमारे लीडरबोर्ड पर अगला नाम Kimi का है, जो अपने नवीनतम 'Kimi k2.5' मॉडल के साथ है।
00:07:04Kimi को भी Qwen जैसी ही समस्या हुई जहाँ उनके नेटिव CLI का उपयोग करने पर इसने
00:07:08प्रोजेक्ट फ़ाइल तो बनाई, लेकिन मैं उसे खोल नहीं सका।
00:07:11CLI के माध्यम से इसे ठीक करने के बाद भी समस्या हल नहीं हुई।
00:07:15तो एक बार फिर Kimi के टेस्ट के लिए मुझे OpenRouter द्वारा उपलब्ध Kimi k2.5 के साथ
00:07:20Xcode के इन-बिल्ट AI असिस्टेंट फीचर का उपयोग करना पड़ा।
00:07:23Kimi का परफॉरमेंस Qwen और Grok जैसा ही था क्योंकि इसने पहली बार में
00:07:29चैलेंज पूरा नहीं किया।
00:07:31इसलिए मुझे बाकी समस्याओं को ठीक करने के लिए इसे फिर से प्रॉम्प्ट देना पड़ा।
00:07:34लेकिन सिर्फ एक बार ठीक करने के बाद ही Kimi फाइनल रिज़ल्ट देने में सक्षम रहा।
00:07:39और यह वर्ज़न Qwen और Grok से एक कदम आगे था क्योंकि कम से कम अब हमारे पास एक ऐसा ऐप था
00:07:44जो वास्तव में एक टिंडर-जैसे ऐप जैसा दिखता है।
00:07:47इसमें अब साइड्स पर 'लाइक' और 'नोप' स्टिकर के साथ एक अच्छा लेफ्ट और राइट स्वाइप एनीमेशन है
00:07:53और मैच होने पर एक फैंसी पॉप-अप भी है।
00:07:57लेकिन एनीमेशन काफी बग्गी और अजीब था।
00:08:00कभी-कभी तो मुझे इमेज बिल्कुल भी दिखाई नहीं देती थी क्योंकि वह स्क्रीन के बाहर तैर रही होती थी।
00:08:05लेकिन कम से कम Kimi मैच को ठीक से स्टोर करने में सक्षम था।
00:08:08और हमें वास्तव में एक सेक्शन मिला जहाँ हम अपने मैच देख सकते थे और उनमें से किसी को भी खोलकर
00:08:12उस स्पेसिफिक कुत्ते के साथ चैटिंग शुरू कर सकते थे।
00:08:14तो यह पहले से ही Qwen और Grok से एक बड़ा सुधार है।
00:08:18लेकिन अगर मुझे इसकी तुलना उन अन्य उदाहरणों से करनी है जो आप बाद में इस वीडियो में देखेंगे, तो मैं कहूँगा
00:08:22कि यह अभी भी एक औसत रिज़ल्ट है।
00:08:25और इसीलिए मैंने Kimi को लीडरबोर्ड पर नीचे की जगह दी है।
00:08:29और आगे हमारे पास Gemini 2.0 Pro है।
00:08:31और यह वाला दिलचस्प है क्योंकि जब मैंने एक ही मॉडल को उनके अपने CLI के माध्यम से बनाम
00:08:36Xcode के AI असिस्टेंट से टेस्ट किया, तो मुझे बिल्कुल अलग परिणाम मिले।
00:08:41तो पहले देखते हैं कि Gemini CLI का उपयोग करने पर हमें क्या मिला।
00:08:45यह कहता है कि मॉडल अभी भी CLI पर प्रिव्यू मोड में है।
00:08:49तो शायद यही मुख्य समस्या थी।
00:08:50लेकिन एक बार फिर, जब मैंने इसे उसी प्रॉम्प्ट के साथ आज़माया जो मैंने हर मॉडल के लिए उपयोग किया था,
00:08:55तो यह मुझे अंत में प्रोजेक्ट फ़ाइल नहीं दे सका।
00:08:59और ऐसा इसलिए है क्योंकि Xcode प्रोजेक्ट फ़ाइल बनाने के लिए, आपको पहले प्रोजेक्ट डिटेल्स के साथ एक YAML
00:09:04फ़ाइल बनानी होती है और फिर उसे जनरेट करने के लिए CodeGen CLI कमांड का उपयोग करना पड़ता है।
00:09:09लेकिन किसी वजह से, कुछ मॉडल्स इसे करने से मना कर देते हैं या नहीं जानते कि इसे कैसे करना है।
00:09:14लेकिन फिर भी, जब मैंने Gemini को विशेष रूप से फ़ाइल बनाने के लिए प्रॉम्प्ट दिया, तो उसने ऐसा किया।
00:09:18और मुझे बस उसे CodeGen कमांड चलाने की परमिशन देनी पड़ी।
00:09:22और एक बार जब हमने प्रोजेक्ट खोला, तो हमें एक एसेट एरर मिली।
00:09:25लेकिन Gemini ने उसे तुरंत ठीक कर दिया।
00:09:28और एक बार जब वह हल हो गया, तो ऐप आखिरकार कंपाइल हो रहा था।
00:09:31लेकिन रिज़ल्ट काफी खराब था, हैरानी की हद तक खराब।
00:09:35यह टूटा हुआ था।
00:09:37मैच सिस्टम ठीक से काम नहीं कर रहा था और सब कुछ बग्गी था।
00:09:41तो इस मोड़ पर, मैं Gemini को फेलिंग ग्रेड देने ही वाला था।
00:09:45लेकिन सिर्फ जिज्ञासा के कारण, मैंने Gemini को एक और मौका देने का फैसला किया और
00:09:50OpenRouter के माध्यम से Gemini 2.0 Pro को चलाकर Xcode के नेटिव AI असिस्टेंट का उपयोग किया।
00:09:56और ऐसा करने पर, इस बार इसने पहली बार में ही इसे सही कर दिया।
00:10:01और सिर्फ इतना ही नहीं, ऐप अद्भुत था।
00:10:04मेरा मतलब है, डिज़ाइन बहुत बढ़िया था।
00:10:06फंक्शनलिटी अपनी जगह पर थी।
00:10:08इसने ऊपर एक अच्छा सा लोगो भी जोड़ा।
00:10:10ईमानदारी से कहूँ तो, ऐप के इस वर्ज़न में कोई गलती निकालने जैसा कुछ नहीं था।
00:10:14तो मैं थोड़ा हैरान हूँ कि एक ही मॉडल के साथ एक ही प्रॉम्प्ट चलाने पर भी,
00:10:20अलग-अलग AI कोडिंग टूल्स ने इतने अलग रिज़ल्ट कैसे दिए।
00:10:24लेकिन फिर भी, मैं उस वर्ज़न से बहुत प्रभावित हुआ जो Gemini ने मुझे आखिरकार
00:10:29Xcode के टूलिंग के माध्यम से दिया और वो भी पहली बार में।
00:10:32तो इसीलिए मैंने Gemini को लीडरबोर्ड पर थोड़ा ऊपर रखा है, क्योंकि इसका
00:10:37फाइनल रिज़ल्ट वास्तव में बहुत अच्छा था।
00:10:38ठीक है, तो लीडरबोर्ड पर आगे हमारे पास GPT-4.5 है।
00:10:43और चूंकि OpenAI का अपना कोडिंग ऐप है, इसलिए मैंने उनके अपने ऐप से
00:10:48ही चैलेंज करने का फैसला किया।
00:10:49और अब तक देखे गए पिछले मॉडल्स के विपरीत, GPT-4.5 वास्तव में पहली बार में ही
00:10:55एक वर्किंग प्रोडक्ट बनाने में सक्षम था।
00:10:58तो यह पहले से ही एक बड़ी छलांग है।
00:11:00लेकिन मुझे कहना होगा, ऐप खुद बहुत रोमांचक नहीं था।
00:11:03इसमें बहुत ही नीरस ब्लू कलर की थीम थी।
00:11:06और सबसे बड़ी समस्या जिसने मुझे परेशान किया वो यह थी कि यह इमेज की चौड़ाई को
00:11:11ऐप के फ्रेम के भीतर फिट नहीं कर सका।
00:11:13तो कुछ कुत्तों के लिए, इमेज का कंटेनर बहुत ज़्यादा खिंच गया था जो कि
00:11:18ऐप की सीमाओं के बाहर चला गया।
00:11:20तो यह डिज़ाइन की एक बड़ी खामी है जिसे मॉडल ठीक से नहीं कर पाया।
00:11:25लेकिन ऐप खुद सभी ज़रूरी UI एलिमेंट्स के साथ फंक्शनल है।
00:11:29और हमें मैच सेक्शन भी ठीक से काम करता हुआ मिला जहाँ हम कुत्तों से चैट कर सकते थे।
00:11:34तो GPT-4.5 को लीडरबोर्ड पर इतना ऊँचा स्थान देने का कारण यह है कि यह
00:11:40पहला मॉडल था जो बिना किसी मदद या बिना पहले Xcode प्रोजेक्ट सेटअप किए
00:11:46पूरा Swift प्रोजेक्ट पैकेज बनाने में सक्षम था।
00:11:50तो कुल मिलाकर, बहुत बुरा नहीं है, लेकिन बहुत रोमांचक भी नहीं।
00:11:54और आखिरकार, हम लीडरबोर्ड पर पहले स्थान पर पहुँच गए हैं।
00:11:57और मैं आपको यह अंदाज़ा लगाने के लिए एक पल दूँगा कि वह कौन सा मॉडल हो सकता है।
00:12:01और हाँ, मुझे लगता है कि हम सभी जानते हैं कि वह कौन सा मॉडल है।
00:12:04यह निश्चित रूप से Claude 3.7 Sonnet है, जिसने पहली बार में ही इस चैलेंज में कमाल कर दिया।
00:12:11मैंने इसे अन्य मॉडल्स की तरह ही प्रॉम्प्ट दिया, लेकिन मैंने उनके अपने Claude Code CLI
00:12:17टूल का उपयोग किया और मुझे बस ज़रूरी परमिशन देनी पड़ी।
00:12:20और मॉडल ने खुद सब कुछ किया, जिसमें मेरे द्वारा पहले से सेटअप किए बिना
00:12:27एक पूरी तरह फंक्शनल Xcode प्रोजेक्ट फ़ाइल बनाना भी शामिल था।
00:12:29और सिर्फ इतना ही नहीं, ऐप खुद भी बहुत ही खूबसूरत था।
00:12:34डिज़ाइन लाजवाब था।
00:12:35एनीमेशन बहुत ही स्मूथ और बढ़िया थे।
00:12:37मैच सेक्शन और चैट विंडो भी सही तरीके से काम कर रहे थे।
00:12:41सिर्फ एक चीज़ जो हमें इस वर्ज़न में नहीं मिली वो था एक फैंसी लोगो जैसा कि
00:12:46Gemini ने पिछले वर्ज़न में बनाया था।
00:12:48लेकिन उसके अलावा, यह उन सभी में सबसे अच्छा दिखने वाला वर्ज़न था।
00:12:52और इसने पहली बार में ही इसे बनाने में कामयाबी हासिल की।
00:12:55तो मैं कहूँगा कि Claude 3.7 Sonnet का प्रदर्शन अन्य सभी मॉडल्स की तुलना में बिल्कुल अविश्वसनीय है।
00:13:01इसलिए यह निश्चित रूप से लीडरबोर्ड पर पहले स्थान का हकदार है।
00:13:05लेकिन रुकिए, अभी और भी है।
00:13:07यहाँ आप लोगों के लिए एक छोटा बोनस है।
00:13:09अभी एक और मॉडल है जिसका रिव्यू करना बाकी है और जिसे अभी तक लीडरबोर्ड पर
00:13:13नहीं दिखाया गया है।
00:13:14दरअसल, जब मैं यह वीडियो बना रहा था, तभी एक घोषणा हुई कि GLM ने अपना
00:13:18लेटेस्ट मॉडल वर्ज़न 5 रिलीज़ किया है, और वे दावा कर रहे हैं कि यह मॉडल
00:13:23कोडिंग में Claude 3.7 Sonnet से भी ज़्यादा स्कोर करता है।
00:13:26तो ज़ाहिर है मुझे इसे उसी Swift चैलेंज पर टेस्ट करना था।
00:13:31और चूंकि GLM का अपना कोई CLI टूल नहीं है, इसलिए मैंने एक बार फिर Xcode के AI असिस्टेंट टूल का
00:13:37उपयोग किया और इसे OpenRouter से जोड़कर GLM 5 का उपयोग किया।
00:13:41और सबसे पहली बात, GLM ने पहली बार में यह चैलेंज पूरा नहीं किया।
00:13:45तो यह पहले ही Claude 3.7 Sonnet से खराब प्रदर्शन दिखाता है।
00:13:49दूसरे, मुझे इसे सफलतापूर्वक कंपाइल करने के लिए बग फिक्स के तीन राउंड से गुज़रना पड़ा।
00:13:56तो चलिए देखते हैं कि GLM 5 का फाइनल रिज़ल्ट क्या है।
00:13:59जैसा कि आप देख सकते हैं, यह मुझे पहले से ही एक फेलिंग ग्रेड जैसा लग रहा है।
00:14:03यह कुत्तों की कोई भी इमेज लोड नहीं कर पा रहा है।
00:14:06इसमें स्वाइप फंक्शनलिटी नहीं है।
00:14:08और इससे भी बुरा यह है कि यह केवल तीन कुत्तों को दिखाता है और फिर मैसेज देता है कि
00:14:13अब और कुत्ते उपलब्ध नहीं हैं।
00:14:15यही नहीं, अगर हम मैच सेक्शन में जाते हैं, तो यह कुत्तों के साथ चैट इंटरफेस खोलने के लिए
00:14:20किसी भी मैच पर क्लिक नहीं कर सकता।
00:14:23तो यह सेक्शन स्पष्ट रूप से अधूरा है।
00:14:25तो इस रिज़ल्ट को देखते हुए, हम इस परफॉरमेंस के आधार पर GLM को कहाँ रखें?
00:14:29मुझे लगता है कि हमें इसे Qwen के ठीक ऊपर, दूसरे सबसे निचले स्थान पर रखना होगा क्योंकि
00:14:36यह परफॉरमेंस बिल्कुल भी स्वीकार्य नहीं थी और किसी भी अन्य मॉडल जितनी अच्छी नहीं थी।
00:14:42तो यह कहना कि GLM 5, Claude 3.7 Sonnet से ज़्यादा शक्तिशाली है, एक बहुत बड़ा दावा है।
00:14:47अब, मैंने इस मॉडल को किसी अन्य कोडिंग टास्क पर टेस्ट नहीं किया है, और हो सकता है कि
00:14:52सरल वेब प्रोजेक्ट्स के लिए, यह Claude 3.7 Sonnet जितना ही अच्छा या शायद उससे भी बेहतर काम करता हो।
00:14:59लेकिन यह निश्चित रूप से Swift में कोडिंग के लिए एक अच्छा मॉडल नहीं है।
00:15:02तो आज हमने क्या सीखा?
00:15:04साफ है कि जहाँ AI क्रांति बिजली की गति से आगे बढ़ रही है, वहीं इन मॉडल्स के लिए
00:15:10Swift की समस्या अभी भी बनी हुई है। Claude 3.7 Sonnet और GPT-4.5 ने साबित किया कि अगर मॉडल काफी बड़ा हो और रीजनिंग
00:15:18मजबूत हो, तो वे ओपन सोर्स Swift कोड डेटा की कमी को दूर कर सकते हैं।
00:15:23लेकिन Qwen और Grok जैसे मॉडल्स के लिए, डेटा गैप और API ड्रिफ्ट जिसकी हमने पहले बात की थी,
00:15:29उन्हें स्पष्ट रूप से काफी प्रभावित कर रहे हैं।
00:15:31और मुझे यह देखकर भी हैरानी हुई कि Xcode का नया AI असिस्टेंट वास्तव में Swift ऐप्स के लिए कितना मददगार है।
00:15:36हम इसे Gemini के दो अलग-अलग ऐप वर्ज़न्स के बीच के अंतर में स्पष्ट रूप से देख सकते थे।
00:15:40तो अगर आप एक iOS डेवलपर हैं, तो बेहतर रिज़ल्ट पाने के लिए उनके इंटरनल AI टूलिंग का
00:15:46उपयोग करना शायद आपके लिए मददगार होगा।
00:15:47तो यह रहा दोस्तों, मुझे उम्मीद है कि आपको यह लीडरबोर्ड विश्लेषण पसंद आया होगा।
00:15:51मुझे लगता है कि इससे इस बात पर एक बड़ी बहस छिड़ सकती है कि शायद हमें अब
00:15:55लैंग्वेज-स्पेसिफिक मॉडल्स की ज़रूरत है।
00:15:57क्योंकि साफ तौर पर इनमें से कई मॉडल्स वेब ऐप्स, जावास्क्रिप्ट
00:16:03या पायथन प्रोजेक्ट्स की ओर ज़्यादा झुके हुए हैं।
00:16:04लेकिन कुछ विशेष कोडिंग समाधानों के लिए, हमें कुछ कस्टम कोडिंग मॉडल्स की ज़रूरत पड़ सकती है।
00:16:09लेकिन इस सब पर आपकी क्या राय है?
00:16:11हमें नीचे कमेंट सेक्शन में ज़रूर बताएं।
00:16:13और दोस्तों, अगर आपको यह वीडियो पसंद आया है, तो कृपया वीडियो के नीचे
00:16:18उस लाइक बटन को दबाकर मुझे बताएं।
00:16:19और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:16:22मैं Better Stack से Andris हूँ और मैं आपसे अगले वीडियो में मिलूँगा।