मैंने 7 AI एजेंट्स को एक ही Swift चैलेंज दिया। परिणाम बहुत भयानक थे!

BBetter Stack
컴퓨터/소프트웨어스마트폰/모바일AI/미래기술

Transcript

00:00:00ज़्यादातर AI कोडिंग मॉडल्स के साथ एक बहुत बड़ी समस्या है - वे Swift को बिल्कुल भी हैंडल नहीं कर पाते।
00:00:06हम सभी ने एजेंटों द्वारा सेकंडों में वेब ऐप्स और जावास्क्रिप्ट टूल बनाने के शानदार डेमो देखे हैं,
00:00:11लेकिन जैसे ही आप उनसे Swift कोड को छूने के लिए कहते हैं, चीज़ें तेज़ी से बिगड़ने लगती हैं।
00:00:16अब सवाल यह है कि दुनिया के सबसे स्मार्ट मॉडल्स iOS डेवलपमेंट में क्यों फेल हो रहे हैं?
00:00:22तो, आज के इस वीडियो में हम इसी का पता लगाने वाले हैं।
00:00:25आज मैं टॉप कोडिंग एजेंटों को एक ही Swift ऐप कोडिंग चैलेंज दे रहा हूँ ताकि देख सकूँ कि
00:00:30कौन से मॉडल्स वास्तव में इस काम को कर सकते हैं और कौन से सिर्फ वेब-डेवलपमेंट के लिए ही बने हैं।
00:00:36मैं आपको थोड़ा स्पॉइलर दे दूँ - इनमें से एक मॉडल ने वास्तव में इस टेस्ट को पूरी तरह से पास कर लिया।
00:00:40वह कौन सा मॉडल है, यह आप वीडियो में आगे देखेंगे।
00:00:43इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं।
00:00:50तो सबसे पहले, मुख्य मुद्दे पर बात करते हैं।
00:00:52आखिर AI कोडिंग मॉडल्स Swift डेवलपमेंट में इतने खराब क्यों हैं?
00:00:56और साफ कर दूँ कि यह सिर्फ मेरा ऑब्जर्वेशन नहीं है।
00:00:59“इवैल्यूएटिंग लार्ज लैंग्वेज मॉडल्स फॉर कोड जनरेशन - ए कंपैरेटिव स्टडी” नामक एक स्टडी में
00:01:05पायथन, जावा और Swift पर किए गए टेस्ट में पाया गया कि GPT और Claude सहित सभी मॉडल्स का
00:01:12Swift में प्रदर्शन पायथन या जावा की तुलना में लगातार कम रहा।
00:01:17और इसका कारण तीन मुख्य बाधाएँ हैं जो Apple के इकोसिस्टम में AI की क्षमता को कम कर देती हैं।
00:01:24सबसे पहले आता है डेटा गैप।
00:01:25जहाँ वेब पर ओपन सोर्स जावास्क्रिप्ट और पायथन कोड की भरमार है, वहीं प्रोफेशनल Swift कोड का एक बड़ा हिस्सा
00:01:31प्राइवेट या कमर्शियल रिपॉजिटरी में बंद रहता है।
00:01:36दूसरा है API ड्रिफ्ट।
00:01:38Apple चीज़ों को तेज़ी से बदलने और पुराने को छोड़ने के लिए मशहूर है।
00:01:42SwiftUI और Swift के कॉनकरेंसी मॉडल्स में पिछले तीन सालों में उससे ज़्यादा बदलाव आए हैं जितने
00:01:47कुछ वेब स्टैंडर्ड्स में एक दशक में आते हैं।
00:01:49और क्योंकि ज़्यादातर AI मॉडल्स का एक नॉलेज कट-ऑफ होता है, वे अक्सर Swift कोड लिखने के लिए
00:01:54उन पुराने नियमों का उपयोग करते हैं जो Xcode के लेटेस्ट वर्ज़न में काम नहीं करते।
00:01:59और अंत में आता है बेंचमार्किंग बायस।
00:02:02आज हम जिन मॉडल्स का टेस्ट कर रहे हैं, जैसे Qwen या Grok, वे स्पेसिफिक टेस्ट्स के लिए ट्रेंड हैं।
00:02:08वे 'HumanEval' जैसे बड़े बेंचमार्क पास करने के लिए ऑप्टिमाइज़ किए गए हैं जो लगभग पूरी तरह से
00:02:13पायथन और वेब-आधारित लॉजिक पर केंद्रित होते हैं।
00:02:16चूंकि कॉम्प्लेक्स iOS UI के लिए ज़्यादा बड़े बेंचमार्क उपलब्ध नहीं हैं, इसलिए इन मॉडल्स को
00:02:21एक फंक्शनल ऐप बनाने की क्षमता पर आंका ही नहीं गया है।
00:02:25इसलिए मैंने बाहर उपलब्ध कुछ सबसे लोकप्रिय AI कोडिंग मॉडल्स को चुना और उनमें से प्रत्येक को
00:02:30बिल्कुल एक ही प्रॉम्प्ट दिया।
00:02:32मैंने उनमें से हर एक को Swift का उपयोग करके 'Dogtinder' नाम का एक सरल टिंडर-जैसा ऐप क्लोन बनाने का काम दिया,
00:02:38जहाँ 'Dog CEO API' का उपयोग करके आपको अलग-अलग कुत्ते दिखाए जाते हैं।
00:02:43आप अपनी पसंद के हिसाब से स्वाइप लेफ्ट या राइट कर सकते हैं और अगर मैच होता है,
00:02:47तो आप मैच हुए कुत्ते के साथ मज़ेदार मैसेज भेजने के लिए चैट इंटरफेस खोल सकते हैं।
00:02:52तो यह काफी प्यारा और सरल ऐप है जिसे एक एजेंट पूरा कर सके, और इसमें कुछ दिलचस्प चुनौतियाँ भी हैं
00:02:58जैसे नेटिव Swift में स्वाइप एनीमेशन फंक्शनलिटी बनाना।
00:03:03टेस्ट के लिए, हम सबसे खराब प्रदर्शन करने वाले मॉडल से शुरुआत करेंगे और
00:03:07सबसे अच्छे प्रदर्शन करने वाले की ओर बढ़ेंगे।
00:03:09सबसे खराब स्थान पर दुर्भाग्य से हमारे पास नया Qwen 2.5 Coder मॉडल है।
00:03:15Qwen इस नए मॉडल को Kimi या Claude जैसे दिग्गजों के ओपन सोर्स विकल्प के रूप में प्रमोट कर रहा है,
00:03:20जिसका मॉडल साइज छोटा है लेकिन परफॉरमेंस हाई है।
00:03:25हालांकि वेब ऐप्स के लिए यह सच हो सकता है, लेकिन Swift चैलेंज के लिए यह टिक नहीं सका।
00:03:32जहाँ भी संभव हो, मैंने उनके अपने CLI टूल्स का उपयोग करने की कोशिश की
00:03:37और इस मामले में, मैंने इस चैलेंज को करने के लिए Qwen CLI टूल का उपयोग किया।
00:03:42जब इसने कोड जनरेट कर लिया, तब मैं उस प्रोजेक्ट फ़ाइल को नहीं खोल सका
00:03:46जो Qwen ने बनाई थी।
00:03:48तो मैंने इसे वह एरर ठीक करने का प्रॉम्प्ट दिया जो फ़ाइल खोलने की कोशिश करते समय आई थी।
00:03:53लेकिन इसके बावजूद, Qwen एरर ठीक नहीं कर सका और इसके बजाय उसने मुझे एक लंबी 'README' फ़ाइल दे दी
00:03:58कि कैसे इस प्रोजेक्ट को खुद स्क्रैच से बनाया जाए और फिर फ़ाइलों को प्रोजेक्ट फ़ोल्डर में कॉपी किया जाए,
00:04:03जो मैं इस चैलेंज के लिए मैन्युअल रूप से नहीं करना चाहता था क्योंकि
00:04:08उससे इस चैलेंज का उद्देश्य ही खत्म हो जाता।
00:04:09जैसा कि आप बाद में देखेंगे, मैंने गौर किया कि कुछ मॉडल्स के लिए प्रोजेक्ट की फ़ाइलों का फाइनल सेट बनाना
00:04:14काफी मुश्किल था, जिसे हम पहली बार में सफलतापूर्वक खोल सकें।
00:04:20तो Qwen जैसे मामलों के लिए, मैंने इसे एक आसान चुनौती देने का फैसला किया।
00:04:26मैंने Xcode पर मैन्युअल रूप से एक नया iOS ऐप प्रोजेक्ट बनाया, और मुझे लगा कि यह
00:04:31Xcode के नए वर्ज़न के साथ आने वाले नए कोडिंग इंटेलिजेंस फीचर को आज़माने का अच्छा समय है।
00:04:38यह काफी कूल है क्योंकि आखिरकार Xcode का अपना AI असिस्टेंट फीचर आ गया है।
00:04:43तो मैंने इसे अपने OpenRouter अकाउंट से जोड़ा और ड्रॉपडाउन से Qwen 2.5 Coder मॉडल को चुना
00:04:49और फिर से चैलेंज शुरू किया।
00:04:52इतनी मदद के बावजूद, Qwen पहली बार में सफल प्रोजेक्ट नहीं बना सका
00:04:57क्योंकि यहाँ Swift मॉडल्स को सटीक रूप से सेटअप करने में कुछ दिक्कतें आईं।
00:05:02अब नए AI असिस्टेंट फीचर के साथ, हम इन सभी समस्याओं को हाइलाइट कर सकते हैं और
00:05:07असिस्टेंट को एक साथ सभी चुनिंदा समस्याओं का समाधान जनरेट करने का काम दे सकते हैं।
00:05:12आखिरकार, Qwen को बाकी समस्याओं को ठीक करने के लिए कुछ बार प्रॉम्प्ट देने के बाद,
00:05:16हमें डॉग टिंडर ऐप का एक वर्किंग वर्ज़न मिला, लेकिन सच कहूँ तो रिज़ल्ट काफी खराब था।
00:05:23यह Dog CEO API से इमेज भी लोड नहीं कर सका और पूरा UI भी बहुत पुराना सा था
00:05:29और बिल्कुल भी एक्साइटिंग नहीं था।
00:05:32यही नहीं, मैच सेक्शन में एक बग था जहाँ कोई भी मैच
00:05:36वास्तव में दिखाई नहीं दे रहा था।
00:05:37तो दुर्भाग्य से, Qwen Xcode ऐप चैलेंज में पूरी तरह फेल रहा।
00:05:42आगे बढ़ते हुए, हमारे दूसरे सबसे निचले स्थान पर Grok अपने 'Grok Code Fast' मॉडल के साथ है।
00:05:48इसके लिए, मैंने VS Code पर VS Copilot एक्सटेंशन के माध्यम से इसका उपयोग करने की कोशिश की और एक बार फिर,
00:05:53मुझे वही समस्या आई जहाँ Grok पूरे Swift प्रोजेक्ट पैकेज के लिए ज़रूरी
00:05:59सभी प्रोजेक्ट फ़ाइलें नहीं बना सका।
00:06:02इसके बजाय इसने मुझे फ़ाइलों को मैन्युअल रूप से कॉपी करने के निर्देश दिए।
00:06:06तो एक बार फिर, मुझे OpenRouter से Grok मॉडल का उपयोग करके
00:06:12Xcode पर AI असिस्टेंट का उपयोग करना पड़ा।
00:06:14Grok को भी कुछ समस्याओं का सामना करना पड़ा, इसलिए मुझे बाकी एरर्स ठीक करने के लिए इसे दो बार प्रॉम्प्ट देना पड़ा।
00:06:20लेकिन इन सब के बाद, यह ऐप को सफलतापूर्वक पूरा करने में सक्षम था।
00:06:23और पहली नज़र में, Grok ने डिज़ाइन के मामले में बहुत ही खराब काम किया।
00:06:27डिज़ाइन बिल्कुल भी अच्छा नहीं था और यहाँ तक कि कोई ऐसा सेक्शन भी नहीं था जहाँ हम
00:06:32मैच देख सकें।
00:06:33Grok को Qwen से ऊपर रखने का एकमात्र कारण यह है कि कम से कम फंक्शनलिटी के स्तर पर
00:06:38चैट फंक्शनलिटी सहित सब कुछ काम कर रहा है, लेकिन ईमानदारी से कहूँ तो, दोनों का
00:06:44परफॉरमेंस लगभग एक जैसा ही खराब था।
00:06:48और इस ऐप के बारे में कुछ भी रोमांचक या दिखने में सुंदर नहीं लगता।
00:06:51तो मैं यह नहीं कहूँगा कि Grok चैलेंज में फेल हो गया, लेकिन इसे सबसे कम संभव
00:06:57पासिंग ग्रेड मिलता है।
00:06:58हमारे लीडरबोर्ड पर अगला नाम Kimi का है, जो अपने नवीनतम 'Kimi k2.5' मॉडल के साथ है।
00:07:04Kimi को भी Qwen जैसी ही समस्या हुई जहाँ उनके नेटिव CLI का उपयोग करने पर इसने
00:07:08प्रोजेक्ट फ़ाइल तो बनाई, लेकिन मैं उसे खोल नहीं सका।
00:07:11CLI के माध्यम से इसे ठीक करने के बाद भी समस्या हल नहीं हुई।
00:07:15तो एक बार फिर Kimi के टेस्ट के लिए मुझे OpenRouter द्वारा उपलब्ध Kimi k2.5 के साथ
00:07:20Xcode के इन-बिल्ट AI असिस्टेंट फीचर का उपयोग करना पड़ा।
00:07:23Kimi का परफॉरमेंस Qwen और Grok जैसा ही था क्योंकि इसने पहली बार में
00:07:29चैलेंज पूरा नहीं किया।
00:07:31इसलिए मुझे बाकी समस्याओं को ठीक करने के लिए इसे फिर से प्रॉम्प्ट देना पड़ा।
00:07:34लेकिन सिर्फ एक बार ठीक करने के बाद ही Kimi फाइनल रिज़ल्ट देने में सक्षम रहा।
00:07:39और यह वर्ज़न Qwen और Grok से एक कदम आगे था क्योंकि कम से कम अब हमारे पास एक ऐसा ऐप था
00:07:44जो वास्तव में एक टिंडर-जैसे ऐप जैसा दिखता है।
00:07:47इसमें अब साइड्स पर 'लाइक' और 'नोप' स्टिकर के साथ एक अच्छा लेफ्ट और राइट स्वाइप एनीमेशन है
00:07:53और मैच होने पर एक फैंसी पॉप-अप भी है।
00:07:57लेकिन एनीमेशन काफी बग्गी और अजीब था।
00:08:00कभी-कभी तो मुझे इमेज बिल्कुल भी दिखाई नहीं देती थी क्योंकि वह स्क्रीन के बाहर तैर रही होती थी।
00:08:05लेकिन कम से कम Kimi मैच को ठीक से स्टोर करने में सक्षम था।
00:08:08और हमें वास्तव में एक सेक्शन मिला जहाँ हम अपने मैच देख सकते थे और उनमें से किसी को भी खोलकर
00:08:12उस स्पेसिफिक कुत्ते के साथ चैटिंग शुरू कर सकते थे।
00:08:14तो यह पहले से ही Qwen और Grok से एक बड़ा सुधार है।
00:08:18लेकिन अगर मुझे इसकी तुलना उन अन्य उदाहरणों से करनी है जो आप बाद में इस वीडियो में देखेंगे, तो मैं कहूँगा
00:08:22कि यह अभी भी एक औसत रिज़ल्ट है।
00:08:25और इसीलिए मैंने Kimi को लीडरबोर्ड पर नीचे की जगह दी है।
00:08:29और आगे हमारे पास Gemini 2.0 Pro है।
00:08:31और यह वाला दिलचस्प है क्योंकि जब मैंने एक ही मॉडल को उनके अपने CLI के माध्यम से बनाम
00:08:36Xcode के AI असिस्टेंट से टेस्ट किया, तो मुझे बिल्कुल अलग परिणाम मिले।
00:08:41तो पहले देखते हैं कि Gemini CLI का उपयोग करने पर हमें क्या मिला।
00:08:45यह कहता है कि मॉडल अभी भी CLI पर प्रिव्यू मोड में है।
00:08:49तो शायद यही मुख्य समस्या थी।
00:08:50लेकिन एक बार फिर, जब मैंने इसे उसी प्रॉम्प्ट के साथ आज़माया जो मैंने हर मॉडल के लिए उपयोग किया था,
00:08:55तो यह मुझे अंत में प्रोजेक्ट फ़ाइल नहीं दे सका।
00:08:59और ऐसा इसलिए है क्योंकि Xcode प्रोजेक्ट फ़ाइल बनाने के लिए, आपको पहले प्रोजेक्ट डिटेल्स के साथ एक YAML
00:09:04फ़ाइल बनानी होती है और फिर उसे जनरेट करने के लिए CodeGen CLI कमांड का उपयोग करना पड़ता है।
00:09:09लेकिन किसी वजह से, कुछ मॉडल्स इसे करने से मना कर देते हैं या नहीं जानते कि इसे कैसे करना है।
00:09:14लेकिन फिर भी, जब मैंने Gemini को विशेष रूप से फ़ाइल बनाने के लिए प्रॉम्प्ट दिया, तो उसने ऐसा किया।
00:09:18और मुझे बस उसे CodeGen कमांड चलाने की परमिशन देनी पड़ी।
00:09:22और एक बार जब हमने प्रोजेक्ट खोला, तो हमें एक एसेट एरर मिली।
00:09:25लेकिन Gemini ने उसे तुरंत ठीक कर दिया।
00:09:28और एक बार जब वह हल हो गया, तो ऐप आखिरकार कंपाइल हो रहा था।
00:09:31लेकिन रिज़ल्ट काफी खराब था, हैरानी की हद तक खराब।
00:09:35यह टूटा हुआ था।
00:09:37मैच सिस्टम ठीक से काम नहीं कर रहा था और सब कुछ बग्गी था।
00:09:41तो इस मोड़ पर, मैं Gemini को फेलिंग ग्रेड देने ही वाला था।
00:09:45लेकिन सिर्फ जिज्ञासा के कारण, मैंने Gemini को एक और मौका देने का फैसला किया और
00:09:50OpenRouter के माध्यम से Gemini 2.0 Pro को चलाकर Xcode के नेटिव AI असिस्टेंट का उपयोग किया।
00:09:56और ऐसा करने पर, इस बार इसने पहली बार में ही इसे सही कर दिया।
00:10:01और सिर्फ इतना ही नहीं, ऐप अद्भुत था।
00:10:04मेरा मतलब है, डिज़ाइन बहुत बढ़िया था।
00:10:06फंक्शनलिटी अपनी जगह पर थी।
00:10:08इसने ऊपर एक अच्छा सा लोगो भी जोड़ा।
00:10:10ईमानदारी से कहूँ तो, ऐप के इस वर्ज़न में कोई गलती निकालने जैसा कुछ नहीं था।
00:10:14तो मैं थोड़ा हैरान हूँ कि एक ही मॉडल के साथ एक ही प्रॉम्प्ट चलाने पर भी,
00:10:20अलग-अलग AI कोडिंग टूल्स ने इतने अलग रिज़ल्ट कैसे दिए।
00:10:24लेकिन फिर भी, मैं उस वर्ज़न से बहुत प्रभावित हुआ जो Gemini ने मुझे आखिरकार
00:10:29Xcode के टूलिंग के माध्यम से दिया और वो भी पहली बार में।
00:10:32तो इसीलिए मैंने Gemini को लीडरबोर्ड पर थोड़ा ऊपर रखा है, क्योंकि इसका
00:10:37फाइनल रिज़ल्ट वास्तव में बहुत अच्छा था।
00:10:38ठीक है, तो लीडरबोर्ड पर आगे हमारे पास GPT-4.5 है।
00:10:43और चूंकि OpenAI का अपना कोडिंग ऐप है, इसलिए मैंने उनके अपने ऐप से
00:10:48ही चैलेंज करने का फैसला किया।
00:10:49और अब तक देखे गए पिछले मॉडल्स के विपरीत, GPT-4.5 वास्तव में पहली बार में ही
00:10:55एक वर्किंग प्रोडक्ट बनाने में सक्षम था।
00:10:58तो यह पहले से ही एक बड़ी छलांग है।
00:11:00लेकिन मुझे कहना होगा, ऐप खुद बहुत रोमांचक नहीं था।
00:11:03इसमें बहुत ही नीरस ब्लू कलर की थीम थी।
00:11:06और सबसे बड़ी समस्या जिसने मुझे परेशान किया वो यह थी कि यह इमेज की चौड़ाई को
00:11:11ऐप के फ्रेम के भीतर फिट नहीं कर सका।
00:11:13तो कुछ कुत्तों के लिए, इमेज का कंटेनर बहुत ज़्यादा खिंच गया था जो कि
00:11:18ऐप की सीमाओं के बाहर चला गया।
00:11:20तो यह डिज़ाइन की एक बड़ी खामी है जिसे मॉडल ठीक से नहीं कर पाया।
00:11:25लेकिन ऐप खुद सभी ज़रूरी UI एलिमेंट्स के साथ फंक्शनल है।
00:11:29और हमें मैच सेक्शन भी ठीक से काम करता हुआ मिला जहाँ हम कुत्तों से चैट कर सकते थे।
00:11:34तो GPT-4.5 को लीडरबोर्ड पर इतना ऊँचा स्थान देने का कारण यह है कि यह
00:11:40पहला मॉडल था जो बिना किसी मदद या बिना पहले Xcode प्रोजेक्ट सेटअप किए
00:11:46पूरा Swift प्रोजेक्ट पैकेज बनाने में सक्षम था।
00:11:50तो कुल मिलाकर, बहुत बुरा नहीं है, लेकिन बहुत रोमांचक भी नहीं।
00:11:54और आखिरकार, हम लीडरबोर्ड पर पहले स्थान पर पहुँच गए हैं।
00:11:57और मैं आपको यह अंदाज़ा लगाने के लिए एक पल दूँगा कि वह कौन सा मॉडल हो सकता है।
00:12:01और हाँ, मुझे लगता है कि हम सभी जानते हैं कि वह कौन सा मॉडल है।
00:12:04यह निश्चित रूप से Claude 3.7 Sonnet है, जिसने पहली बार में ही इस चैलेंज में कमाल कर दिया।
00:12:11मैंने इसे अन्य मॉडल्स की तरह ही प्रॉम्प्ट दिया, लेकिन मैंने उनके अपने Claude Code CLI
00:12:17टूल का उपयोग किया और मुझे बस ज़रूरी परमिशन देनी पड़ी।
00:12:20और मॉडल ने खुद सब कुछ किया, जिसमें मेरे द्वारा पहले से सेटअप किए बिना
00:12:27एक पूरी तरह फंक्शनल Xcode प्रोजेक्ट फ़ाइल बनाना भी शामिल था।
00:12:29और सिर्फ इतना ही नहीं, ऐप खुद भी बहुत ही खूबसूरत था।
00:12:34डिज़ाइन लाजवाब था।
00:12:35एनीमेशन बहुत ही स्मूथ और बढ़िया थे।
00:12:37मैच सेक्शन और चैट विंडो भी सही तरीके से काम कर रहे थे।
00:12:41सिर्फ एक चीज़ जो हमें इस वर्ज़न में नहीं मिली वो था एक फैंसी लोगो जैसा कि
00:12:46Gemini ने पिछले वर्ज़न में बनाया था।
00:12:48लेकिन उसके अलावा, यह उन सभी में सबसे अच्छा दिखने वाला वर्ज़न था।
00:12:52और इसने पहली बार में ही इसे बनाने में कामयाबी हासिल की।
00:12:55तो मैं कहूँगा कि Claude 3.7 Sonnet का प्रदर्शन अन्य सभी मॉडल्स की तुलना में बिल्कुल अविश्वसनीय है।
00:13:01इसलिए यह निश्चित रूप से लीडरबोर्ड पर पहले स्थान का हकदार है।
00:13:05लेकिन रुकिए, अभी और भी है।
00:13:07यहाँ आप लोगों के लिए एक छोटा बोनस है।
00:13:09अभी एक और मॉडल है जिसका रिव्यू करना बाकी है और जिसे अभी तक लीडरबोर्ड पर
00:13:13नहीं दिखाया गया है।
00:13:14दरअसल, जब मैं यह वीडियो बना रहा था, तभी एक घोषणा हुई कि GLM ने अपना
00:13:18लेटेस्ट मॉडल वर्ज़न 5 रिलीज़ किया है, और वे दावा कर रहे हैं कि यह मॉडल
00:13:23कोडिंग में Claude 3.7 Sonnet से भी ज़्यादा स्कोर करता है।
00:13:26तो ज़ाहिर है मुझे इसे उसी Swift चैलेंज पर टेस्ट करना था।
00:13:31और चूंकि GLM का अपना कोई CLI टूल नहीं है, इसलिए मैंने एक बार फिर Xcode के AI असिस्टेंट टूल का
00:13:37उपयोग किया और इसे OpenRouter से जोड़कर GLM 5 का उपयोग किया।
00:13:41और सबसे पहली बात, GLM ने पहली बार में यह चैलेंज पूरा नहीं किया।
00:13:45तो यह पहले ही Claude 3.7 Sonnet से खराब प्रदर्शन दिखाता है।
00:13:49दूसरे, मुझे इसे सफलतापूर्वक कंपाइल करने के लिए बग फिक्स के तीन राउंड से गुज़रना पड़ा।
00:13:56तो चलिए देखते हैं कि GLM 5 का फाइनल रिज़ल्ट क्या है।
00:13:59जैसा कि आप देख सकते हैं, यह मुझे पहले से ही एक फेलिंग ग्रेड जैसा लग रहा है।
00:14:03यह कुत्तों की कोई भी इमेज लोड नहीं कर पा रहा है।
00:14:06इसमें स्वाइप फंक्शनलिटी नहीं है।
00:14:08और इससे भी बुरा यह है कि यह केवल तीन कुत्तों को दिखाता है और फिर मैसेज देता है कि
00:14:13अब और कुत्ते उपलब्ध नहीं हैं।
00:14:15यही नहीं, अगर हम मैच सेक्शन में जाते हैं, तो यह कुत्तों के साथ चैट इंटरफेस खोलने के लिए
00:14:20किसी भी मैच पर क्लिक नहीं कर सकता।
00:14:23तो यह सेक्शन स्पष्ट रूप से अधूरा है।
00:14:25तो इस रिज़ल्ट को देखते हुए, हम इस परफॉरमेंस के आधार पर GLM को कहाँ रखें?
00:14:29मुझे लगता है कि हमें इसे Qwen के ठीक ऊपर, दूसरे सबसे निचले स्थान पर रखना होगा क्योंकि
00:14:36यह परफॉरमेंस बिल्कुल भी स्वीकार्य नहीं थी और किसी भी अन्य मॉडल जितनी अच्छी नहीं थी।
00:14:42तो यह कहना कि GLM 5, Claude 3.7 Sonnet से ज़्यादा शक्तिशाली है, एक बहुत बड़ा दावा है।
00:14:47अब, मैंने इस मॉडल को किसी अन्य कोडिंग टास्क पर टेस्ट नहीं किया है, और हो सकता है कि
00:14:52सरल वेब प्रोजेक्ट्स के लिए, यह Claude 3.7 Sonnet जितना ही अच्छा या शायद उससे भी बेहतर काम करता हो।
00:14:59लेकिन यह निश्चित रूप से Swift में कोडिंग के लिए एक अच्छा मॉडल नहीं है।
00:15:02तो आज हमने क्या सीखा?
00:15:04साफ है कि जहाँ AI क्रांति बिजली की गति से आगे बढ़ रही है, वहीं इन मॉडल्स के लिए
00:15:10Swift की समस्या अभी भी बनी हुई है। Claude 3.7 Sonnet और GPT-4.5 ने साबित किया कि अगर मॉडल काफी बड़ा हो और रीजनिंग
00:15:18मजबूत हो, तो वे ओपन सोर्स Swift कोड डेटा की कमी को दूर कर सकते हैं।
00:15:23लेकिन Qwen और Grok जैसे मॉडल्स के लिए, डेटा गैप और API ड्रिफ्ट जिसकी हमने पहले बात की थी,
00:15:29उन्हें स्पष्ट रूप से काफी प्रभावित कर रहे हैं।
00:15:31और मुझे यह देखकर भी हैरानी हुई कि Xcode का नया AI असिस्टेंट वास्तव में Swift ऐप्स के लिए कितना मददगार है।
00:15:36हम इसे Gemini के दो अलग-अलग ऐप वर्ज़न्स के बीच के अंतर में स्पष्ट रूप से देख सकते थे।
00:15:40तो अगर आप एक iOS डेवलपर हैं, तो बेहतर रिज़ल्ट पाने के लिए उनके इंटरनल AI टूलिंग का
00:15:46उपयोग करना शायद आपके लिए मददगार होगा।
00:15:47तो यह रहा दोस्तों, मुझे उम्मीद है कि आपको यह लीडरबोर्ड विश्लेषण पसंद आया होगा।
00:15:51मुझे लगता है कि इससे इस बात पर एक बड़ी बहस छिड़ सकती है कि शायद हमें अब
00:15:55लैंग्वेज-स्पेसिफिक मॉडल्स की ज़रूरत है।
00:15:57क्योंकि साफ तौर पर इनमें से कई मॉडल्स वेब ऐप्स, जावास्क्रिप्ट
00:16:03या पायथन प्रोजेक्ट्स की ओर ज़्यादा झुके हुए हैं।
00:16:04लेकिन कुछ विशेष कोडिंग समाधानों के लिए, हमें कुछ कस्टम कोडिंग मॉडल्स की ज़रूरत पड़ सकती है।
00:16:09लेकिन इस सब पर आपकी क्या राय है?
00:16:11हमें नीचे कमेंट सेक्शन में ज़रूर बताएं।
00:16:13और दोस्तों, अगर आपको यह वीडियो पसंद आया है, तो कृपया वीडियो के नीचे
00:16:18उस लाइक बटन को दबाकर मुझे बताएं।
00:16:19और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:16:22मैं Better Stack से Andris हूँ और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

Swift डेवलपमेंट में अधिकांश AI मॉडल्स विफल हो रहे हैं, लेकिन Claude 3.7 Sonnet और Gemini 2.0 (Xcode के माध्यम से) वर्तमान में सबसे विश्वसनीय विकल्प बनकर उभरे हैं।

Highlights

AI कोडिंग मॉडल्स में Swift के लिए डेटा गैप, API ड्रिफ्ट और बेंचमार्किंग बायस जैसी तीन मुख्य बाधाएं हैं।

Claude 3.7 Sonnet ने पहली बार में ही पूरी तरह से फंक्शनल और सुंदर 'Dogtinder' ऐप बनाकर सर्वश्रेष्ठ प्रदर्शन किया।

Gemini 2.0 Pro का प्रदर्शन टूल के आधार पर भिन्न रहा; Xcode AI असिस्टेंट के साथ इसने बेहतरीन रिज़ल्ट दिए।

GPT-4.5 बिना बाहरी मदद के पूरा प्रोजेक्ट पैकेज बनाने वाला पहला मॉडल था, हालांकि डिजाइन में कुछ खामियां थीं।

Qwen 2.5, Grok और GLM 5 जैसे मॉडल्स Swift कोडिंग और प्रोजेक्ट स्ट्रक्चर बनाने में बुरी तरह विफल रहे।

अध्ययनों से पता चलता है कि GPT और Claude जैसे दिग्गज मॉडल्स भी पायथन की तुलना में Swift में लगातार कम स्कोर करते हैं।

Timeline

Swift कोडिंग में AI की विफलता के कारण

वीडियो की शुरुआत इस समस्या से होती है कि AI मॉडल्स वेब ऐप्स के लिए तो अच्छे हैं, लेकिन Swift के मामले में विफल हो जाते हैं। वक्ता तीन मुख्य बाधाओं का उल्लेख करते हैं: प्रोफेशनल Swift कोड का प्राइवेट होना (डेटा गैप), Apple के API में होने वाले तेज़ बदलाव (API ड्रिफ्ट), और बेंचमार्क का पायथन पर केंद्रित होना। 'HumanEval' जैसे टेस्ट्स iOS UI की जटिलताओं को नहीं मापते, जिससे मॉडल्स की वास्तविक क्षमता का पता नहीं चलता। यह खंड स्पष्ट करता है कि क्यों आधुनिक मॉडल्स पुराने नियमों का उपयोग करते हैं जो लेटेस्ट Xcode में काम नहीं करते।

चैलेंज का परिचय और 'Dogtinder' ऐप

वक्ता सभी 7 AI एजेंटों के लिए एक समान कोडिंग चुनौती निर्धारित करते हैं, जिसे 'Dogtinder' नाम दिया गया है। यह ऐप 'Dog CEO API' का उपयोग करके कुत्तों की तस्वीरें दिखाता है और इसमें टिंडर जैसा स्वाइप फीचर होना चाहिए। चुनौती में स्वाइप एनीमेशन, मैचिंग सिस्टम और एक फंक्शनल चैट इंटरफेस बनाना शामिल है ताकि मॉडल्स की वास्तविक कोडिंग क्षमता को परखा जा सके। यह प्रोजेक्ट सरल दिखता है लेकिन इसमें नेटिव Swift एनीमेशन जैसी जटिल तकनीकी चुनौतियां छिपी हुई हैं।

Qwen 2.5 और Grok का निराशाजनक प्रदर्शन

सबसे पहले Qwen 2.5 Coder का परीक्षण किया गया, जो प्रोजेक्ट फाइलें तक नहीं खोल सका और उसका UI बहुत ही पुराना और अधूरा था। इसके बाद Grok 'Code Fast' मॉडल ने भी वैसी ही त्रुटियाँ दिखाईं और उपयोगकर्ता को मैन्युअल रूप से कोड कॉपी करने के निर्देश दिए। हालांकि Grok की चैट फंक्शनलिटी काम कर रही थी, लेकिन इसका डिज़ाइन बेहद खराब था और इसमें मैच सेक्शन गायब था। वक्ता इन दोनों मॉडल्स को 'फेलिंग ग्रेड' के करीब रखते हैं क्योंकि इन्हें बार-बार प्रॉम्प्ट देने की ज़रूरत पड़ी।

Kimi k2.5 और Gemini 2.0 Pro का परीक्षण

Kimi k2.5 ने पिछले मॉडल्स से बेहतर प्रदर्शन किया और एक ऐसा ऐप बनाया जो वास्तव में टिंडर जैसा दिखता था, हालांकि इसके एनीमेशन काफी बग्गी थे। Gemini 2.0 Pro का मामला दिलचस्प था क्योंकि इसके अपने CLI ने खराब परिणाम दिए, लेकिन Xcode AI असिस्टेंट के माध्यम से इसने पहली बार में ही एक अद्भुत ऐप बना दिया। Gemini के इस वर्ज़न में एक सुंदर लोगो, सटीक डिज़ाइन और बेहतरीन फंक्शनलिटी शामिल थी। वक्ता इस बात पर हैरानी जताते हैं कि एक ही मॉडल अलग-अलग टूल्स के साथ इतने भिन्न परिणाम कैसे दे सकता है।

GPT-4.5 और विजेता Claude 3.7 Sonnet

GPT-4.5 बिना किसी मदद के पूरा प्रोजेक्ट पैकेज बनाने वाला पहला मॉडल बना, हालांकि इसमें इमेज फिटिंग और नीरस नीले रंग की थीम जैसी डिज़ाइन समस्याएँ थीं। अंत में, Claude 3.7 Sonnet ने अपने 'Claude Code CLI' के साथ इस चुनौती को पूरी तरह से जीत लिया। इसने बिना किसी पूर्व सेटअप के एक अत्यंत खूबसूरत, सुचारू एनीमेशन वाला और पूरी तरह फंक्शनल ऐप तैयार किया। वक्ता Claude के प्रदर्शन को अविश्वसनीय बताते हैं और इसे लीडरबोर्ड पर पहले स्थान पर रखते हैं।

बोनस: GLM 5 का टेस्ट और अंतिम निष्कर्ष

वीडियो के अंत में GLM 5 मॉडल का विश्लेषण किया गया है, जो Claude को टक्कर देने का दावा करता है लेकिन Swift चैलेंज में बुरी तरह विफल रहा। यह इमेज लोड करने में असमर्थ रहा और इसमें स्वाइप फंक्शनलिटी भी काम नहीं कर रही थी, जिससे इसे Qwen के पास रखा गया। निष्कर्ष में वक्ता सुझाव देते हैं कि भविष्य में हमें भाषा-विशिष्ट (Language-Specific) AI मॉडल्स की आवश्यकता हो सकती है। वे iOS डेवलपर्स को बेहतर परिणामों के लिए Xcode के आंतरिक AI टूलिंग का उपयोग करने की सलाह देते हैं।

Community Posts

View all posts