00:00:00इस महीने की शुरुआत में अलीबाबा ने 400 बिलियन पैरामीटर मॉडल के साथ Qwend 3.5 रिलीज़ किया और
00:00:05एक 'मैक्स थिंकिंग' वाला मॉडल भी, जो भारी सिस्टम आवश्यकताओं के साथ Opus 4.5 से बेहतर बेंचमार्क का दावा करता है
00:00:11ताकि इसे लोकली (locally) चलाया जा सके।
00:00:12लेकिन इसी हफ्ते उन्होंने Medium Series Qwend 3.5 मॉडल रिलीज़ किए हैं जो
00:00:17उनके मैक्स मॉडल जितने ही शक्तिशाली हैं और आधुनिक MacBook Pro पर लोकली चलने की क्षमता रखते हैं, और
00:00:22Sonnet 4.5 से बेहतर बेंचमार्क का दावा करते हैं, जिस पर मुझे भरोसा नहीं है, तो सब्सक्राइब बटन दबाएं
00:00:27और चलिए इन दोनों मॉडलों का परीक्षण करते हैं।
00:00:31ज्यादातर डेवलपर्स मानेंगे कि Sonnet 4.5 एक बेहतरीन मॉडल है, जो Claude
00:00:35Code, Co-Work और पूरे Anthropic सुइट के साथ अच्छी तरह काम करता है, जिससे अनुभव प्रीमियम लगता है।
00:00:40लेकिन इन मॉडलों के काम करने के लिए आपको ऑनलाइन रहना होगा और ये इतने सस्ते भी नहीं हैं।
00:00:44Qwend 3.5 की मीडियम सीरीज़ इसे बदलने का लक्ष्य रखती है, जिससे Sonnet 4.5 जैसा
00:00:49अच्छा मॉडल लोकली चलाना संभव हो सके और ट्विटर पर लोग इसके लिए पागल हो रहे हैं।
00:00:54लेकिन मुझे यकीन नहीं है कि यह वास्तव में Sonnet 4.5 जितना अच्छा है।
00:00:58इसलिए मैं इन दोनों मॉडलों का एक आसान, मध्यम और कठिन टास्क पर परीक्षण करूँगा और देखूँगा कि कौन सा
00:01:02बेहतर प्रदर्शन करता है।
00:01:04मगर टेस्टिंग शुरू करने से पहले, मुझे एक छोटा सा कबूलनामा करना है।
00:01:07मैं वास्तव में Qwend 3.5 को लोकली नहीं चलाने वाला हूँ क्योंकि मेरे साधारण M1 MacBook Pro में
00:01:12ठीक से इन्फरेंस (inference) चलाने के लिए पर्याप्त यूनिफाइड मेमोरी नहीं है।
00:01:15इसलिए मैं OpenCode से जुड़े OpenRouter पर Qwend 3.5 35b का उपयोग करने जा रहा हूँ और
00:01:21मैं Claude Code में Sonnet 4.5 को 'क्लीन मोड' में चलाऊँगा, ताकि यह मेरे किसी भी
00:01:25कौशल, प्लगइन या MCP टूल का उपयोग न करे।
00:01:27हम सरलता से शुरू करेंगे और मॉडलों से React और Vite का उपयोग करके शुरुआत से एक टू-डू लिस्ट बनाने को कहेंगे।
00:01:32तो अगर हम देखें कि Sonnet 4.5 ने क्या बनाया है, तो हम देख सकते हैं कि इसमें यह AI पर्पल रंग है।
00:01:36मैं एक टू-डू आइटम जोड़ सकता हूँ और उसे 'पूरा' के रूप में चिह्नित कर सकता हूँ, मेरे पास इसे साफ़ करने की क्षमता है और
00:01:40अगर मैं पेज रिफ्रेश करता हूँ, तो सब कुछ वहीं रहता है क्योंकि इसने लोकल स्टोरेज का उपयोग किया है।
00:01:44अगर आप Qwend 3.5 को देखें, तो दोनों की स्टाइलिंग समान है और उन्होंने Vite के साथ
00:01:48आने वाली डिफ़ॉल्ट स्टाइलिंग को नहीं बदला है।
00:01:51लेकिन फिर से, मैं एक टू-डू आइटम जोड़ सकता हूँ।
00:01:53और यहाँ हमारे पास कुछ अन्य विकल्प भी हैं।
00:01:54तो हम कैटेगरी चुन सकते हैं, हम गंभीरता (severity) चुन सकते हैं और
00:01:59शायद टू-डू की तारीख या समय सीमा भी।
00:02:02तो मैं कह सकता हूँ जैसे 'शॉपिंग करें' और यह टू-डू तारीख, गंभीरता और
00:02:06कैटेगरी दिखाता है, जो वास्तव में बहुत अच्छा है।
00:02:08चलिए कोड पर एक नज़र डालते हैं।
00:02:09तो यह Sonnet का कोड है और यहाँ, यह use effect का उपयोग कर रहा है, जो मुझे लगता है कि
00:02:13नीचे दिए गए लोकल स्टोरेज से संबंधित है।
00:02:15मुझे लगता है कि यह ठीक है, लेकिन मैं इसे किसी अलग तरीके से करना चाहूँगा।
00:02:17हमारे पास यहाँ 'add to-do' का उपयोग किया जा रहा है और एक्शन लेने के लिए यहाँ कुछ फ़ंक्शन हैं।
00:02:22जैसे टू-डू को टॉगल करना, और यहाँ डिलीट टू-डू है।
00:02:25यह सब अच्छा लग रहा है।
00:02:26और एक चीज़ जिसने मुझे थोड़ा चौंका दिया, वह ऊपर का हिस्सा है जिसमें JSON पार्सिंग का ज़िक्र है।
00:02:32तो ऐसा लग रहा है कि यह इसे लोकल स्टोरेज में JSON के रूप में सेव कर रहा है और फिर पार्स कर रहा है।
00:02:35और अच्छा होता अगर यह कोड एक अलग फ़ंक्शन में होता ताकि यदि आप इसमें और चीज़ें जोड़ना चाहें,
00:02:38तो यह यहाँ कोड के ऊपरी हिस्से को अव्यवस्थित न करे।
00:02:42अब, अगर हम Qwend को देखें, तो हमारे पास कुछ कैटेगरी हैं, इसमें use effect का उपयोग नहीं दिख रहा है,
00:02:46जो कि अच्छी बात है।
00:02:48और अगर हम नीचे स्क्रॉल करें, तो हमारे पास handle submit है, जो एक ऐसा नाम है जिसे मैं इस्तेमाल करना पसंद करूँगा।
00:02:51और हमारे पास handle updates, handle delete और handle toggle completed भी हैं।
00:02:55और एक चीज़ जो मुझे वास्तव में पसंद आई, वह यह कि इसने टू-डू आइटम्स को एक अलग कंपोनेंट में रखा है।
00:02:59तो मुख्य कंपोनेंट यानी मेन टू-डू ऐप कंपोनेंट को भरने के बजाय, इसने
00:03:03यहाँ एक नया कंपोनेंट बनाया है, जिसका उपयोग नीचे ऐप सेक्शन में किया गया है क्योंकि यहाँ कई
00:03:07टू-डू आइटम्स हैं।
00:03:08तो यह जीत Qwend की होती है क्योंकि इसने कई ज़्यादा फीचर्स के साथ टू-डू लिस्ट बनाई।
00:03:13लेकिन इन टेस्ट्स को चलाने के बाद, मुझे एहसास हुआ कि Qwend के पास OpenCode में
00:03:18सुपरपावर स्किल इनेबल थी।
00:03:19इसलिए मैंने इसे बिना उस स्किल के दोबारा चलाया और हमें यह परिणाम मिला।
00:03:23तो मुझे लगता है कि जीत Sonnet की होती है।
00:03:25चलिए दूसरे टेस्ट की ओर बढ़ते हैं, जो React, Vite और Three.js का उपयोग करके
00:03:29एक इंटरएक्टिव सौर मंडल बनाना है।
00:03:31Claude ने एक ही बार में बहुत बेहतर काम किया।
00:03:33ठीक है, इसमें कुछ ग्रह कम हैं, लेकिन जो मौजूद हैं मैं उन पर क्लिक कर सकता हूँ।
00:03:37मैं सूरज पर क्लिक करता हूँ और इसके बारे में कुछ जानकारी मिलती है।
00:03:39मैं यहाँ नीचे यूरेनस पर क्लिक करता हूँ और उसके बारे में भी कुछ जानकारी मिलती है।
00:03:44साइट पर मूवमेंट भी दोषरहित है, इसलिए मैं पैन, रोटेट, ज़ूम इन और आउट
00:03:48वगैरह कर सकता हूँ।
00:03:49और यहाँ वह है जो Qwend ने बनाया है।
00:03:50जी हाँ, एक खाली पेज।
00:03:51अगर हम कंसोल पर नज़र डालें, तो हम देख सकते हैं कि यहाँ एक एरर है जिसे मैंने Qwend को
00:03:56कई बार भेजा, लेकिन वह इसे हल नहीं कर सका।
00:03:58वास्तव में, इसे बनाने की पूरी प्रक्रिया काफी बोझिल थी।
00:04:01Qwend बीच-बीच में रुक गया और मुझे इसे फिर से शुरू करना पड़ा और इसे
00:04:05बार-बार गलतियों को सुधारने में भी संघर्ष करना पड़ा।
00:04:06इतना ही नहीं, अगर हम Qwend द्वारा बनाई गई फाइलों को देखें, तो हमारे पास यहाँ एक package JSON है,
00:04:10एक package lock और एक node modules डायरेक्टरी है, जिसका बिल्कुल भी उपयोग नहीं किया गया था क्योंकि मुख्य
00:04:15प्रोजेक्ट सोलर सिस्टम डायरेक्टरी के अंदर है जिसमें एक उचित package JSON और एक उचित
00:04:20node modules डायरेक्टरी है।
00:04:21तो दूसरे टेस्ट के लिए भी, Claude ही जीतता है।
00:04:23अंतिम टेस्ट के लिए, मैंने इन मॉडलों से मौजूदा कोड बेस में बदलाव करने को कहा ताकि जब कोई यूजर
00:04:28ऐप के अंदर URL पोस्ट करे, तो ट्वीट का स्क्रीनशॉट लिया जा सके।
00:04:32हम Claude से शुरुआत करेंगे, जिसने यहाँ यह स्क्रीन पेज बनाया है।
00:04:35इसने बैकग्राउंड और पैडिंग बदलने का विकल्प दिया।
00:04:38अब, जब मैंने इसे पहली बार चलाया, तो मुझे एक एरर मिला, जिसे मैंने Claude को ठीक करने के लिए कहा।
00:04:42मैं JSON के इस ट्वीट का URL कॉपी करने जा रहा हूँ, इसे यहाँ पेस्ट करूँगा और कैप्चर पर क्लिक करूँगा।
00:04:47और कुछ सेकंड बाद, हमें नीचे इमेज मिल जाती है जिसे डाउनलोड करने का विकल्प भी है।
00:04:51और यहाँ Qwend का परिणाम है जिसमें यहाँ एक स्क्रीन पेज है।
00:04:54फिर से, मैं इस ट्वीट को कॉपी करूँगा और यहाँ पेस्ट करूँगा।
00:04:56यह 'एक्सट्रैक्ट स्क्रीनशॉट' के बजाय 'एक्सट्रैक्ट वीडियो' कहता है और इसे कैप्चर करना शुरू करता है, जो होनहार लगता है।
00:05:01लेकिन थोड़ी देर बाद, इसमें 60 सेकंड का टाइमआउट हो गया, जो कि उस एरर के समान है जो हमने
00:05:06Sonnet के साथ अनुभव किया था।
00:05:07मगर मैंने Qwend को इसे ठीक करने के लिए कहा और इसने टाइमआउट तो बढ़ा दिया, लेकिन उस समस्या को ठीक नहीं किया
00:05:11जिसकी वजह से यह शुरू में हुआ था।
00:05:13तो ऐसा लग रहा है कि Sonnet 4.5 तीनों टेस्ट जीत गया है।
00:05:17तो भले ही कागज़ पर Qwend 3.5/35b को Sonnet 4.5 से बेहतर प्रदर्शन करना चाहिए, लेकिन वास्तविक दुनिया के परीक्षण में
00:05:24ऐसा नहीं लगता है।
00:05:26और मुझे गलत मत समझिएगा, यह वास्तव में प्रभावशाली है कि आप आधुनिक MacBook पर
00:05:31लोकली 35 बिलियन या 27 बिलियन पैरामीटर वाला मॉडल चला सकते हैं।
00:05:34लेकिन ट्विटर पर लोग इसके बारे में जो कुछ भी कह रहे हैं, उसके बावजूद यह कोडिंग टास्क में
00:05:38Sonnet 4.5 से बेहतर प्रदर्शन नहीं कर सकता, जैसा कि आप मेरे द्वारा पहले किए गए टेस्ट्स में देख सकते हैं।
00:05:42तो बेंचमार्क इसे इतना अच्छा क्यों दिखाते हैं?
00:05:45खैर, इसकी बहुत अधिक संभावना है कि Qwend 3.5 को विशिष्ट बेंचमार्क प्रश्नों जैसे
00:05:51Sweebench Verified पर पोस्ट-ट्रेन किया गया था ताकि यह उन सवालों पर अच्छा प्रदर्शन करे।
00:05:55लेकिन Sonnet 4.5 जैसे मॉडल को कहीं अधिक व्यापक और मजबूत डेटासेट पर पोस्ट-ट्रेन किया गया होगा,
00:06:01जिससे यह अधिक सूक्ष्म कार्यों को संभाल सके।
00:06:03इतना ही नहीं, मैंने जिस Qwend मॉडल का परीक्षण किया, उसमें 35 बिलियन पैरामीटर थे, लेकिन इन्फरेंस के दौरान केवल 3 बिलियन का
00:06:08उपयोग किया गया।
00:06:09जबकि भले ही Anthropic अपने आंकड़े प्रकाशित नहीं करता है, अनुमानों को देखते हुए, Sonnet 3 को
00:06:1470 बिलियन पैरामीटर्स पर प्रशिक्षित किया गया हो सकता है, और इसमें कोई संदेह नहीं है कि Sonnet 4.5 में
00:06:18इससे कहीं अधिक होंगे।
00:06:19इसलिए केवल बेंचमार्क के आधार पर इन मॉडलों की तुलना करना वास्तव में उचित नहीं है।
00:06:23हमेशा अपना शोध करना और स्वयं मूल्यांकन करना महत्वपूर्ण होता है।
00:06:26मेरा मतलब है, कोई तो कारण है कि Qwend 3.5 को OpenCode Go के मॉडल लिस्ट में शामिल नहीं किया गया था।
00:06:31जब हम Qwend की बात कर ही रहे हैं, तो उनका TTS मॉडल हाल ही में रिलीज़ हुआ है और Joss के पास
00:06:35वॉइस क्लोनिंग, आवाज़ में भावनाओं और बहुत कुछ को कवर करने वाला एक बेहतरीन वीडियो है, जिसे आप
00:06:39यहाँ देख सकते हैं।