Qwen 3.5 35B बनाम Sonnet 4.5: क्या अंतर खत्म हो रहा है?

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00इस महीने की शुरुआत में अलीबाबा ने 400 बिलियन पैरामीटर मॉडल के साथ Qwend 3.5 रिलीज़ किया और
00:00:05एक 'मैक्स थिंकिंग' वाला मॉडल भी, जो भारी सिस्टम आवश्यकताओं के साथ Opus 4.5 से बेहतर बेंचमार्क का दावा करता है
00:00:11ताकि इसे लोकली (locally) चलाया जा सके।
00:00:12लेकिन इसी हफ्ते उन्होंने Medium Series Qwend 3.5 मॉडल रिलीज़ किए हैं जो
00:00:17उनके मैक्स मॉडल जितने ही शक्तिशाली हैं और आधुनिक MacBook Pro पर लोकली चलने की क्षमता रखते हैं, और
00:00:22Sonnet 4.5 से बेहतर बेंचमार्क का दावा करते हैं, जिस पर मुझे भरोसा नहीं है, तो सब्सक्राइब बटन दबाएं
00:00:27और चलिए इन दोनों मॉडलों का परीक्षण करते हैं।
00:00:31ज्यादातर डेवलपर्स मानेंगे कि Sonnet 4.5 एक बेहतरीन मॉडल है, जो Claude
00:00:35Code, Co-Work और पूरे Anthropic सुइट के साथ अच्छी तरह काम करता है, जिससे अनुभव प्रीमियम लगता है।
00:00:40लेकिन इन मॉडलों के काम करने के लिए आपको ऑनलाइन रहना होगा और ये इतने सस्ते भी नहीं हैं।
00:00:44Qwend 3.5 की मीडियम सीरीज़ इसे बदलने का लक्ष्य रखती है, जिससे Sonnet 4.5 जैसा
00:00:49अच्छा मॉडल लोकली चलाना संभव हो सके और ट्विटर पर लोग इसके लिए पागल हो रहे हैं।
00:00:54लेकिन मुझे यकीन नहीं है कि यह वास्तव में Sonnet 4.5 जितना अच्छा है।
00:00:58इसलिए मैं इन दोनों मॉडलों का एक आसान, मध्यम और कठिन टास्क पर परीक्षण करूँगा और देखूँगा कि कौन सा
00:01:02बेहतर प्रदर्शन करता है।
00:01:04मगर टेस्टिंग शुरू करने से पहले, मुझे एक छोटा सा कबूलनामा करना है।
00:01:07मैं वास्तव में Qwend 3.5 को लोकली नहीं चलाने वाला हूँ क्योंकि मेरे साधारण M1 MacBook Pro में
00:01:12ठीक से इन्फरेंस (inference) चलाने के लिए पर्याप्त यूनिफाइड मेमोरी नहीं है।
00:01:15इसलिए मैं OpenCode से जुड़े OpenRouter पर Qwend 3.5 35b का उपयोग करने जा रहा हूँ और
00:01:21मैं Claude Code में Sonnet 4.5 को 'क्लीन मोड' में चलाऊँगा, ताकि यह मेरे किसी भी
00:01:25कौशल, प्लगइन या MCP टूल का उपयोग न करे।
00:01:27हम सरलता से शुरू करेंगे और मॉडलों से React और Vite का उपयोग करके शुरुआत से एक टू-डू लिस्ट बनाने को कहेंगे।
00:01:32तो अगर हम देखें कि Sonnet 4.5 ने क्या बनाया है, तो हम देख सकते हैं कि इसमें यह AI पर्पल रंग है।
00:01:36मैं एक टू-डू आइटम जोड़ सकता हूँ और उसे 'पूरा' के रूप में चिह्नित कर सकता हूँ, मेरे पास इसे साफ़ करने की क्षमता है और
00:01:40अगर मैं पेज रिफ्रेश करता हूँ, तो सब कुछ वहीं रहता है क्योंकि इसने लोकल स्टोरेज का उपयोग किया है।
00:01:44अगर आप Qwend 3.5 को देखें, तो दोनों की स्टाइलिंग समान है और उन्होंने Vite के साथ
00:01:48आने वाली डिफ़ॉल्ट स्टाइलिंग को नहीं बदला है।
00:01:51लेकिन फिर से, मैं एक टू-डू आइटम जोड़ सकता हूँ।
00:01:53और यहाँ हमारे पास कुछ अन्य विकल्प भी हैं।
00:01:54तो हम कैटेगरी चुन सकते हैं, हम गंभीरता (severity) चुन सकते हैं और
00:01:59शायद टू-डू की तारीख या समय सीमा भी।
00:02:02तो मैं कह सकता हूँ जैसे 'शॉपिंग करें' और यह टू-डू तारीख, गंभीरता और
00:02:06कैटेगरी दिखाता है, जो वास्तव में बहुत अच्छा है।
00:02:08चलिए कोड पर एक नज़र डालते हैं।
00:02:09तो यह Sonnet का कोड है और यहाँ, यह use effect का उपयोग कर रहा है, जो मुझे लगता है कि
00:02:13नीचे दिए गए लोकल स्टोरेज से संबंधित है।
00:02:15मुझे लगता है कि यह ठीक है, लेकिन मैं इसे किसी अलग तरीके से करना चाहूँगा।
00:02:17हमारे पास यहाँ 'add to-do' का उपयोग किया जा रहा है और एक्शन लेने के लिए यहाँ कुछ फ़ंक्शन हैं।
00:02:22जैसे टू-डू को टॉगल करना, और यहाँ डिलीट टू-डू है।
00:02:25यह सब अच्छा लग रहा है।
00:02:26और एक चीज़ जिसने मुझे थोड़ा चौंका दिया, वह ऊपर का हिस्सा है जिसमें JSON पार्सिंग का ज़िक्र है।
00:02:32तो ऐसा लग रहा है कि यह इसे लोकल स्टोरेज में JSON के रूप में सेव कर रहा है और फिर पार्स कर रहा है।
00:02:35और अच्छा होता अगर यह कोड एक अलग फ़ंक्शन में होता ताकि यदि आप इसमें और चीज़ें जोड़ना चाहें,
00:02:38तो यह यहाँ कोड के ऊपरी हिस्से को अव्यवस्थित न करे।
00:02:42अब, अगर हम Qwend को देखें, तो हमारे पास कुछ कैटेगरी हैं, इसमें use effect का उपयोग नहीं दिख रहा है,
00:02:46जो कि अच्छी बात है।
00:02:48और अगर हम नीचे स्क्रॉल करें, तो हमारे पास handle submit है, जो एक ऐसा नाम है जिसे मैं इस्तेमाल करना पसंद करूँगा।
00:02:51और हमारे पास handle updates, handle delete और handle toggle completed भी हैं।
00:02:55और एक चीज़ जो मुझे वास्तव में पसंद आई, वह यह कि इसने टू-डू आइटम्स को एक अलग कंपोनेंट में रखा है।
00:02:59तो मुख्य कंपोनेंट यानी मेन टू-डू ऐप कंपोनेंट को भरने के बजाय, इसने
00:03:03यहाँ एक नया कंपोनेंट बनाया है, जिसका उपयोग नीचे ऐप सेक्शन में किया गया है क्योंकि यहाँ कई
00:03:07टू-डू आइटम्स हैं।
00:03:08तो यह जीत Qwend की होती है क्योंकि इसने कई ज़्यादा फीचर्स के साथ टू-डू लिस्ट बनाई।
00:03:13लेकिन इन टेस्ट्स को चलाने के बाद, मुझे एहसास हुआ कि Qwend के पास OpenCode में
00:03:18सुपरपावर स्किल इनेबल थी।
00:03:19इसलिए मैंने इसे बिना उस स्किल के दोबारा चलाया और हमें यह परिणाम मिला।
00:03:23तो मुझे लगता है कि जीत Sonnet की होती है।
00:03:25चलिए दूसरे टेस्ट की ओर बढ़ते हैं, जो React, Vite और Three.js का उपयोग करके
00:03:29एक इंटरएक्टिव सौर मंडल बनाना है।
00:03:31Claude ने एक ही बार में बहुत बेहतर काम किया।
00:03:33ठीक है, इसमें कुछ ग्रह कम हैं, लेकिन जो मौजूद हैं मैं उन पर क्लिक कर सकता हूँ।
00:03:37मैं सूरज पर क्लिक करता हूँ और इसके बारे में कुछ जानकारी मिलती है।
00:03:39मैं यहाँ नीचे यूरेनस पर क्लिक करता हूँ और उसके बारे में भी कुछ जानकारी मिलती है।
00:03:44साइट पर मूवमेंट भी दोषरहित है, इसलिए मैं पैन, रोटेट, ज़ूम इन और आउट
00:03:48वगैरह कर सकता हूँ।
00:03:49और यहाँ वह है जो Qwend ने बनाया है।
00:03:50जी हाँ, एक खाली पेज।
00:03:51अगर हम कंसोल पर नज़र डालें, तो हम देख सकते हैं कि यहाँ एक एरर है जिसे मैंने Qwend को
00:03:56कई बार भेजा, लेकिन वह इसे हल नहीं कर सका।
00:03:58वास्तव में, इसे बनाने की पूरी प्रक्रिया काफी बोझिल थी।
00:04:01Qwend बीच-बीच में रुक गया और मुझे इसे फिर से शुरू करना पड़ा और इसे
00:04:05बार-बार गलतियों को सुधारने में भी संघर्ष करना पड़ा।
00:04:06इतना ही नहीं, अगर हम Qwend द्वारा बनाई गई फाइलों को देखें, तो हमारे पास यहाँ एक package JSON है,
00:04:10एक package lock और एक node modules डायरेक्टरी है, जिसका बिल्कुल भी उपयोग नहीं किया गया था क्योंकि मुख्य
00:04:15प्रोजेक्ट सोलर सिस्टम डायरेक्टरी के अंदर है जिसमें एक उचित package JSON और एक उचित
00:04:20node modules डायरेक्टरी है।
00:04:21तो दूसरे टेस्ट के लिए भी, Claude ही जीतता है।
00:04:23अंतिम टेस्ट के लिए, मैंने इन मॉडलों से मौजूदा कोड बेस में बदलाव करने को कहा ताकि जब कोई यूजर
00:04:28ऐप के अंदर URL पोस्ट करे, तो ट्वीट का स्क्रीनशॉट लिया जा सके।
00:04:32हम Claude से शुरुआत करेंगे, जिसने यहाँ यह स्क्रीन पेज बनाया है।
00:04:35इसने बैकग्राउंड और पैडिंग बदलने का विकल्प दिया।
00:04:38अब, जब मैंने इसे पहली बार चलाया, तो मुझे एक एरर मिला, जिसे मैंने Claude को ठीक करने के लिए कहा।
00:04:42मैं JSON के इस ट्वीट का URL कॉपी करने जा रहा हूँ, इसे यहाँ पेस्ट करूँगा और कैप्चर पर क्लिक करूँगा।
00:04:47और कुछ सेकंड बाद, हमें नीचे इमेज मिल जाती है जिसे डाउनलोड करने का विकल्प भी है।
00:04:51और यहाँ Qwend का परिणाम है जिसमें यहाँ एक स्क्रीन पेज है।
00:04:54फिर से, मैं इस ट्वीट को कॉपी करूँगा और यहाँ पेस्ट करूँगा।
00:04:56यह 'एक्सट्रैक्ट स्क्रीनशॉट' के बजाय 'एक्सट्रैक्ट वीडियो' कहता है और इसे कैप्चर करना शुरू करता है, जो होनहार लगता है।
00:05:01लेकिन थोड़ी देर बाद, इसमें 60 सेकंड का टाइमआउट हो गया, जो कि उस एरर के समान है जो हमने
00:05:06Sonnet के साथ अनुभव किया था।
00:05:07मगर मैंने Qwend को इसे ठीक करने के लिए कहा और इसने टाइमआउट तो बढ़ा दिया, लेकिन उस समस्या को ठीक नहीं किया
00:05:11जिसकी वजह से यह शुरू में हुआ था।
00:05:13तो ऐसा लग रहा है कि Sonnet 4.5 तीनों टेस्ट जीत गया है।
00:05:17तो भले ही कागज़ पर Qwend 3.5/35b को Sonnet 4.5 से बेहतर प्रदर्शन करना चाहिए, लेकिन वास्तविक दुनिया के परीक्षण में
00:05:24ऐसा नहीं लगता है।
00:05:26और मुझे गलत मत समझिएगा, यह वास्तव में प्रभावशाली है कि आप आधुनिक MacBook पर
00:05:31लोकली 35 बिलियन या 27 बिलियन पैरामीटर वाला मॉडल चला सकते हैं।
00:05:34लेकिन ट्विटर पर लोग इसके बारे में जो कुछ भी कह रहे हैं, उसके बावजूद यह कोडिंग टास्क में
00:05:38Sonnet 4.5 से बेहतर प्रदर्शन नहीं कर सकता, जैसा कि आप मेरे द्वारा पहले किए गए टेस्ट्स में देख सकते हैं।
00:05:42तो बेंचमार्क इसे इतना अच्छा क्यों दिखाते हैं?
00:05:45खैर, इसकी बहुत अधिक संभावना है कि Qwend 3.5 को विशिष्ट बेंचमार्क प्रश्नों जैसे
00:05:51Sweebench Verified पर पोस्ट-ट्रेन किया गया था ताकि यह उन सवालों पर अच्छा प्रदर्शन करे।
00:05:55लेकिन Sonnet 4.5 जैसे मॉडल को कहीं अधिक व्यापक और मजबूत डेटासेट पर पोस्ट-ट्रेन किया गया होगा,
00:06:01जिससे यह अधिक सूक्ष्म कार्यों को संभाल सके।
00:06:03इतना ही नहीं, मैंने जिस Qwend मॉडल का परीक्षण किया, उसमें 35 बिलियन पैरामीटर थे, लेकिन इन्फरेंस के दौरान केवल 3 बिलियन का
00:06:08उपयोग किया गया।
00:06:09जबकि भले ही Anthropic अपने आंकड़े प्रकाशित नहीं करता है, अनुमानों को देखते हुए, Sonnet 3 को
00:06:1470 बिलियन पैरामीटर्स पर प्रशिक्षित किया गया हो सकता है, और इसमें कोई संदेह नहीं है कि Sonnet 4.5 में
00:06:18इससे कहीं अधिक होंगे।
00:06:19इसलिए केवल बेंचमार्क के आधार पर इन मॉडलों की तुलना करना वास्तव में उचित नहीं है।
00:06:23हमेशा अपना शोध करना और स्वयं मूल्यांकन करना महत्वपूर्ण होता है।
00:06:26मेरा मतलब है, कोई तो कारण है कि Qwend 3.5 को OpenCode Go के मॉडल लिस्ट में शामिल नहीं किया गया था।
00:06:31जब हम Qwend की बात कर ही रहे हैं, तो उनका TTS मॉडल हाल ही में रिलीज़ हुआ है और Joss के पास
00:06:35वॉइस क्लोनिंग, आवाज़ में भावनाओं और बहुत कुछ को कवर करने वाला एक बेहतरीन वीडियो है, जिसे आप
00:06:39यहाँ देख सकते हैं।

Key Takeaway

यद्यपि Qwen 3.5 बेंचमार्क चार्ट पर प्रभावशाली दिखता है, लेकिन वास्तविक दुनिया के जटिल कोडिंग कार्यों में Claude Sonnet 4.5 अभी भी कहीं अधिक विश्वसनीय और कुशल है।

Highlights

Qwen 3.5 (35B) और Sonnet 4.5 के बीच कोडिंग क्षमताओं का सीधा मुकाबला।

Qwen 3.5 बेंचमार्क पर बेहतर दिखता है, लेकिन वास्तविक कोडिंग कार्यों में विफल रहा।

Sonnet 4.5 ने टू-डू लिस्ट, सौर मंडल और स्क्रीनशॉट टूल जैसे सभी तीन परीक्षण जीते।

स्थानीय रूप से चलने वाले मॉडल (Local LLMs) की सीमाएं और हार्डवेयर आवश्यकताएं।

बेंचमार्क स्कोर बनाम वास्तविक दुनिया के प्रदर्शन के बीच का बड़ा अंतर।

Qwen 3.5 के उच्च स्कोर का कारण विशिष्ट डेटासेट पर 'पोस्ट-ट्रेनिंग' हो सकता है।

Timeline

परिचय और मॉडल की विशेषताएं

वीडियो की शुरुआत अलीबाबा के नए Qwen 3.5 मॉडल और एंथ्रोपिक के Sonnet 4.5 के परिचय से होती है। वक्ता बताते हैं कि Qwen 3.5 मध्यम श्रेणी का मॉडल होने के बावजूद मैकबुक पर स्थानीय रूप से चलने और उच्च बेंचमार्क का दावा करता है। Sonnet 4.5 को एक प्रीमियम क्लाउड-आधारित अनुभव के रूप में वर्णित किया गया है जो डेवलपर्स के बीच काफी लोकप्रिय है। यहाँ वक्ता अपनी परीक्षण पद्धति स्पष्ट करते हैं और बताते हैं कि वे दोनों मॉडलों को 'क्लीन मोड' में परखेंगे। यह खंड तुलना के लिए एक आधार तैयार करता है कि क्या स्थानीय मॉडल क्लाउड दिग्गजों को टक्कर दे सकते हैं।

पहला टेस्ट: रिएक्ट टू-डू लिस्ट

पहले परीक्षण में दोनों मॉडलों को React और Vite का उपयोग करके एक टू-डू लिस्ट बनाने का कार्य दिया गया। शुरुआत में Qwen 3.5 ने अधिक फीचर्स जैसे कैटेगरी और डेडलाइन के साथ बेहतर प्रदर्शन किया, जिससे वह विजेता लग रहा था। हालांकि, बाद में पता चला कि Qwen एक 'सुपरपावर स्किल' का उपयोग कर रहा था, जिसे हटाने पर परिणाम बदल गए। Sonnet 4.5 का कोड अधिक साफ था और इसमें लोकल स्टोरेज का सही उपयोग किया गया था। अंततः, निष्पक्षता के आधार पर इस राउंड में Sonnet को विजेता माना गया।

दूसरा टेस्ट: थ्री.जेएस सौर मंडल

दूसरे मध्यम स्तर के कठिन कार्य में मॉडलों को Three.js का उपयोग करके एक इंटरएक्टिव सौर मंडल बनाना था। Claude Sonnet 4.5 ने एक ही बार में एक कार्यात्मक और इंटरएक्टिव मॉडल बनाया जिसमें पैन और ज़ूम की सुविधा थी। इसके विपरीत, Qwen 3.5 केवल एक खाली पेज ही बना सका और बार-बार कोडिंग एरर का सामना करता रहा। वक्ता ने नोट किया कि Qwen फाइल स्ट्रक्चर को व्यवस्थित करने और त्रुटियों को सुधारने में पूरी तरह विफल रहा। यह खंड जटिल ग्राफिक्स और लाइब्रेरी मैनेजमेंट में मॉडलों के बीच के बड़े अंतर को उजागर करता है।

तीसरा टेस्ट: ट्वीट स्क्रीनशॉट टूल

अंतिम और सबसे कठिन कार्य एक ऐसा टूल बनाना था जो URL से ट्वीट का स्क्रीनशॉट ले सके। Sonnet 4.5 ने शुरू में एक एरर दिया, लेकिन सुधारने के निर्देश मिलने पर उसने सफलतापूर्वक एक कार्यशील इमेज डाउनलोडर बना दिया। Qwen 3.5 यहाँ भी पिछड़ गया और बार-बार 'टाइमआउट' एरर देता रहा, जिसे वह ठीक नहीं कर सका। वक्ता ने पाया कि Qwen कार्यों को लॉजिकली पूरा करने के बजाय बीच में ही अटक जाता है। इस प्रकार, Sonnet 4.5 ने तीनों परीक्षणों में अपनी श्रेष्ठता साबित की और कोडिंग के लिए अपनी उपयोगिता दिखाई।

निष्कर्ष और बेंचमार्क का विश्लेषण

अंतिम भाग में वक्ता विश्लेषण करते हैं कि Qwen 3.5 कागज़ पर अच्छा होने के बाद भी वास्तविक परीक्षण में क्यों फेल हुआ। वे तर्क देते हैं कि Qwen को संभवतः विशिष्ट बेंचमार्क प्रश्नों के लिए प्रशिक्षित किया गया होगा, जबकि Sonnet अधिक व्यापक डेटा पर आधारित है। पैरामीटर काउंट के मामले में भी Sonnet काफी बड़ा मॉडल प्रतीत होता है, जो इसकी गहराई को समझाता है। निष्कर्ष यह है कि केवल बेंचमार्क स्कोर पर भरोसा करने के बजाय उपयोगकर्ताओं को स्वयं के परीक्षण करने चाहिए। वीडियो अंत में दर्शकों को अन्य एआई टूल्स और वॉयस क्लोनिंग मॉडल के बारे में जानकारी के साथ समाप्त होता है।

Community Posts

View all posts