Qwen 3.5 के Small Models कमाल के हैं! (Edge Devices पर 0.8B और 2B की टेस्टिंग)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스가전제품/카메라스마트폰/모바일

Transcript

00:00:00इंटरनेट पर इस वक्त तहलका मचा हुआ है, और इस बार वजह है Qwen 3.5,
00:00:05खासकर उनकी स्मॉल मॉडल सीरीज़। अलीबाबा ने अभी-अभी Qwen 3.5 के
00:00:10नेटिव मल्टीमॉडल वर्शन रिलीज़ किए हैं जो महज़ 2 बिलियन और यहाँ तक कि 0.8 बिलियन पैरामीटर्स के हैं।
00:00:17ये रीजनिंग और विज़न के मामले में अपने से 4 गुना बड़े मॉडल्स को मात दे रहे हैं।
00:00:22और ये इतने छोटे हैं कि अब हम इन्हें बिना इंटरनेट के 6 साल पुराने लैपटॉप और स्मार्टफोन पर
00:00:28लोकल तौर पर चला सकते हैं। इस वीडियो में, हम खास तौर पर Qwen 3.5 की नई
00:00:34स्मॉल सीरीज़ जैसे 0.8 बिलियन और 2 बिलियन मॉडल्स को देखेंगे। हम इनका परीक्षण
00:00:40M2 MacBook Pro के साथ-साथ iPhone 14 Pro पर भी करेंगे और जानेंगे कि ये वास्तव में कितने शक्तिशाली हैं।
00:00:48इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं।
00:00:55तो हर कोई इन नए Qwen 3.5 मॉडल्स का दीवाना क्यों है? आखिरकार, हमारे पास काफी समय से छोटे मॉडल्स मौजूद हैं।
00:01:01मैंने पिछले वीडियो में IBM के Granite 4.0 नैनो मॉडल्स को भी कवर किया था और उनका मॉडल
00:01:08महज़ 300 मिलियन पैरामीटर्स का था। तो फिर ये छोटे Qwen मॉडल्स इतने अलग क्यों हैं?
00:01:14खैर, यह सब “इंटेलिजेंस डेंसिटी” के बारे में है। देखिए, लंबे समय तक नियम यह था कि
00:01:20अगर आप ऐसा मॉडल चाहते हैं जो देख सके, सोच सके और कोडिंग कर सके, तो उसे बहुत बड़ा होना चाहिए। लेकिन ये नए Qwen 3.5 मॉडल्स
00:01:27साबित करते हैं कि ऐसा होना ज़रूरी नहीं है। उन्होंने किसी तरह अपने बड़े मॉडल्स को
00:01:33छोटे वर्शन्स में समेट दिया है जो अभी भी यूनिफाइड मल्टीमॉडल आर्किटेक्चर को सपोर्ट करते हैं। इसका मतलब है कि
00:01:39उनका 0.8 बिलियन वाला मॉडल सिर्फ टेक्स्ट का जवाब नहीं देता, बल्कि इसमें विज़न और कोडिंग की क्षमताएं भी समाहित हैं।
00:01:46आइए इनके बेंचमार्क पर जल्दी से नज़र डालते हैं, क्योंकि वे काफी दिलचस्प हैं। MMLU बेंचमार्क पर,
00:01:51जो सामान्य ज्ञान और रीजनिंग को मापता है, 2 बिलियन वाला मॉडल 66.5 का स्कोर हासिल करता है,
00:01:57जबकि 0.8 बिलियन वाला मॉडल 42.3 तक पहुँचता है। यह सुनने में शायद बहुत प्रभावशाली न लगे, लेकिन
00:02:04संदर्भ के लिए याद रखें कि मूल Llama 2, जिसमें 7 बिलियन पैरामीटर्स थे और जो 2023 में आया था,
00:02:11उसी बेंचमार्क पर 45.3 स्कोर कर पाया था। यह दिखाता है कि हमने पैरामीटर साइज को कितना कम कर दिया है
00:02:17और फिर भी एक बेहतर समझ वाला स्कोर बनाए रखा है। लेकिन यह देखिए, असली कमाल
00:02:23इनका मल्टीमॉडल प्रदर्शन है। OCRBench जैसे विशेष विज़न टेस्ट में,
00:02:292 बिलियन वाला मॉडल 85.4 स्कोर करता है और 0.8 बिलियन वाला 79.1 तक पहुँचता है।
00:02:37जो यह दर्शाता है कि वे जटिल दस्तावेज़ों को पढ़ने और टेक्स्ट वाली इमेज का विश्लेषण करने में अत्यधिक सक्षम हैं।
00:02:43ओह, और दोनों ही 262K की विशाल कॉन्टेक्स्ट विंडो को सपोर्ट करते हैं, जिससे आप इन्हें पूरी PDF दे सकते हैं या
00:02:51बड़े कोडबेस का विश्लेषण करने के लिए इस्तेमाल कर सकते हैं। यह वाकई प्रभावशाली है। लेकिन अब देखते हैं कि
00:02:56वे वास्तव में कैसा प्रदर्शन करते हैं। चूँकि 0.8 बिलियन और 2 बिलियन वाले दोनों मॉडल लगभग किसी भी
00:03:02आधुनिक लैपटॉप पर लोकली चल सकते हैं, मैं ये टेस्ट अपने लैपटॉप पर बिना किसी इंटरनेट कनेक्शन के
00:03:08पूरी तरह से एयरप्लेन मोड में करूँगा। पहले टेस्ट के लिए, हम LM Studio पर एक लोकल सर्वर चलाएंगे
00:03:14और उसे VS Code में CLINE से जोड़ेंगे ताकि देख सकें कि क्या ये नन्हे मॉडल असल दुनिया के कोडिंग काम संभाल सकते हैं।
00:03:21तो सबसे पहले आपको मॉडल्स टैब पर जाकर 0.8 बिलियन और 2 बिलियन पैरामीटर मॉडल्स के GGUF वर्शन डाउनलोड करने होंगे।
00:03:28और चूँकि हम इन मॉडल्स का उपयोग कोडिंग के लिए करेंगे, इसलिए हमें
00:03:33उपलब्ध कॉन्टेक्स्ट लेंथ को भी काफी बढ़ाना होगा। और एक बार जब हम यह कर लेते हैं, तो हम सर्वर शुरू कर सकते हैं।
00:03:38और अब चलिए CLINE पर चलते हैं। और जैसा कि मैंने कहा, सबसे पहले मैं अपना वाई-फाई बंद कर दूँगा
00:03:43ताकि हम ये टेस्ट पूरी तरह ऑफलाइन कर सकें। फिर CLINE के API कॉन्फ़िगरेशन सेक्शन में,
00:03:50मैं यह सुनिश्चित करूँगा कि हमारा कस्टम LM Studio सर्वर URL वहां सेट हो। और यह भी पक्का कर लेते हैं कि
00:03:56हम 0.8 बिलियन वाला मॉडल चुनें। प्रॉम्प्ट के लिए, मैं मॉडल से एक छोटे कैफे के लिए
00:04:01एक साधारण कंपनी वेबसाइट बनाने के लिए कहूँगा। और मैंने यह भी देखा कि अगर हम किसी खास फ्रेमवर्क का नाम नहीं लेते
00:04:07और Qwen को खुद चुनने देते हैं, तो वह React इंस्टॉल करना चुनता है, जो हमारे ऑफलाइन मोड के डेमो में काम नहीं करेगा।
00:04:14इसलिए मैंने प्रॉम्प्ट में थोड़ा बदलाव किया और खास तौर पर बिना किसी बाहरी लाइब्रेरी के HTML, CSS और JavaScript इस्तेमाल करने को कहा।
00:04:20तो चलिए टेस्ट शुरू करते हैं। मॉडल को इस काम को पूरा करने में लगभग एक मिनट लगा।
00:04:25और यहाँ हमारा अंतिम परिणाम है। जैसा कि आप देख सकते हैं, साइट बहुत साधारण है, डिज़ाइन
00:04:32दिखने में बहुत अच्छा नहीं है, और टेक्स्ट बहुत गहरा (dark) है। और मैंने यह भी गौर किया कि CSS में,
00:04:37मॉडल ने Unsplash से कुछ खास इमेज को हार्ड कोड करने की कोशिश की जो हमारी थीम पर फिट बैठती थीं। तो यह एक
00:04:43दिलचस्प बात है। और अगर हम एक पल के लिए वाई-फाई चालू करें, तो हम देख सकते हैं कि
00:04:48उनमें से एक इमेज लोड हो जाती है। और यह फोन पकड़े हुए एक डॉक्टर की तस्वीर लग रही है। तो यह काफी अजीब है।
00:04:54लेकिन बाकी इमेज के URL अमान्य हैं। मैंने मॉडल को फिर से प्रॉम्प्ट देकर टूटे हुए टेक्स्ट को ठीक करने
00:05:00और अन्य क्षेत्रों में सुधार करने के लिए भी कहा, लेकिन वह इसे भरोसेमंद तरीके से नहीं कर सका। तो कुल मिलाकर, मैं कहूँगा कि
00:05:06हालाँकि यह मॉडल कोडिंग और टूल कॉलिंग में सक्षम है, मुझे नहीं लगता कि
00:05:12इसे असल दुनिया की परिस्थितियों में इस्तेमाल करना एक अच्छा विचार है, क्योंकि इसके पैरामीटर्स की संख्या बहुत कम है।
00:05:17लेकिन अब 2 बिलियन पैरामीटर वाले मॉडल को उसी प्रॉम्प्ट के साथ टेस्ट करते हैं और देखते हैं कि वह कैसा काम करता है।
00:05:23और इस मॉडल ने वास्तव में मुझे काफी परेशान किया क्योंकि अक्सर यह एक लूप में फंस जाता था,
00:05:28और एक ही सेक्शन को बार-बार लिखता रहता था। इसलिए मुझे काम रोकना पड़ा और इसे फिर से शुरू करना पड़ा। मुझे पक्का नहीं पता
00:05:34कि यह समस्या मॉडल के साथ है या जिस तरह से LM Studio सर्वर चलाता है या जिस तरह से Cline
00:05:40प्रॉम्प्ट को प्रोसेस करता है। लेकिन इस खास कॉन्फ़िगरेशन के साथ, यह मेरे लिए एक निरंतर संघर्ष था।
00:05:45और एक और चीज़ मैंने देखी कि जहाँ 0.8 बिलियन पैरामीटर मॉडल सीधे कोडिंग पर चला गया,
00:05:51वहीँ 2 बिलियन पैरामीटर वर्शन ने पहले एक योजना बनाना और फिर वास्तविक कोडिंग के साथ आगे बढ़ना पसंद किया।
00:05:57तो 2 बिलियन पैरामीटर वाले मॉडल ने इस काम को लगभग तीन मिनट में पूरा किया, यानी काफी ज़्यादा समय लिया।
00:06:02और आइए देखते हैं कि अंतिम परिणाम क्या है। तो जैसा कि हम देख सकते हैं, यह पहले ही
00:06:08एक सुधार है क्योंकि डिज़ाइन बहुत साफ दिखता है और यह ब्राउनिश थीम का उपयोग करता है, जो
00:06:14एक कॉफी शॉप की विजुअल पहचान के ज़्यादा करीब है। और एक और चीज़ मैंने देखी कि अगर हम वाई-फाई चालू करें,
00:06:20तो यह कुछ बाहरी आइकन लोड करता है, जिससे पूरी साइट और भी बेहतर दिखने लगती है।
00:06:24और इस वर्शन ने वास्तव में उस कार्ट कार्यक्षमता (cart functionality) को लागू करने की कोशिश की जो मैंने शुरू में माँगी थी
00:06:29क्योंकि अब हमें यह अच्छा कार्ट साइडबार मिलता है, हालाँकि मुझे आइटम कार्ड्स पर 'ऐड टू कार्ट' बटन नहीं दिख रहा है।
00:06:35और जब मैंने इन समस्याओं को ठीक करने के लिए प्रॉम्प्ट दिया, तो एक बार फिर, मुझे उसी तकनीकी समस्या का सामना करना पड़ा
00:06:41जहाँ मॉडल एक अनंत लूप (infinite loop) में चला गया। इसलिए मुझे लगा कि यह शायद
00:06:46LM Studio और Cline के मेल में या वैसा ही कुछ मसला हो सकता है। लेकिन ईमानदारी से कहें तो, ज़ाहिर है,
00:06:51कोई भी जटिल और गंभीर कोडिंग के लिए इतने छोटे मॉडल्स का उपयोग करने के बारे में गंभीरता से नहीं सोचेगा।
00:06:56मैंने ये टेस्ट सिर्फ जिज्ञासावश किए थे ताकि यह देख सकूँ कि क्या इतने कम पैरामीटर्स के साथ भी
00:07:02किसी दिए गए कोडिंग काम के लिए सार्थक परिणाम मिल सकता है। तो अब कुछ और रोमांचक करते हैं।
00:07:07चलिए इन मॉडल्स को iPhone 14 Pro पर चलाने की कोशिश करते हैं। और ऐसा करने के लिए, मैंने Swift और
00:07:14MLX Swift फ्रेमवर्क का उपयोग करके एक नेटिव iOS ऐप बनाया है। और MLX एप्पल की ओपन सोर्स लाइब्रेरी है
00:07:22जो आपको एप्पल सिलिकॉन यूनिफाइड मेमोरी आर्किटेक्चर पर सीधे मॉडल्स चलाने की अनुमति देती है। मेटल GPU का लाभ उठाकर, हम
00:07:29डिवाइस पर ही हार्डवेयर एक्सेलेरेशन के साथ इन Qwen मॉडल्स को चला सकते हैं। मैं
00:07:34इस Swift प्रोजेक्ट के रेपो का लिंक डिस्क्रिप्शन में भी डाल दूँगा ताकि आप इसे डाउनलोड करके अपने डिवाइस पर कंपाइल कर सकें।
00:07:40जैसे ही हम ऐप खोलते हैं, यह तुरंत 0.8 बिलियन वाले मॉडल को डाउनलोड करना शुरू कर देगा।
00:07:46और एक बार जब यह हो जाता है, तो हम इसका उपयोग करने के लिए तैयार हैं। लेकिन कुछ भी प्रॉम्प्ट देने से पहले,
00:07:52मैं अपने iPhone पर एयरप्लेन मोड चालू कर देता हूँ। तो चलिए एक साधारण 'हेलो' से शुरू करते हैं। किसी
00:07:58वजह से, यह जवाब देता है कि इसका नाम एलेक्स है। ठीक है, यह बहुत रैंडम है, लेकिन ठीक है। पर क्या आपने गौर किया
00:08:04कि रिस्पॉन्स कितनी तेज़ी से स्ट्रीम हुआ? मैं सच में हैरान हूँ कि यह मॉडल कितनी तेज़ी से
00:08:10रियल टाइम में आपको जवाब देता है। अब मशहूर 'कारवॉश टेस्ट' को आज़माते हैं, जिसे अक्सर ज़्यादातर मॉडल्स गलत कर देते हैं।
00:08:17और देखिए, Qwen 3.5 वास्तव में सही जवाब देता है। तो यह पहले से ही प्रभावशाली है।
00:08:23अब इन मॉडल्स की सबसे अच्छी बात यह है कि वे विज़न क्षमताओं का भी उपयोग कर सकते हैं। तो अब मैं
00:08:29इसे एक केले की तस्वीर दिखाने जा रहा हूँ। और देखते हैं कि क्या यह समझता है कि यह क्या है और यह किस स्थिति में है।
00:08:35तो यह सही पहचानता है कि यह वास्तव में एक केला है, हालाँकि यह कहता है कि यह एक 'डॉग
00:08:40बनाना' है। मैंने ईमानदारी से यह शब्द कभी नहीं सुना। 'डॉग बनाना'? यह क्या है? Qwen यहाँ क्या कह रहा है?
00:08:47खैर, जो भी हो, इसे लगता है कि यह ज़रूरत से ज़्यादा पका (overripe) हुआ है। और यह मुझे चेतावनी देता है कि यह खाने के लिए सुरक्षित नहीं हो सकता है,
00:08:52जो कि सच नहीं है। मैंने आज सुबह वही केला खाया था, और वह स्वादिष्ट था। पर जो भी हो,
00:08:58एक बार फिर, मैं इस बात से चकित हूँ कि यह कितनी तेज़ी से मेरे प्रॉम्प्ट को प्रोसेस कर रहा है और मुझे
00:09:04जवाब दे रहा है। अब एक और तस्वीर आज़माते हैं। देखते हैं कि क्या यह इस तस्वीर में
00:09:09कुत्ते की नस्ल की पहचान कर सकता है। तो यहाँ हम देख सकते हैं कि यह काफी सटीक नहीं है क्योंकि इसे लगता है कि यह दो
00:09:15कुत्ते देख रहा है, जो सच नहीं है। और यह नस्ल का ज़िक्र नहीं करता है। तो चलिए इससे खास तौर पर पूछते हैं कि यह किस
00:09:20तरह का कुत्ता है। तो इसे लगता है कि यह एक गोल्डन रिट्रीवर है, जो ज़ाहिर तौर पर सच से बहुत दूर है। तो
00:09:27हालाँकि कुछ जवाब पूरी तरह सटीक नहीं हैं, और उनमें से कुछ तो वाकई मज़ेदार हैं,
00:09:34मैं फिर भी वास्तव में इस बात से प्रभावित हूँ कि इतना छोटा मॉडल किसी इमेज की सामग्री के बारे में सोच सकता है और इतनी तेज़ी से ऐसा कर सकता है।
00:09:39और आखिरी चीज़ जो मैं टेस्ट करना चाहता हूँ वह है इस मॉडल की OCR क्षमताएं, जैसा कि बेंचमार्क में दावा किया गया था।
00:09:45खास तौर पर, मैं देखना चाहता हूँ कि क्या यह मॉडल पहचान सकता है कि इस इमेज में दी गई टेक्स्ट सामग्री
00:09:50किस भाषा की है। आपको थोड़ा संदर्भ देने के लिए, इस इमेज में दिखाई गई भाषा
00:09:55लातवियाई (Latvian) है, जो वास्तव में मेरी मातृभाषा है, क्योंकि मैं मूल रूप से लातविया से हूँ।
00:10:00और दुर्भाग्य से, Qwen इस टेस्ट में फेल हो जाता है क्योंकि यह स्लोवेनियाई नहीं है,
00:10:05और न ही हमारी भाषा स्लोवेनियाई के समान है। और मुझे यह भी मज़ेदार लगा कि यह कितने भरोसे के साथ
00:10:11एक शब्द का अनुवाद उसी शब्द में करता है, जिसके बारे में मुझे यकीन भी नहीं है कि वह असली शब्द है या नहीं। तो साफ तौर पर यहाँ
00:10:19इस प्रॉम्प्ट रिस्पॉन्स में भारी मतिभ्रम (hallucinations) हो रहे हैं। ठीक है, अब 2 बिलियन
00:10:25पैरामीटर वाले मॉडल पर चलते हैं। जब आप ड्रॉपडाउन बदलते हैं, तो यह पहले इसे डाउनलोड करेगा। और एक बार जब
00:10:30यह हो जाता है, तो अब हम इस वर्शन पर वही टेस्ट कर सकते हैं यह देखने के लिए कि क्या हमें कुछ सार्थक सुधार मिलते हैं। तो
00:10:36चलिए फिर से एक साधारण 'हेलो' से शुरू करते हैं। ठीक है, और कम से कम इस बार, यह एलेक्स जवाब नहीं दे रहा है। तो
00:10:42यह पहले से ही एक सुधार है। अब फिर से कारवॉश टेस्ट करते हैं। और एक बार फिर, मॉडल कारवॉश टेस्ट
00:10:47पास कर लेता है। तो इसके लिए बहुत अच्छे। अब केले वाली इमेज के साथ आगे बढ़ते हैं। और इस बार,
00:10:53हमें ज़्यादा सार्थक जवाब मिलता है। यह पहचान लेता है कि यह वाकई एक केला है। और जहाँ तक इसकी
00:11:00स्थिति की बात है, यह कहता है कि यह पूरी तरह से पका हुआ है और खाने के लिए तैयार है, जो कि सच है। अब फिर से कुत्ते की तस्वीर आज़माते हैं।
00:11:06और यह कहता है कि यह एक पोमेरेनियन है। मतलब, मुझे नहीं लगता कि ये नस्लें
00:11:11करीब-करीब समान भी हैं। तो दुर्भाग्य से, 2 बिलियन वाला मॉडल भी कुत्तों की नस्लों को पहचानने में खराब है।
00:11:18और अंत में, चलिए फिर से टेक्स्ट वाली तस्वीर आज़माते हैं और देखते हैं कि क्या यह भाषा की पहचान कर सकता है।
00:11:22और यह देखिए, 2 बिलियन पैरामीटर वाले मॉडल ने सही पहचान लिया कि यह टेक्स्ट वाकई
00:11:29लातवियाई है। यह काफी कूल है। तो ये रहे Qwen 3.5 स्मॉल मॉडल सीरीज़। मैं
00:11:36ईमानदारी से सोचता हूँ कि छोटी-मोटी विसंगतियों के बावजूद, ये वास्तव में मेरे द्वारा उपयोग किए गए अब तक के सबसे शक्तिशाली नन्हे मॉडल्स हैं।
00:11:42यह तथ्य कि अब हमारे पास iPhone 14 Pro पर ऑफलाइन चलने वाला एक ओपन सोर्स नेटिव मल्टीमॉडल LLM है
00:11:49और वह अपेक्षाकृत तेज़ इन्फरेंस स्पीड के साथ सार्थक परिणाम दे रहा है, यह बहुत ही प्रभावशाली है।
00:11:55तो Qwen ने इस बार वास्तव में खुद को पीछे छोड़ दिया है। बहुत बढ़िया। लेकिन साझा करने के लिए
00:12:01एक थोड़ी उदास करने वाली खबर भी है। जैसे ही मैं इस वीडियो को खत्म कर रहा था, खबरें आईं कि अलीबाबा
00:12:07Qwen टीम का बड़ा पुनर्गठन (restructuring) कर रहा है। इन मॉडल्स के पीछे के मुख्य नेतृत्व के आंकड़े और शीर्ष इंजीनियरों के
00:12:13छोड़कर जाने की खबर है, कुछ अपने खुद के AI स्टार्टअप शुरू करने के लिए गए हैं। इससे
00:12:18समुदाय सोच में पड़ गया है कि क्या Qwen का तेज़ी से होने वाली प्रगति का युग अब धीमा हो सकता है। यह
00:12:24इन मौजूदा मॉडल्स को और भी महत्वपूर्ण बनाता है क्योंकि वे वास्तव में कुछ समय के लिए इस विशेष टीम की आखिरी बड़ी रिलीज़ हो सकते हैं।
00:12:30लेकिन आप इन स्मॉल सीरीज़ मॉडल्स के बारे में क्या सोचते हैं? क्या आपने इन्हें आज़माया है? क्या आप इनका उपयोग करेंगे?
00:12:35हमें नीचे कमेंट्स में बताएं। और दोस्तों, अगर आपको इस प्रकार के
00:12:39तकनीकी विश्लेषण पसंद हैं, तो कृपया वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं।
00:12:45और हमारे चैनल को सब्सक्राइब करना न भूलें। मैं Better Stack से एंद्रेस हूँ और मैं
00:12:50आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

Qwen 3.5 की स्मॉल मॉडल सीरीज़ यह साबित करती है कि छोटे पैरामीटर वाले मॉडल्स भी शक्तिशाली हार्डवेयर एक्सेलेरेशन के साथ बिना इंटरनेट के स्मार्टफोन और लैपटॉप पर उच्च-स्तरीय विज़न और कोडिंग कार्य कर सकते हैं।

Highlights

Qwen 3.5 के नए 0.8B और 2B नेटिव मल्टीमॉडल मॉडल अपनी 'इंटेलिजेंस डेंसिटी' के कारण बड़े मॉडल्स को टक्कर दे रहे हैं।

ये मॉडल्स 262K की विशाल कॉन्टेक्स्ट विंडो को सपोर्ट करते हैं, जो इन्हें जटिल डॉक्यूमेंट्स और कोडबेस के लिए उपयुक्त बनाता है।

डिवाइस पर स्थानीय (Local) कोडिंग टेस्ट में 2B मॉडल ने 0.8B की तुलना में बेहतर डिज़ाइन और समझ का प्रदर्शन किया।

iPhone 14 Pro पर MLX Swift फ्रेमवर्क का उपयोग करके इन मॉडल्स को पूरी तरह से ऑफलाइन और तेज़ गति से चलाया जा सकता है।

विज़न और OCR परीक्षणों में 2B मॉडल अधिक सटीक पाया गया, विशेष रूप से लातवियाई भाषा की पहचान करने में।

अलीबाबा की Qwen टीम में बड़े पुनर्गठन की खबरों के बीच ये मॉडल्स इस टीम की आखिरी बड़ी रिलीज़ हो सकते हैं।

Timeline

Qwen 3.5 स्मॉल मॉडल्स का परिचय

वीडियो की शुरुआत Qwen 3.5 के नए 0.8 बिलियन और 2 बिलियन पैरामीटर वाले स्मॉल मॉडल्स की चर्चा से होती है। ये मॉडल्स अपनी बेहतरीन रीजनिंग और विज़न क्षमताओं के कारण चर्चा में हैं जो उनसे चार गुना बड़े मॉडल्स को पीछे छोड़ देते हैं। वक्ता बताते हैं कि इन्हें 6 साल पुराने लैपटॉप और आधुनिक स्मार्टफोन पर बिना इंटरनेट के चलाया जा सकता है। इस खंड में M2 MacBook Pro और iPhone 14 Pro पर इनके परीक्षण की रूपरेखा तैयार की गई है। यह खंड दर्शकों को छोटे मॉडल्स की नई संभावनाओं से परिचित कराता है।

इंटेलिजेंस डेंसिटी और बेंचमार्क का विश्लेषण

यहाँ 'इंटेलिजेंस डेंसिटी' की अवधारणा को समझाया गया है, जहाँ छोटे मॉडल्स में बड़े मॉडल्स जैसी क्षमताएं समाहित की गई हैं। MMLU बेंचमार्क पर 2B मॉडल का स्कोर 66.5 है, जो 2023 के Llama 2 (7B) से भी बेहतर है। OCRBench जैसे विज़न टेस्ट में भी इन मॉडल्स ने प्रभावशाली प्रदर्शन किया है जो जटिल दस्तावेज़ पढ़ने में मदद करता है। साथ ही, इनकी 262K की बड़ी कॉन्टेक्स्ट विंडो का उल्लेख किया गया है जो पूरी PDF फाइल को प्रोसेस कर सकती है। यह तकनीकी विश्लेषण दिखाता है कि पैरामीटर कम होने के बावजूद इनकी समझ का स्तर काफी ऊँचा है।

लैपटॉप पर ऑफलाइन कोडिंग परीक्षण (0.8B बनाम 2B)

वक्ता LM Studio और VS Code के माध्यम से एयरप्लेन मोड में स्थानीय कोडिंग का परीक्षण करते हैं। 0.8B मॉडल ने एक साधारण वेबसाइट बनाई लेकिन वह डिज़ाइन और इमेज लोडिंग में काफी कमज़ोर साबित हुआ। इसके विपरीत, 2B मॉडल ने एक बेहतर 'ब्राउनिश' थीम और कार्ट कार्यक्षमता के साथ अधिक पेशेवर परिणाम दिया। हालांकि, परीक्षण के दौरान मॉडल्स के अनंत लूप में फंसने जैसी कुछ तकनीकी समस्याओं का भी सामना करना पड़ा। अंततः यह निष्कर्ष निकाला गया कि ये मॉडल्स गंभीर कोडिंग के बजाय सार्थक प्रयोगों के लिए अधिक उपयुक्त हैं।

iPhone पर विज़न और OCR क्षमताओं की टेस्टिंग

इस रोमांचक खंड में एप्पल के MLX Swift फ्रेमवर्क का उपयोग करके iPhone 14 Pro पर मॉडल्स को चलाया गया है। वक्ता 'कारवॉश टेस्ट' और विज़न टेस्ट के माध्यम से मॉडल्स की तर्कशक्ति और वस्तु पहचान क्षमता को परखते हैं। 0.8B मॉडल ने केले को पहचानने में तेज़ी दिखाई लेकिन कुत्ते की नस्ल बताने में विफल रहा। 2B मॉडल ने लातवियाई भाषा के टेक्स्ट को सही ढंग से पहचान कर अपनी OCR श्रेष्ठता साबित की। यह मोबाइल डिवाइस पर बिना किसी क्लाउड सपोर्ट के एआई चलाने की भविष्य की क्षमता को दर्शाता है।

निष्कर्ष और अलीबाबा टीम के पुनर्गठन की खबर

वीडियो के समापन पर वक्ता Qwen 3.5 स्मॉल मॉडल्स को अब तक के सबसे शक्तिशाली लघु मॉडल्स बताते हैं। साथ ही, अलीबाबा की Qwen टीम में बड़े पुनर्गठन और प्रमुख इंजीनियरों के इस्तीफे की एक चिंताजनक खबर साझा की गई है। यह बदलाव भविष्य में Qwen के विकास की गति को धीमा कर सकता है, जिससे मौजूदा मॉडल्स की महत्ता और बढ़ जाती है। वक्ता अंत में दर्शकों से उनके अनुभव पूछते हैं और तकनीकी विश्लेषण पसंद आने पर चैनल को सब्सक्राइब करने का आग्रह करते हैं। यह खंड तकनीक के भविष्य और संगठनात्मक बदलावों के बीच के संबंध को स्पष्ट करता है।

Community Posts

View all posts