00:00:00तो Opus 4.7 अभी रिलीज़ हुआ है और आंकड़ों के हिसाब से,
00:00:04यह एक बड़ा अपग्रेड है। तो चलिए शुरू करते हैं। सबसे पहले,
00:00:08बेंचमार्क्स। अब वे यहाँ दाईं ओर Mythos को दिखा रहे हैं,
00:00:12सिर्फ हमें उन चीज़ों के बारे में चिढ़ाने के लिए जो मौजूद हैं।
00:00:15लेकिन मैं वास्तव में 4.7 बनाम 4.6 पर ध्यान देना चाहता हूँ क्योंकि कौन जानता है
00:00:20कि Mythos कब उपलब्ध होगा और आंकड़ों के अनुसार,
00:00:23यह एक बहुत ही ठोस छलांग है, खासकर कोडिंग जैसी चीज़ों में।
00:00:28अगर हम एजेंटिक कोडिंग को देखें, तो हम 53 से 64 तक का उछाल देखते हैं,
00:00:3280 से 87 तक,
00:00:34और फिर तीन बड़े परीक्षणों Sweet Bench Pro, Sweet Bench Verified
00:00:39और Terminal Bench 2.0 पर 65 से 69 तक।
00:00:42सिर्फ कुछ ही जगहें ऐसी हैं जहाँ हम Opus 4.7 के बेंचमार्क्स,
00:00:46अन्य सभी मॉडलों में सबसे ऊपर नहीं देखते हैं,
00:00:49Mythos को छोड़कर, वह है एजेंटिक सर्च जहाँ हम GPT 5.4 को देखते हैं।
00:00:54क्या यह Opus 4.7 के 89.3 के मुकाबले है,
00:00:57जो अजीब तरह से 4.6 की तुलना में गिर गया है, जो, आप जानते हैं,
00:01:01जब आप इस तरह की चीज़ें देखते हैं,
00:01:02जहाँ वे बेंचमार्क दिखाते हैं जहाँ यह Opus 4.6 से नीचे चला गया है,
00:01:06तो आपको आश्चर्य होता है कि क्या उन्होंने बस इन्हें डाल दिया है। जैसे, "ओह नहीं,
00:01:08ये बेंचमार्क वास्तव में असली हैं दोस्तों। हम इस बारे में झूठ नहीं बोलेंगे। देखो,"
00:01:11"देखो इसे।" उम,
00:01:12लेकिन 5.4 एजेंटिक सर्च में आगे है और आप इसे ग्रेजुएट लेवल
00:01:17रीज़निंग में भी आगे देखते हैं। अब, एक और क्षेत्र जहाँ हम बड़ा सुधार देखते हैं, वह विजुअल रीज़निंग है।
00:01:21तो हम 69 से 82 पर पहुँच गए हैं,
00:01:25और इसका शायद इस तथ्य से कुछ लेना-देना हो सकता है कि इस मॉडल का विज़न बहुत बेहतर है।
00:01:29तो वे हमें बता रहे हैं।
00:01:29कि जो चित्र आप Opus 4.7 में डालते हैं वे अब 3X रिज़ॉल्यूशन के हैं,
00:01:34जो कि बहुत बड़ी बात है।
00:01:36अगर आप डायग्राम या छोटे टेक्स्ट जैसी किसी चीज़ पर काम कर रहे हैं,
00:01:38और हम वही संख्याएँ इन ग्राफों में भी देखते हैं।
00:01:42तो नॉलेज वर्क, विज़न में सुधार और डॉक्यूमेंट रीज़निंग में भारी उछाल,
00:01:4657.1 से 80.6 तक, जो एक बड़ा प्लस है।
00:01:50अगर आप कोई ऐसे व्यक्ति हैं जो Cowork जैसा कुछ उपयोग करते हैं,
00:01:52आप इसे ऑफिस परिदृश्य में उपयोग कर रहे हैं और आप दिन भर इसे
00:01:55डॉक्यूमेंट देते रहते हैं। लॉन्ग कॉन्टेक्स्ट रीज़निंग भी एक बड़ी बात है।
00:01:57हम इस चैनल पर लगातार कॉन्टेक्स्ट रॉट और इस विचार के बारे में बात करते हैं कि हमें
00:02:02सेशन मैनेजमेंट पर बहुत ध्यान केंद्रित करने की आवश्यकता है। मुझे नहीं लगता कि वह बदलता है। मेरा मतलब है,
00:02:0771 से 75 पर जाना बहुत अच्छा है।
00:02:09मुझे नहीं लगता कि आपको यह बदलना चाहिए कि आप कितनी आक्रामकता से साफ़ करते हैं, यानी जब भी आप
00:02:13कॉन्टेक्स्ट विंडो के 20% या 25% पर हों, तो आपको साफ़ करना चाहिए, लेकिन यह एक सुधार है।
00:02:17हम इसे देखना पसंद करते हैं। और यह भी दिलचस्प है।
00:02:19यह कोडिंग बेंचमार्क जिसका संबंध मल्टीमॉडल से है। तो वे कोडिंग कर रहे हैं,
00:02:22लेकिन इसमें ऐसी चीज़ें भी शामिल हैं जहाँ वे इसे कॉन्टेक्स्ट दे रहे हैं जिसमें
00:02:25इमेज जैसी चीज़ें हैं। और मुझे नहीं लगता कि यह कोई आश्चर्य की बात है।
00:02:28और मुझे लगता है कि इसका बहुत कुछ रिज़ॉल्यूशन से लेना-देना है।
00:02:30अब खुद मॉडल के अलावा कुछ और अपडेट भी हुए हैं।
00:02:32सबसे बड़ा है अधिक एफर्ट कंट्रोल (effort control)। तो अब एक लेवल X-High है,
00:02:37शायद इसे OpenAI से चुराया गया है, जो High और Max के बीच है।
00:02:40और इसके ऊपर Claude Code अब डिफॉल्ट रूप से Extra High पर सेट है।
00:02:44मुझे लगता है कि यह शायद बहुत से लोगों के इस दावे के जवाब में है कि Opus 4.6 को
00:02:48नर्फ (nerf) कर दिया गया था। और फिर Boris Cherny, Opus के निर्माता, खैर, Opus के नहीं,
00:02:52Claude Code के निर्माता ने सामने आकर कहा कि,
00:02:54वास्तव में हमने डिफॉल्ट रीज़निंग लेवल, डिफॉल्ट एफर्ट लेवल को
00:02:58Medium पर कर दिया था। तो तथ्य यह है कि वे X-High के साथ आए हैं,
00:03:01मुझे लगता है कि यह उसे तथाकथित रूप से बेहतर बनाने और
00:03:05अधिक प्रयास करने के लिए एक प्रतिक्रिया है, फिर भी लोगों को Max पर नहीं धकेलना क्योंकि फिर यह दूसरी तरफ चला जाता है
00:03:10और हर कोई शिकायत करता है कि उनका उपयोग खत्म हो रहा है। और याद रखें,
00:03:12यदि आप इसे बदलना चाहते हैं,
00:03:13तो आपको बस forward slash effort करना है और फिर अपना लेवल सेट करना है।
00:03:16हायर रिज़ॉल्यूशन API पर भी उपलब्ध है।
00:03:19और फिर उन्होंने नया forward slash ultra review स्लैश कमांड भी रिलीज़ किया है।
00:03:24तो इसके ऊपर इसे एक समर्पित रिव्यू सेशन मिलता है।
00:03:28उन्होंने ऑटो मोड को भी बढ़ा दिया है। और अगर आप ऑटो मोड के बारे में नहीं जानते हैं,
00:03:31तो यह मूल रूप से खतरनाक तरीके से परमिशन स्किप करने का एक विकल्प है। अब,
00:03:34एक चीज़ जो वे यहाँ नोट करते हैं वह यह है कि Opus 4.7
00:03:394.6 की तुलना में अधिक टोकन का उपयोग करेगा।
00:03:40इसलिए वे स्पष्ट रूप से कहते हैं कि Opus 4.7 एक अपडेटेड टोकेनाइज़र का उपयोग करता है और सुधार करता है कि
00:03:45यह टेक्स्ट को कैसे प्रोसेस करता है, लेकिन इससे इनपुट पर टोकन की मात्रा बढ़ जाती है,
00:03:50कंटेंट के प्रकार के आधार पर लगभग 1 से 1.35 गुना तक।
00:03:54और दूसरी बात, Opus 4.7 उच्च एफर्ट लेवल पर अधिक सोचता है।
00:03:58तो याद रखें कि वे डिफॉल्ट एफर्ट को Extra High पर सेट कर रहे हैं
00:04:03जबकि पहले यह Medium पर था और Opus 4.7 अधिक टोकन का उपयोग करता है।
00:04:07तो अगर आप इस पूरे समय Medium पर रहे हैं,
00:04:09आपने इसे कभी नहीं बदला और आप पहले से ही 4.6 पर यूसेज रेट या
00:04:13यूसेज लिमिट तक पहुँच रहे थे, तो इससे सावधान रहें। समझें कि आप निश्चित रूप से उपयोग की समस्याओं का सामना कर सकते हैं।
00:04:18अगर आप ऐसे व्यक्ति हैं जो पहले से ही ऐसा कर रहे हैं,
00:04:19क्योंकि अब यह और भी अधिक टोकन का उपयोग करने वाला है।
00:04:21जो दिलचस्प है वह यह भी है कि उन्होंने एक्सटेंडेड थिंकिंग (extended thinking) को भी हटा दिया है।
00:04:25और अगर आप अधिक पढ़ना चाहते हैं और इस माइग्रेशन पर गहराई से जानकारी पाना चाहते हैं,
00:04:28तो उन्होंने डॉक्यूमेंटेशन में एक पूरी चीज़ डाली है।
00:04:30तो कुल मिलाकर यह एक बहुत ही ठोस अपग्रेड लगता है।
00:04:32और मैं खुद इसमें कूदने और इसका परीक्षण करने के लिए उत्साहित हूँ।