Claude ने Opus 4.7 लॉन्च कर दिया है और इसका कोई मुकाबला नहीं है

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00तो Opus 4.7 अभी रिलीज़ हुआ है और आंकड़ों के हिसाब से,
00:00:04यह एक बड़ा अपग्रेड है। तो चलिए शुरू करते हैं। सबसे पहले,
00:00:08बेंचमार्क्स। अब वे यहाँ दाईं ओर Mythos को दिखा रहे हैं,
00:00:12सिर्फ हमें उन चीज़ों के बारे में चिढ़ाने के लिए जो मौजूद हैं।
00:00:15लेकिन मैं वास्तव में 4.7 बनाम 4.6 पर ध्यान देना चाहता हूँ क्योंकि कौन जानता है
00:00:20कि Mythos कब उपलब्ध होगा और आंकड़ों के अनुसार,
00:00:23यह एक बहुत ही ठोस छलांग है, खासकर कोडिंग जैसी चीज़ों में।
00:00:28अगर हम एजेंटिक कोडिंग को देखें, तो हम 53 से 64 तक का उछाल देखते हैं,
00:00:3280 से 87 तक,
00:00:34और फिर तीन बड़े परीक्षणों Sweet Bench Pro, Sweet Bench Verified
00:00:39और Terminal Bench 2.0 पर 65 से 69 तक।
00:00:42सिर्फ कुछ ही जगहें ऐसी हैं जहाँ हम Opus 4.7 के बेंचमार्क्स,
00:00:46अन्य सभी मॉडलों में सबसे ऊपर नहीं देखते हैं,
00:00:49Mythos को छोड़कर, वह है एजेंटिक सर्च जहाँ हम GPT 5.4 को देखते हैं।
00:00:54क्या यह Opus 4.7 के 89.3 के मुकाबले है,
00:00:57जो अजीब तरह से 4.6 की तुलना में गिर गया है, जो, आप जानते हैं,
00:01:01जब आप इस तरह की चीज़ें देखते हैं,
00:01:02जहाँ वे बेंचमार्क दिखाते हैं जहाँ यह Opus 4.6 से नीचे चला गया है,
00:01:06तो आपको आश्चर्य होता है कि क्या उन्होंने बस इन्हें डाल दिया है। जैसे, "ओह नहीं,
00:01:08ये बेंचमार्क वास्तव में असली हैं दोस्तों। हम इस बारे में झूठ नहीं बोलेंगे। देखो,"
00:01:11"देखो इसे।" उम,
00:01:12लेकिन 5.4 एजेंटिक सर्च में आगे है और आप इसे ग्रेजुएट लेवल
00:01:17रीज़निंग में भी आगे देखते हैं। अब, एक और क्षेत्र जहाँ हम बड़ा सुधार देखते हैं, वह विजुअल रीज़निंग है।
00:01:21तो हम 69 से 82 पर पहुँच गए हैं,
00:01:25और इसका शायद इस तथ्य से कुछ लेना-देना हो सकता है कि इस मॉडल का विज़न बहुत बेहतर है।
00:01:29तो वे हमें बता रहे हैं।
00:01:29कि जो चित्र आप Opus 4.7 में डालते हैं वे अब 3X रिज़ॉल्यूशन के हैं,
00:01:34जो कि बहुत बड़ी बात है।
00:01:36अगर आप डायग्राम या छोटे टेक्स्ट जैसी किसी चीज़ पर काम कर रहे हैं,
00:01:38और हम वही संख्याएँ इन ग्राफों में भी देखते हैं।
00:01:42तो नॉलेज वर्क, विज़न में सुधार और डॉक्यूमेंट रीज़निंग में भारी उछाल,
00:01:4657.1 से 80.6 तक, जो एक बड़ा प्लस है।
00:01:50अगर आप कोई ऐसे व्यक्ति हैं जो Cowork जैसा कुछ उपयोग करते हैं,
00:01:52आप इसे ऑफिस परिदृश्य में उपयोग कर रहे हैं और आप दिन भर इसे
00:01:55डॉक्यूमेंट देते रहते हैं। लॉन्ग कॉन्टेक्स्ट रीज़निंग भी एक बड़ी बात है।
00:01:57हम इस चैनल पर लगातार कॉन्टेक्स्ट रॉट और इस विचार के बारे में बात करते हैं कि हमें
00:02:02सेशन मैनेजमेंट पर बहुत ध्यान केंद्रित करने की आवश्यकता है। मुझे नहीं लगता कि वह बदलता है। मेरा मतलब है,
00:02:0771 से 75 पर जाना बहुत अच्छा है।
00:02:09मुझे नहीं लगता कि आपको यह बदलना चाहिए कि आप कितनी आक्रामकता से साफ़ करते हैं, यानी जब भी आप
00:02:13कॉन्टेक्स्ट विंडो के 20% या 25% पर हों, तो आपको साफ़ करना चाहिए, लेकिन यह एक सुधार है।
00:02:17हम इसे देखना पसंद करते हैं। और यह भी दिलचस्प है।
00:02:19यह कोडिंग बेंचमार्क जिसका संबंध मल्टीमॉडल से है। तो वे कोडिंग कर रहे हैं,
00:02:22लेकिन इसमें ऐसी चीज़ें भी शामिल हैं जहाँ वे इसे कॉन्टेक्स्ट दे रहे हैं जिसमें
00:02:25इमेज जैसी चीज़ें हैं। और मुझे नहीं लगता कि यह कोई आश्चर्य की बात है।
00:02:28और मुझे लगता है कि इसका बहुत कुछ रिज़ॉल्यूशन से लेना-देना है।
00:02:30अब खुद मॉडल के अलावा कुछ और अपडेट भी हुए हैं।
00:02:32सबसे बड़ा है अधिक एफर्ट कंट्रोल (effort control)। तो अब एक लेवल X-High है,
00:02:37शायद इसे OpenAI से चुराया गया है, जो High और Max के बीच है।
00:02:40और इसके ऊपर Claude Code अब डिफॉल्ट रूप से Extra High पर सेट है।
00:02:44मुझे लगता है कि यह शायद बहुत से लोगों के इस दावे के जवाब में है कि Opus 4.6 को
00:02:48नर्फ (nerf) कर दिया गया था। और फिर Boris Cherny, Opus के निर्माता, खैर, Opus के नहीं,
00:02:52Claude Code के निर्माता ने सामने आकर कहा कि,
00:02:54वास्तव में हमने डिफॉल्ट रीज़निंग लेवल, डिफॉल्ट एफर्ट लेवल को
00:02:58Medium पर कर दिया था। तो तथ्य यह है कि वे X-High के साथ आए हैं,
00:03:01मुझे लगता है कि यह उसे तथाकथित रूप से बेहतर बनाने और
00:03:05अधिक प्रयास करने के लिए एक प्रतिक्रिया है, फिर भी लोगों को Max पर नहीं धकेलना क्योंकि फिर यह दूसरी तरफ चला जाता है
00:03:10और हर कोई शिकायत करता है कि उनका उपयोग खत्म हो रहा है। और याद रखें,
00:03:12यदि आप इसे बदलना चाहते हैं,
00:03:13तो आपको बस forward slash effort करना है और फिर अपना लेवल सेट करना है।
00:03:16हायर रिज़ॉल्यूशन API पर भी उपलब्ध है।
00:03:19और फिर उन्होंने नया forward slash ultra review स्लैश कमांड भी रिलीज़ किया है।
00:03:24तो इसके ऊपर इसे एक समर्पित रिव्यू सेशन मिलता है।
00:03:28उन्होंने ऑटो मोड को भी बढ़ा दिया है। और अगर आप ऑटो मोड के बारे में नहीं जानते हैं,
00:03:31तो यह मूल रूप से खतरनाक तरीके से परमिशन स्किप करने का एक विकल्प है। अब,
00:03:34एक चीज़ जो वे यहाँ नोट करते हैं वह यह है कि Opus 4.7
00:03:394.6 की तुलना में अधिक टोकन का उपयोग करेगा।
00:03:40इसलिए वे स्पष्ट रूप से कहते हैं कि Opus 4.7 एक अपडेटेड टोकेनाइज़र का उपयोग करता है और सुधार करता है कि
00:03:45यह टेक्स्ट को कैसे प्रोसेस करता है, लेकिन इससे इनपुट पर टोकन की मात्रा बढ़ जाती है,
00:03:50कंटेंट के प्रकार के आधार पर लगभग 1 से 1.35 गुना तक।
00:03:54और दूसरी बात, Opus 4.7 उच्च एफर्ट लेवल पर अधिक सोचता है।
00:03:58तो याद रखें कि वे डिफॉल्ट एफर्ट को Extra High पर सेट कर रहे हैं
00:04:03जबकि पहले यह Medium पर था और Opus 4.7 अधिक टोकन का उपयोग करता है।
00:04:07तो अगर आप इस पूरे समय Medium पर रहे हैं,
00:04:09आपने इसे कभी नहीं बदला और आप पहले से ही 4.6 पर यूसेज रेट या
00:04:13यूसेज लिमिट तक पहुँच रहे थे, तो इससे सावधान रहें। समझें कि आप निश्चित रूप से उपयोग की समस्याओं का सामना कर सकते हैं।
00:04:18अगर आप ऐसे व्यक्ति हैं जो पहले से ही ऐसा कर रहे हैं,
00:04:19क्योंकि अब यह और भी अधिक टोकन का उपयोग करने वाला है।
00:04:21जो दिलचस्प है वह यह भी है कि उन्होंने एक्सटेंडेड थिंकिंग (extended thinking) को भी हटा दिया है।
00:04:25और अगर आप अधिक पढ़ना चाहते हैं और इस माइग्रेशन पर गहराई से जानकारी पाना चाहते हैं,
00:04:28तो उन्होंने डॉक्यूमेंटेशन में एक पूरी चीज़ डाली है।
00:04:30तो कुल मिलाकर यह एक बहुत ही ठोस अपग्रेड लगता है।
00:04:32और मैं खुद इसमें कूदने और इसका परीक्षण करने के लिए उत्साहित हूँ।

Key Takeaway

Claude Opus 4.7 ने 3X इमेज रिज़ॉल्यूशन और कोडिंग बेंचमार्क में 11 अंकों की वृद्धि के साथ प्रदर्शन को बेहतर बनाया है, लेकिन यह पिछले मॉडल की तुलना में 1.35 गुना तक अधिक टोकन का उपयोग करता है।

Highlights

Opus 4.7 एजेंटिक कोडिंग बेंचमार्क में 53 से 64 तक और टर्मिनल बेंच 2.0 पर 65 से 69 तक का उछाल दिखाता है।

विजुअल रीज़निंग में यह मॉडल 69 से 82 के स्कोर पर पहुँच गया है क्योंकि इसमें अब 3X हाई-रिज़ॉल्यूशन विज़न क्षमता है।

डॉक्यूमेंट रीज़निंग के क्षेत्र में प्रदर्शन 57.1 से बढ़कर 80.6 हो गया है जो ऑफिस और डेटा कार्यों के लिए बड़ी प्रगति है।

नया 'X-High' एफर्ट कंट्रोल लेवल पेश किया गया है और Claude Code अब डिफॉल्ट रूप से इसी लेवल पर सेट है।

नया टोकेनाइज़र इनपुट पर टोकन की मात्रा को कंटेंट के आधार पर 1 से 1.35 गुना तक बढ़ा देता है।

स्लैश कमांड '/ultra review' के माध्यम से अब एक समर्पित रिव्यू सेशन उपलब्ध है और 'extended thinking' को हटा दिया गया है।

Timeline

बेंचमार्क प्रदर्शन और कोडिंग में सुधार

  • एजेंटिक कोडिंग का प्रदर्शन 53 से बढ़कर 64 हो गया है।
  • Sweet Bench Pro और Verified जैसे परीक्षणों में 80 से 87 तक की वृद्धि दर्ज है।
  • GPT 5.4 केवल एजेंटिक सर्च और ग्रेजुएट लेवल रीज़निंग में ही Opus 4.7 से आगे है।

Opus 4.7 पिछले संस्करण 4.6 की तुलना में कोडिंग और तकनीकी कार्यों में ठोस सुधार दिखाता है। हालांकि यह Mythos मॉडल से पीछे है, लेकिन वर्तमान में उपलब्ध अधिकांश मॉडलों को पीछे छोड़ देता है। एजेंटिक सर्च के मामले में इसका स्कोर 89.3 है, जो विचित्र रूप से पिछले संस्करण से थोड़ा कम है।

विज़न और डॉक्यूमेंट रीज़निंग क्षमताएँ

  • इमेज प्रोसेसिंग अब पहले की तुलना में 3X अधिक रिज़ॉल्यूशन पर होती है।
  • डॉक्यूमेंट रीज़निंग स्कोर में 57.1 से 80.6 तक की भारी छलांग लगी है।
  • लॉन्ग कॉन्टेक्स्ट रीज़निंग अब 71 से बढ़कर 75 के स्तर पर है।

बेहतर विज़न क्षमता सीधे तौर पर विजुअल रीज़निंग स्कोर को 82 तक ले जाती है। यह उच्च रिज़ॉल्यूशन जटिल डायग्राम और छोटे टेक्स्ट को पढ़ने में मदद करता है। ऑफिस परिदृश्य में डॉक्यूमेंट प्रोसेसिंग और मल्टीमॉडल कोडिंग, जहाँ छवियों को संदर्भ के रूप में उपयोग किया जाता है, अब अधिक सटीक हैं।

नए कंट्रोल फीचर्स और एफर्ट लेवल्स

  • एक नया 'X-High' एफर्ट लेवल जोड़ा गया है जो High और Max के बीच का स्तर है।
  • Claude Code का डिफॉल्ट मोड अब Medium से बदलकर X-High कर दिया गया है।
  • नए स्लैश कमांड '/ultra review' और अपडेटेड ऑटो मोड को लॉन्च किया गया है।

उपयोगकर्ताओं की शिकायतों के जवाब में एफर्ट कंट्रोल को पुनर्गठित किया गया है। Claude Code के निर्माता ने पुष्टि की है कि पिछला डिफॉल्ट Medium पर था, जिसे अब बेहतर परिणामों के लिए बढ़ाया गया है। उपयोगकर्ता '/effort' कमांड का उपयोग करके इन लेवल्स को मैन्युअल रूप से बदल सकते हैं और API पर भी उच्च रिज़ॉल्यूशन का लाभ ले सकते हैं।

टोकन उपयोग और यूसेज लिमिट की चेतावनियाँ

  • नया टोकेनाइज़र टेक्स्ट प्रोसेसिंग के दौरान 1.35 गुना तक अधिक टोकन खर्च करता है।
  • उच्च एफर्ट लेवल पर मॉडल अधिक गहन सोच प्रक्रिया का उपयोग करता है।
  • विशिष्ट माइग्रेशन के लिए एक्सटेंडेड थिंकिंग सुविधा को हटा दिया गया है।

Opus 4.7 अधिक शक्तिशाली है लेकिन यह अधिक संसाधन भी लेता है। इनपुट टोकन की मात्रा बढ़ने और डिफॉल्ट एफर्ट लेवल बढ़ने के कारण उपयोगकर्ता अपनी दैनिक सीमाओं तक जल्दी पहुँच सकते हैं। जो लोग पहले से ही यूसेज लिमिट की समस्या का सामना कर रहे थे, उन्हें इस नए अपडेट के साथ अधिक सावधानी बरतने की आवश्यकता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video