Opus 4.7 बेहतरीन है (सिर्फ टोकन के उपयोग को छोड़कर)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00नया सबसे बेहतरीन मॉडल यहाँ है, Opus 4.7। ज़ाहिर है, यह वास्तव में एक बहुत अच्छा अपग्रेड लग रहा है,
00:00:05यह कोडिंग में बेहतर है लेकिन इसमें बेहतर विज़न, सेल्फ़-वेरिफिकेशन भी है और यह कथित तौर पर
00:00:09UI बनाने में बेहतर है, जो उन्हें अधिक सुरुचिपूर्ण और रचनात्मक बनाता है।
00:00:12हालाँकि कमी यह है कि लागत नहीं बदली, लेकिन टोकेनाइज़र बदल गया है, इसलिए बिल्कुल
00:00:17वही इनपुट प्रॉम्प्ट अब 35% अधिक टोकन खर्च कर सकता है और यह सोचता भी अधिक है, तो इसका मतलब है
00:00:22खर्च करने के लिए और भी अधिक टोकन। इस रिलीज़ में निश्चित रूप से कुछ बहुत ही दिलचस्प विवरण हैं
00:00:26और शायद एक बदलाव जो आप अब Claude Code में करना चाहेंगे, तो चलिए सीधे शुरू करते हैं, देखते हैं कि
00:00:30नया क्या है और इसका परीक्षण करते हैं।
00:00:31अब मैं वास्तव में बेंचमार्क से शुरू करने जा रहा हूँ क्योंकि मैंने पहले थोड़ा झूठ बोला था जब मैंने कहा था कि यह
00:00:40नया सबसे अच्छा मॉडल है। यह सार्वजनिक रूप से उपलब्ध सबसे अच्छा मॉडल है, लेकिन इन बेंचमार्क में
00:00:44Mythos भी शामिल है, वह मॉडल जो इतना शक्तिशाली है कि हमें अभी तक इसकी अनुमति नहीं है।
00:00:47Anthropic के अनुसार, Opus 4.7 वास्तव में उन अनुरोधों को रोकने के लिए नए साइबर सुरक्षा उपायों का परीक्षण कर रहा है
00:00:52जो निषिद्ध या उच्च-जोखिम वाले साइबर सुरक्षा उपयोगों का संकेत देते हैं, और उससे वे जो सीखेंगे वह
00:00:56उन्हें Mythos श्रेणी के मॉडलों की व्यापक रिलीज़ की दिशा में काम करने में मदद करेगा, इसलिए उम्मीद है कि भविष्य में
00:01:00मैं Mythos रिलीज़ पर एक वीडियो बना सकूँ और कैसे यह सॉफ़्टवेयर विकास का अंत है जैसा कि
00:01:03हम जानते हैं। तो अगर आप उसे मिस नहीं करना चाहते हैं तो सब्सक्राइब करें।
00:01:06अभी के लिए मैं Mythos को नज़रअंदाज़ करूँगा और उस पर ध्यान केंद्रित करूँगा जिसे हम वास्तव में उपयोग कर सकते हैं जो
00:01:10Opus 4.7 है और इसने वास्तव में बेंचमार्क पर बड़ी बढ़त हासिल की है।
00:01:13अब मैं इनके बारे में बहुत विस्तार से नहीं जाऊँगा और यदि आप व्यक्तिगत बेंचमार्क को पढ़ना चाहते हैं
00:01:16तो आप स्क्रीन को रोक सकते हैं। आप SWE Bench Pro जैसे बेंचमार्क पर देख सकते हैं कि इसने वास्तव में
00:01:21Opus 4.6 की तुलना में 10% की छलांग लगाई है और वेरीफ़ाइड पर इसने 7% की छलांग लगाई है और वह पैटर्न
00:01:26बाकी बेंचमार्क के लिए भी जारी रहता है, सिवाय साइबर सुरक्षा के जहाँ यह वास्तव में थोड़ा नीचे चला गया है, जो कि
00:01:30उन सुरक्षा उपायों से संबंधित लगता है जिनका मैंने पहले उल्लेख किया था, ऐसा लगता है कि दुनिया को बचाने
00:01:34या किसी चीज़ के लिए कृत्रिम रूप से इस स्कोर को कम रखा गया है।
00:01:37मुझे उस सिस्टम कार्ड में एक बहुत ही दिलचस्प बेंचमार्क भी मिला जहाँ ऐसा लगता है कि
00:01:40नीडल इन ए हेस्टैक (Needle In A Haystack) टेस्ट का उपयोग करते समय लंबी संदर्भ क्षमता Opus 4.6 की तुलना में गिर गई है,
00:01:45इसलिए मैं काफी उत्सुक हूँ कि समय के साथ वास्तविक उपयोग पर इसका क्या प्रभाव पड़ेगा।
00:01:50बेंचमार्क के अलावा कुछ अन्य उल्लेखनीय सुधार भी हैं जो शायद
00:01:54Claude के आपके उपयोग के तरीके को भी बदल सकते हैं। पहला यह है कि इसमें बेहतर निर्देश पालन (instruction following) है
00:01:58जिसका वास्तव में मतलब है कि आपको उन प्रॉम्प्ट्स के साथ अप्रत्याशित परिणाम मिल सकते हैं जिनका आपने पहले ही
00:02:01उपयोग किया है क्योंकि पुराने मॉडल निर्देशों की ढीली व्याख्या करते थे या कुछ हिस्सों को छोड़ देते थे जबकि Opus 4.7
00:02:07निर्देशों को अक्षरशः लेने पर केंद्रित है, इसलिए आपको वास्तव में कुछ प्रॉम्प्ट बदलाव (tweaking)
00:02:11करने पड़ सकते हैं। इसके बाद, इसमें बेहतर मल्टीमॉडल सपोर्ट है जिससे यह उच्च रिज़ॉल्यूशन वाली छवियों को स्वीकार कर सकता है,
00:02:16जो पुराने मॉडलों की तुलना में तीन गुना है, इसलिए इसे कंप्यूटर उपयोग और
00:02:20डेटा निष्कर्षण जैसे कार्यों में बेहतर होना चाहिए। इसका मेमोरी उपयोग भी बेहतर हुआ है, इसलिए Opus 4.7 को
00:02:25फ़ाइल सिस्टम आधारित मेमोरी का उपयोग करने में बेहतर होना चाहिए जहाँ यह लंबे मल्टी-सेशन काम के दौरान महत्वपूर्ण नोट्स याद रखता है
00:02:30और नए कार्यों पर आगे बढ़ने के लिए उनका उपयोग करता है, जिसके परिणामस्वरूप कम अग्रिम संदर्भ (upfront context) की आवश्यकता होती है। तो शायद
00:02:34इससे मेरे कुछ टोकन बच जाएंगे जो अब काफी महत्वपूर्ण है क्योंकि अगला बदलाव टोकेनाइज़र
00:02:39और थिंकिंग (thinking) में है। Opus 4.7 एक अपडेटेड टोकेनाइज़र का उपयोग करता है जो मॉडल के टेक्स्ट प्रोसेस करने के तरीके को बेहतर बनाता है
00:02:45लेकिन इसका यह भी अर्थ है कि वही इनपुट प्रॉम्प्ट 35% अधिक टोकन तक खर्च कर सकता है और जब आप
00:02:49इसे इस तथ्य के साथ जोड़ते हैं कि Opus 4.7 उच्च प्रयास स्तरों पर अधिक सोचता है, तो यह मॉडल
00:02:54वास्तव में बहुत सारे टोकन जलाएगा। इसे और खराब बनाने के लिए, एक नया एक्स्ट्रा-हाई
00:02:58प्रयास स्तर भी है और इसे वास्तव में Claude Code में डिफ़ॉल्ट के रूप में सेट किया गया है, इसलिए मैं अत्यधिक अनुशंसा करता हूँ
00:03:02कि आप विभिन्न प्रयास स्तरों का परीक्षण करें और वह खोजें जो आपके लिए सबसे उपयुक्त हो ताकि देखें
00:03:05कि क्या आप बिना किसी प्रभाव के इसे डाउनग्रेड कर सकते हैं। तुलना के लिए, नया
00:03:09एक्स्ट्रा-हाई प्रयास स्तर लगभग उतने ही टोकन का उपयोग करता है जितना कि Opus 4.6 का अधिकतम प्रयास
00:03:14स्तर और Opus 4.7 का उच्च प्रयास स्तर वास्तव में कम टोकन के उपयोग के साथ Opus 4.6 के अधिकतम प्रयास स्तर से बेहतर स्कोर करता है।
00:03:19इसलिए यदि आप पहले जो आपके पास था उससे सहज हैं, तो मैं तुलना करने के लिए उस चार्ट का उपयोग करूँगा
00:03:24क्योंकि मुझे पता है कि मैं शायद अधिकांश मामलों में उच्च प्रयास स्तर का उपयोग करने के लिए इसे बदल दूँगा।
00:03:27नया क्या है इसके संक्षेप (TLDR) के साथ, अब मैं अपने उपयोग को खर्च करूँगा और इसका परीक्षण करूँगा।
00:03:31पहली चीज़ जो मैं जाँचने जा रहा हूँ वह यह है कि क्या यह UI डिज़ाइन में बेहतर है,
00:03:35इसलिए मैंने इसे केवल index.html के साथ एक कैफे वेबसाइट बनाने के लिए एक बहुत ही सरल प्रॉम्प्ट दिया और
00:03:40मैं जिन मॉडलों का परीक्षण कर रहा हूँ उन सभी पर अधिकतम प्रयास स्तर का उपयोग कर रहा हूँ, इसलिए मैं इसे
00:03:43Opus 4.7, 4.6, Gemini 3.1 और GPT 5.4 में आज़माने जा रहा हूँ। यह परिणाम है जो मुझे Opus 4.7 से मिला है
00:03:51और मुझे लगता है कि यह काफी अच्छा लग रहा है, इसमें एक अच्छा कैफे जैसा एहसास है, इसने एक
00:03:55अच्छे फ़ॉन्ट का उपयोग किया है और इसने यहाँ Unsplash से चित्र लिए हैं। कुल मिलाकर मैं वास्तव में शिकायत नहीं कर सकता, यह
00:03:59एक बहुत ही सरल वेबसाइट है, इसमें एक अच्छा मेनू सेक्शन है, सब कुछ वास्तव में रिस्पॉन्सिव है और कुल मिलाकर
00:04:04हाँ, मैं कहूँगा कि यह काफी अच्छा लग रहा है। यदि हम इसकी तुलना Opus 4.6 ने मुझे जो दिया उससे करें, तो आप देख सकते हैं कि
00:04:09यह यहाँ थोड़ा अलग स्टाइल के लिए गया लेकिन इसमें एक समान फ़ॉन्ट और एक समान मेनू
00:04:12सेक्शन है और कुल मिलाकर यह थोड़ा खराब है, मैं कहूँगा, सिर्फ इसलिए क्योंकि इसने एक अच्छे
00:04:16बैकग्राउंड का उपयोग नहीं किया है और यह ग्रेडिएंट बिल्कुल भी अच्छा नहीं है, लेकिन फिर भी बहुत ज्यादा शिकायत
00:04:20नहीं कर सकता, मैं कहूँगा कि Opus 4.7 इससे केवल थोड़ा ही ऊपर है। दूसरी ओर Gemini 3.1,
00:04:25मुझे लगता है कि इसने मुझे मेरा सबसे अच्छा परिणाम दिया, कम से कम यह वाला मेरा पसंदीदा है, तो मुझे नीचे कमेंट्स में
00:04:29बताएं कि आपका कौन सा है। मुझे वास्तव में यह पसंद आया कि इसमें यह बैकग्राउंड है जो
00:04:33स्क्रॉल करने पर हिलता नहीं है, मुझे लगता है कि इसने 'हमारी कहानी' सेक्शन में इस इमेज सेक्शन के साथ बहुत अच्छा काम किया है,
00:04:36मेनू दूसरों के समान दिखता है लेकिन फिर से मुझे लगता है कि यह अच्छी तरह से
00:04:40व्यवस्थित है और फुटर के साथ भी ऐसा ही है, इसलिए मुझे लगता है कि इसमें मेरे लिए 3.1 जीतता है। हालाँकि
00:04:45अंतिम स्थान पर निश्चित रूप से GPT 5.4 है, इसमें बस एक विशिष्ट GPT जैसा लुक और फील है,
00:04:50इसे इस तरह के कार्ड पसंद हैं जिनमें एक अच्छा ब्लर होता है और यह मेरी राय में
00:04:55एक अच्छी कैफे वेबसाइट नहीं है, यह बस हर दूसरे GPT ऐप की तरह दिखता है जिसे मैंने कभी देखा है,
00:04:59इसलिए Opus 4.7 निश्चित रूप से UI में अच्छा है और यह शायद कुछ और दिशा-निर्देश मिलने पर
00:05:04इसे और भी बेहतर तरीके से संभाल लेगा। वर्तमान में डिज़ाइन एरिना पर Opus 4.6 वास्तव में वेबसाइटों के लिए आगे है,
00:05:09इसलिए मुझे उम्मीद है कि 4.7 इसकी जगह ले लेगा। अब ज़ाहिर है कि वह परीक्षण काफी सरल
00:05:13था, इसलिए अगला मैं उन सभी को एक अधिक उन्नत कार्य देने जा रहा हूँ। आप यहाँ Claude Code में देख सकते हैं
00:05:17कि Opus 4.6 के साथ मैं एक व्यक्तिगत वित्त प्रबंधन डैशबोर्ड माँग रहा हूँ जो किसी व्यक्ति के वित्तीय स्वास्थ्य का विस्तृत
00:05:21विवरण प्रदान करता है, जिसमें बहुत सारी सुविधाएँ हैं जो मेरे पास यहाँ प्रॉम्प्ट में हैं,
00:05:25और मैं इसे उस स्टैक का कोई संकेत नहीं दे रहा हूँ जिसका उसे उपयोग करना चाहिए, यह
00:05:30उन सभी को चुनेगा और बिल्कुल शुरुआत से शुरू करेगा। सबसे पहले हमारे पास Opus 4.7 का परिणाम है और
00:05:34इसने यह सब लगभग 20 मिनट में एक ही प्रॉम्प्ट में किया और मेरी पहली प्रतिक्रिया बस
00:05:39वाह है, यह वास्तव में बहुत अच्छा लग रहा है, UI बहुत साफ है, इसमें यहाँ वास्तव में अच्छे चार्ट हैं, सब कुछ
00:05:44अच्छी तरह से व्यवस्थित है, यह एक अच्छी रंग योजना का उपयोग करता है और ईमानदारी से कहूँ तो इसमें ऐसा बहुत कुछ नहीं है
00:05:48जिसे मैं खुद बेहतर बना पाऊँ, इसने UI के मामले में शानदार काम किया है
00:05:53और इसमें वे सभी व्यक्तिगत पेज भी हैं जिन्हें मैंने माँगा था। हम अपने सभी खाते देख सकते हैं,
00:05:57हम अपने लेनदेन और अपने बजट देख सकते हैं। हम अभी कोई नया बजट नहीं जोड़ सकते,
00:06:02ऐसा लगता है कि वह कोई फीचर नहीं है और लक्ष्यों (goals) के साथ भी ऐसा ही है, लेकिन हम अपने लक्ष्यों में
00:06:05जोड़ने में सक्षम हैं और संख्याएँ ऊपर जाती हैं और यह बैक-एंड API को अपडेट करता है
00:06:10जिसे इसने बनाया है, और यही बात तब भी लागू होती है जब हम लोगों को पैसे भेजते हैं, इसलिए यदि मैं
00:06:14बस यहाँ अपने Claude Code सब्सक्रिप्शन के लिए भुगतान का परीक्षण करूँ, तो यह सफलतापूर्वक भेजा जाना चाहिए और मैं
00:06:17देख सकता हूँ कि यह भेज दिया गया है और वापस डैशबोर्ड पर मेरी नेटवर्थ उस लेनदेन के साथ अपडेट हो गई है,
00:06:22तो वहाँ सब कुछ काम कर रहा है और यह बैक-एंड पर एक डेटाबेस का उपयोग कर रहा है और हमारे पास
00:06:26यह हमारे हाल के लेनदेन में भी दिखाई दे रहा है। उनके द्वारा जनरेट किए गए कोड को देखते हुए,
00:06:30सब कुछ काफी अच्छा लग रहा है, इसने मेरे फ्रंट-एंड के लिए React और Vite का उपयोग किया, यानी वही
00:06:34जो मैं करता और इसने React Router का भी उपयोग किया। शायद मैंने TanStack का उपयोग किया होता लेकिन इससे वास्तव में
00:06:38फर्क नहीं पड़ता, वे दोनों ही काफी अच्छे विकल्प हैं। इन सब में आप देख सकते हैं कि सब कुछ
00:06:42अच्छी तरह से व्यवस्थित है, हमारे पास हमारे सभी व्यक्तिगत UI घटक हैं। कुल मिलाकर फ्रंट-एंड बस बहुत ही अच्छा है।
00:06:46जिस जगह के लिए मैं इसे कम अंक दूँगा वह बैक-एंड है क्योंकि हम एक Express सर्वर का उपयोग कर रहे हैं,
00:06:51इसमें वास्तव में कुछ भी गलत नहीं है लेकिन मैंने शायद Bun या Hono जैसा कुछ चुना होता,
00:06:54सिर्फ इसलिए कि यह ऐप कितना सरल है और साथ ही जिस तरह से यह वास्तव में
00:06:59इस डेटा को स्टोर कर रहा है वह सब मेमोरी में है, इसलिए यदि मैं अब बैक-एंड सर्विस को बंद कर दूँ और
00:07:04इसे फिर से शुरू करूँ, तो यह इस सीड स्क्रिप्ट से डेटा लोड करेगा और यह केवल लोकल
00:07:08एरेज़ (arrays) हैं, इसके पास इसका बैकअप लेने के लिए कोई डेटाबेस नहीं था। आगे बढ़ते हुए Opus 4.6 ने जो दिया,
00:07:13मुझे सीधे कहना होगा कि UI डिज़ाइन की बात करें तो Opus 4.7 ने निश्चित रूप से बेहतर काम किया है,
00:07:18इस UI के बारे में कुछ ऐसा है जो मुझे बहुत पसंद नहीं आ रहा है। मुझे नहीं पता कि इसमें
00:07:21थोड़ी ज्यादा पैडिंग है या यह तथ्य कि यह लाइट मोड में है जबकि दूसरा वाला
00:07:24डार्क मोड में था। मुझे निश्चित रूप से Opus 4.7 वाला कुल मिलाकर ज्यादा पसंद है। हालाँकि इसमें काफी समान घटक हैं,
00:07:29आप देख सकते हैं कि हमारे पास नेटवर्थ वाले कार्ड हैं, हमारे पास एक नेटवर्थ ट्रेंड ग्राफ है,
00:07:33हाल के लेनदेन और हमारे वित्तीय लक्ष्य और इन्हें ट्रैक करने के लिए हमारे पास व्यक्तिगत पेज भी हैं।
00:07:38UI के अलावा हम कुछ फीचर्स का भी परीक्षण कर सकते हैं, इसलिए मैं यहाँ एक नया
00:07:42लेनदेन जोड़ूँगा, यह किराने के सामान के लिए एक सौ पचास डॉलर का होने वाला है, ऐसा लगता है कि हमें यहाँ
00:07:46एक अपडेट मिला है और वापस डैशबोर्ड पर मेरी नेटवर्थ भी अपडेट हो गई है, तो ऐसा लगता है कि वहाँ काम कर रहा है।
00:07:50एक जगह Opus 4.6 ने शायद सिंगल प्रॉम्प्ट में Opus 4.7 को पीछे छोड़ दिया है
00:07:54वह यह है कि मैं यहाँ खाते जोड़ सकता हूँ, इसलिए मैंने अभी यह खाता जोड़ा है
00:07:58और यही बात लक्ष्यों और बजट पर भी लागू होती है, इसलिए मैंने शिक्षा बजट भी जोड़ा है,
00:08:03तो ऐसा लगता है कि Opus 4.6 ने कुछ और फीचर्स जोड़ दिए हैं, लेकिन ईमानदारी से कहूँ तो मैंने
00:08:07बस Opus 4.7 को उन्हें मेरे लिए जोड़ने के लिए कहा। ज़ाहिर है कि सामान्य तौर पर आप एक ही प्रॉम्प्ट नहीं दे रहे होंगे।
00:08:12कोड पर नज़र डालें तो Opus 4.6 एक Vite React एप्लिकेशन के साथ इसी तरह के रास्ते पर गया,
00:08:16लेकिन एक दिलचस्प बात जो मैंने अभी देखी है वह यह है कि यह React 19 और React Router
00:08:20DOM 7 का उपयोग कर रहा है जबकि Opus 4.7 React 18 और React Router 6 के साथ गया,
00:08:27भले ही मुझे पूरा यकीन है कि Opus 4.7 के पास नया ज्ञान कटऑफ़ (knowledge cutoff) है। इसके अलावा Opus 4.6 की एक और जीत यह है कि
00:08:32इसने बैक-एंड के लिए डेटाबेस का उपयोग किया, इसलिए यह इसे सुरक्षित रखेगा। आप देख सकते हैं कि यह यहाँ
00:08:36SQLite का उपयोग कर रहा है और हमारे पास कुछ डेटाबेस हैं, तो यह निश्चित रूप से एक जीत है। लेकिन जहाँ
00:08:40यह हारता है वह यह है कि इसने इस पूरे प्रोजेक्ट के लिए स्पष्ट रूप से Javascript का उपयोग किया जबकि Opus 4.7 ने सही ढंग से
00:08:45Typescript का उपयोग किया। इसके बाद हमारे पास GPT 5.4 का परिणाम है और ईमानदारी से कहूँ तो मुझे
00:08:50कोई अंदाज़ा नहीं है कि यह यहाँ क्या कर रहा है। यह एक उपयोग करने योग्य UI नहीं है, मेरी राय में यह बहुत खराब लग रहा है,
00:08:55सब कुछ बहुत अव्यवस्थित है। मुझे फ़ॉन्ट पसंद नहीं आया और हाँ, मैं इस पर ज्यादा समय नहीं
00:08:59बिताने वाला हूँ। यह Claude वाले परिणामों से बहुत खराब दिखता है। मैं हालाँकि पुष्टि कर सकता हूँ कि
00:09:03जब हम कुछ पैसे जोड़ते हैं तो यह काम करता है, सिवाय इसके कि यह पूरे पेज को रिफ्रेश भी कर देता है।
00:09:07कोड में भी यह बहुत बेहतर नहीं होता, ऐसा लगता है कि GPT 5.4 इसके लिए
00:09:11एक पूरा प्रोजेक्ट शुरू नहीं करना चाहता था, इसलिए यह एक बहुत ही सरल दृष्टिकोण के साथ गया है जहाँ हमारे पास
00:09:14हमारी index.html, हमारी Javascript फ़ाइल और हमारी स्टाइल शीट है। और डेटाबेस के लिए वह भी सिर्फ
00:09:19एक सिंगल Javascript स्क्रिप्ट है। यह वास्तव में डेटाबेस का उपयोग नहीं कर रहा है, यह Opus 4.7 की तरह
00:09:23सब कुछ मेमोरी में कर रहा है और फिर से इसने Typescript के बजाय हर चीज़ के लिए
00:09:28Javascript का उपयोग किया है। जहाँ तक Gemini 3.1 की बात है, मैं सच कहूँ तो मुझे इस ऐप को चलाने की कोशिश करने में
00:09:32काफी समस्याएँ आईं और वास्तव में मुझे कई फॉलो-अप प्रॉम्प्ट भेजने पड़े क्योंकि मैं यह देखने के लिए उत्सुक था कि
00:09:36यह वास्तव में कैसा दिखता था और यह काफी हद तक Opus 4.6 वाले जैसा ही दिखता है।
00:09:41मुझे नहीं पता कि जब वे UI बना रहे थे तब क्या उनके पास एक ही ट्रेनिंग डेटा था, लेकिन यह बहुत समान है
00:09:45और इनमें से कोई भी फीचर वास्तव में काम नहीं करता है और इनमें से कोई भी टैब क्लिक करने योग्य नहीं है। Gemini 3.1
00:09:50ने शायद सबसे खराब प्रदर्शन किया, भले ही 5.4 भी उसी के आसपास है, सिर्फ इसलिए कि जिस तरह से इसने
00:09:54ऐप बनाया। मैं कहूँगा कि Gemini 3.1 ने वास्तव में इसके लिए एक अच्छा दृष्टिकोण अपनाने की कोशिश की,
00:09:59वास्तव में React Router के बजाय Next.js के साथ गया जो कि एक बहुत अच्छा विचार है क्योंकि इसका मतलब है कि आप
00:10:02API सर्वर रूट्स का उपयोग कर सकते हैं और यह एक बहुत ही सरल ऐप था इसलिए मुझे ऐसा करने में कोई
00:10:07आपत्ति नहीं है। लेकिन मैं कहूँगा कि इसने Prisma का उपयोग किया जहाँ मैं Drizzle जैसा कुछ पसंद करता।
00:10:10इन परीक्षणों ने मुझे सच में चौंका दिया क्योंकि अब तक मैं एक काफी भारी Codex उपयोगकर्ता रहा हूँ
00:10:15और मैं Claude Code से दूर चला गया था, लेकिन Opus 4.7 शायद मुझे वापस खींच सकता है क्योंकि इसका
00:10:19UI डिज़ाइन वास्तव में अच्छा था और अधिकांश ऐप काम करते हुए लग रहे थे। ज़ाहिर है कि यह सब
00:10:24प्रॉम्प्टिंग की गुणवत्ता पर निर्भर करता है और मैं स्टैक पर काफी अस्पष्ट प्रॉम्प्ट दे रहा था, मैं सामान्यतः
00:10:28उन सटीक चीज़ों के साथ प्रॉम्प्ट दूँगा जो मुझे चाहिए, लेकिन फिर भी मैं उस परिणाम से काफी प्रभावित हूँ जो
00:10:32हमें यहाँ मिला। मैं यह जानने को उत्सुक हूँ कि आप क्या सोचते हैं, इस समय आपकी पसंद का मॉडल कौन सा है, मुझे
00:10:36नीचे दिए गए विवरण में बताएं। जब आप वहाँ हों तो सब्सक्राइब करें और हमेशा की तरह आपसे मिलते हैं
00:10:49अगले वीडियो में।

Key Takeaway

Opus 4.7 कोडिंग और UI डिज़ाइन में 10% बेहतर प्रदर्शन देता है लेकिन 35% अधिक टोकन खपत के कारण लागत प्रबंधन के लिए प्रयास स्तरों को मैन्युअल रूप से कम करना आवश्यक है।

Highlights

Opus 4.7 SWE Bench Pro जैसे कोडिंग बेंचमार्क पर Opus 4.6 की तुलना में 10% की बढ़त हासिल करता है।

नए टोकेनाइज़र और उच्च सोच के स्तर के कारण एक ही इनपुट प्रॉम्प्ट के लिए टोकन की लागत 35% तक बढ़ जाती है।

मल्टीमॉडल सपोर्ट अब पिछले मॉडलों की तुलना में तीन गुना अधिक रिज़ॉल्यूशन वाली छवियों को स्वीकार करता है।

कंप्यूटर विज़न और कंप्यूटर उपयोग के कार्यों में प्रदर्शन सुधार के लिए इमेज रिज़ॉल्यूशन क्षमता को 3x बढ़ाया गया है।

UI डिज़ाइन के परीक्षण में Opus 4.7 ने React 18 और Typescript का उपयोग करके सबसे आधुनिक और प्रभावी डैशबोर्ड बनाया।

Claude Code में नया 'एक्स्ट्रा-हाई' प्रयास स्तर अब डिफ़ॉल्ट है जो Opus 4.6 के अधिकतम स्तर के बराबर टोकन खर्च करता है।

Timeline

Opus 4.7 की मुख्य क्षमताएं और लागत में बदलाव

  • Opus 4.7 कोडिंग, विज़न और सेल्फ़-वेरिफिकेशन में महत्वपूर्ण सुधार लाता है।
  • नया टोकेनाइज़र पुराने मॉडलों की तुलना में इनपुट लागत को 35% तक बढ़ा देता है।
  • यह मॉडल अधिक गहराई से सोचता है जिसके परिणामस्वरूप उच्च टोकन खपत होती है।

यह रिलीज़ कोडिंग और रचनात्मक UI निर्माण पर केंद्रित है। लागत संरचना में बदलाव का मतलब है कि वही पुराने प्रॉम्प्ट अब महंगे हो गए हैं। टोकेनाइज़र में बदलाव सीधे तौर पर टेक्स्ट प्रोसेसिंग दक्षता और बिलिंग को प्रभावित करता है।

बेंचमार्क प्रदर्शन और भविष्य के मॉडल Mythos

  • SWE Bench Pro पर Opus 4.7 ने 10% और वेरीफ़ाइड बेंचमार्क पर 7% की वृद्धि दर्ज की है।
  • साइबर सुरक्षा स्कोर सुरक्षा उपायों के परीक्षण के कारण कृत्रिम रूप से कम रखा गया है।
  • Mythos श्रेणी के मॉडल भविष्य में और भी अधिक शक्तिशाली प्रदर्शन का संकेत देते हैं।

सॉफ़्टवेयर इंजीनियरिंग कार्यों में स्पष्ट बढ़त के बावजूद नीडल इन ए हेस्टैक टेस्ट में लंबी संदर्भ क्षमता में गिरावट देखी गई है। साइबर सुरक्षा बेंचमार्क में मामूली गिरावट का कारण नए सुरक्षा प्रोटोकॉल का परीक्षण है। ये परीक्षण भविष्य के अत्यंत शक्तिशाली मॉडलों की रिलीज़ के लिए नींव रख रहे हैं।

निर्देश पालन और मल्टीमॉडल सुधार

  • Opus 4.7 निर्देशों को अक्षरशः मानता है जिससे पुराने प्रॉम्प्ट्स में बदलाव की आवश्यकता हो सकती है।
  • उच्च रिज़ॉल्यूशन इमेज सपोर्ट अब पिछले मॉडलों की तुलना में 3 गुना अधिक है।
  • बेहतर फ़ाइल सिस्टम आधारित मेमोरी लंबे सत्रों के दौरान महत्वपूर्ण नोट्स याद रखती है।

मॉडल अब निर्देशों का पालन बहुत सख्ती से करता है जो पुराने 'ढीले' प्रॉम्प्ट्स के लिए अप्रत्याशित परिणाम दे सकता है। बढ़ी हुई इमेज क्षमता डेटा निष्कर्षण और जटिल कंप्यूटर उपयोग कार्यों को आसान बनाती है। मेमोरी सुधार का लक्ष्य भविष्य के कार्यों में संदर्भ की आवश्यकता को कम करके टोकन बचाना है।

Claude Code में टोकन और प्रयास स्तर प्रबंधन

  • Claude Code में 'एक्स्ट्रा-हाई' प्रयास स्तर अब डिफ़ॉल्ट रूप से सेट है।
  • Opus 4.7 का 'हाई' स्तर कम टोकन में Opus 4.6 के 'मैक्स' स्तर से बेहतर प्रदर्शन करता है।
  • लागत कम करने के लिए उपयोगकर्ताओं को मैन्युअल रूप से प्रयास स्तरों को कम करने का सुझाव दिया जाता है।

टोकन जलाने की दर को नियंत्रित करने के लिए विभिन्न प्रयास स्तरों का परीक्षण करना अनिवार्य है। तुलनात्मक डेटा से पता चलता है कि दक्षता में सुधार हुआ है लेकिन डिफ़ॉल्ट सेटिंग्स बहुत महंगी हैं। उच्च स्तर के प्रदर्शन को बनाए रखते हुए लागत बचाने के लिए 'हाई' स्तर का उपयोग एक संतुलित विकल्प है।

UI डिज़ाइन और कोड तुलना परीक्षण

  • Opus 4.7 ने कैफे वेबसाइट और फाइनेंस डैशबोर्ड के लिए सबसे साफ और आधुनिक UI बनाया।
  • यह मॉडल फ्रंट-एंड के लिए React, Vite और Typescript का सही उपयोग करता है।
  • GPT 5.4 और Gemini 3.1 जटिल UI कार्यों और कार्यात्मक विशेषताओं में Claude मॉडलों से पीछे रहे।

एक विस्तृत परीक्षण में Opus 4.7 ने 20 मिनट के भीतर एक पूर्ण कार्यात्मक व्यक्तिगत वित्त डैशबोर्ड तैयार किया जिसमें चार्ट और रीयल-टाइम अपडेट शामिल थे। हालांकि Opus 4.6 ने SQLite डेटाबेस का उपयोग करके बैक-एंड स्थिरता में जीत हासिल की, लेकिन 4.7 की डिज़ाइन सौंदर्यशास्त्र और Typescript का उपयोग उसे बेहतर विकल्प बनाता है। Gemini और GPT मॉडलों ने कोड संरचना और विज़ुअल डिज़ाइन दोनों में कम प्रभावशाली प्रदर्शन किया।

Community Posts

View all posts