Anthropic ने Opus 4.8 का धमाका किया

CChase AI
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Anthropic ने आज Claude Opus 4.8 जारी किया है।
00:00:02तो इस वीडियो में, मैं आपको बहुत तेज़ी से बताऊंगा
00:00:05कि क्या बदला है और आपको किस बात पर ध्यान देने की
00:00:08ज़रूरत है इस बिल्कुल नए मॉडल के साथ।
00:00:09तो चलिए सीधे बेंचमार्क पर चलते हैं।
00:00:12यहाँ हमारे पास Opus 4.8 हाइलाइट किया गया है
00:00:14और Opus 4.7, GPT 5.5, और Gemini 3.1 Pro की तुलना में,
00:00:20Opus लगभग हर श्रेणी में उनसे आगे निकल जाता है
00:00:24सिवाय एजेंटिक टर्मिनल कोडिंग के,
00:00:26जो कि Terminal Bench 2.1 है।
00:00:28वहाँ, यह 74.6 स्कोर करता है,
00:00:30जो Opus 4.7 से अभी भी एक बड़ी छलांग है,
00:00:34फिर भी यह GPT 5.5 से पीछे है।
00:00:37लेकिन बाकी सब चीजों में, जैसे SWE Bench Pro,
00:00:40मल्टीडिसिप्लिनरी रीजनिंग, एजेंटिक कंप्यूटर यूज़,
00:00:42नॉलेज वर्क, और एजेंटिक वित्तीय विश्लेषण,
00:00:45यह बाकी सबसे आगे निकल जाता है।
00:00:47अब हम सभी बेंचमार्क को बहुत गंभीरता से नहीं लेते
00:00:49इस बिंदु पर, लेकिन Opus 4.7 के रिपोर्ट किए गए आंकड़ों से
00:00:53इन बड़ी छलांगों को देखना अच्छा लगता है,
00:00:56जो बहुत पहले नहीं हुआ था।
00:00:57मेरा मतलब है, बस कुछ महीने पहले ही,
00:00:584.7 जारी हुआ था और हमारे पास पहले से ही 4.8 है
00:01:01और हम एजेंटिक कोडिंग पर 64 से 69 तक बढ़ रहे हैं।
00:01:04मतलब, यह बहुत अच्छी बात है।
00:01:05अब 4.8 बनाम 4.7 के बड़े सुधारों में से एक,
00:01:08Anthropic के अनुसार, इसकी ईमानदारी है।
00:01:11और ईमानदारी से हमारा मतलब है कि यह AI मॉडल,
00:01:14जब आप इसे कुछ करने के लिए कहते हैं,
00:01:15अगर यह नहीं कर सकता या यदि इसने नहीं किया है,
00:01:18तो यह वास्तव में आपको बता देगा।
00:01:19यह एक बहुत बड़ी बात है
00:01:20अगर आपने पिछले कुछ वर्षों में
00:01:22इन मॉडलों का उपयोग किया है,
00:01:22जहाँ आप इसे कुछ करने के लिए कहते हैं जैसे,
00:01:24हे, इस विशाल ट्रांसक्रिप्ट को देखो
00:01:27और वास्तव में इसे पढ़ो और बताओ कि तुमने क्या किया।
00:01:29और फिर जब आप इसके आउटपुट को देखते हैं
00:01:31और आप वास्तव में उससे पूछताछ करते हैं,
00:01:32तो यह कुछ ऐसा कहेगा,
00:01:33खैर, मैंने वास्तव में इसे केवल सारांशित किया है।
00:01:35मैंने पूरा नहीं पढ़ा।
00:01:35यह एक बड़ी समस्या है।
00:01:37और यदि आप किसी भी वास्तविक काम के लिए AI का उपयोग कर रहे हैं,
00:01:40तो आप जानते हैं कि इन सभी परीक्षणों को बनाना कितना महत्वपूर्ण है,
00:01:42यह सुनिश्चित करने के लिए कि यह वास्तव में वही कर रहा है जो यह कहता है।
00:01:46लेकिन Anthropic कह रहा है,
00:01:47हे, 4.8 के साथ यह कुछ पिछले मॉडलों की तुलना में
00:01:50उतनी बड़ी समस्या नहीं हो सकती है।
00:01:51विशेष रूप से, वे कहते हैं,
00:01:52उनके मूल्यांकन के अनुसार,
00:01:54जिसे आप उनके सिस्टम कार्ड के अंदर देख सकते हैं,
00:01:56जो लगभग 250 पेज लंबा है,
00:01:59वे कहते हैं कि यह दिखाता है कि Opus 4.8
00:02:01अपने पूर्ववर्ती की तुलना में लगभग चार गुना कम संभावना रखता है
00:02:04कि उसके द्वारा लिखे गए कोड में खामियां बिना किसी टिप्पणी के रह जाएं।
00:02:07तो फिर, यह इस बारे में अधिक ईमानदार होगा
00:02:09कि क्या काम नहीं कर रहा है बनाम क्या कर रहा है,
00:02:12और यह आपको गुमराह नहीं करेगा।
00:02:13वे यह भी आकलन करते हैं कि 4.8 में गलत संरेखित व्यवहार की दरें हैं
00:02:16जैसे कि धोखे या दुरुपयोग में सहयोग,
00:02:18जो Opus 4.7 से काफी कम हैं
00:02:21और Mythos के समान हैं।
00:02:24और आप उस गलत संरेखित व्यवहार को यहाँ देख सकते हैं
00:02:25जहाँ Opus 4.7 और विशेष रूप से Sonnet 4.6
00:02:28में इनमें से कुछ प्रवृत्तियाँ होंगी,
00:02:31और हम वास्तव में Mythos या Opus 4.8
00:02:33के साथ ऐसा नहीं देखते हैं।
00:02:35अब, मॉडल से परे,
00:02:36Anthropic द्वारा आगे बढ़ाए गए कुछ और अपडेट हैं।
00:02:39पहला डायनामिक वर्कफ़्लो है।
00:02:41अब, डायनामिक वर्कफ़्लो लक्ष्यों के समान है।
00:02:43विचार यह है कि हम अब क्लॉक कोड को
00:02:45एक बहुत ही जटिल कार्य पर लगा सकते हैं,
00:02:47और यह समय के साथ उस पर काम करेगा,
00:02:50एक ही सत्र में दस से सैकड़ों समानांतर एजेंटों को
00:02:52उत्पन्न करके
00:02:53यह सुनिश्चित करने के लिए कि काम वास्तव में पूरा हो गया है।
00:02:56जैसा कि आप जानते हैं, बहुत सारी समस्याएं हैं
00:02:57कि भले ही आप प्लान मोड में कुछ करें
00:02:59और इसे बहुत सारे कार्यों में तोड़ दें
00:03:00तो भी यह क्लॉक कोड के लिए एक बार में संभालने के लिए बहुत अधिक है।
00:03:03यह डायनामिक वर्कफ़्लो उस समस्या का उत्तर है,
00:03:05और मैं बहुत जल्द
00:03:06डायनामिक वर्कफ़्लो पर एक गहन गोता (deep dive) लगाऊंगा।
00:03:09लेकिन अगर आप इसे आज आज़माना चाहते हैं,
00:03:11तो दो वास्तविक विकल्प हैं।
00:03:12पहला है साधारण भाषा का उपयोग करना
00:03:13और कहना, हे, Claude, एक डायनामिक वर्कफ़्लो बनाएं,
00:03:15या नई Claude कोड-विशिष्ट सेटिंग चालू करें
00:03:18जिसे UltraCode कहते हैं।
00:03:20Claude.ai के लिए एक और बड़ा बदलाव,
00:03:22वास्तविक चैटबॉट और कोवर्क,
00:03:24यह कोड के मामले में वास्तव में ऐसा नहीं है,
00:03:26यह है कि उनके पास अब अधिक नियंत्रण हैं
00:03:27जब यह चुनने की बात आती है कि Claude
00:03:30प्रतिक्रिया में कितना प्रयास डालता है, है ना?
00:03:31हमारे पास Claude कोड के साथ यह कुछ समय से था
00:03:33जैसे उच्च (high) बनाम अतिरिक्त उच्च (extra high) बनाम अधिकतम (max)।
00:03:35खैर, वह अब चीजों के अंदर है
00:03:36जैसे Claude.ai और कोवर्क।
00:03:38और अंत में, यदि आप कोई हैं
00:03:39जो Messages API का उपयोग कर रहा है,
00:03:41तो यह अब मैसेज ऐरे के अंदर सिस्टम प्रविष्टियों को स्वीकार करता है।
00:03:44यह वास्तव में अच्छा है
00:03:45क्योंकि आप कार्य के दौरान Claude के निर्देशों को अपडेट कर सकते हैं।
00:03:47यह Codex के समान है
00:03:50और उस स्टीयर सुविधा की तरह
00:03:51बनाम कतार सुविधा
00:03:52जब आप इसे एक अतिरिक्त प्रॉम्प्ट देते हैं।
00:03:54ध्यान दें, Opus डिफ़ॉल्ट रूप से उच्च प्रयास (high effort) पर होता है,
00:03:57अतिरिक्त उच्च (extra high) पर नहीं।
00:03:59याद रखें Opus 4.7 के साथ
00:04:00जहाँ उन्होंने हमें वह ग्राफ दिखाया था,
00:04:01वे हमें बता रहे थे,
00:04:03हे, अतिरिक्त उच्च (extra high) वह जगह है जहाँ आप जाना चाहते हैं।
00:04:05तो बस समझें कि 4.8 उच्च (high) पर है
00:04:07और आपके पास अभी भी दो स्तर ऊपर हैं जहाँ आप जा सकते हैं
00:04:09यदि आप इस नए मॉडल से थोड़ा और प्रयास
00:04:11प्राप्त करना चाहते हैं।
00:04:12और यदि आप टोकन उपयोग के बारे में सोच रहे हैं,
00:04:14तो उन्होंने Claude कोड में दर सीमा बढ़ा दी है
00:04:16उच्च प्रयास स्तरों के उच्च टोकन उपयोग को
00:04:18समायोजित करने के लिए,
00:04:20जो वास्तव में अच्छा है।
00:04:21तो यह ब्रांड नए Claude Opus 4.8
00:04:22का आपका त्वरित अवलोकन है।
00:04:24याद रखें, इसकी कीमत बिल्कुल वैसी ही है
00:04:25जैसी Opus 4.7 की थी,
00:04:26इसलिए आप इस नई शक्ति के लिए
00:04:28कुछ भी अतिरिक्त नहीं दे रहे हैं।
00:04:29हमेशा की तरह, मुझे बताएं कि आपने क्या सोचा।
00:04:31अगर आप मेरे Claude Code मास्टरक्लास को
00:04:33प्राप्त करना चाहते हैं, तो लिंक की गई टिप्पणी में
00:04:34Chase AI Plus को
00:04:35ज़रूर देखें,
00:04:36और मैं आपसे बाद में मिलता हूँ।

Key Takeaway

Anthropic द्वारा जारी Claude Opus 4.8 मॉडल, बेहतर सटीकता और डायनामिक वर्कफ़्लो जैसी नई क्षमताओं के साथ कोडिंग और तर्क संबंधी कार्यों में पिछले मॉडलों की तुलना में अधिक शक्तिशाली और ईमानदार प्रदर्शन प्रदान करता है।

Highlights

  • Claude Opus 4.8 अधिकांश बेंचमार्क पर पिछले मॉडलों से बेहतर प्रदर्शन करता है, जिसमें SWE Bench Pro और एजेंटिक वित्तीय विश्लेषण शामिल हैं।

  • Opus 4.8 में कोड लिखते समय खामियां छोड़े जाने की संभावना Opus 4.7 की तुलना में लगभग चार गुना कम है।

  • नए डायनामिक वर्कफ़्लो के माध्यम से एक ही सत्र में सैकड़ों समानांतर एजेंटों का उपयोग करके जटिल कार्यों को पूरा करना संभव है।

  • Opus 4.8 मॉडल की कीमत Opus 4.7 के समान ही रखी गई है, जिससे लागत में कोई वृद्धि नहीं हुई है।

  • Messages API अब मैसेज ऐरे के भीतर सिस्टम प्रविष्टियों को स्वीकार करता है, जिससे कार्य के दौरान निर्देशों को अपडेट करना आसान हो गया है।

Timeline

Claude Opus 4.8 के प्रदर्शन बेंचमार्क

  • Opus 4.8 ने टर्मिनल बेंच 2.1 को छोड़कर लगभग सभी परीक्षण श्रेणियों में GPT 5.5 और Gemini 3.1 Pro को पीछे छोड़ दिया है।
  • एजेंटिक कोडिंग में प्रदर्शन स्कोर 64 से बढ़कर 69 हो गया है।
  • यह मॉडल SWE Bench Pro और एजेंटिक वित्तीय विश्लेषण जैसे जटिल क्षेत्रों में अग्रणी है।

Opus 4.8 पिछले संस्करणों की तुलना में प्रदर्शन में एक बड़ी छलांग का प्रतिनिधित्व करता है। हालांकि एजेंटिक टर्मिनल कोडिंग में यह GPT 5.5 के पीछे है, लेकिन अन्य सभी प्रमुख क्षेत्रों में इसका स्कोर बेहतर है। यह सुधार पिछले कुछ महीनों में विकसित हुई तकनीकी क्षमता को दर्शाता है।

मॉडल की ईमानदारी और सुरक्षा में सुधार

  • Opus 4.8 अपने पिछले संस्करणों की तुलना में अधिक ईमानदार है, यानी कार्य न कर पाने की स्थिति में यह स्पष्ट रूप से सूचित करता है।
  • कोड में अनचाही खामियां छोड़ने की दर Opus 4.7 की तुलना में लगभग चार गुना कम है।
  • धोखे या दुरुपयोग में सहयोग जैसे गलत संरेखित व्यवहार की दरें काफी कम हो गई हैं।

250 पेज लंबे सिस्टम कार्ड के अनुसार, नया मॉडल अपनी सीमाओं के प्रति अधिक पारदर्शी है। यह उन मामलों को कम करता है जहाँ AI उपयोगकर्ता को यह विश्वास दिलाता है कि कार्य पूरा हो गया है, जबकि वास्तव में ऐसा नहीं हुआ होता। इसके अतिरिक्त, सुरक्षा के दृष्टिकोण से, इसमें हानिकारक प्रवृत्तियों को Mythos मॉडल के स्तर तक सीमित कर दिया गया है।

डायनामिक वर्कफ़्लो और नई तकनीकी सुविधाएं

  • डायनामिक वर्कफ़्लो सुविधा जटिल कार्यों के लिए एक सत्र में सैकड़ों समानांतर एजेंट उत्पन्न करने की अनुमति देती है।
  • उपयोगकर्ता 'UltraCode' सेटिंग के माध्यम से या सामान्य भाषा निर्देशों द्वारा डायनामिक वर्कफ़्लो सक्रिय कर सकते हैं।
  • Messages API में सिस्टम प्रविष्टियां जोड़ने की सुविधा से निर्देश अपडेट करना आसान हो गया है।

डायनामिक वर्कफ़्लो उन कार्यों को संबोधित करता है जिन्हें एक बार में निष्पादित करना कठिन होता है। कोडिंग में प्रयास स्तरों (उच्च, अतिरिक्त उच्च, अधिकतम) को नियंत्रित करने की क्षमता अब Claude.ai और कोवर्क में उपलब्ध है। इसके अलावा, उच्च प्रयास स्तरों के लिए टोकन सीमाएं बढ़ाई गई हैं ताकि जटिल प्रक्रियाओं को बिना रुकावट पूरा किया जा सके।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video