Transcript
00:00:00Anthropic ने आज Claude Opus 4.8 जारी किया है।
00:00:02तो इस वीडियो में, मैं आपको बहुत तेज़ी से बताऊंगा
00:00:05कि क्या बदला है और आपको किस बात पर ध्यान देने की
00:00:08ज़रूरत है इस बिल्कुल नए मॉडल के साथ।
00:00:09तो चलिए सीधे बेंचमार्क पर चलते हैं।
00:00:12यहाँ हमारे पास Opus 4.8 हाइलाइट किया गया है
00:00:14और Opus 4.7, GPT 5.5, और Gemini 3.1 Pro की तुलना में,
00:00:20Opus लगभग हर श्रेणी में उनसे आगे निकल जाता है
00:00:24सिवाय एजेंटिक टर्मिनल कोडिंग के,
00:00:26जो कि Terminal Bench 2.1 है।
00:00:28वहाँ, यह 74.6 स्कोर करता है,
00:00:30जो Opus 4.7 से अभी भी एक बड़ी छलांग है,
00:00:34फिर भी यह GPT 5.5 से पीछे है।
00:00:37लेकिन बाकी सब चीजों में, जैसे SWE Bench Pro,
00:00:40मल्टीडिसिप्लिनरी रीजनिंग, एजेंटिक कंप्यूटर यूज़,
00:00:42नॉलेज वर्क, और एजेंटिक वित्तीय विश्लेषण,
00:00:45यह बाकी सबसे आगे निकल जाता है।
00:00:47अब हम सभी बेंचमार्क को बहुत गंभीरता से नहीं लेते
00:00:49इस बिंदु पर, लेकिन Opus 4.7 के रिपोर्ट किए गए आंकड़ों से
00:00:53इन बड़ी छलांगों को देखना अच्छा लगता है,
00:00:56जो बहुत पहले नहीं हुआ था।
00:00:57मेरा मतलब है, बस कुछ महीने पहले ही,
00:00:584.7 जारी हुआ था और हमारे पास पहले से ही 4.8 है
00:01:01और हम एजेंटिक कोडिंग पर 64 से 69 तक बढ़ रहे हैं।
00:01:04मतलब, यह बहुत अच्छी बात है।
00:01:05अब 4.8 बनाम 4.7 के बड़े सुधारों में से एक,
00:01:08Anthropic के अनुसार, इसकी ईमानदारी है।
00:01:11और ईमानदारी से हमारा मतलब है कि यह AI मॉडल,
00:01:14जब आप इसे कुछ करने के लिए कहते हैं,
00:01:15अगर यह नहीं कर सकता या यदि इसने नहीं किया है,
00:01:18तो यह वास्तव में आपको बता देगा।
00:01:19यह एक बहुत बड़ी बात है
00:01:20अगर आपने पिछले कुछ वर्षों में
00:01:22इन मॉडलों का उपयोग किया है,
00:01:22जहाँ आप इसे कुछ करने के लिए कहते हैं जैसे,
00:01:24हे, इस विशाल ट्रांसक्रिप्ट को देखो
00:01:27और वास्तव में इसे पढ़ो और बताओ कि तुमने क्या किया।
00:01:29और फिर जब आप इसके आउटपुट को देखते हैं
00:01:31और आप वास्तव में उससे पूछताछ करते हैं,
00:01:32तो यह कुछ ऐसा कहेगा,
00:01:33खैर, मैंने वास्तव में इसे केवल सारांशित किया है।
00:01:35मैंने पूरा नहीं पढ़ा।
00:01:35यह एक बड़ी समस्या है।
00:01:37और यदि आप किसी भी वास्तविक काम के लिए AI का उपयोग कर रहे हैं,
00:01:40तो आप जानते हैं कि इन सभी परीक्षणों को बनाना कितना महत्वपूर्ण है,
00:01:42यह सुनिश्चित करने के लिए कि यह वास्तव में वही कर रहा है जो यह कहता है।
00:01:46लेकिन Anthropic कह रहा है,
00:01:47हे, 4.8 के साथ यह कुछ पिछले मॉडलों की तुलना में
00:01:50उतनी बड़ी समस्या नहीं हो सकती है।
00:01:51विशेष रूप से, वे कहते हैं,
00:01:52उनके मूल्यांकन के अनुसार,
00:01:54जिसे आप उनके सिस्टम कार्ड के अंदर देख सकते हैं,
00:01:56जो लगभग 250 पेज लंबा है,
00:01:59वे कहते हैं कि यह दिखाता है कि Opus 4.8
00:02:01अपने पूर्ववर्ती की तुलना में लगभग चार गुना कम संभावना रखता है
00:02:04कि उसके द्वारा लिखे गए कोड में खामियां बिना किसी टिप्पणी के रह जाएं।
00:02:07तो फिर, यह इस बारे में अधिक ईमानदार होगा
00:02:09कि क्या काम नहीं कर रहा है बनाम क्या कर रहा है,
00:02:12और यह आपको गुमराह नहीं करेगा।
00:02:13वे यह भी आकलन करते हैं कि 4.8 में गलत संरेखित व्यवहार की दरें हैं
00:02:16जैसे कि धोखे या दुरुपयोग में सहयोग,
00:02:18जो Opus 4.7 से काफी कम हैं
00:02:21और Mythos के समान हैं।
00:02:24और आप उस गलत संरेखित व्यवहार को यहाँ देख सकते हैं
00:02:25जहाँ Opus 4.7 और विशेष रूप से Sonnet 4.6
00:02:28में इनमें से कुछ प्रवृत्तियाँ होंगी,
00:02:31और हम वास्तव में Mythos या Opus 4.8
00:02:33के साथ ऐसा नहीं देखते हैं।
00:02:35अब, मॉडल से परे,
00:02:36Anthropic द्वारा आगे बढ़ाए गए कुछ और अपडेट हैं।
00:02:39पहला डायनामिक वर्कफ़्लो है।
00:02:41अब, डायनामिक वर्कफ़्लो लक्ष्यों के समान है।
00:02:43विचार यह है कि हम अब क्लॉक कोड को
00:02:45एक बहुत ही जटिल कार्य पर लगा सकते हैं,
00:02:47और यह समय के साथ उस पर काम करेगा,
00:02:50एक ही सत्र में दस से सैकड़ों समानांतर एजेंटों को
00:02:52उत्पन्न करके
00:02:53यह सुनिश्चित करने के लिए कि काम वास्तव में पूरा हो गया है।
00:02:56जैसा कि आप जानते हैं, बहुत सारी समस्याएं हैं
00:02:57कि भले ही आप प्लान मोड में कुछ करें
00:02:59और इसे बहुत सारे कार्यों में तोड़ दें
00:03:00तो भी यह क्लॉक कोड के लिए एक बार में संभालने के लिए बहुत अधिक है।
00:03:03यह डायनामिक वर्कफ़्लो उस समस्या का उत्तर है,
00:03:05और मैं बहुत जल्द
00:03:06डायनामिक वर्कफ़्लो पर एक गहन गोता (deep dive) लगाऊंगा।
00:03:09लेकिन अगर आप इसे आज आज़माना चाहते हैं,
00:03:11तो दो वास्तविक विकल्प हैं।
00:03:12पहला है साधारण भाषा का उपयोग करना
00:03:13और कहना, हे, Claude, एक डायनामिक वर्कफ़्लो बनाएं,
00:03:15या नई Claude कोड-विशिष्ट सेटिंग चालू करें
00:03:18जिसे UltraCode कहते हैं।
00:03:20Claude.ai के लिए एक और बड़ा बदलाव,
00:03:22वास्तविक चैटबॉट और कोवर्क,
00:03:24यह कोड के मामले में वास्तव में ऐसा नहीं है,
00:03:26यह है कि उनके पास अब अधिक नियंत्रण हैं
00:03:27जब यह चुनने की बात आती है कि Claude
00:03:30प्रतिक्रिया में कितना प्रयास डालता है, है ना?
00:03:31हमारे पास Claude कोड के साथ यह कुछ समय से था
00:03:33जैसे उच्च (high) बनाम अतिरिक्त उच्च (extra high) बनाम अधिकतम (max)।
00:03:35खैर, वह अब चीजों के अंदर है
00:03:36जैसे Claude.ai और कोवर्क।
00:03:38और अंत में, यदि आप कोई हैं
00:03:39जो Messages API का उपयोग कर रहा है,
00:03:41तो यह अब मैसेज ऐरे के अंदर सिस्टम प्रविष्टियों को स्वीकार करता है।
00:03:44यह वास्तव में अच्छा है
00:03:45क्योंकि आप कार्य के दौरान Claude के निर्देशों को अपडेट कर सकते हैं।
00:03:47यह Codex के समान है
00:03:50और उस स्टीयर सुविधा की तरह
00:03:51बनाम कतार सुविधा
00:03:52जब आप इसे एक अतिरिक्त प्रॉम्प्ट देते हैं।
00:03:54ध्यान दें, Opus डिफ़ॉल्ट रूप से उच्च प्रयास (high effort) पर होता है,
00:03:57अतिरिक्त उच्च (extra high) पर नहीं।
00:03:59याद रखें Opus 4.7 के साथ
00:04:00जहाँ उन्होंने हमें वह ग्राफ दिखाया था,
00:04:01वे हमें बता रहे थे,
00:04:03हे, अतिरिक्त उच्च (extra high) वह जगह है जहाँ आप जाना चाहते हैं।
00:04:05तो बस समझें कि 4.8 उच्च (high) पर है
00:04:07और आपके पास अभी भी दो स्तर ऊपर हैं जहाँ आप जा सकते हैं
00:04:09यदि आप इस नए मॉडल से थोड़ा और प्रयास
00:04:11प्राप्त करना चाहते हैं।
00:04:12और यदि आप टोकन उपयोग के बारे में सोच रहे हैं,
00:04:14तो उन्होंने Claude कोड में दर सीमा बढ़ा दी है
00:04:16उच्च प्रयास स्तरों के उच्च टोकन उपयोग को
00:04:18समायोजित करने के लिए,
00:04:20जो वास्तव में अच्छा है।
00:04:21तो यह ब्रांड नए Claude Opus 4.8
00:04:22का आपका त्वरित अवलोकन है।
00:04:24याद रखें, इसकी कीमत बिल्कुल वैसी ही है
00:04:25जैसी Opus 4.7 की थी,
00:04:26इसलिए आप इस नई शक्ति के लिए
00:04:28कुछ भी अतिरिक्त नहीं दे रहे हैं।
00:04:29हमेशा की तरह, मुझे बताएं कि आपने क्या सोचा।
00:04:31अगर आप मेरे Claude Code मास्टरक्लास को
00:04:33प्राप्त करना चाहते हैं, तो लिंक की गई टिप्पणी में
00:04:34Chase AI Plus को
00:04:35ज़रूर देखें,
00:04:36और मैं आपसे बाद में मिलता हूँ।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video