OpenAI जीत रहा है... (Opus 4.6 + Codex 5.3)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스게임/e스포츠AI/미래기술

Transcript

00:00:00Anthropic ने अभी-अभी Claude Opus 4.6 रिलीज़ किया है और इसने Terminal Bench 2.0 पर अब तक का सबसे ज़्यादा स्कोर हासिल किया है।
00:00:06आपकी प्रोग्रामिंग के बीच में टोकने के लिए माफ़ी चाहता हूँ,
00:00:10लेकिन पता चला है कि GPT 5.3 codecs अभी लॉन्च हुआ है और इसने Terminal Bench पर Opus 4.6 को 10% से भी ज़्यादा अंतर से पछाड़ दिया है।
00:00:16तो ऐसा लगता है कि Anthropic का दबदबा सिर्फ़ कुछ ही मिनटों का था। इन दोनों के बीच मुकाबला वाकई बहुत रोमांचक होता जा रहा है।
00:00:23इसलिए मैं यह देखने के लिए बहुत उत्सुक हूँ कि इन मॉडल्स में नया क्या है और कौन सा इस्तेमाल करने में बेहतर है,
00:00:29क्योंकि हाल ही में मुझे GPT 5.2 ज़्यादा बेहतर लगा है।
00:00:31तो अब देखना यह है कि क्या Claude अपनी बढ़त वापस पा सकता है या OpenAI पहले से ही GPT 5.3 codecs के साथ तैयार बैठा था।
00:00:37सबसे पहले, इन मॉडल्स में नया क्या है उसका एक छोटा सा सार, क्योंकि हम सब जानते हैं कि ये बेंचमार्क पर पिछले वर्ज़न्स से बेहतर ही होने वाले हैं।
00:00:48मैं बेंचमार्क तो अंत में दिखाऊँगा, पर क्या इन मॉडल्स में असल में कुछ और भी बदला है?
00:00:52बात करें Opus की,
00:00:53तो वे दावा कर रहे हैं कि यह अब ज़्यादा सावधानी से प्लानिंग कर सकता है, लंबे समय तक 'agentic' टास्क संभाल सकता है और बड़े कोडबेस में ज़्यादा भरोसेमंद तरीके से काम कर सकता है।
00:01:00इसमें अपनी गलतियों को सुधारने के लिए बेहतर कोड रिव्यू और डिबगिंग स्किल्स भी हैं।
00:01:02सच तो यह है कि GPT 5.2 की तुलना में Opus इन्हीं चीज़ों में कमज़ोर था। मेरे अनुभव में,
00:01:08यह कोडिंग जल्दी शुरू कर देता था पर गलतियाँ भी ज़्यादा करता था।
00:01:12जबकि GPT 5.2 कोडिंग शुरू करने में थोड़ा वक्त लेता था लेकिन रेपो के कॉन्टेक्स्ट को बेहतर समझता था।
00:01:17तो उम्मीद है कि ये बदलाव Opus को बेहतर बनाएंगे। साथ ही, इसकी नई 10 लाख टोकन्स की
00:01:23कॉन्टेक्स्ट विंडो से भी इसे फ़ायदा मिलेगा।
00:01:24हालाँकि, यह बताया गया है कि यह अभी बीटा में है और बाकी प्रोवाइडर्स की तरह,
00:01:27इसमें आपको ज़्यादा पैसे देने होंगे। 2 लाख से ज़्यादा टोकन वाले प्रॉम्प्ट्स के लिए 10 लाख इनपुट टोकन पर $10 और
00:01:3310 लाख आउटपुट टोकन पर $37.50 का खर्च आएगा। अब चलते हैं codecs 5.3 पर।
00:01:38OpenAI का कहना है कि यह मॉडल GPT 5.2 codecs की कोडिंग परफ़ॉर्मेंस और GPT 5.2 की रीजनिंग और प्रोफेशनल नॉलेज को
00:01:45एक ही मॉडल में साथ लाता है, जो 25% तेज़ भी है।
00:01:51इससे यह लंबे समय तक चलने वाले टास्क, रिसर्च टूल का इस्तेमाल और जटिल काम आसानी से कर पाएगा।
00:01:57तो ऐसा लगता है कि उन्होंने इस मॉडल को एक 'ऑल-राउंडर' बनाने की कोशिश की है, जिसमें GPT 5.2 का ज्ञान और बेहतर कोडिंग क्षमता है।
00:02:03लेकिन यह सब तो बस मार्केटिंग की बातें हैं।
00:02:05तो चलिए, इन मॉडल्स को कुछ असली दुनिया के टेस्ट्स से गुज़ारते हैं। पहला टेस्ट था एक convex agent पैकेज को AI SDK v6 को सपोर्ट करने के लिए अपडेट करना।
00:02:11मुझे हाल ही में डेटाबेस के तौर पर convex बहुत पसंद आ रहा है, और यह पैकेज मुख्य रूप से AI SDK को डेटाबेस से जोड़ने में मदद करता है।
00:02:19लेकिन समस्या यह थी कि इसे लेटेस्ट वर्ज़न पर अपग्रेड नहीं किया गया था।
00:02:23आप यहाँ डॉक्यूमेंटेशन में देख सकते हैं कि v5 से v6 पर माइग्रेशन कोई आसान काम नहीं है।
00:02:28उन्होंने इसमें बहुत सारे बदलाव किए हैं और कई टाइप्स बदल दिए हैं।
00:02:32तो मैंने convex में एक बेसिक चैट ऐप बनाया जो एजेंट पैकेज का इस्तेमाल करके सही काम कर रहा था।
00:02:36लेकिन जैसे ही मैंने पैकेज को v6 पर अपग्रेड किया, मुझे ढेर सारी बिल्ड और टाइप एरर्स मिलने लगीं।
00:02:40मैंने बस मॉडल्स से उन्हें ठीक करने को कहा। आप देख सकते हैं कि मैंने यहाँ codecs में क्या प्रॉम्प्ट दिया।
00:02:44मैंने कहा कि मैं convex के साथ एक चैट ऐप बना रहा हूँ और मेरे पास एक वर्किंग वर्ज़न था,
00:02:46पर v6 पर अपग्रेड करने के बाद अब मुझे ये टाइप और बिल्ड एरर्स ठीक करने हैं।
00:02:50मैंने इसे माइग्रेशन गाइड भी दे दी ताकि यह उसे कॉन्टेक्स्ट की तरह इस्तेमाल कर सके, और मैंने कहा कि मुझे सारे टेस्ट
00:02:55पास चाहिए और जहाँ तक हो सके 'as any' जैसे टाइपस्क्रिप्ट हैक्स से बचना, क्योंकि मैंने देखा है कि अक्सर मॉडल्स ऐसा ही करते हैं।
00:02:59तो मैंने खास तौर पर मना किया क्योंकि इस AI SDK में अब काफी जटिल टाइप्स हैं।
00:03:03चूँकि हम पहले से ही codecs पर हैं, तो देखते हैं कि 5.3 codecs ने कैसा परफॉर्म किया। इसने पहले
00:03:09रेपो को समझा। आप देख सकते हैं कि इसने पहचान लिया कि यह एक मोनो-रेपो है। फिर इसने कुछ मुख्य कमियों और
00:03:15उन पैकेजेस की पहचान की जिन्हें अपग्रेड करना ज़रूरी था, और पूरा प्लान बताया कि यह इस पर कैसे काम करेगा।
00:03:22उसके बाद इसने कोडिंग शुरू की, समय-समय पर बिल्ड चलाकर देखा और बस
00:03:27उन सभी टाइप एरर्स को ठीक करने में लग गया। कुल मिलाकर यह करीब 40 मिनट तक बिना किसी रुकावट के चलता रहा,
00:03:32जिससे मैं वाकई बहुत प्रभावित हुआ। आप देख सकते हैं कि इसने कोड की 545 लाइनें जोड़ीं और 111 हटाईं।
00:03:35Claude Code में मैंने बिल्कुल वही प्रोजेक्ट और वही प्रॉम्प्ट दिया। इसने भी लगभग 40 मिनट तक
00:03:39काम किया। लेकिन जब मैंने इसे स्टार्ट करने की कोशिश की, तो इसमें कुछ बिल्ड एरर्स थीं।
00:03:44तो Opus से काम करने वाला वर्ज़न पाने के लिए मुझे एक और प्रॉम्प्ट भेजना पड़ा।
00:03:48लेकिन फिर भी, इसका अनुभव काफी हद तक वैसा ही था जैसा हमने codecs में देखा।
00:03:53पर एक बात मुझे कहनी होगी, मुझे codecs का UI बहुत पसंद है। मुझे यह टर्मिनल UI से ज़्यादा बेहतर लगता है, माफ़ करना।
00:03:56खैर, मैं पुष्टि कर सकता हूँ कि codecs 5.3 के एक प्रॉम्प्ट और Opus 4.6 के दो प्रॉम्प्ट के बाद,
00:04:02दोनों ही बिना किसी टाइप या बिल्ड एरर के और सभी टेस्ट पास करते हुए एजेंट पैकेज को नए AI SDK वर्ज़न पर अपग्रेड करने में सफल रहे।
00:04:06लेकिन दोनों ने इसे अलग-अलग तरीके से हैंडल किया। अब यहाँ
00:04:11बाईं ओर मेरे पास codecs है और दाईं ओर वे बदलाव हैं जो Opus ने किए।
00:04:16आप देख सकते हैं कि Opus ने codecs की तुलना में प्रोजेक्ट में थोड़े ज़्यादा बदलाव किए।
00:04:19उन्होंने कुछ फीचर्स को अलग तरीके से संभाला।
00:04:23एक चीज़ जो codecs ने बहुत अच्छे से की, वो थी यह 'tool approval request' लॉजिक।
00:04:25यह AI SDK v6 में एक नई चीज़ थी। मुझे Opus में इसका कोई ज़िक्र नहीं मिला।
00:04:30ऐसा लगता है कि इसने इसे नज़रअंदाज़ कर दिया और कोड में नहीं जोड़ा।
00:04:35लेकिन एक चीज़ जो मुझे लगा कि codecs ने बहुत खराब की, वो थी UI मैसेजेस। इसने
00:04:40UI मैसेज को मॉडल मैसेज में बदलने के लिए अपना खुद का फंक्शन जोड़ दिया।
00:04:46अगर आप नहीं जानते, तो AI SDK में पहले से ही इसके लिए एक फंक्शन है और इसे वही इस्तेमाल करना चाहिए था।
00:04:50आप यहाँ साइड-बाय-साइड देख सकते हैं कि Opus ने इसे सही तरीके से किया।
00:04:57इसने बस AI SDK के 'convert to model messages' फंक्शन का इस्तेमाल किया।
00:05:00इसका मतलब यह है कि भविष्य में अगर वे इस पैकेज को अपग्रेड करते हैं,
00:05:04तो मुझे अपने वर्ज़न में कोई बदलाव करने की चिंता नहीं करनी होगी क्योंकि मैं वही इस्तेमाल कर रहा हूँ जो
00:05:07पैकेज के साथ आता है।
00:05:13तो यह थोड़ी परेशान करने वाली बात थी और मेरे लिए एक 'रेड फ्लैग' जैसा था।
00:05:14लेकिन अपने कोड रिव्यू पर दूसरी राय लेने के लिए,
00:05:19मैंने यह कोड वापस codecs 5.3 को दिया और उससे रिव्यू करने को कहा। आप देख सकते हैं कि इसने
00:05:20दोनों एप्रोच के फायदे और नुकसान गिनाए।
00:05:26लेकिन अंत में इसने जो निष्कर्ष दिया, उसमें codecs 5.3 ने खुद Opus वाले वर्ज़न को बेहतर माइग्रेशन बताया।
00:05:29इसका कहना था कि अगर सुरक्षित रूप से शिप करने के लिए किसी एक को चुनना हो,
00:05:36तो यह Opus वाले वर्ज़न को चुनेगा और फिर उसमें codecs वाले वर्ज़न से अप्रूवल और डिनायल हैंडलिंग जोड़ देगा।
00:05:39यानी वो 'tool approval request' वाला एक्स्ट्रा फंक्शन।
00:05:43इसका कहना है कि बस उसे codecs से लेकर Opus वाले वर्ज़न में जोड़ दो और हमारे पास एक बेहतर माइग्रेशन होगा।
00:05:46तो यह देखकर अच्छा लगा कि codecs 5.3 पक्षपाती नहीं है और उसने खुद को नहीं चुना।
00:05:51पर मुझे मानना पड़ेगा कि दोनों का तरीका काफी मिलता-जुलता था और मैं थोड़े और प्रॉम्प्ट्स देकर उन्हें सही दिशा में ले जा सकता था।
00:05:55लेकिन सिर्फ़ एक टेस्ट काफी नहीं है।
00:06:01अगले टेस्ट के लिए, मैंने कुछ मज़ेदार करने की सोची। मैंने दोनों से Three.js का इस्तेमाल करके एक 'Club Penguin' क्लोन बनाने को कहा।
00:06:03मैं अभी यह नहीं बताऊँगा कि कौन सा किसका है, लेकिन यह पहला गेम है जो हमें मिला।
00:06:08आप देख सकते हैं कि यहाँ 'क्रिएट योर पेंग्विन' का ऑप्शन है और हम अवतार को बदलते हुए देख सकते हैं।
00:06:13मैं यहाँ कुछ कैप्स जोड़ सकता हूँ। मेरे पास पार्टी हैट, प्रोपेलर और क्राउन का ऑप्शन है।
00:06:17मैं प्रोपेलर कैप चुनकर प्ले पर क्लिक करता हूँ। और अगर आप Club Penguin के बारे में जानते हैं,
00:06:21तो मैं कहूँगा कि इसने टाउन सेंटर की नकल करने की ठीक-ठाक कोशिश की है, हालाँकि पिज़्ज़ा शॉप यहाँ नहीं है।
00:06:26आमतौर पर यहाँ एक डिस्को सेंटर होता है, और आप इनमें से किसी भी बिल्डिंग के अंदर नहीं जा सकते।
00:06:32आप देख सकते हैं कि इनमें से कोई भी अभी सॉलिड नहीं है।
00:06:35लेकिन इसने जो अच्छा किया वो ये कि मैप के ज़रिए हम अलग-अलग ज़ोन में जा सकते हैं।
00:06:37जैसे कि यह 'Ski Village' है। अगर मैं यहाँ क्लिक करके घूमूँ,
00:06:41तो मुझे लगता है कि मेरा पेंग्विन Three.js के हिसाब से ठीक लग रहा है, खासकर तब जब मैंने इसे कोई एसेट्स नहीं दिए थे।
00:06:44इसने यह सब अपनी ट्रेनिंग से ही बनाया है। हम यहाँ जाकर 'Sled Racing' गेम भी खेल सकते हैं,
00:06:49जो Club Penguin में मेरा सबसे पसंदीदा गेम था। माना कि कुछ चीज़ें गायब हैं,
00:06:54पर पहली कोशिश के हिसाब से यह काफी अच्छा है, और इसने यह सब एक ही प्रॉम्प्ट में किया।
00:06:59मैं कन्फर्म कर सकता हूँ कि इस वर्ज़न में 'Cart Surfer' गेम की भी एक कोशिश की गई है।
00:07:04जो मेरा एक और पसंदीदा गेम था, पर यह थोड़ा टूटा हुआ लग रहा है।
00:07:07आप बस एक से दूसरी तरफ जा सकते हैं और अब मुझे लगता है कि मैं मैप के नीचे पहुँच गया हूँ। अब यहाँ बहुत अंधेरा भी है।
00:07:11अब यह देखिए जो दूसरे मॉडल ने बना कर दिया है। मैं चाहता हूँ कि आप कमेंट्स में बताएँ
00:07:15कि आपको कौन सा मॉडल बेहतर लगा और क्या आप अंदाज़ा लगा सकते हैं कि कौन सा वर्ज़न किसने बनाया है?
00:07:18मैं इस टेस्ट के आखिर में आपको बताऊँगा। इस वाले में आप देख सकते हैं,
00:07:22हमारे पास वही कलर सिलेक्टर्स हैं जो प्रॉम्प्ट में थे।
00:07:25हमारे पास हैट और एक्सेसरी का भी ऑप्शन है। तो इस बार मैं क्राउन चुनता हूँ और स्टार्ट करते हैं।
00:07:27इस वर्ज़न में पेंग्विन थोड़ा ज़्यादा मोटा है। यह देखने में मज़ेदार है, पर फिर से कहूँगा कि मैंने इसे कोई एसेट्स नहीं दिए थे।
00:07:31यह सब Three.js में शुरुआत से बनाया गया है।
00:07:36इसमें भी वही समस्या है कि आप इमारतों के आर-पार चल सकते हैं।
00:07:38लेकिन हमारे पास मैप है और सारे अलग-अलग ज़ोन भी हैं।
00:07:41तो अगर मैं 'Ski Village' पर जाऊँ,
00:07:44तो मुझे गेम खेलने में सक्षम होना चाहिए। मैं यहाँ 'Sled Racing' खेल सकता हूँ और सच कहूँ तो,
00:07:46यह पिछले वर्ज़न के स्लेड रेसिंग गेम जैसा ही है।
00:07:50आप देख सकते हैं कि दूर से कुछ पेड़ सामने आ रहे हैं।
00:07:53हमारे पास तीन जानें हैं और लाइफ काउंटर भी काम कर रहा है।
00:07:56लेकिन ऐसा लगता है कि इस वर्ज़न में हम कूद नहीं सकते।
00:07:58हालाँकि इस मॉडल ने भी मुझे 'Cart Surfer' गेम का एक वर्ज़न दिया है,
00:08:01पर फिर से, यह थोड़ा अजीब है।
00:08:04हालाँकि यह थोड़ा ज़्यादा काम का लग रहा है क्योंकि आप इसमें चीज़ें देख सकते हैं और कूद भी सकते हैं, लेकिन...
00:08:06मुझे समझ नहीं आ रहा कि मैं सर्फिंग कहाँ कर रहा हूँ। यहाँ कोई पटरी जैसा कुछ नहीं है। कुल मिलाकर,
00:08:11यह वैसा 'Cart Surfer' नहीं है जैसा मुझे Club Penguin से याद है।
00:08:17फिर भी, मैं हमेशा हैरान रह जाता हूँ कि ये मॉडल्स एक ही प्रॉम्प्ट में, खासकर Three.js के साथ क्या कुछ कर सकते हैं।
00:08:19और अगर आप सोच रहे हैं कि कौन सा किसका था, तो पहला Opus 4.6 था और दूसरा codecs 5.3, और मुझे पहला वाला ज़्यादा पसंद आया।
00:08:25तो मेरे Club Penguin टेस्ट में Opus 4.6 जीतता है।
00:08:30आखरी टेस्ट मैंने यह देखने के लिए किया कि वे UI डिज़ाइन में कितने माहिर हैं।
00:08:34आजकल मॉडल्स इसमें काफी अच्छे होते जा रहे हैं।
00:08:38तो मैंने दोनों को एक 'AI Only' सोशल मीडिया साइट के लिए लैंडिंग पेज बनाने का प्रॉम्प्ट दिया।
00:08:42बिल्कुल 'Molt Book' की तरह। पेज थोड़ा व्यंग्यात्मक (snarky) होना चाहिए जो भविष्य और सिर्फ़ AI के लिए होने पर ज़ोर दे, और यह सब एक ही HTML फाइल में हो।
00:08:49यह रिज़ल्ट मुझे मिला, और मुझे मानना पड़ेगा कि मैं यहाँ codecs से बहुत प्रभावित हूँ।
00:08:55बाईं ओर हमारे पास codecs 5.3 है और दाईं ओर Opus 4.6, और मुझे codecs का बनाया हुआ तरीका वाकई बहुत पसंद आया।
00:09:00इसने इस साइट के लिए 'Neo Brutalism' डिज़ाइन चुना है और यह बाकी साधारण दिखने वाली साइट्स से थोड़ा ज़्यादा मज़ेदार है।
00:09:01मुझे लगता है कि Opus 4.6 का डिज़ाइन अच्छा होने के बावजूद एक आम 'Vibe-Coded' ऐप जैसा लग रहा है।
00:09:06इसने इसे बहुत अच्छे से बनाया है, मैं मानता हूँ,
00:09:13लेकिन इसमें वही पर्पल ग्रेडिएंट्स हैं और सब कुछ ऐसा लग रहा है जैसे किसी मशीन ने बनाया हो।
00:09:14जबकि codecs 5.3 वाला वर्ज़न ऐसा लग रहा है जैसे किसी इंसान ने उस पर मेहनत की हो,
00:09:20भले ही मैंने दोनों को बिल्कुल एक जैसा प्रॉम्प्ट दिया था।
00:09:25सिर्फ़ एक चीज़ जो Opus 4.6 ने थोड़ी बेहतर की, वो ये कि इसका पेज थोड़ा ज़्यादा फंक्शनल है।
00:09:27आप देख सकते हैं कि यहाँ एक ट्रेंडिंग टैब है, रूल्स हैं, टॉप मॉडल्स ऑफ़ द वीक हैं,
00:09:32पॉपुलर सबरेडिट्स और एक फीड भी है। जबकि codecs 5.3 वाला थोड़ा खाली-खाली सा है।
00:09:36इसमें बस एक ट्रेंडिंग टैब है और बस इतना ही।
00:09:41तो मैं यह देखने के लिए उत्सुक हूँ कि ये 'Design Arena' पर कैसा स्कोर करते हैं।
00:09:44वे अभी-अभी आए हैं इसलिए अभी उनकी रैंकिंग नहीं हुई है, पर फिलहाल GLM 4.7 लीडर है।
00:09:47तो देखते हैं कि क्या codecs 5.3 या Opus 4.6 वह ताज छीन पाते हैं।
00:09:51कुल मिलाकर दोनों ही मॉडल्स बहुत काबिल हैं और यह कहना मुश्किल है कि कौन सा सबसे अच्छा है।
00:09:55व्यक्तिगत रूप से मैं शायद codecs 5.3 की तरफ थोड़ा ज़्यादा झुका हुआ हूँ,
00:09:59पर सिर्फ़ इसलिए क्योंकि मुझे codecs ऐप और OpenAI मॉडल्स के साथ प्रॉम्प्टिंग का मेरा पिछला अनुभव पसंद है।
00:10:03लेकिन अगर हम बेंचमार्क पर उनकी तुलना करें, जैसा कि मैंने शुरुआत में बताया था, तो Terminal Bench 2.0 पर codecs को बहुत बड़ी बढ़त हासिल है।
00:10:09जो कि वाकई में एक बहुत बड़ी छलांग है। फिलहाल हम सिर्फ़ इसी बेंचमार्क की तुलना कर सकते हैं,
00:10:15क्योंकि मुझे नहीं लगता कि Anthropic इस मॉडल के रिलीज़ के लिए तैयार था।
00:10:21परेशानी की बात यह है कि वे अपने ब्लॉग पोस्ट में एक जैसे बेंचमार्क इस्तेमाल नहीं करते।
00:10:28मैंने 'Artificial Analysis' चेक किया और अब तक उन्होंने कोडिंग के लिए सिर्फ़ Opus 4.6 के नॉन-रीजनिंग वर्ज़न को ही टेस्ट किया है।
00:10:35लेकिन यह भी काफी प्रभावशाली है कि 4.6 का नॉन-रीजनिंग वर्ज़न 4.5 Opus के रीजनिंग वर्ज़न जितना ही अच्छा परफॉर्म करता है।
00:10:42फिलहाल मुझे ऐसा महसूस हो रहा है कि Opus 4.5 से 4.6 का बदलाव 5.2 से 5.3 codecs के मुकाबले थोड़ा छोटा है।
00:10:49पर मुझे इन दोनों को असली दुनिया के कामों में इस्तेमाल करके देखना होगा कि वे कैसे महसूस होते हैं।
00:10:53इन दोनों रिलीज़ में कुछ और भी खास चीज़ें हैं।
00:10:55सबसे कूल चीज़ों में से एक यह है कि दोनों मॉडल्स ने साइबर सुरक्षा क्षमताओं में सुधार किया है।
00:11:01OpenAI का कहना है कि GPT 5.3 codecs पहला ऐसा मॉडल है जिसे उन्होंने साइबर सुरक्षा कार्यों के लिए 'High Capability' की श्रेणी में रखा है और जिसे सीधे सॉफ्टवेयर की कमियों को पहचानने के लिए ट्रेन किया गया है।
00:11:09Anthropic ने भी अपने ब्लॉग पोस्ट में लगभग यही बात कही है। अब codecs का एक फीचर जो मुझे बहुत पसंद आने वाला है,
00:11:16वो ये कि काम करते समय भी इसे दिशा निर्देश दिए जा सकते हैं। उनका कहना है कि फाइनल आउटपुट का इंतज़ार करने के बजाय,
00:11:21आप रियल टाइम में बातचीत कर सकते हैं, सवाल पूछ सकते हैं और इसे सही समाधान की तरफ मोड़ सकते हैं।
00:11:27मुझे लगता है कि यह तरीका ज़्यादा बेहतर है क्योंकि मैं हमेशा इस उलझन में रहता हूँ कि मॉडल को पहले काम खत्म करने दूँ या उसे बीच में ही रोककर बदलाव करने को कहूँ।
00:11:32और मुझे लगता है कि अब जब हमारे पास ऐसे टास्क हैं जो काफी लंबे समय तक चल सकते हैं,
00:11:35तो यह यूजर एक्सपीरियंस को बहुत बेहतर बना देगा। हम काम के दौरान भी उससे बात कर पाएंगे।
00:11:40अंत में, Claude के लिए भी कुछ नए फीचर्स हैं। पहला है 'Claude Code'।
00:11:44अब आप एजेंट टीमों का इस्तेमाल करके टास्क पर एक साथ काम कर सकते हैं, यानी सब-एजेंट्स। रिचर्ड ने इस हफ्ते की शुरुआत में इस पर एक वीडियो बनाया था।
00:11:48तो अगर आप ज़्यादा जानना चाहते हैं तो उसे ज़रूर देखें। इसके अलावा कुछ कूल API फीचर्स भी हैं, जैसे कि Claude में अब एक 'Compaction' फीचर है।
00:11:55यह API में ही बिल्ट-इन है जिससे आप कॉन्टेक्स्ट को समराइज़ कर सकते हैं और लंबे समय तक चलने वाले टास्क पूरे कर सकते हैं।
00:12:01और एक नया 'Adaptive Thinking Mode' भी है।
00:12:06तो बुनियादी तौर पर आप मॉडल को खुद यह चुनने देते हैं कि उसे किसी काम के लिए कितनी गहराई से सोचने (Extended Thinking) की ज़रूरत है।
00:12:08तो ये रही बात, कोडिंग मॉडल्स वाकई में बहुत आगे आ चुके हैं।
00:12:13अगर आप नहीं जानते, तो 'Claude Code' को रिलीज़ हुए अभी एक साल भी नहीं हुआ है।
00:12:16कमेंट्स में मुझे बताएं कि आप इन मॉडल्स के बारे में क्या सोचते हैं। सब्सक्राइब करना न भूलें और हमेशा की तरह, मिलते हैं अगले वीडियो में!
00:12:20(उत्साहजनक संगीत)
00:12:31(upbeat music)

Key Takeaway

OpenAI का GPT 5.3 codecs वर्तमान में कोडिंग बेंचमार्क और रीयल-टाइम वर्कफ़्लो में बढ़त बना रहा है, लेकिन Anthropic का Opus 4.6 जटिल माइग्रेशन और लॉजिक के मामलों में अभी भी अधिक सटीक परिणाम दे सकता है।

Highlights

Anthropic का Claude Opus 4.6 और OpenAI का GPT 5.3 codecs कोडिंग के क्षेत्र में कड़े मुकाबले में हैं।

GPT 5.3 codecs ने Terminal Bench 2.0 पर Opus 4.6 को 10% से अधिक के अंतर से पीछे छोड़ दिया है।

Opus 4.6 अब 10 लाख टोकन की कॉन्टेक्स्ट विंडो और बेहतर 'agentic' टास्क प्लानिंग क्षमता के साथ आता है।

GPT 5.3 codecs कोडिंग दक्षता और प्रोफेशनल ज्ञान का एक तेज़ 'ऑल-राउंडर' मिश्रण है।

दोनों मॉडल्स ने साइबर सुरक्षा (Cybersecurity) क्षमताओं में सुधार किया है, विशेष रूप से सॉफ़्टवेयर खामियों को पहचानने में।

रीयल-टाइम इंटरेक्शन और 'Adaptive Thinking Mode' जैसे नए फीचर्स यूजर अनुभव को और बेहतर बना रहे हैं।

Timeline

नई रिलीज़ और बेंचमार्क मुकाबला

वीडियो की शुरुआत Anthropic के Claude Opus 4.6 की ताज़ा रिलीज़ के साथ होती है जिसने बेंचमार्क पर रिकॉर्ड बनाया था। हालांकि, तुरंत बाद OpenAI ने GPT 5.3 codecs लॉन्च कर दिया जिसने Terminal Bench पर Opus को 10% के बड़े अंतर से पछाड़ दिया। वक्ता बताते हैं कि इन दोनों AI दिग्गजों के बीच यह मुकाबला बहुत रोमांचक मोड़ पर पहुँच गया है। पिछले अनुभव के आधार पर वक्ता को GPT 5.2 बेहतर लगा था, इसलिए नए वर्ज़न से उम्मीदें काफी ज़्यादा हैं। यह खंड स्थापित करता है कि कैसे AI की दुनिया में मिनटों के भीतर बढ़त बदल सकती है।

Opus 4.6 और GPT 5.3 की नई विशेषताएँ

यहाँ दोनों मॉडल्स के तकनीकी सुधारों पर गहराई से चर्चा की गई है, जहाँ Opus 4.6 बेहतर प्लानिंग और बड़े कोडबेस के लिए 10 लाख टोकन विंडो का दावा करता है। इसकी कीमत 10 लाख इनपुट टोकन पर $10 और आउटपुट पर $37.50 रखी गई है। दूसरी तरफ, GPT 5.3 codecs को 25% तेज़ बताया गया है जो रीजनिंग और प्रोफेशनल नॉलेज को एक ही मॉडल में समेटता है। वक्ता के अनुसार Opus पहले कोडिंग जल्दी शुरू करता था पर गलतियाँ करता था, जबकि GPT रेपो कॉन्टेक्स्ट को बेहतर समझता था। इन दावों की सत्यता जांचने के लिए अब इन्हें मार्केटिंग से हटाकर असली दुनिया के टेस्ट में डाला जाएगा।

असली दुनिया का कोडिंग टेस्ट: AI SDK माइग्रेशन

वक्ता एक 'Convex Agent' पैकेज को AI SDK v6 पर अपडेट करने का जटिल कार्य दोनों मॉडल्स को देते हैं। GPT 5.3 codecs ने 40 मिनट तक बिना रुके काम किया और एक ही प्रॉम्प्ट में सफल रहा, जबकि Opus 4.6 को दो प्रॉम्प्ट की ज़रूरत पड़ी। हालांकि, विस्तृत तुलना में पाया गया कि Opus ने कोडिंग के लिए सही फंक्शन्स का चुनाव किया था, जबकि GPT ने एक 'रेड फ्लैग' दिखाया। यहाँ तक कि GPT 5.3 ने खुद रिव्यू करते समय Opus के माइग्रेशन तरीके को अधिक सुरक्षित और बेहतर बताया। यह खंड दिखाता है कि बेंचमार्क स्कोर ही सब कुछ नहीं होते, बल्कि कोडिंग का तर्क भी मायने रखता है।

Three.js और गेम डेवलपमेंट चुनौती

इस मज़ेदार टेस्ट में दोनों मॉडल्स से बिना किसी बाहरी एसेट के 'Club Penguin' गेम का क्लोन बनाने को कहा गया। पहले मॉडल (Opus 4.6) ने एक शानदार अवतार सिस्टम और मैप नेविगेशन के साथ बेहतर 'Sled Racing' गेम तैयार किया। दूसरे मॉडल (codecs 5.3) ने भी अच्छी कोशिश की और 'Cart Surfer' गेम बनाया, लेकिन उसमें कुछ तकनीकी कमियाँ थीं। वक्ता ने खुलासा किया कि उन्हें Opus का बनाया हुआ वर्ज़न ज़्यादा पसंद आया क्योंकि वह गेमिंग के अनुभव के करीब था। यह दर्शाता है कि रचनात्मक कार्यों में Opus की पकड़ काफी मज़बूत है।

UI डिज़ाइन और लैंडिंग पेज की तुलना

यहाँ एक AI-सोशल मीडिया साइट के लिए लैंडिंग पेज बनाने की चुनौती दी गई जिसमें GPT 5.3 codecs ने बाजी मारी। उसने 'Neo Brutalism' डिज़ाइन का उपयोग किया जो अधिक मानवीय और कलात्मक लग रहा था, जबकि Opus का डिज़ाइन मशीनी और साधारण था। हालांकि Opus का पेज अधिक फंक्शनल था और उसमें कई टैब और फीड शामिल थे, लेकिन विज़ुअल अपील में GPT बेहतर रहा। वक्ता 'Design Arena' पर इनकी भविष्य की रैंकिंग देखने के लिए उत्सुक हैं जहाँ फिलहाल GLM 4.7 का कब्ज़ा है। यह खंड स्पष्ट करता है कि डिज़ाइन के मामले में OpenAI का मॉडल अधिक 'vibe' प्रदान करता है।

एडवांस्ड फीचर्स और अंतिम निष्कर्ष

वीडियो के अंतिम भाग में साइबर सुरक्षा सुधारों और कोडिंग के दौरान रीयल-टाइम फीडबैक जैसे फीचर्स की चर्चा की गई है। GPT 5.3 अब काम के दौरान बीच में ही दिशा-निर्देश स्वीकार कर सकता है, जो यूजर अनुभव को बदल देगा। Anthropic ने 'Claude Code' के साथ एजेंट टीमों और 'Adaptive Thinking Mode' को पेश किया है जो मॉडल को सोचने की गहराई खुद चुनने देता है। वक्ता का झुकाव व्यक्तिगत रूप से OpenAI के ईकोसिस्टम की ओर है, लेकिन वे दोनों मॉडल्स की प्रगति से हैरान हैं। निष्कर्ष में बताया गया है कि कोडिंग AI अब एक साल के भीतर अविश्वसनीय ऊंचाइयों पर पहुँच गया है।

Community Posts

View all posts