यह टूट गया है… Claude Code बनाम Codex की बहस आखिरकार खत्म हुई

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00काफी समय तक, कोडिंग के लिए हर किसी का पसंदीदा मॉडल Claude था।
00:00:03न केवल इसलिए कि इसने अच्छा प्रदर्शन किया, बल्कि इसलिए भी कि उसी स्तर पर अन्य विकल्प मौजूद नहीं थे।
00:00:07फिर GPT मॉडल आगे बढ़े और इस अंतर को पाट दिया, खासकर GPT 5.5 के लॉन्च के साथ, जिसने
00:00:12इसे लगभग शून्य कर दिया।
00:00:14इन दोनों की तुलना करने के लिए हमें उन्हें उनके लिए सबसे बेहतर डिज़ाइन किए गए वातावरण में डालना था, जिसका
00:00:18मतलब है उनके अपने CLI।
00:00:19इसलिए हम Opus 4.7 और GPT 5.5 का परीक्षण कर रहे हैं, यह देखने के लिए कि वे एक-दूसरे के खिलाफ
00:00:25कैसा प्रदर्शन करते हैं।
00:00:26हम 9 श्रेणियों में उनका परीक्षण करेंगे ताकि यह पता चल सके कि वास्तव में कौन शीर्ष पर आता है और
00:00:29अंत तक, आप जान जाएंगे कि कौन सा आपके वर्कफ़्लो में जगह पाने के योग्य है।
00:00:33उपयोगिता वह जगह है जहाँ Claude Code हमारे लिए पिछड़ना शुरू कर देता है।
00:00:36हम अपने अधिकांश कार्यों के लिए इसका उपयोग कर रहे हैं, कोडिंग और नॉन-कोडिंग, लेकिन यह केवल
00:00:402.1.0 अपडेट तक ही अच्छा था।
00:00:43उसके बाद, Claude Code के लिए चीज़ें बिगड़ने लगीं।
00:00:46UI सबसे निराशाजनक हिस्सा है क्योंकि इसका अनुभव पर सबसे बड़ा प्रभाव पड़ता है।
00:00:50टर्मिनल ग्लिच होता है, रेंडरिंग खराब हो जाती है, और जो पहले पॉलिश किया हुआ लगता था, अब वह
00:00:55अजीब लगता है।
00:00:56यह सबसे अच्छे TUI में से एक हुआ करता था, लेकिन केवल तब तक जब तक इसे बेतरतीब ढंग से कोड करना शुरू नहीं किया गया।
00:00:59अब इसमें रेंडरिंग और कैश लीक्स जैसी कई खामियां महसूस होती हैं, जिनके बारे में
00:01:03सिर्फ हम ही शिकायत नहीं कर रहे थे।
00:01:05बड़ी समस्या यह है कि उन्होंने खतरनाक तरीके से स्किप किए गए परमिशन मोड को हटा दिया और
00:01:09डिफ़ॉल्ट रूप से इसकी जगह ऑटो मोड ले आए।
00:01:11हम अपने अधिकांश कार्यों के लिए बायपास परमिशन मोड चलाते थे, जिसमें उन फ़ाइलों के लिए हुक सेटअप थे
00:01:15जिन्हें हम नहीं चाहते थे कि Claude छुए।
00:01:17अब यह उस मोड में भी अनुमति माँगता है, जब हमने Claude को स्किल बनाने का प्रॉम्प्ट दिया,
00:01:22कुछ और करने के लिए दूसरे Claude सेशन पर चले गए, और बाद में पता चला कि स्किल बनाना
00:01:27पूरे समय .claude फ़ोल्डर में लिखने के लिए अनुमति प्रॉम्प्ट द्वारा रुका हुआ था।
00:01:32हम यह सोचकर वापस आए कि स्किल्स बन गई होंगी, और वह बस वहाँ प्रतीक्षा कर रहा था।
00:01:36Codex इसे बेहतर तरीके से संभालता है क्योंकि इसका YOLO मोड वैसे अनुमति नहीं माँगता
00:01:40जैसे Claude Code का ऑटो मोड माँगता है।
00:01:42CLI को Rust पर बनाया गया है, इसलिए UI Claude Code के React आधारित सेटअप की तुलना में बहुत सुचारू है,
00:01:47और लंबे सेशन के बाद भी कुछ भी नहीं टूटता।
00:01:49पर्सनैलिटी कॉन्फ़िगरेशन एक और जगह है जहाँ Codex आगे निकल जाता है।
00:01:53हम पर्सनैलिटी को अधिक सीधी और संक्षिप्त भाषा पर सेट कर सकते हैं।
00:01:56ऐसा इसलिए है क्योंकि GPT 5.5, Opus 4.7 की तुलना में काफी अधिक चापलूस है और हर प्रॉम्प्ट से
00:02:02सहमत हो जाता है।
00:02:04यही कारण है कि Codex में पर्सनैलिटी बदलने से मॉडल में उस डिफ़ॉल्ट व्यवहार को रोका जा सकता है।
00:02:08Opus 4.7 को सीधा बनाने के लिए हमें Claude.md के निर्देशों पर निर्भर रहना पड़ता है, जबकि Codex
00:02:14इसे केवल एक सेटिंग बदलाव के साथ कर देता है।
00:02:16प्री-इंस्टॉल्ड स्किल्स एक और अंतर है।
00:02:18Codex कई ऐसी स्किल्स के साथ आता है जो Claude Code में नहीं हैं, जिसमें एजेंट ब्राउज़र स्किल भी शामिल है।
00:02:22यह ऐप्स बनाने वाले किसी भी व्यक्ति के लिए मायने रखता है, क्योंकि Codex में हमें ब्राउज़र वेरिफिकेशन के लिए
00:02:26विशेष रूप से MCP को जोड़ने की आवश्यकता नहीं होती।
00:02:29यह किसी भी फीचर को लागू करने के बाद अपने आप ऐसा कर देता है।
00:02:31इसमें एक इन-बिल्ट स्किल क्रिएटर भी है, इसलिए जब हम कोई नई स्किल चाहते हैं, तो यह सही संरचना और
00:02:35संदर्भ फ़ाइलों के साथ एक पूरी स्किल तैयार करता है।
00:02:38Claude में, हमें उचित रूप से संरचित स्किल प्राप्त करने के लिए स्किल क्रिएटर को
00:02:42अलग से इंस्टॉल करने की आवश्यकता होगी।
00:02:43अन्यथा, यह केवल एक MD फ़ाइल लिखता है।
00:02:45अब अभी भी दो चीज़ें हैं जो Claude Code बेहतर करता है।
00:02:47Codex रिवाइंडिंग की सुविधा नहीं देता है, जिसका हम सबसे अधिक उपयोग करते हैं, इसलिए इसका न होना
00:02:51एक बड़ी कमी है।
00:02:52Claude Code हमें Ctrl+O के साथ विस्तृत करके इसकी सोच देखने की अनुमति भी देता है, जो Codex
00:02:57अच्छी तरह से नहीं करता।
00:02:58तर्क देखना मददगार होता है क्योंकि हम काम के बीच में ही दृष्टिकोण को सही कर सकते हैं बजाय इसके कि
00:03:02कार्यान्वयन समाप्त होने की प्रतीक्षा करें और फिर उसे दोबारा करें।
00:03:05तो यह देखते हुए कि प्रत्येक नए अपडेट के साथ Claude Code का उपयोगकर्ता अनुभव कैसे बिगड़ रहा है, Codex को
00:03:10उपयोगिता के लिए एक अंक मिलता है।
00:03:11लागत के मामले में, Claude Code काफी बड़े अंतर से अधिक महंगा टूल है।
00:03:15वास्तविक कीमतों के मामले में नहीं, बल्कि समान कीमत पर उपयोगिता के मामले में।
00:03:19Claude Code फ्री टियर पर बिल्कुल भी उपलब्ध नहीं है और केवल
00:03:23Pro और Max प्लान से उपलब्ध है।
00:03:24प्लान की कीमतें लगभग समान हैं।
00:03:26Pro प्लान किसी भी अच्छे स्तर के एप्लिकेशन के लिए मूल रूप से अनुपयोगी है क्योंकि यह कुछ ही कार्यों में
00:03:30अपनी सीमा तक पहुँच जाता है।
00:03:32हम Pro पर किसी भी सार्थक कार्य के लिए Opus 4.7 का ठीक से उपयोग भी नहीं कर सकते।
00:03:36हमारे द्वारा उपयोग किए जाने वाले Max प्लान पर भी सीमाएं बहुत जल्दी समाप्त हो जाती हैं।
00:03:39Codex शुरुआत से ही बेहतर स्थिति में है।
00:03:41यह सीमित उपयोग के साथ फ्री प्लान पर भी उपलब्ध है।
00:03:44दोनों एक समान 5-घंटे की विंडो प्रक्रिया का उपयोग करते हैं, इसलिए यह देखने के लिए कि कौन अधिक काम करता है
00:03:49हमने उन्हें एक ही स्तर के कार्यों पर चलाया।
00:03:51Claude Code में पहले से ही एक कॉन्टेक्स्ट कमांड है जो दिखाता है कि एक सेशन ने कितने टोकन उपयोग किए हैं,
00:03:56लेकिन Codex में इसके समान कोई अंतर्निहित कमांड नहीं है, इसलिए हमें तुलना के लिए एक समाधान खोजना पड़ा।
00:04:00दोनों टूल अपने सेशन को JSON फ़ाइलों के रूप में संग्रहीत करते हैं, बस अलग तरीके से व्यवस्थित होते हैं।
00:04:04इसलिए हमने एक छोटा टूल बनाया जो उन्हें पढ़ता है और प्रत्येक सेशन में उपयोग किए गए टोकन गिनता है।
00:04:08एक ही ऐप और समान स्तर की डिबगिंग पर, Opus 4.7 ने 173,000 टोकन खर्च किए जबकि
00:04:15GPT 5.5 ने केवल 82,000 टोकन उपयोग किए।
00:04:18ऐसा इसलिए है क्योंकि GPT 5.5 कम टोकन और बहुत कम प्रयासों में काम पूरा कर लेता है।
00:04:23तो Codex काफी लंबे समय तक चला और उसी काम के लिए कहीं अधिक लागत प्रभावी साबित हुआ।
00:04:28लेकिन इससे पहले कि हम आगे बढ़ें, आइए हमारे प्रायोजक, Stream के बारे में बात करते हैं।
00:04:32आप एक ऐप बना रहे हैं और आपके उपयोगकर्ताओं को बात करने, स्ट्रीम करने और जुड़ने की ज़रूरत है।
00:04:35आप इसे स्वयं संभालने की कोशिश करते हैं और 3 महीने बाद भी, आप शिपिंग के बजाय डिबगिंग ही कर रहे हैं।
00:04:39Stream इस सब को छोड़ देता है।
00:04:40Stream आपको इन-ऐप चैट और वीडियो कॉलिंग से लेकर एक्टिविटी
00:04:44फीड्स और AI मॉडरेशन तक सब कुछ देता है ताकि आप बुनियादी ढांचा बनाने के बजाय फीचर्स शिप करें।
00:04:49हम WhatsApp-स्टाइल मैसेजिंग, Zoom-स्टाइल वीडियो कॉल और Instagram-स्टाइल फीड्स की बात कर रहे हैं जो पहले से बने हैं।
00:04:55Stream की नई लॉन्च, Vision Agents वास्तव में खास है।
00:04:58आप बुद्धिमान AI एजेंट बना सकते हैं जो लाइव वीडियो और ऑडियो को देखते, सुनते और उस पर कार्य करते हैं,
00:05:02वह भी Python में कोड की कुछ ही पंक्तियों के साथ।
00:05:05हर जगह कम लेटेंसी के लिए सब कुछ ग्लोबल एज नेटवर्क पर चलता है।
00:05:08स्टार्टअप्स से लेकर बड़े ऐप्स तक, सोशल, फिटनेस और कम्युनिटी के प्रमुख प्लेटफॉर्म
00:05:13एक अरब से अधिक उपयोगकर्ताओं के लिए Stream पर भरोसा करते हैं।
00:05:16यदि आप अगला बड़ा ऐप बनाने वाले डेवलपर हैं, तो Stream पहले दिन से आपके साथ स्केल करता है।
00:05:20getstream.io पर मुफ़्त में शुरू करें, लिंक पिन किए गए कमेंट में हैं।
00:05:24दोनों मॉडलों का असली परीक्षण इस बात पर है कि वे उत्पाद कैसे बनाते हैं।
00:05:27जैसा कि हमने पहले कहा, GPT 5.5 तेज़ है और कम टोकन की खपत करता है, इसलिए यह काम करने वाले ऐप्स को तेज़ी से शिप करता है।
00:05:33Opus 4.7 सोचने पर अधिक टोकन खर्च करता है, गहरी योजना बनाता है, और एक ही समय में ऐप के
00:05:38सभी पहलुओं पर काम करता है।
00:05:40प्लानिंग पहली चीज़ थी जिसका हम परीक्षण करना चाहते थे।
00:05:42हम लंबे समय से Claude Code के प्लानिंग मोड का उपयोग कर रहे हैं।
00:05:45यह अधिकांश चीज़ों को कवर करता है, इसमें कुछ खामियां हैं, लेकिन फिर भी काफी उपयोगी है।
00:05:48इसलिए हम देखना चाहते थे कि GPT 5.5 प्लानिंग में कैसा प्रदर्शन करता है, क्योंकि OpenAI का दावा है कि यह
00:05:53कार्यों की योजना बनाने और उन्हें निष्पादित करने में बेहतर है।
00:05:55हमने प्लान मोड सक्षम किया और इसे एक ऐसे फ़ोल्डर में खोला जिसमें पहले से ही एक ऐप के लिए बैकएंड था
00:06:00FastAPI का उपयोग करके बना एक API, और उससे इसके लिए फ्रंटएंड बनाने को कहा।
00:06:04इसने प्रोजेक्ट की अच्छी तरह से जांच की और कुछ सवाल पूछे, लेकिन सवाल काफी
00:06:08सरल थे।
00:06:09यह इस बारे में और गहराई में जा सकता था कि हम फ्रंटएंड को कैसा दिखाना चाहते हैं, क्योंकि फ्रंटएंड
00:06:13काम के लिए, यह मायने रखता है।
00:06:14इसने जो योजना बनाई वह बहुत सरल थी।
00:06:16इसमें मुख्य फ्लो का सारांश, मुख्य बदलाव, जोड़ने के लिए पेज और उनका परीक्षण कैसे
00:06:20किया जाए, शामिल था।
00:06:21एक चीज़ जो इसने अच्छी की वह थी अपनी धारणाओं को स्पष्ट रूप से अलग करना, ताकि हमें ठीक से पता चले कि
00:06:25यह किन चीज़ों को मानकर चल रहा है।
00:06:26हमने इसे आगे बढ़ने के लिए कहा और इसने लगभग 8 मिनट में काम पूरा कर लिया।
00:06:28Claude Code पर उसी काम में 24 मिनट लगे।
00:06:31लेकिन Opus 4.7 की योजना बहुत अधिक विस्तृत थी, इसने एप्लिकेशन के अधिक पहलुओं पर विचार किया,
00:06:36और उपयोगकर्ता अनुभव को बेहतर बनाने के लिए ShadC और UI का भी उपयोग किया।
00:06:39तो Opus 4.7 प्लानिंग के मामले में बेहतर प्रदर्शन करता है।
00:06:42इसके बाद, हम दोनों का एक नए ऐप पर परीक्षण करना चाहते थे।
00:06:45हमने उन्हें एक ही प्रॉम्प्ट दिया, जो था Python Flask बैकएंड और
00:06:50Next.js फ्रंटएंड के साथ एक मोनो रेपो बनाना, साथ ही पूरी पाइपलाइन और ऐप कैसे
00:06:55काम करना चाहिए इसकी मुख्य आवश्यकताएं।
00:06:56यह अपने हार्नेस डिज़ाइन के कारण अपने आप प्लानिंग मोड में चला गया।
00:06:59Codex प्लानिंग मोड में नहीं गया और इसके बजाय सीधे कार्यान्वयन शुरू कर दिया।
00:07:04यह Claude Code की तुलना में बहुत तेज़ी से समाप्त हुआ, जिसे प्लानिंग स्टेप के कारण
00:07:08लगभग 16 मिनट लगे।
00:07:09GPT 5.5 के ऐप के वर्ज़न में बहुत सरल UI था और मुख्य रूप से यह सुनिश्चित करने पर ध्यान केंद्रित किया गया था कि ऐप
00:07:14काम करे।
00:07:15इसने शुरुआत में ठीक से काम नहीं किया, इसलिए हमने इसे बार-बार डिबग किया।
00:07:17एक बात हमने गौर की कि इंटरव्यू प्रॉम्प्ट्स हार्डकोडेड थे क्योंकि हमने कोई
00:07:22API की प्रदान नहीं की थी।
00:07:23प्रॉम्प्ट में बैकएंड के रूप में Gemini API का उपयोग करने का निर्देश था, लेकिन चूंकि कोई की उपलब्ध नहीं थी,
00:07:27इसने एक फॉलबैक लागू किया ताकि ऐप पूरी तरह से क्रैश न हो।
00:07:30Codex ने वास्तव में बिना किसी स्पष्ट प्रॉम्प्ट के स्थानीय फॉलो-अप सवालों का उपयोग किया था।
00:07:35हमें यह पसंद आया क्योंकि इस तरह के फॉलबैक तंत्र प्रोडक्शन में उपयोगी होते हैं क्योंकि वे
00:07:39क्रैश को रोकते हैं।
00:07:40कुछ प्रयासों और API की जोड़ने के बाद, ऐप का फ्लो ठीक से काम करने लगा भले ही
00:07:44UI अभी भी सरल था।
00:07:46तो GPT 5.5 ने संभावित समस्याओं को देखा और कमियों को भरने के लिए तंत्र लागू किए।
00:07:51दूसरी ओर, Opus 4.7 ने कार्यान्वयन शुरू करने से पहले हमसे API की माँगने को कहा
00:07:57और उसी के इर्द-गिर्द पूरा ऐप बनाया।
00:07:59तो Opus 4.7, GPT 5.5 के विपरीत, फॉलबैक के लिए तैयार नहीं था और उसे सब कुछ शुरुआत में ही
00:08:05उपलब्ध चाहिए था।
00:08:06इस वजह से, जब API वास्तव में वहाँ नहीं था, तो ऐप में कोई फॉलबैक नहीं था और उसने बस एक एरर दे दिया।
00:08:10Claude Code उपयोगकर्ता अनुभव और कार्यक्षमता दोनों पर एक साथ ध्यान केंद्रित करता है, इसलिए इसका कार्यान्वयन
00:08:15अधिक यथार्थवादी लगा।
00:08:16यह Opus 4.7 की UI ताकत को दर्शाता है, जिसे हमने अपने पिछले वीडियो में कवर किया था जहाँ
00:08:21हमने कहा था कि Opus 4.7 UI को संभालने में बहुत बेहतर है, लेकिन इसके कार्यान्वयन में भी समस्याएँ थीं।
00:08:26जब हमने इसे डिबग करने के लिए कहा, तो इसने Codex की तरह सीधे कार्यान्वयन का निरीक्षण नहीं किया।
00:08:31इसके बजाय, इसने हमसे सवाल पूछना शुरू कर दिया कि समस्या का कारण क्या हो सकता है और
00:08:35हमारे परीक्षण पर निर्भर रहा।
00:08:36इसने UI में संकेतकों और कंसोल लॉग जैसे डिबग पॉइंट जोड़े और हमसे स्टेट्स चेक करने
00:08:41और वापस रिपोर्ट करने को कहा।
00:08:42काफी बातचीत के बाद, इसने अंततः समस्या को ठीक कर दिया और इंटरव्यू फीचर काम करने लगा।
00:08:46हमें यह अधिक पसंद आया कि कैसे Codex ने अपने आप डिबग करने के लिए एजेंट ब्राउज़र का उपयोग किया।
00:08:49तो स्वायत्त रूप से काम करने के मामले में, Codex का कार्यान्वयन बेहतर था, और
00:08:53उपयोगकर्ता अनुभव के मामले में, Claude Code ने कहीं बेहतर काम किया।
00:08:56हम यह भी परीक्षण करना चाहते थे कि दोनों ने init कमांड को कैसे संभाला।
00:08:59Claude Code का init बिना प्रॉम्प्ट को इनलाइन विस्तृत किए चलता है।
00:09:02यह एक साधारण Claude.md फ़ाइल बनाता है जो लगभग 90 लाइनों की होती है और इसमें आर्किटेक्चर, ऐप फ्लो,
00:09:08फ्रंट-एंड और बैक-एंड संरचना और ऐप चलाने के लिए सभी आवश्यक कमांड शामिल होते हैं।
00:09:12उसमें से बहुत सी जानकारी अनावश्यक है और वास्तव में एजेंट को लाभ नहीं पहुँचाती है, यही
00:09:15कारण है कि इसे हमेशा रखना आवश्यक नहीं होता।
00:09:18Codex का सेटअप अधिक परिष्कृत था।
00:09:20इसमें कमिट गाइडलाइन्स, पुल रिक्वेस्ट गाइडलाइन्स और सुरक्षा निर्देश ठीक से शामिल थे
00:09:24जबकि प्रोजेक्ट स्ट्रक्चर सेक्शन को विस्तृत विवरण से भरने के बजाय संक्षिप्त रखा गया था।
00:09:28दोनों ही परिपूर्ण नहीं थे, लेकिन Codex ने agents.md को बेहतर तरीके से संभाला।
00:09:32अब हम यह भी परीक्षण करना चाहते थे कि दोनों कोड रिव्यू पर कैसा प्रदर्शन करते हैं।
00:09:35हमने Codex और Claude Code दोनों को रिलायबिलिटी रिव्यू के लिए एक ही प्रॉम्प्ट दिया, और उनसे एक ही कोडबेस पर काम करते हुए
00:09:40अलग-अलग फ़ाइलों में रिव्यू को डॉक्यूमेंट करने के लिए कहा।
00:09:44एक बार जब दोनों ने अपनी रिपोर्ट तैयार कर ली, तो हमने एक नया सेशन खोला और Claude से दोनों फ़ाइलों के बीच का अंतर
00:09:48दिखाने के लिए कहा, ताकि निष्कर्षों की तुलना की जा सके।
00:09:51Claude का रिव्यू बहुत अधिक विस्तृत था।
00:09:53इसने प्राथमिकता के आधार पर हर निष्कर्ष को व्यवस्थित किया और इसमें कंपोनेंट्स और समस्याओं के पीछे के
00:09:57सटीक कोड स्निपेट्स शामिल थे।
00:09:59Codex की रिपोर्ट में लाइन नंबरों का उल्लेख था लेकिन वास्तविक कोड स्निपेट्स शामिल नहीं थे।
00:10:03दोनों रिपोर्टें गहन थीं, कई निष्कर्ष साझा कर रही थीं जबकि प्रत्येक ने कुछ ऐसी चीज़ें पकड़ीं जो दूसरे से
00:10:07छूट गई थीं।
00:10:08Claude Code ने लीक हुई API की और सुरक्षा दोष जैसी समस्याओं की भी रिपोर्ट की।
00:10:12हालाँकि कार्य एक रिलायबिलिटी रिव्यू था और वे मुद्दे दायरे से बाहर थे।
00:10:17Claude Code ने रास्ते में आने वाली हर अतिरिक्त समस्या की रिपोर्ट की जबकि Codex पूरी तरह से
00:10:21रिलायबिलिटी पर टिका रहा।
00:10:22तो Codex की रिपोर्ट मूल अनुरोध के साथ अधिक मेल खाती थी जबकि Claude Code की रिपोर्ट व्यापक थी
00:10:27लेकिन विशिष्ट कार्य पर कम केंद्रित थी।
00:10:29अगर हमें बिल्डिंग के मामले में दोनों का वर्णन करना हो, तो GPT 5.5 एक बैकएंड इंजीनियर की तरह लगता है
00:10:34जो सबसे पहले एप्लिकेशन की कार्यक्षमता को सही ढंग से डिलीवर करने पर केंद्रित है, जबकि Opus 4.7
00:10:40एक फुल स्टैक इंजीनियर की तरह लगता है जो कार्यक्षमता और उपयोगकर्ता अनुभव दोनों को संतुलित करने की कोशिश कर रहा है।
00:10:45कॉन्टेक्स्ट मैनेजमेंट पर, Codex ने Claude Code की तुलना में बहुत बेहतर प्रदर्शन किया।
00:10:48Claude Code में इन-सेशन कॉन्टेक्स्ट एडिटिंग है जो उन टूल कॉल्स और तर्क चरणों को हटा देता है
00:10:53जिनका अब बातचीत में कोई महत्व नहीं है।
00:10:55यह भारीपन से बचने के लिए सेशन से अनावश्यक जानकारी हटा देता है।
00:10:58यह संकुचन (compaction) सही नहीं है लेकिन कम से कम यह संकुचित करते समय
00:11:02कॉन्टेक्स्ट में अनावश्यक हिस्सों को नहीं रखता।
00:11:03Codex अपने कॉन्टेक्स्ट को एडिट नहीं करता है।
00:11:05यह पूरी बातचीत को ठीक वैसे ही संकुचित करता है जैसे वह हुई थी।
00:11:08एक चीज़ जो यह बेहतर करता है वह है अंतिम 20,000 टोकन को मेमोरी में सुरक्षित रखना और उस हिस्से को
00:11:13बिल्कुल भी संकुचित नहीं करना।
00:11:14यह संकुचन के बाद Codex में प्रदर्शन में गिरावट को रोकने में मदद करता है ताकि बातचीत
00:11:18अगले प्रॉम्प्ट से सुचारू रूप से आगे बढ़ सके।
00:11:21बिना पिछले किसी संदर्भ के शुरू होता है।
00:11:25अब इसमें एक मेमोरी फीचर है जो स्थायी प्राथमिकताओं या निर्देशों को सहेज सकता है।
00:11:30इसलिए यदि हम इसे किसी काम को एक निश्चित तरीके से करने से मना करते हैं, तो यह उसे सहेज लेता है और उसे लागू करता है
00:11:33बाद में उसी प्रोजेक्ट के भीतर फिर से।
00:11:35यह एक ही प्रोजेक्ट में बार-बार काम करते समय मदद करता है।
00:11:39पिछले सत्र के किसी भी संदर्भ के बिना शुरू होता है।
00:11:41अब इसमें एक मेमोरी फीचर है जो स्थायी प्राथमिकताओं या निर्देशों को संग्रहीत कर सकता है।
00:11:46इसलिए यदि हम इसे किसी चीज़ को एक निश्चित तरीके से करने से मना करते हैं, तो यह उसे सहेज लेता है और
00:11:50उसी प्रोजेक्ट के भीतर बाद में फिर से लागू करता है।
00:11:52एक ही प्रोजेक्ट में बार-बार काम करते समय इससे मदद मिलती है।
00:11:54लेकिन मेमोरी प्रोजेक्ट तक ही सीमित है, इसलिए प्रोजेक्ट बदलने पर वह संग्रहीत व्यवहार खो जाता है।
00:11:58कोडेक्स इसके विपरीत रास्ता अपनाता है।
00:12:00यह समय के साथ कई सत्रों से जानकारी को समेकित करता है और बातचीत के दौरान एक वैश्विक मेमोरी बनाता है
00:12:05ताकि यह एक ही प्रोजेक्ट से परे पैटर्न को याद रख सके।
00:12:08यह विभिन्न कार्यों में निरंतरता बनाए रखने में मदद कर सकता है।
00:12:11Claude Code में एक हुक सिस्टम है जो हमें एजेंट के लाइफसाइकिल के दौरान
00:12:15विशिष्ट बिंदुओं पर अपनी स्क्रिप्ट चलाने की अनुमति देता है, जैसे किसी टूल के चलने से पहले या बाद में,
00:12:19असुरक्षित कमांड्स को रोकने, फॉर्मेटर्स चलाने और अन्य कार्यों के लिए।
00:12:20हम सब-एजेंट्स को एक समर्पित वर्क ट्री में भी चला सकते हैं ताकि उनका प्रदर्शन
00:12:24एक-दूसरे को प्रभावित न करे।
00:12:27हम मॉडल्स के प्रयास स्तर को नियंत्रित कर सकते हैं, और हम "ultra-think" जैसे कीवर्ड का भी उपयोग कर सकते हैं
00:12:32ताकि किसी विशिष्ट कार्य पर तर्क क्षमता (reasoning) को अधिकतम स्तर पर ले जाया जा सके।
00:12:36फिलहाल Codex में ऐसा कोई समकक्ष फीचर नहीं है।
00:12:39इकोसिस्टम Claude Code के लिए एक और स्पष्ट जीत है।
00:12:43हम Claude डेस्कटॉप ऐप के माध्यम से सेशन चला सकते हैं और मोबाइल ऐप से कार्य सौंप सकते हैं।
00:12:44Claude Code, डेस्कटॉप ऐप, वेब ऐप और ब्राउज़र एक्सटेंशन के कारण इसका दायरा
00:12:48Codex की तुलना में कहीं अधिक व्यापक है, जिसमें मुख्य रूप से एक वेब ऐप और एक डेस्कटॉप ऐप शामिल है जो हाल ही में
00:12:51रिलीज़ किया गया था और परीक्षण के समय उतना मजबूत महसूस नहीं हुआ।
00:12:54Claude Code में सेशन्स अलग-अलग एनवायरनमेंट के बीच अधिक आसानी से मूव करते हैं, जो इसे
00:12:56विभिन्न इंटरफेस पर काम करने के लिए अधिक सुविधाजनक बनाता है।
00:13:01Codex में भी कई दिलचस्प फीचर्स हैं।
00:13:06क्लाउड में, इसमें एक 'attempt flag' है जो एक ही कार्य को n बार चलाता है।
00:13:11यह कई कार्यान्वयन (implementations) तैयार करता है और सबसे अच्छे का चयन करता है।
00:13:14Claude Code भी ऐसा ही कुछ कर सकता है लेकिन केवल कॉन्फ़िगरेशन और निर्देशों के माध्यम से,
00:13:18न कि फ़्लैग के रूप में।
00:13:20एक अन्य विशेष Codex फीचर, जो इसे बाकी सब से अलग करता है, वह है इसका
00:13:22OpenAI के इमेज मॉडल्स के साथ एकीकरण।
00:13:26यह उन वेबसाइटों के लिए इमेज जेनरेट करने के लिए CLI में सीधे उनका उपयोग कर सकता है जिन पर यह काम कर रहा है।
00:13:29Claude विज़ुअल्स के लिए ज्यादातर SVG-आधारित जनरेशन पर निर्भर करता है, जो इस मामले में
00:13:33नहीं।
00:13:34कोडेक्स की एकमात्र दूसरी विशेषता, जो इसे बाकियों से अलग करती है, वह है OpenAI के
00:13:38इमेज मॉडल के साथ इसका एकीकरण।
00:13:39यह उन वेबसाइटों के लिए चित्र बनाने के लिए सीधे CLI में उनका उपयोग कर सकता है जिन पर यह काम कर रहा है।
00:13:44क्लॉड विजुअल्स के लिए मुख्य रूप से SVG-आधारित जनरेशन पर निर्भर करता है, जो गुणवत्ता के मामले में
00:13:49मुकाबला भी नहीं करता क्योंकि इसके पास अभी तक कोई इमेज मॉडल नहीं है।
00:13:52यदि हम एक ऐसा UI बना रहे हैं जिसे वास्तविक इमेजरी की आवश्यकता है, तो कोडेक्स ही इन दोनों में से एक है जो
00:13:56यह कर सकता है, बिना स्पष्ट रूप से बताए जाने के बावजूद।
00:13:58साथ ही, यदि आप हमारे कंटेंट का आनंद ले रहे हैं, तो हाइप बटन दबाने पर विचार करें क्योंकि यह हमें
00:14:03इस तरह का और कंटेंट बनाने और अधिक लोगों तक पहुंचने में मदद करता है।
00:14:06दोनों सब-एजेंट का उपयोग करते हैं, भले ही यह अवधारणा सबसे पहले क्लॉड द्वारा पेश की गई थी।
00:14:10Claude Code बिना स्पष्ट निर्देश के एजेंट बना सकता है, जबकि Codex केवल तभी एजेंट बनाता है
00:14:15जब हम प्रॉम्प्ट में स्पष्ट रूप से इसके लिए कहते हैं।
00:14:19जब Codex एजेंट बनाता है, तो वह उन्हें नाम देता है और उन्हें एक उचित प्रॉम्प्ट भी देता है।
00:14:23कोडिंग प्रदर्शन में, दोनों काफी समान हैं, लेकिन उनके पीछे के डिज़ाइन विकल्प अलग हैं।
00:14:27Claude Code के सब-एजेंट एक स्पष्ट अनुमति सूची का उपयोग करते हैं, जिसका अर्थ है कि पैरेंट एजेंट यह निर्धारित करता है कि
00:14:29सब-एजेंट किन टूल तक पहुँच सकता है, जबकि Codex सब-एजेंट डिफ़ॉल्ट रूप से पैरेंट से टूल एक्सेस
00:14:35विरासत में प्राप्त करते हैं।
00:14:37Claude Code प्रत्येक सब-एजेंट को पूरी तरह से नया संदर्भ (context window) भी देता है।
00:14:41एक सब-एजेंट के पास बातचीत के इतिहास तक पहुँच नहीं होती है और वह केवल पैरेंट से मिला प्रॉम्प्ट देखता है,
00:14:46साथ ही सिस्टम प्रॉम्प्ट और कोई भी वैश्विक नियम, क्योंकि Claude संदर्भ अलगाव (context isolation) पर ध्यान केंद्रित करता है।
00:14:51Codex CLI इसके विपरीत काम करता है।
00:14:55यह पूरे इतिहास को सब-एजेंट सत्र में स्थानांतरित कर देता है, जिसमें पैरेंट का प्रॉम्प्ट सबसे ऊपर होता है।
00:14:57Codex एजेंटों के पास पहले से चर्चा की गई बातों के बारे में अधिक संदर्भ होता है, जो उनके प्रदर्शन को
00:15:01बेहतर बनाने में मदद करता है।
00:15:06व्यावहारिक रूप से, Claude Code के सख्त अलगाव ने हमारे शोध सब-एजेंटों को नुकसान पहुँचाया।
00:15:10जब हमने उनका उपयोग किया, तो परिणाम पर्याप्त अच्छे नहीं थे, क्योंकि उन्होंने केवल तत्काल
00:15:12प्रॉम्प्ट देखा और उनके पास कोई पिछला संदर्भ नहीं था।
00:15:17Codex एजेंटों को पूरा इतिहास मिलता है, वे अधिक प्रभावी ढंग से दोहरा सकते हैं, और उन कार्यों पर बेहतर प्रदर्शन करते हैं
00:15:22जहाँ निरंतरता मायने रखती है।
00:15:23इसके साथ हम इस वीडियो के अंत में पहुँच गए हैं।
00:15:27जब हमने उनका उपयोग किया, तो परिणाम पर्याप्त अच्छे नहीं थे, क्योंकि उन्होंने केवल तत्काल
00:15:30प्रॉम्प्ट देखा और उनके पास कोई पिछला संदर्भ नहीं था।
00:15:33कोडेक्स एजेंटों को पूरा इतिहास मिलता है, वे अधिक प्रभावी ढंग से काम कर सकते हैं, और उन कार्यों पर बेहतर प्रदर्शन करते हैं
00:15:38जहाँ निरंतरता मायने रखती है।
00:15:39इसी के साथ हम इस वीडियो के अंत में पहुँच गए हैं।
00:15:41यदि आप चैनल का समर्थन करना चाहते हैं और इस तरह के वीडियो बनाने में हमारी मदद करना चाहते हैं, तो आप
00:15:45नीचे दिए गए सुपर थैंक्स बटन का उपयोग करके ऐसा कर सकते हैं।
00:15:48हमेशा की तरह, देखने के लिए धन्यवाद और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

GPT 5.5 संचालित Codex, Claude Code की तुलना में 50% से अधिक टोकन दक्षता और तेज़ कार्यान्वयन प्रदान करता है, हालांकि Claude Code अभी भी जटिल UI डिज़ाइन और विस्तृत योजना बनाने में श्रेष्ठ है।

Highlights

  • Opus 4.7 और GPT 5.5 के कोडिंग परीक्षण में, Opus 4.7 ने 173,000 टोकन का उपयोग किया, जबकि GPT 5.5 ने उसी कार्य को केवल 82,000 टोकन में पूरा किया।

  • Codex CLI को Rust पर बनाया गया है, जो Claude Code के React-आधारित UI की तुलना में लंबे कोडिंग सत्रों के दौरान अधिक स्थिरता और सुचारू प्रदर्शन प्रदान करता है।

  • योजना बनाने (Planning) के मामले में Claude Code अधिक विस्तृत है, जिसने एक फ्रंटएंड कार्य के लिए 24 मिनट लिए, जबकि Codex ने उसी कार्य को 8 मिनट में पूरा किया।

  • Codex में एक 'YOLO मोड' शामिल है जो निरंतर अनुमति मांगने की प्रक्रिया को हटा देता है, जबकि Claude Code का नया ऑटो मोड अनुमति संकेतों के कारण वर्कफ़्लो में बाधा डालता है।

  • GPT 5.5 'बैकएंड इंजीनियर' की तरह कार्यक्षमता पर ध्यान केंद्रित करता है, जबकि Opus 4.7 'फुल स्टैक इंजीनियर' की तरह कार्यक्षमता और यूजर इंटरफेस (UI) दोनों को संतुलित करता है।

Timeline

उपयोगिता और UI स्थिरता की चुनौतियां

  • Claude Code के 2.1.0 अपडेट के बाद टर्मिनल रेंडरिंग और कैश लीक्स जैसी तकनीकी खामियां बढ़ गई हैं।
  • Codex का Rust-आधारित CLI लंबे कोडिंग सत्रों के दौरान React-आधारित Claude Code की तुलना में बेहतर प्रदर्शन करता है।
  • परमिशन मोड में बदलाव के कारण Claude Code बिना निगरानी के कौशल (skills) बनाने जैसे कार्यों में रुक जाता है।

Claude Code में पहले उपलब्ध 'बायपास परमिशन मोड' को हटाकर 'ऑटो मोड' लाने से उपयोगकर्ता अनुभव प्रभावित हुआ है। यह मोड अक्सर फ़ाइलों में लिखने के लिए अनुमति मांगते हुए प्रक्रिया को बीच में ही रोक देता है। इसके विपरीत, Codex का YOLO मोड बिना किसी बाधा के स्वायत्त रूप से कार्य करता है।

लागत दक्षता और टोकन खपत विश्लेषण

  • समान डिबगिंग कार्य के लिए GPT 5.5 ने Opus 4.7 की तुलना में लगभग 52% कम टोकन का उपयोग किया।
  • Claude Code केवल Pro और Max जैसे भुगतान वाले प्लान पर उपलब्ध है, जबकि Codex का एक सीमित फ्री प्लान भी मौजूद है।
  • GPT 5.5 कम प्रयासों और कम टोकन में कोड कार्यान्वयन को पूरा करने की क्षमता रखता है।

सत्रों की JSON फ़ाइलों के विश्लेषण से पता चला कि Opus 4.7 ने 173,000 टोकन खर्च किए, जबकि GPT 5.5 ने वही काम 82,000 टोकन में किया। यह Codex को बड़े पैमाने के प्रोजेक्ट्स के लिए अधिक लागत प्रभावी बनाता है, क्योंकि यह समान मूल्य सीमा में अधिक आउटपुट देता है।

प्लानिंग मोड और ऐप डेवलपमेंट की गति

  • Claude Code योजना बनाने में 24 मिनट लेता है, लेकिन इसका परिणामी आर्किटेक्चर और UI डिज़ाइन अधिक परिष्कृत होता है।
  • GPT 5.5 संभावित त्रुटियों के लिए स्वचालित रूप से 'फॉलबैक' तंत्र और स्थानीय समाधान लागू करता है।
  • Codex के agents.md सेटअप में कमिट और सुरक्षा दिशानिर्देशों का अधिक संक्षिप्त और पेशेवर प्रबंधन शामिल है।

परीक्षण के दौरान, Claude Code ने विस्तृत योजना बनाने के कारण अधिक समय लिया लेकिन ShadC और UI घटकों का बेहतर उपयोग किया। Codex ने गति को प्राथमिकता दी और बिना स्पष्ट निर्देश के भी ऐप को क्रैश होने से बचाने के लिए हार्डकोडेड फॉलबैक और सुरक्षा निर्देश जोड़े।

कोड रिव्यू और रिलायबिलिटी विश्लेषण

  • Claude Code का कोड रिव्यू विस्तृत कोड स्निपेट्स और प्राथमिकता के आधार पर व्यवस्थित रिपोर्ट प्रदान करता है।
  • Codex रिलायबिलिटी रिव्यू के दौरान केवल सौंपे गए कार्य के दायरे तक ही सीमित रहता है।
  • Claude Code समीक्षा के दौरान सुरक्षा दोषों और लीक हुई API कुंजियों जैसी अतिरिक्त समस्याओं की भी पहचान करता है।

समीक्षा के दौरान पाया गया कि Claude Code अधिक व्यापक रिपोर्ट देता है, जिसमें समस्या के पीछे का सटीक कोड शामिल होता है। हालांकि, Codex का दृष्टिकोण अधिक अनुशासित है क्योंकि यह केवल अनुरोधित मापदंडों (रिलायबिलिटी) पर ध्यान केंद्रित करता है और अनावश्यक विवरणों से बचता है।

कॉन्टेक्स्ट मैनेजमेंट और सब-एजेंट आर्किटेक्चर

  • Codex अपने सब-एजेंटों को पूरी बातचीत का इतिहास प्रदान करता है, जिससे निरंतरता में सुधार होता है।
  • Claude Code सब-एजेंटों को पूरी तरह से अलग संदर्भ (context window) देता है, जो सुरक्षा के लिए अच्छा है लेकिन जटिल कार्यों में बाधा डालता है।
  • DALL-E एकीकरण के कारण Codex सीधे CLI के माध्यम से वेबसाइटों के लिए वास्तविक चित्र उत्पन्न कर सकता है।

कॉन्टेक्स्ट हैंडलिंग में दोनों के बीच स्पष्ट अंतर है। Codex अंतिम 20,000 टोकन को बिना संकुचित किए मेमोरी में रखता है ताकि प्रदर्शन में गिरावट न आए। Claude Code 'अल्ट्रा-थिंक' और हुक सिस्टम जैसे उन्नत नियंत्रण प्रदान करता है, लेकिन इसके सब-एजेंटों को पिछला संदर्भ न मिलने के कारण वे शोध कार्यों में कम प्रभावी साबित हुए।

Community Posts

View all posts