Claude Code + Codex = एआई के भगवान

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00तो अब हम Claude Code के अंदर Codex का उपयोग कर सकते हैं।
00:00:03OpenAI ने इसे बनाया है।
00:00:04तो Opus 4.6 का नंबर एक प्रतियोगी
00:00:08अब कुछ ऐसा है जिसे आप उपयोग कर सकते हैं
00:00:09Anthropic इकोसिस्टम के अंदर।
00:00:11और यह सभी Claude Code प्रेमियों के लिए बड़ी खबर है,
00:00:15खासकर यदि आप कोई ऐसे व्यक्ति हैं जो संघर्ष कर रहे हैं
00:00:18उपयोग दरों के साथ, क्योंकि सच कहूँ तो,
00:00:20Codex आपको आपके पैसे का बेहतर मूल्य देता है
00:00:23डॉलर से क्रेडिट या टोकन के मामले में।
00:00:26और इसलिए इस वीडियो में, मैं आपको दिखाने वाला हूँ कि इसे कैसे सेटअप करें
00:00:28और हम यह देखेंगे कि Codex वास्तव में क्या कर सकता है
00:00:31इसके ऊपर Claude Code हार्नेस के साथ।
00:00:33और इससे भी महत्वपूर्ण बात यह है कि हम Claude Code का उपयोग करके क्या कर सकते हैं
00:00:38Opus 4.6 और Codex के साथ मिलकर, है ना?
00:00:40हम इन दोनों मॉडलों को एक-दूसरे के साथ कैसे इस्तेमाल कर सकते हैं
00:00:43ताकि परिणाम उनके अलग-अलग हिस्सों से बेहतर हो?
00:00:46अब इंस्टॉल करने से पहले, आइए एक त्वरित अवलोकन करें
00:00:48कि Claude Code प्लगिन हमारे लिए क्या लाता है,
00:00:50क्योंकि यहाँ कुछ चीज़ें हैं।
00:00:51अब, मैं तर्क दूँगा कि दो सबसे महत्वपूर्ण चीज़ें
00:00:54कोड समीक्षाएं (code reviews) हैं, सही?
00:00:56अनिवार्य रूप से इसे देखने की क्षमता
00:00:58उस चीज़ पर जो Opus ने लिखी है।
00:00:59और यह चरणों में जाता है।
00:01:01सबसे पहले, हमारे पास मानक Codex समीक्षा है,
00:01:03जो कि बस, आप जानते हैं, एक तरह की तटस्थ समीक्षा है।
00:01:06आप जानते हैं, यह देख रहा है, यह सिर्फ पढ़ने के लिए है।
00:01:08दूसरा 'एडवर्सरियल रिव्यू' (adversarial review) है, जो मुझे बहुत पसंद है।
00:01:12तो यह मूल रूप से Codex को यह कह रहा है कि,
00:01:13"अरे, Opus ने जो बनाया है उसे देखो
00:01:15या किसी भी कोडिंग एजेंट ने जो बनाया है,
00:01:17लेकिन बहुत ही सूक्ष्म नज़र से देखो।
00:01:20जैसे यह मान लो कि उन्होंने गड़बड़ की है
00:01:22और पता लगाओ कि हम इसे बेहतर बनाने के लिए क्या कर सकते हैं।"
00:01:25तो यह हमारे आउटपुट को वास्तव में बेहतर बनाने का एक शानदार तरीका है,
00:01:28क्योंकि Opus के साथ एक समस्या यह है
00:01:31और वास्तव में सामान्य रूप से बहुत सारे AI मॉडलों के साथ
00:01:33कि वे अपने स्वयं के कोड का मूल्यांकन करने में खराब प्रदर्शन करते हैं।
00:01:36यह कुछ ऐसा है जिसके बारे में Anthropic ने बात की थी
00:01:38अपने इंजीनियरिंग ब्लॉग में जो पिछले हफ्ते जारी हुआ था।
00:01:40तो एडवर्सरियल रिव्यू जैसी चीज़, एकदम सही, मुझे यह पसंद है।
00:01:44इसके अलावा, हम Codex Rescue का भी उपयोग कर सकते हैं,
00:01:46जो हमें Codex से अपने आप कुछ बनाने की अनुमति देता है
00:01:49ठीक वैसे ही जैसे आप Claude Code के अंदर Opus के साथ करेंगे।
00:01:52और उसके बाद, बस कुछ स्टेटस जैसी चीज़ें,
00:01:54जैसे यह देखना कि यह अपने विशेष काम में कहाँ तक पहुँचा है।
00:01:58तो आइए इसमें गहराई से उतरें और इंस्टॉलेशन को देखें।
00:02:01अब इसे इंस्टॉल करना काफी सरल है।
00:02:02आपको बस यह कमांड चलानी है
00:02:04इसे मार्केटप्लेस में जोड़ने के लिए।
00:02:06और मैं ये सभी कमांड नीचे डिस्क्रिप्शन में दे दूँगा।
00:02:08और फिर आप इसे इंस्टॉल करने के लिए यह प्लगिन कमांड चलाएंगे,
00:02:11codex@openai-codex.
00:02:13हमेशा की तरह, पूछेगा कि आप इसे कहाँ इंस्टॉल करना चाहते हैं।
00:02:14मैं 'user scope' करूँगा।
00:02:16और फिर हमें बस प्लगइन्स को फिर से लोड करना होगा
00:02:17ताकि यह काम करने लगे।
00:02:18और फिर अंत में, हम run codex colon setup चलाना चाहते हैं।
00:02:21यदि आपको पता नहीं चला, तो इसके लिए एक GitHub रेपो भी है
00:02:24जो सभी इंस्टॉल कमांड्स के बारे में भी बताता है।
00:02:27तो मैं उसका लिंक भी डिस्क्रिप्शन में दे दूँगा।
00:02:29और उपयोग दरें आपके ChatGPT अकाउंट से जुड़ी हुई हैं,
00:02:32भले ही आप फ्री अकाउंट पर हों, जाहिर तौर पर।
00:02:34तो बस यह समझ लें कि यह खींचने वाला है
00:02:36आपके Codex उपयोग से।
00:02:37यह पूछेगा कि क्या आप Codex इंस्टॉल करना चाहते हैं, हाँ।
00:02:39उसके लिए, आप लॉगिन करते हैं और वह आपको ब्राउज़र पर भेज देगा
00:02:42जहाँ यह आपको प्रमाणीकरण प्रक्रिया के माध्यम से ले जाता है।
00:02:44अब Claude Code के अंदर इस Codex टूल के
00:02:47वास्तव में दो स्पष्ट उपयोग के मामले हैं।
00:02:49पहला Claude Code के अंदर
00:02:52उपयोग सीमाओं (usage limits) से निपटना है।
00:02:53आम तौर पर, यदि आप Anthropic के प्रो प्लान पर हैं
00:02:55या 5x मैक्स पर, तो आप उन सीमाओं तक बहुत जल्दी पहुँच सकते हैं,
00:02:58खासकर पिछले हफ्ते देखे गए
00:03:00कुछ CLI बग्स के साथ।
00:03:02यदि ऐसा है, तो आप जो करना चाह सकते हैं
00:03:03वह योजना बनाने के लिए Opus 4.6 और निष्पादित करने के लिए Codex का उपयोग करना है।
00:03:07और ऐसा करना, फिर से, बहुत सरल है।
00:03:09आप बस codex rescue करेंगे।
00:03:11और वहां से, आप इसे प्रॉम्प्ट देंगे।
00:03:14और आप बहुत सारी चीज़ें निर्दिष्ट भी कर सकते हैं।
00:03:16जैसा कि आप यहाँ सभी फ्लैग्स देख सकते हैं,
00:03:18प्रयास स्तर (effort level) और वह सब शामिल है।
00:03:20और याद रखें, Codex, यह मॉडल बहुत ठोस है।
00:03:24और फिर से, इसका उपयोग Anthropic द्वारा लिए जाने वाले
00:03:26शुल्क के करीब भी नहीं है।
00:03:27लेकिन मुझे लगता है कि अधिक दिलचस्प उपयोग मामला
00:03:28वह है जिसके बारे में मैंने पहले बात की थी,
00:03:29और वह है एडवर्सरियल रिव्यू।
00:03:30तो चलिए इसका परीक्षण करते हैं।
00:03:32तो मैं इसे अपने ट्विटर इंगेजमेंट/रिसर्च बॉट
00:03:33पर नज़र डालने के लिए कहूँगा।
00:03:37यह वह वेब ऐप है जिसे मैंने Claude Code से बनवाया था।
00:03:39अनिवार्य रूप से यह हर 30 से 45 मिनट में
00:03:43AI क्षेत्र के ट्वीट्स को स्कैन करता है।
00:03:45इसमें एक क्वालिटी फ़िल्टर है।
00:03:47इसमें कई अलग-अलग मापदंडों के आधार पर
00:03:48स्कोरिंग सिग्नल हैं।
00:03:50यह सुपरबेस (Supabase) से जुड़ा है
00:03:51ताकि यह सुनिश्चित हो सके कि ट्वीट्स दोहराए न जाएं।
00:03:53इसमें एक स्कोरिंग सिस्टम है और यह सॉफ्टमैक्स (softmax), PIX को एकीकृत करता है।
00:03:56सब कुछ टेलीग्राम पर भेज दिया जाता है।
00:03:58और जवाबों में मदद के लिए मैंने इसमें AI भी बनाया है।
00:04:00तो यहाँ काफी कुछ चल रहा है।
00:04:02और फिर उसके ऊपर,
00:04:03यह मेरे सभी जवाबों को भी ट्रैक करता है
00:04:06ताकि हमारे पास एक फीडबैक लूप हो सके।
00:04:07तो यह तुलनात्मक रूप से, बहुत ज्यादा जटिल तो नहीं है,
00:04:10लेकिन यह कोई साधारण लैंडिंग पेज भी नहीं है जिसे हम देख रहे हैं।
00:04:13तो हम देखने वाले हैं कि कोडेक्स (Codex) क्या परिणाम देता है।
00:04:16जब हम इसके कोड का एडवरसैरियल रिव्यू (adversarial review) करते हैं, ठीक है?
00:04:20तो चलिए देखते हैं कि यह कैसा प्रदर्शन करता है।
00:04:22तो हम इसे व्याख्या के लिए काफी खुला रखेंगे।
00:04:23हम कोडेक्स से कह रहे हैं,
00:04:24इस कोड बेस को देखो और मुझे बताओ कि तुम्हें क्या लगता है।
00:04:27और सबसे पहली चीज़ जो यह करता है, वह हमें बताता है,
00:04:28कि हम रिव्यू के आकार का अनुमान लगाने जा रहे हैं
00:04:30ताकि सबसे अच्छा मोड निर्धारित किया जा सके।
00:04:32और फिर वहां से यह कहता है,
00:04:33कि क्या आप इसे बैकग्राउंड में चलाना चाहते हैं
00:04:34या आप बस परिणामों का इंतज़ार करना चाहते हैं?
00:04:35तो हम बस परिणामों का इंतज़ार करेंगे।
00:04:37और यह हमें बता रहा है कि रिव्यू के दायरे में पूरा कोड बेस शामिल है
00:04:39साथ ही नौ वर्किंग ट्री बदलाव, एक संशोधित फ़ाइल,
00:04:42आठ अनट्रैक्ड फ़ाइलें।
00:04:43तो इसे पता है कि यहाँ एक तरह से,
00:04:44काफी कुछ है जिसे इसे देखने की ज़रूरत है।
00:04:46और जब तक वह काम चल रहा है,
00:04:47आइए बात करते हैं कि एडवरसैरियल रिव्यू असल में कैसे काम कर रहा है।
00:04:49तो हमने अभी इसके पहले चार भाग देखे, है न?
00:04:52इसने आर्गुमेंट्स को पार्स किया।
00:04:54हमने कोई फ्लैग पास नहीं किया था,
00:04:55इसलिए यह अपनी डिफ़ॉल्ट सेटिंग्स पर चल रहा है।
00:04:57और फिर इसने रिव्यू के आकार का अनुमान लगाया,
00:04:59लक्ष्य को सुलझाया और कुछ संदर्भ एकत्र किए।
00:05:01वह सब वही टेक्स्ट था जैसे कि,
00:05:03हमारे पास ये अनट्रैक्ड बदलाव हैं
00:05:04और इसमें थोड़ा समय लगने वाला है।
00:05:05अब, उन पहले चार चरणों के बाद,
00:05:06यह फिर एडवरसैरियल प्रॉम्प्ट तैयार करने वाला है
00:05:09और यहाँ सात अटैक सरफ़ेस (attack surfaces) हैं
00:05:11जिन पर यह विशेष ध्यान देने वाला है।
00:05:13वे हैं ऑथेंटिकेशन, डेटा लॉस, रोलबैक्स,
00:05:17रेस कंडीशंस, डिग्रेडेड डिपेंडेंसीज़,
00:05:20वर्जन स्क्यू और ऑब्ज़र्वेबिलिटी गैप्स, ठीक है?
00:05:23तो ये सात चीज़ें हैं जो सतह के नीचे छिपी हो सकती हैं
00:05:26जो हमें मुश्किल में डाल सकती हैं
00:05:27अगर हम इसे प्रोडक्शन में भेजने की कोशिश करें
00:05:29और हमें इनकी जानकारी न हो।
00:05:30वहाँ से, यह वह सारी जानकारी वापस भेजेगा
00:05:31OpenAI सर्वर पर, ताकि कोडेक्स उसे देख सके।
00:05:34और फिर यह हमें एक स्ट्रक्चर्ड JSON आउटपुट देगा
00:05:37और हमें उम्मीद करनी चाहिए कि यह कुछ ऐसा दिखेगा, ठीक है?
00:05:41और यह हमें अपनी खोज की गंभीरता (severity) भी बताएगा,
00:05:43जैसे कि क्रिटिकल, हाई, मीडियम और लो,
00:05:46साथ ही सुझाव और अगले कदम भी बताएगा।
00:05:48लेकिन आपको बस क्लाउड कोड (Claude Code) के अंदर बैठना है
00:05:51और जवाब का इंतज़ार करना है।
00:05:52तो कोडेक्स हमारे कोड बेस में चार कमियों के साथ वापस आया
00:05:54और उन सभी की गंभीरता "हाई" (high) थी
00:05:57और मैंने इसे एक्स्कालीड्रॉ (Excalidraw) पर पेस्ट कर दिया है
00:05:58ताकि हमारे लिए इसे समझना थोड़ा आसान हो जाए।
00:06:00तो इनमें से प्रत्येक के लिए, यह गंभीरता बताता है,
00:06:02क्षेत्र, वास्तविक समस्या, फ़ाइलें,
00:06:06साथ ही कोड की वे असल लाइनें
00:06:08जिन्हें हमें देखने की ज़रूरत है।
00:06:09और फिर महत्वपूर्ण बात, कि यहाँ वास्तविक प्रभाव क्या है
00:06:12और उसका समाधान (fix) क्या है?
00:06:13तो पहले नंबर पर, यह कह रहा है कि एक समस्या थी
00:06:15हमारे डेड अप लॉजिक (dead up logic) के साथ।
00:06:16दूसरा यह था कि हम टेलीग्राम पोलिंग को कैसे संभाल रहे थे।
00:06:19तीसरा हमारा स्कीमा ड्रिफ्ट (schema drift) था।
00:06:21और अंत में हमारा वास्तविक डैशबोर्ड निर्माण था।
00:06:24तो ये वास्तव में काफी महत्वपूर्ण चीज़ें हैं
00:06:27और सौभाग्य से ऐसा नहीं लगता कि इनके समाधान
00:06:29लागू करना बहुत कठिन होगा।
00:06:31लेकिन मेरी दिलचस्पी इसमें है,
00:06:33कि ठीक है, यह वही है जो कोडेक्स ने हमें दिया।
00:06:35क्लाउड (Claude) हमें क्या देगा अगर हम उससे उसी तरह के,
00:06:40एडवरसैरियल रिव्यू के लिए कहें उसके अपने कोड बेस पर?
00:06:43क्योंकि मुझे लगता है कि उन्हें आमने-सामने देखना
00:06:45काफी ज्ञानवर्धक होगा
00:06:46कि कोडेक्स वास्तव में दूसरे से अलग क्या करता है।
00:06:48क्योंकि क्या पता, वे बिल्कुल एक जैसे हों
00:06:50और यह पूरा वीडियो ही बेकार हो।
00:06:52तो अब मैं ओपस (Opus) से वही
00:06:55एडवरसैरियल कोड रिव्यू करवा रहा हूँ।
00:06:56मैंने कोडेक्स से एक विशेष प्रॉम्प्ट तैयार करवाया था।
00:06:59तो मूल रूप से यह सिर्फ यह कह रहा है,
00:07:00कि मैं चाहता हूँ कि आप कार्यान्वयन (implementation) को चुनौती दें,
00:07:02डिज़ाइन विकल्पों को।
00:07:04यहाँ कुछ चीज़ें हैं जिनका मैं चाहता हूँ कि आप मूल्यांकन करें।
00:07:05और फिर यहाँ आउटपुट फॉर्मेट है।
00:07:07तो देखते हैं कि यह क्या परिणाम देता है।
00:07:09और यहाँ परिणामों का विवरण दिया गया है।
00:07:11तो सबसे पहले, उनकी एक खोज साझा (shared finding) थी।
00:07:13वे दोनों इस बात पर सहमत थे कि टेलीग्राम वाली समस्या एक बाधा थी।
00:07:17तो यह वह एक समस्या थी जो उन दोनों को मिली
00:07:20और उन्होंने कहा कि यह या तो हाई था या क्रिटिकल।
00:07:23Codex ने कहा कि यह सिर्फ हाई था
00:07:24और फिर Opus ने कहा कि यह क्रिटिकल था।
00:07:26Opus ने खुद सात अन्य अतिरिक्त मुद्दे खोजे
00:07:30जिन्हें हाई या क्रिटिकल श्रेणी में रखा गया जो Codex नहीं कर पाया।
00:07:32अब हम यह नहीं कह रहे हैं कि सिर्फ इसलिए कि
00:07:36वहां अधिक मुद्दे हैं तो Opus
00:07:37जरूरी रूप से Codex से बेहतर था।
00:07:39बस यह बता रहा हूँ कि, इसने सात ऐसी चीजें ढूंढीं
00:07:41जिन्हें हम देखना चाह सकते हैं और जो Codex से छूट गई थीं।
00:07:43फिर जाहिर तौर पर दूसरी तरफ,
00:07:45हमें Codex में तीन ऐसे मुद्दे मिले जो Opus से छूट गए थे।
00:07:48तो इसका क्या मतलब है
00:07:49अगर हम इसे समग्रता में देखें?
00:07:50क्या इसका मतलब है कि Opus, Codex से बेहतर है
00:07:51क्योंकि इसने ज़्यादा खोजे, या Codex, Opus से बेहतर है
00:07:54क्योंकि उसने केवल चार पर ध्यान केंद्रित किया
00:07:56और हमें किसी अजीब रास्ते पर नहीं ले गया?
00:07:58मुझे लगता है कि आप इससे वही निष्कर्ष निकालते हैं
00:07:59जो आप निकालना चाहते हैं।
00:08:01और वह शायद यह है कि इन दोनों प्रणालियों के होने का
00:08:04अपना एक महत्व है।
00:08:05इसे इस तरह देखें, है ना?
00:08:06Opus द्वारा हर समय Opus की जांच करने के बजाय
00:08:09एक दूसरी जोड़ी आंखों का होना।
00:08:10मुझे लगता है कि इसमें कोई मौलिक खामी है,
00:08:13कि वही AI सिस्टम प्लानिंग करे,
00:08:16जेनरेटिंग करे और इवैल्यूएटिंग भी करे।
00:08:17और अगर हम बहुत आसानी से Codex को ला सकते हैं,
00:08:20खासकर इसकी कीमत को देखते हुए,
00:08:22सिर्फ इस तरह की चीजें करने के लिए,
00:08:24जैसे कि एक एडवरसैरियल रिव्यू,
00:08:25तो फिर से, यह AI कोडिंग के बेहतरीन
00:08:28फायदों में से एक है, तो भला क्यों नहीं?
00:08:30यदि आप पहले से ही ChatGPT के लिए
00:08:34महीने के 20 डॉलर दे रहे हैं,
00:08:35और अब मैं इसे शामिल कर सकता हूँ और Codex से
00:08:37किसी भी चीज़ पर नज़र डलवा सकता हूँ,
00:08:38इतनी सादगी से, तो वास्तव में इसमें नुकसान क्या है?
00:08:43मेरा मतलब है, मुझे नहीं लगता कि इस तरह के किसी त्वरित परीक्षण से,
00:08:47हमें कोई निश्चित उत्तर मिलेगा कि,
00:08:48ओह, Codex बेहतर है बनाम Opus।
00:08:50और मुझे लगता है कि वह पूरी बातचीत ही
00:08:51असल मुद्दे को भटकती है।
00:08:52यह हमारे टूलबॉक्स में बस एक और टूल की तरह है
00:08:54और अब हम इसका उपयोग कर सकते हैं।
00:08:55तो मुझे लगता है कि यह बहुत अच्छा है।
00:08:56अब हम एडवरसैरियल रिव्यू के साथ
00:08:58और भी अधिक विशिष्ट हो सकते हैं,
00:09:00क्योंकि हमारा प्रॉम्प्ट काफी खुला और सामान्य था
00:09:03और यह इसे कई अलग-अलग तरीकों से समझने में सक्षम था,
00:09:06लेकिन सिर्फ GitHub के उदाहरणों के आधार पर, है ना?
00:09:08आप काफी विशिष्ट हो सकते हैं
00:09:09कि आप Codex से क्या जाँच करवाना चाहते हैं।
00:09:11कुल मिलाकर, मुझे लगता है कि Cloud Code इकोसिस्टम में
00:09:13यह एक बेहतरीन जुड़ाव है।
00:09:14जितने ज़्यादा टूल होंगे, उतना ही बेहतर होगा,
00:09:15खासकर यदि आप उनमें से हैं जो या तो A,
00:09:17पहले से ही ChatGPT के लिए भुगतान कर रहे हैं,
00:09:19या B, Anthropic Pro प्लान पर हैं,
00:09:22और फिर शायद आप ChatGPT के लिए भी भुगतान कर रहे हैं,
00:09:23तो महीने के सौ डॉलर शायद थोड़े ज़्यादा लग सकते हैं,
00:09:25200 डॉलर तो निश्चित रूप से बहुत ज़्यादा होंगे।
00:09:28यह हमें $20 वाले सब्सक्रिप्शन और
00:09:30$100 वाले सब्सक्रिप्शन के बीच एक मध्यम मार्ग देता है,
00:09:33क्योंकि Codex वास्तव में वैल्यू के लिहाज से बहुत अच्छा है।
00:09:36तो इसे ज़रूर आज़माएँ, सेटअप बहुत आसान है।
00:09:39मुझे बताएं कि आपको कैसा लगा,
00:09:41और हमेशा की तरह, मैं आपसे फिर मिलूँगा।

Key Takeaway

Claude Code में Codex का एकीकरण करने से डेवलपर्स को एक स्वतंत्र 'दूसरी जोड़ी आंखें' मिलती हैं जो Opus द्वारा लिखे गए कोड में उन सूक्ष्म तार्किक और सुरक्षा त्रुटियों को पकड़ सकती हैं जिन्हें स्वयं Opus पहचानने में विफल रहता है।

Highlights

Claude Code के भीतर OpenAI के Codex मॉडल का उपयोग टोकन और क्रेडिट के मामले में Anthropic के Opus 4.6 की तुलना में बेहतर वैल्यू प्रदान करता है।

एडवर्सरियल रिव्यू मोड के दौरान Codex सुरक्षा और स्थिरता के सात मुख्य क्षेत्रों जैसे ऑथेंटिकेशन, डेटा लॉस, रेस कंडीशंस और ऑब्ज़र्वेबिलिटी गैप्स पर ध्यान केंद्रित करता है।

Codex ने एक जटिल ट्विटर बॉट कोडबेस में चार 'High' गंभीरता वाली समस्याओं की पहचान की, जिसमें टेलीग्राम पोलिंग और स्कीमा ड्रिफ्ट जैसे मुद्दे शामिल थे।

तुलनात्मक परीक्षण में Opus 4.6 ने सात ऐसी अतिरिक्त खामियां ढूंढीं जो Codex से छूट गई थीं, जबकि Codex ने तीन ऐसे मुद्दे पकड़े जो Opus नहीं देख पाया था।

Codex प्लगइन को इंस्टॉल करने के लिए 'npm' के माध्यम से मार्केटप्लेस में जोड़कर 'codex@openai-codex' कमांड का उपयोग किया जाता है।

Timeline

Claude Code और Codex का एकीकरण

  • Codex अब Anthropic इकोसिस्टम के भीतर Opus 4.6 के मुख्य विकल्प के रूप में उपलब्ध है।
  • उपयोग दरों के मामले में Codex कम लागत पर अधिक टोकन क्षमता प्रदान करता है।
  • AI मॉडल अक्सर अपने स्वयं के द्वारा लिखे गए कोड का निष्पक्ष मूल्यांकन करने में विफल रहते हैं।

Anthropic के इंजीनियरिंग ब्लॉग के अनुसार AI मॉडल अपनी गलतियों को पहचानने में अक्षम होते हैं। Codex इस कमी को पूरा करने के लिए एक तटस्थ समीक्षा और एडवर्सरियल रिव्यू की सुविधा देता है। यह सेटअप विशेष रूप से उन उपयोगकर्ताओं के लिए उपयोगी है जो Anthropic की दैनिक उपयोग सीमाओं तक जल्दी पहुँच जाते हैं।

Codex प्लगइन की स्थापना प्रक्रिया

  • प्लगइन को 'codex@openai-codex' कमांड चलाकर यूजर स्कोप में इंस्टॉल किया जाता है।
  • उपयोगकर्ताओं को अपने मौजूदा ChatGPT अकाउंट के माध्यम से प्रमाणीकरण करना होता है।
  • यह टूल फ्री ChatGPT अकाउंट के साथ भी काम करता है और उसी के उपयोग कोटा का उपयोग करता है।

इंस्टॉलेशन के बाद 'run codex:setup' कमांड चलाना आवश्यक है जो उपयोगकर्ता को ब्राउज़र पर रीडायरेक्ट करती है। यह पूरी प्रक्रिया GitHub रिपॉजिटरी में दिए गए निर्देशों पर आधारित है। सेटअप पूरा होने के बाद उपयोग की सीमाएं सीधे उपयोगकर्ता के OpenAI खाते से जुड़ जाती हैं।

एडवर्सरियल रिव्यू और सात सुरक्षा मानक

  • Codex 'codex rescue' कमांड के माध्यम से कोड निष्पादन और योजना बनाने में सक्षम है।
  • एडवर्सरियल रिव्यू सात विशिष्ट 'अटैक सरफेसेस' जैसे रोलबैक्स और वर्जन स्क्यू की जांच करता है।
  • समीक्षा के परिणाम एक संरचित JSON फॉर्मेट में गंभीरता के स्तर के साथ प्राप्त होते हैं।

एक ट्विटर इंगेजमेंट बॉट पर परीक्षण के दौरान Codex ने पूरे कोडबेस, वर्किंग ट्री और अनट्रैक्ड फाइलों का विश्लेषण किया। यह विश्लेषण केवल सतही नहीं है बल्कि डेटा हानि और ऑथेंटिकेशन जैसी गहरी समस्याओं को खोजने के लिए डिज़ाइन किया गया है। सिस्टम रिव्यू शुरू करने से पहले आकार का अनुमान लगाता है और इसे बैकग्राउंड में चलाने का विकल्प देता है।

Opus बनाम Codex: तुलनात्मक विश्लेषण

  • दोनों मॉडलों ने टेलीग्राम पोलिंग समस्या को एक 'High' या 'Critical' बाधा के रूप में पहचाना।
  • Opus ने सात अतिरिक्त मुद्दों की पहचान की लेकिन Codex द्वारा पाए गए तीन महत्वपूर्ण बिंदु उससे छूट गए।
  • Codex का उपयोग $20 और $100 के सब्सक्रिप्शन के बीच एक लागत-प्रभावी संतुलन बनाता है।

Codex और Opus के बीच का अंतर यह दर्शाता है कि एक ही AI से प्लानिंग और इवैल्यूएशन कराना जोखिम भरा हो सकता है। Codex का उपयोग एक स्वतंत्र टूल के रूप में करने से कोड की गुणवत्ता बढ़ती है। यह किसी एक मॉडल को श्रेष्ठ साबित करने के बजाय टूलबॉक्स में विविधता लाने और कम खर्च में बेहतर सुरक्षा सुनिश्चित करने पर केंद्रित है।

Community Posts

View all posts