9:43Chase AI
Log in to leave a comment
No posts yet
AI अपने द्वारा लिखे गए कोड के प्रति उदार होता है। एंथ्रोपिक (Anthropic) द्वारा जारी किए गए SWE-bench (Verified) डेटा को देखें, तो कोडिंग एजेंटों की वास्तविक पैच सफलता दर 80% से अधिक है, लेकिन वे अभी भी जटिल व्यावसायिक तर्क (Business Logic) में उत्पन्न होने वाले सूक्ष्म एज केस (Edge Cases) को याद कर जाते हैं। भले ही मॉडल खुद को पूर्ण माने, लेकिन वास्तविक संचालन के दौरान कई बग सामने आते हैं। इस बौद्धिक अंधेपन को दूर करने के लिए, आपको मुख्य कार्यान्वयनकर्ता के रूप में Claude 3.7 Sonnet का उपयोग करना चाहिए, लेकिन OpenAI के o1 या Codex को एक प्रतिकूल समीक्षक (Adversarial Reviewer) के रूप में अलग से संचालित करना चाहिए।
जब सत्यापन को पुष्टिकरण के बजाय खंडन के दृष्टिकोण में बदल दिया जाता है, तो त्रुटि पहचान दर बढ़ जाती है। मैं प्रोजेक्ट रूट में AGENTS.md बनाता हूँ और भूमिकाओं को बाध्य करता हूँ।
.claude-codex-config और AGENTS.md फ़ाइलें बनाएँ।AGENTS.md में Codex के व्यक्तित्व को "एक आलोचनात्मक सीनियर सुरक्षा इंजीनियर जिसे हर बार तार्किक खामियां खोजने पर इनाम मिलता है" के रूप में परिभाषित करें। प्रशंसा छोड़ें और केवल कमजोरियां खोजने का आदेश दें।alias codex-audit='codex --full-auto --prompt "$(cat AGENTS.md)"'codex-audit चलाएँ।इस प्रोटोकॉल को अपनाने से सिस्टम के माध्यम से आत्म-वस्तुनिष्ठता (Self-objectification) की समस्या का समाधान होता है, जिसे अकेले विकास करते समय अनदेखा करना आसान होता है। वास्तव में, आप अनुभव करेंगे कि डिबगिंग में लगने वाला समय प्रति सप्ताह 5 घंटे से अधिक कम हो जाता है।
Claude 3.7 की आर्किटेक्चरल समझ उच्च है, लेकिन टोकन की लागत महंगी है। एक सोलो डेवलपर के लिए हर सत्यापन में उच्च-लागत वाले मॉडल का अंधाधुंध उपयोग करना एक परिचालन जोखिम है। आपको आर्थिक इंजीनियरिंग की आवश्यकता है जो केवल परिवर्तनों को चुनकर समीक्षा करे। Codex प्रसंस्करण गति में तेज़ है और सरल तर्क सत्यापन के लिए अनुकूलित है।
पूरे कोडबेस को डालने के बजाय केवल संशोधित क्षेत्रों पर ध्यान केंद्रित करें। यह टोकन की खपत को 70% से अधिक बचाता है।
git add के साथ स्टेज करें।git diff --cached | codex-audit कमांड के साथ केवल परिवर्तित कोड स्निपेट्स (Chunks) को Codex को भेजें।यह मासिक API खर्च को आधा कम करते हुए सत्यापन की तीव्रता को सीनियर डेवलपर स्तर पर बनाए रखने का तरीका है।
SaaS में भुगतान तर्क (Payment Logic) का टूटना सेवा के लिए मृत्यु वारंट के समान है। Claude कार्यान्वयन में मजबूत है, लेकिन टर्मिनल-नेटिव वातावरण में सख्त सत्यापन को कभी-कभी छोड़ देता है। रेस कंडीशन (Race Condition) और सुरक्षा कमजोरियों को रोकने के लिए दोनों मॉडलों की ताकत को मिलाकर 3-चरणीय सुरक्षा जाल बनाया जाना चाहिए।
यहाँ सुरक्षा-संवेदनशील वर्कफ़्लो को संभालने की प्रक्रिया दी गई है:
यह रूटीन भुगतान के दोहरे प्रसंस्करण या अधिकार बाईपास जैसी दुर्घटनाओं को पकड़ लेता है, जो अक्सर जूनियर डेवलपर्स से होती हैं।
AI एजेंट कभी-कभी शैलीगत आलोचनाओं (Nitpicks) की बौछार कर देते हैं। यह 'अलार्म थकान' (Alarm Fatigue) पैदा करता है जो इंसान को थका देता है। अनावश्यक टोका-टाकी को हटाकर और केवल मुख्य दोषों पर ध्यान केंद्रित करके उत्पादकता को 30% तक बढ़ाया जा सकता है। AI फीडबैक को भी ग्रेडिंग की आवश्यकता होती है।
इस तरह के स्वचालन के साथ, आपके पास 24 घंटे उपलब्ध रहने वाला एक कोड समीक्षक होता है। अकेले निर्णय लेने और अकेले चिंतित होने वाले सोलो डेवलपर का पुराना जोखिम गायब हो जाता है। कोड की गुणवत्ता का उच्च स्तर पर पहुँचना एक अतिरिक्त लाभ है।