20,000 डॉलर से निर्मित 16 Claude एजेंटों की सेना: C कंपाइलर के स्वायत्त विकास की वास्तविकता

सॉफ्टवेयर इंजीनियरिंग का प्रतिमान (paradigm) बदल रहा है। Anthropic के शोधकर्ता Nicholas Carlini द्वारा संचालित इस परियोजना ने केवल AI से कोडिंग नहीं करवाई है। 16 Claude Opus 4.6 इंस्टेंस का उपयोग करके, मानवीय हस्तक्षेप को न्यूनतम रखते हुए शून्य से Rust-आधारित C कंपाइलर का निर्माण किया गया है।

यह परिणाम 100,000 लाइनों के कोड से बना है, जिसने Linux 6.9 कर्नल को सफलतापूर्वक बिल्ड किया और क्लासिक गेम Doom को चलाया। लेकिन शानदार प्रदर्शन से कहीं अधिक महत्वपूर्ण 20,000 डॉलर (लगभग 17 लाख रुपये) की API लागत निवेश करके खोजी गई एजेंटिक वर्कफ़्लो की सीमाएँ और संभावनाएँ हैं। यह केवल प्रॉम्प्ट लिखने के स्तर से ऊपर उठकर, AI को सिस्टम के रूप में कैसे नियंत्रित और सहयोग कराया जाए, इसकी इंजीनियरिंग वास्तविकता की पड़ताल करता है।

RALF लूप: AI के स्मृति प्रदूषण (Memory Pollution) को रोकने वाला डिज़ाइन

जटिल सिस्टम प्रोग्रामिंग में, एक अकेला एजेंट जल्द ही कॉन्टेक्स्ट विंडो की सीमाओं से टकरा जाता है। ऐसा इसलिए है क्योंकि समय बीतने के साथ, पिछले संवाद रिकॉर्ड वर्तमान निर्णय को धुंधला कर देते हैं, जिससे मतिभ्रम (hallucination) की स्थिति पैदा होती है। Carlini ने इसे हल करने के लिए 16 स्वतंत्र Docker कंटेनरों के साथ RALF (Refresh, Act, Learn, Feedback) लूप पेश किया।

Refresh: सेशन की शुरुआत में पिछली अनावश्यक यादों को रीसेट किया जाता है। इसके बजाय, एकाग्रता बनाए रखने के लिए केवल वर्तमान मील के पत्थर (milestones) और विफलता रिकॉर्ड वाले ब्रीफिंग पैक दिए जाते हैं।
Act: मानवीय आदेश के बिना, एजेंट स्वयं प्राथमिकताएं तय करते हैं और एडिटर या बिल्ड टूल चलाते हैं।
Learn: एजेंट त्रुटियों को Grep-friendly टेस्ट लॉग के माध्यम से स्वयं सीखते हैं जिन्हें समझना उनके लिए आसान होता है।
Feedback: कार्य विवरण और अगले कार्यकर्ता के लिए गाइड को README.md में रिकॉर्ड किया जाता है और ज्ञान को सिंक्रनाइज़ करने के लिए Git पर पुश किया जाता है।

कार्य दोहराव को रोकने के लिए टेक्स्ट-आधारित लॉकिंग प्रोटोकॉल

जब 16 एजेंट एक साथ तैनात किए जाते हैं, तो सबसे बड़ा जोखिम संसाधनों की बर्बादी का होता है। यदि दो एजेंट एक ही बग को ठीक करने की कोशिश करते हैं, तो कोड टकराव के साथ-साथ API लागत भी दोगुनी हो जाएगी। Carlini ने किसी अलग जटिल डेटाबेस के बजाय Git रिपॉजिटरी के भीतर टेक्स्ट फ़्लैग का उपयोग करके एक हल्का लॉकिंग (Locking) मैकेनिज्म लागू किया।

एजेंट किसी विशिष्ट कार्य को शुरू करने से पहले current_tasks/ निर्देशिका में कार्य के नाम के समान एक फ़ाइल बनाते हैं। Git की परमाणु कमिट (atomic commit) प्रकृति के कारण, उसी फ़ाइल को बनाने का प्रयास करने वाले किसी अन्य एजेंट के पुश को अस्वीकार कर दिया जाता है। इस सरल प्रणाली ने एजेंटों के बीच रेस कंडीशन (Race Condition) को पूरी तरह से रोक दिया।

ओरेकल रणनीति: अनुमान न लगाएं, सत्यापित करें

इस परियोजना का मुख्य आकर्षण मौजूदा टूल GCC को ओरेकल (Oracle) के रूप में उपयोग करना था। AI को सही उत्तर का अनुमान लगाने देने के बजाय, यह व्यवस्थित रूप से सही उत्तर को लागू करने की रणनीति है। विशाल Linux कर्नल बिल्ड में त्रुटि होने पर, Carlini ने बाइनरी सर्च (Binary Search) एल्गोरिदम को स्वचालित किया।

कर्नल फ़ाइलों का आधा हिस्सा GCC के साथ और दूसरा आधा Claude के साथ बनाया जाता है।
त्रुटि के बिंदु को आधा-आधा करके कम किया जाता है जब तक कि हज़ारों फ़ाइलों में से समस्या वाली उस एक पंक्ति को नहीं खोज लिया जाता।
इस पद्धति ने डिबगिंग दक्षता में लगभग 50% सुधार किया और भौतिक रूप से AI मतिभ्रम की संभावना को रोक दिया।

तकनीकी सीमाएँ: AI जिसे पार नहीं कर सका, वह है अनुकूलन (Optimization) की दीवार

उपलब्धियां प्रभावशाली थीं, लेकिन निर्मित कंपाइलर का प्रदर्शन GCC के निम्नतम अनुकूलन स्तर (-O0) तक भी नहीं पहुँच सका। Claude एजेंट सेना ने निम्नलिखित उच्च-स्तरीय इंजीनियरिंग क्षेत्रों में सीमाएं दिखाईं:

मेमोरी प्रबंधन दोष: ओनरशिप मॉडल को अनुकूलित करने के बजाय, इसने सभी डेटा को अलग-अलग बफर में कॉपी करने का अक्षम तरीका चुना।
हार्डवेयर समझ की कमी: x86 16-बिट रियल मोड की सख्त मेमोरी सीमा (32KB) को पार करने में असमर्थ होने के कारण, अंततः इस हिस्से में मानवीय हस्तक्षेप या GCC कोड की मदद लेनी पड़ी।
एल्गोरिदम कार्यान्वयन का अभाव: रजिस्टर आवंटन के लिए गणितीय विश्लेषण स्वतंत्र रूप से करने के बजाय, यह केवल निर्देशों का शाब्दिक अनुवाद करने तक सीमित रहा।

कॉर्पोरेट एजेंट अपनाने के लिए निर्णय चेकलिस्ट

एक इंजीनियरिंग मैनेजर के दृष्टिकोण से, 20,000 डॉलर बिल्कुल भी महंगा नहीं है। ऐसा इसलिए क्योंकि जिस कार्य को पूरा करने में 5 विशेषज्ञों की टीम को 3 महीने से अधिक समय लगता, उसे केवल 2 सप्ताह में पूरा कर लिया गया। यह पारंपरिक श्रम लागत की तुलना में 10 गुना अधिक लागत-प्रभावशीलता सिद्ध करता है। यदि कोई कंपनी इस मॉडल को अपनाना चाहती है, तो उसे इस निर्णय वृक्ष (decision tree) का पालन करना चाहिए।

एजेंटिक वर्कफ़्लो अपनाने के मानदंड

प्रश्न	हाँ	नहीं
क्या आउटपुट को परीक्षणों के माध्यम से निष्पक्ष रूप से सत्यापित किया जा सकता है?	अगले चरण पर जाएँ	अपनाने के लिए अनुपयुक्त (मतिभ्रम का जोखिम)
क्या कोई तुलनीय मौजूदा उपकरण (ओरेकल) उपलब्ध है?	ओरेकल रणनीति अपनाएं	निरंतर मानवीय निगरानी आवश्यक
क्या कार्य को 100 या अधिक इकाइयों में विभाजित किया जा सकता है?	समानांतर एजेंट संचालन	एकल एजेंट की सिफारिश

निर्माण के लिए आवश्यक तत्व

Grep-friendly हार्नेस: एक ऐसा लॉग स्ट्रक्चर डिज़ाइन करें जिससे एजेंट 1 सेकंड के भीतर सफलता/विफलता की पहचान कर सके।
स्थिति रिकॉर्ड स्वचालन: एजेंट के बंद होने से पहले progress.json आदि में प्रगति रिकॉर्ड करना अनिवार्य करें।
ह्यूमन गार्डरेल: सुरक्षा या प्रमाणीकरण जैसे संवेदनशील कोड को अलग रखें और सुनिश्चित करें कि वे मानवीय समीक्षा से गुजरें।

कोडर से आर्किटेक्ट तक: इंजीनियर की भूमिका का परिवर्तन

Anthropic का यह प्रयोग दर्शाता है कि इंजीनियर की भूमिका कोड लेखक से सिस्टम डिज़ाइनर और ऑडिटर की ओर स्थानांतरित हो गई है। अब महत्वपूर्ण क्षमता स्वयं एल्गोरिदम लिखने की नहीं, बल्कि तार्किक बाधाओं और सत्यापन हार्नेस को डिज़ाइन करने की है ताकि AI एजेंटों की सेना पटरी से न उतरे।

20,000 डॉलर की लागत केवल एक खर्च नहीं है, बल्कि एक मील का पत्थर है जो दिखाता है कि परिष्कृत मानवीय डिज़ाइन द्वारा समर्थित होने पर AI स्वचालन की किस सीमा तक पहुँच सकता है। कंपनियों को अब केवल AI की स्वायत्तता में नहीं खोना चाहिए, बल्कि मानवीय रणनीतिक संचालन (steering) को व्यवस्थित करने पर ध्यान केंद्रित करना चाहिए।

20,000 डॉलर से निर्मित 16 Claude एजेंटों की सेना: C कंपाइलर के स्वायत्त विकास की वास्तविकता

RALF लूप: AI के स्मृति प्रदूषण (Memory Pollution) को रोकने वाला डिज़ाइन

Refresh: सेशन की शुरुआत में पिछली अनावश्यक यादों को रीसेट किया जाता है। इसके बजाय, एकाग्रता बनाए रखने के लिए केवल वर्तमान मील के पत्थर (milestones) और विफलता रिकॉर्ड वाले ब्रीफिंग पैक दिए जाते हैं।
Act: मानवीय आदेश के बिना, एजेंट स्वयं प्राथमिकताएं तय करते हैं और एडिटर या बिल्ड टूल चलाते हैं।
Learn: एजेंट त्रुटियों को Grep-friendly टेस्ट लॉग के माध्यम से स्वयं सीखते हैं जिन्हें समझना उनके लिए आसान होता है।
Feedback: कार्य विवरण और अगले कार्यकर्ता के लिए गाइड को README.md में रिकॉर्ड किया जाता है और ज्ञान को सिंक्रनाइज़ करने के लिए Git पर पुश किया जाता है।

कार्य दोहराव को रोकने के लिए टेक्स्ट-आधारित लॉकिंग प्रोटोकॉल

ओरेकल रणनीति: अनुमान न लगाएं, सत्यापित करें

कर्नल फ़ाइलों का आधा हिस्सा GCC के साथ और दूसरा आधा Claude के साथ बनाया जाता है।
त्रुटि के बिंदु को आधा-आधा करके कम किया जाता है जब तक कि हज़ारों फ़ाइलों में से समस्या वाली उस एक पंक्ति को नहीं खोज लिया जाता।
इस पद्धति ने डिबगिंग दक्षता में लगभग 50% सुधार किया और भौतिक रूप से AI मतिभ्रम की संभावना को रोक दिया।

तकनीकी सीमाएँ: AI जिसे पार नहीं कर सका, वह है अनुकूलन (Optimization) की दीवार

मेमोरी प्रबंधन दोष: ओनरशिप मॉडल को अनुकूलित करने के बजाय, इसने सभी डेटा को अलग-अलग बफर में कॉपी करने का अक्षम तरीका चुना।
हार्डवेयर समझ की कमी: x86 16-बिट रियल मोड की सख्त मेमोरी सीमा (32KB) को पार करने में असमर्थ होने के कारण, अंततः इस हिस्से में मानवीय हस्तक्षेप या GCC कोड की मदद लेनी पड़ी।
एल्गोरिदम कार्यान्वयन का अभाव: रजिस्टर आवंटन के लिए गणितीय विश्लेषण स्वतंत्र रूप से करने के बजाय, यह केवल निर्देशों का शाब्दिक अनुवाद करने तक सीमित रहा।

कॉर्पोरेट एजेंट अपनाने के लिए निर्णय चेकलिस्ट

एजेंटिक वर्कफ़्लो अपनाने के मानदंड

प्रश्न	हाँ	नहीं
क्या आउटपुट को परीक्षणों के माध्यम से निष्पक्ष रूप से सत्यापित किया जा सकता है?	अगले चरण पर जाएँ	अपनाने के लिए अनुपयुक्त (मतिभ्रम का जोखिम)
क्या कोई तुलनीय मौजूदा उपकरण (ओरेकल) उपलब्ध है?	ओरेकल रणनीति अपनाएं	निरंतर मानवीय निगरानी आवश्यक
क्या कार्य को 100 या अधिक इकाइयों में विभाजित किया जा सकता है?	समानांतर एजेंट संचालन	एकल एजेंट की सिफारिश

निर्माण के लिए आवश्यक तत्व

Grep-friendly हार्नेस: एक ऐसा लॉग स्ट्रक्चर डिज़ाइन करें जिससे एजेंट 1 सेकंड के भीतर सफलता/विफलता की पहचान कर सके।
स्थिति रिकॉर्ड स्वचालन: एजेंट के बंद होने से पहले progress.json आदि में प्रगति रिकॉर्ड करना अनिवार्य करें।
ह्यूमन गार्डरेल: सुरक्षा या प्रमाणीकरण जैसे संवेदनशील कोड को अलग रखें और सुनिश्चित करें कि वे मानवीय समीक्षा से गुजरें।

20,000 डॉलर से निर्मित 16 Claude एजेंटों की सेना: C कंपाइलर के स्वायत्त विकास की वास्तविकता

Related Video

$20,000। 2 हफ्ते। 16 Claude एजेंट्स। Anthropic का पहला AI द्वारा बनाया गया C कंपाइलर

20,000 डॉलर से निर्मित 16 Claude एजेंटों की सेना: C कंपाइलर के स्वायत्त विकास की वास्तविकता

RALF लूप: AI के स्मृति प्रदूषण (Memory Pollution) को रोकने वाला डिज़ाइन

कार्य दोहराव को रोकने के लिए टेक्स्ट-आधारित लॉकिंग प्रोटोकॉल

ओरेकल रणनीति: अनुमान न लगाएं, सत्यापित करें

तकनीकी सीमाएँ: AI जिसे पार नहीं कर सका, वह है अनुकूलन (Optimization) की दीवार

कॉर्पोरेट एजेंट अपनाने के लिए निर्णय चेकलिस्ट

एजेंटिक वर्कफ़्लो अपनाने के मानदंड

निर्माण के लिए आवश्यक तत्व

कोडर से आर्किटेक्ट तक: इंजीनियर की भूमिका का परिवर्तन

Comments (0)

20,000 डॉलर से निर्मित 16 Claude एजेंटों की सेना: C कंपाइलर के स्वायत्त विकास की वास्तविकता

RALF लूप: AI के स्मृति प्रदूषण (Memory Pollution) को रोकने वाला डिज़ाइन

कार्य दोहराव को रोकने के लिए टेक्स्ट-आधारित लॉकिंग प्रोटोकॉल

ओरेकल रणनीति: अनुमान न लगाएं, सत्यापित करें

तकनीकी सीमाएँ: AI जिसे पार नहीं कर सका, वह है अनुकूलन (Optimization) की दीवार

कॉर्पोरेट एजेंट अपनाने के लिए निर्णय चेकलिस्ट

एजेंटिक वर्कफ़्लो अपनाने के मानदंड

निर्माण के लिए आवश्यक तत्व

कोडर से आर्किटेक्ट तक: इंजीनियर की भूमिका का परिवर्तन