AI एजेंट्स अनियमित होते हैं... यह समाधान उन्हें नियतात्मक (Deterministic) बनाता है (Archon)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00AI एजेंट्स बहुत ज़्यादा शक्तिशाली होते जा रहे हैं, लेकिन वे अभी भी बेतरतीब हैं।
00:00:04हम उन्हें बिल्कुल एक जैसा काम देते हैं, और हमें हर बार अलग-अलग कोड, अलग क्वालिटी,
00:00:09और यहाँ तक कि अलग-अलग फैसले मिलते हैं।
00:00:12एजेंट्स के साथ काम करने की हकीकत कुछ ऐसी ही है।
00:00:15लेकिन पता चला है कि ऐसा होना ज़रूरी नहीं है।
00:00:17यह Archon है, और यह अब बिना किसी मर्ज कॉन्फ्लिक्ट और सटीक परिणामों के
00:00:22समानांतर में कई एजेंट्स चला सकता है।
00:00:24अगले कुछ मिनटों में मैं आपको दिखाऊँगा कि इसे कैसे सेट अप करना है और यह कैसे काम करता है।
00:00:30अब, Claude code, cursor, या codex का उपयोग करते हुए, हम जानते हैं कि पहली बार में यह शानदार लगता है।
00:00:39दूसरी बार में योजना पूरी तरह अलग हो सकती है।
00:00:42कॉन्टेक्स्ट भटक सकता है।
00:00:44एजेंट बीच रास्ते में ही दिशा बदल देता है।
00:00:47फिर आप इसे स्केल करने की कोशिश करते हैं।
00:00:49दो एजेंट्स, शायद तीन, चार एजेंट्स।
00:00:51अब आपकी रेपो पूरी तरह से गड़बड़ हो गई है।
00:00:54और यहाँ असली समस्या है।
00:00:55अब आप वाकई समय नहीं बचा रहे हैं।
00:00:57आप प्रॉम्प्ट्स को बार-बार चला रहे हैं।
00:00:58आप टूटे हुए कोड को ठीक कर रहे हैं, इस उम्मीद में कि इस बार सब कुछ न बिगड़ जाए।
00:01:02और अगर आप कुछ बना रहे हैं, तो यह वास्तव में हमारी स्पीड को खत्म कर देता है।
00:01:06Archon इसे “हार्नेस इंजीनियरिंग” नामक चीज़ से ठीक करता है।
00:01:10एजेंट के व्यवहार की उम्मीद करने के बजाय, आप वास्तव में प्रक्रिया को परिभाषित करते हैं।
00:01:14प्लानिंग, कोडिंग, टेस्टिंग, रिव्यू, सब कुछ YAML में।
00:01:18और एजेंट स्किल्स, वे रियूज़ेबल इंस्ट्रक्शन पैक्स हैं जिन्हें एजेंट अपने आप लोड कर लेता है।
00:01:23तो अंदाज़ा लगाने के बजाय, आपका एजेंट एक सिस्टम का पालन करता है।
00:01:28अगर आप ऐसे कोडिंग टूल्स पसंद करते हैं जो आपके वर्कफ़्लो को तेज़ करते हैं, तो सब्सक्राइब ज़रूर करें।
00:01:32हमारे वीडियो हर समय आते रहते हैं।
00:01:34ठीक है, अब मैं आपको दिखाता हूँ।
00:01:36यह मेरे M4 Pro पर लोकली चल रहा है, कोई क्लाउड नहीं।
00:01:40मैं 'archonserv' टाइप कर सकता हूँ।
00:01:43इससे यह UI इंटरफ़ेस सामने आ जाता है।
00:01:45मैं Claude के साथ इस रेपो में Archon स्किल इंस्टॉल करूँगा।
00:01:49अब मैं इस समस्या को ठीक करने के लिए एक साधारण वर्कफ़्लो चलाता हूँ।
00:01:54अब इस हिस्से को ध्यान से देखें।
00:01:55एजेंट खुद ही स्किल ढूँढ लेता है, वर्कफ़्लो लोड करता है और स्टेप-बाय-स्टेप उसे चलाता है।
00:02:02आप इसे यहाँ टर्मिनल में या यहाँ UI पर देख सकते हैं।
00:02:04यह कहीं बेहतर लग रहा है।
00:02:05यहाँ प्रॉम्प्ट में कोई फेरबदल नहीं करना पड़ता।
00:02:07यहाँ तक कि जब यह फेल होता है, तब भी आपको UI में पूरी पारदर्शिता मिलती है।
00:02:11आप देख सकते हैं कि कौन सा स्टेप टूटा और वर्कफ़्लो को ठीक कर सकते हैं।
00:02:15यह रॉ Claude code से बहुत बेहतर है जहाँ आपको बस उलझी हुई चैट हिस्ट्री मिलती है।
00:02:20यह हिस्सा बहुत महत्वपूर्ण है।
00:02:21यह अपने खुद के Git वर्क ट्री पर भी चलता है, इसलिए यह कभी भी 'main' को नहीं छूता।
00:02:26यह प्रॉम्प्ट कर रहा है और आप यहाँ देख सकते हैं कि यह इसे जेनरेट करता है।
00:02:29यह हो गया, एकदम साफ PR, वही स्ट्रक्चर, वही परिणाम।
00:02:33हम लॉग्स देख सकते हैं, प्रॉम्प्ट्स किस प्रक्रिया से गुज़रते हैं और पूरा आउटपुट देख सकते हैं।
00:02:38सटीकता ऐसी ही दिखती है।
00:02:40तो यहाँ वास्तव में क्या बदला है?
00:02:42खैर, Archon का उपयोग करके तीन चीज़ें बदल गई हैं।
00:02:45पहला, वर्कफ़्लो।
00:02:47Archon YAML DAGs का उपयोग करता है।
00:02:50इसे एक चेकलिस्ट की तरह समझें जिसका एजेंट को पालन करना ही होता है।
00:02:53कुछ स्टेप्स AI का उपयोग करते हैं, बेशक।
00:02:56कुछ स्टेप्स फिक्स होते हैं।
00:02:58यही तालमेल इसे और अधिक भरोसेमंद बनाता है।
00:03:00फिर हमारे पास आइसोलेशन (अलगाव) है।
00:03:01हर रन एक अलग Git वर्क ट्री में होता है, इसलिए एजेंट एक-दूसरे के ऊपर ओवरराइट नहीं कर सकते।
00:03:06यही कारण है कि कोई मर्ज कॉन्फ्लिक्ट नहीं होते।
00:03:08स्किल्स में, हर बार प्रॉम्प्ट भरने के बजाय, एजेंट कॉन्टेक्स्ट को अपने आप लोड कर लेता है।
00:03:14तो सामान्य एजेंट्स की तुलना में, आप इस सारी अनिश्चितता को दूर कर देते हैं।
00:03:19LangChain जैसे टूल्स के साथ तुलना करें।
00:03:22LangChain शानदार है, लेकिन Archon कोड के लिए बनाया गया है, सामान्य बॉट्स के लिए नहीं।
00:03:27और स्क्रिप्ट्स की तुलना में, यह रियूज़ेबल है।
00:03:30यह वर्जन कंट्रोल के साथ है।
00:03:31यह आसानी से खोजा जा सकता है।
00:03:32एजेंट अब अंदाज़ा नहीं लगा रहा है।
00:03:34हमारे पास यह पूरा वर्कफ़्लो है जिससे वह गुज़र रहा है।
00:03:36यह इस वास्तविक सिस्टम का पालन कर रहा है।
00:03:38अब हम एक ही समय में कई एजेंट्स चला सकते हैं और रेपो बिगड़ने की चिंता नहीं करनी पड़ती।
00:03:42आप ऐसे PR जनरेट कर सकते हैं जो हर बार एक जैसे दिखते हैं।
00:03:45और बड़ी बात यह है कि आप चैट हिस्ट्री में जानकारी खोना बंद कर देते हैं।
00:03:49आपकी प्रक्रिया अब वर्कफ़्लो में रहती है, जिसका मतलब है कि इसके उपयोग से हर रन अधिक सटीक हो जाता है।
00:03:56इसके साथ, साफ-सुथरे PR और अधिक पूर्वानुमानित परिणाम मिलते हैं।
00:03:58यह वही इनपुट है, यह वही आउटपुट है।
00:04:00यही वह हिस्सा था जिसकी एजेंट्स में कमी थी।
00:04:02अब यह एकदम परफेक्ट तो नहीं है, है ना?
00:04:04लेकिन इसमें अच्छा क्या है?
00:04:05ठीक है, यह ओपन सोर्स है, यह लोकली बहुत अच्छा चलता है, खासकर M चिप्स पर, ठीक है?
00:04:10कुछ ऐसे भी हैं जिनमें VPS कॉन्फ़िगरेशन होता है।
00:04:13मुझे यहाँ उसकी ज़रूरत नहीं है।
00:04:14YAML सब कुछ पारदर्शी बना देता है।
00:04:16हमारे लिए यह एक बड़ी जीत है और Git वर्क ट्री एक वास्तविक समस्या को हल करते हैं।
00:04:19लेकिन फिर से, इसका मतलब कुछ और भी है।
00:04:21आपको पहले से सोचना होगा।
00:04:23वर्कफ़्लो डिज़ाइन करने में थोड़ी मेहनत लगेगी और यह अभी भी विकसित हो रहा है, ठीक है?
00:04:28चीज़ें बदलेंगी।
00:04:29वे विकसित होंगी, लेकिन वे बढ़ रही हैं।
00:04:31और अगर आप सिर्फ त्वरित प्रॉम्प्ट दे रहे हैं, तो शायद आपको इसकी ज़रूरत भी नहीं है।
00:04:34सच कहूँ तो, यह सिर्फ समय की बर्बादी होगी।
00:04:36इसके अलावा, मॉडल अभी भी मायने रखता है।
00:04:38तो ज़ाहिर है कि एक बेहतर मॉडल हमें बेहतर आउटपुट देगा।
00:04:42अगर आप एजेंट की गलतियों को ठीक करते-करते थक गए हैं, तो इसे ज़रूर आज़माना चाहिए।
00:04:46अगर आप कुछ ऐसा चाहते हैं जिस पर आप खुद पर संदेह किए बिना भरोसा कर सकें, तो यह काफी सार्थक है।
00:04:52अगर आप सिर्फ प्रयोग कर रहे हैं, तो हाँ, मैं भी इसके लिए प्रयोग ही कर रहा था।
00:04:55मैंने इसे सरल रखा।
00:04:56यह बढ़िया काम करता है।
00:04:57मुझे देखने को मिला कि यह सब क्या है।
00:04:58लेकिन अगर आप एजेंट्स के साथ निर्माण करने के लिए गंभीर हैं, तो यह मेरे सामने आए अब तक के सबसे उच्च-प्रभाव वाले टूल्स में से एक है।
00:05:04यही वह चीज़ है जो एजेंट्स को उन साधारण डेमो से बदल देती है जिनका हम उपयोग कर रहे हैं,
00:05:08और इसे हमारे वर्कफ़्लो में शामिल करके हम अधिक भरोसे के साथ काम कर सकते हैं।
00:05:13यह बहुत सरल है।
00:05:14इससे पहले कि आप उम्मीद करें कि एजेंट सही काम करे, ठीक है?
00:05:16आखिर वह एक एजेंट है।
00:05:17अब हम परिभाषित करते हैं कि यह कैसे काम करता है।
00:05:20यही उनका दावा है या यही हार्नेस इंजीनियरिंग है।
00:05:23अगर आप इस तरह के कोडिंग टूल्स और टिप्स का आनंद लेते हैं, तो Better Stack चैनल को सब्सक्राइब ज़रूर करें।
00:05:27हम आपको एक और वीडियो में मिलेंगे।

Key Takeaway

Archon पारंपरिक AI एजेंट्स की अनिश्चितता को YAML आधारित वर्कफ़्लो और Git वर्क ट्री अलगाव के माध्यम से एक पूर्वानुमेय और स्केलेबल सॉफ्टवेयर डेवलपमेंट सिस्टम में बदल देता है।

Highlights

  • Archon पारंपरिक AI कोडिंग टूल्स की तुलना में नियतात्मक (Deterministic) परिणाम सुनिश्चित करने के लिए 'हार्नेस इंजीनियरिंग' (Harness Engineering) का उपयोग करता है।

  • यह सिस्टम YAML आधारित Directed Acyclic Graphs (DAGs) का उपयोग करके प्लानिंग, कोडिंग और टेस्टिंग की प्रक्रियाओं को सख्ती से परिभाषित करता है।

  • प्रत्येक एजेंट रन एक अलग Git वर्क ट्री (Worktree) में संचालित होता है, जो मुख्य कोडबेस को छुए बिना मर्ज कॉन्फ्लिक्ट की संभावना को पूरी तरह समाप्त कर देता है।

  • एजेंट 'स्किल्स' (Skills) नामक रियूज़ेबल इंस्ट्रक्शन पैक्स को स्वचालित रूप से लोड करते हैं, जिससे बार-बार प्रॉम्प्ट इंजीनियरिंग करने की आवश्यकता नहीं रहती।

  • Archon स्थानीय स्तर पर Apple M4 Pro जैसे M-सीरीज चिप्स पर बिना किसी क्लाउड निर्भरता के प्रभावी ढंग से काम करता है।

Timeline

AI एजेंट्स की अनिश्चितता और स्केलिंग की चुनौतियाँ

  • एक ही निर्देश देने पर AI एजेंट्स अक्सर हर बार अलग-अलग गुणवत्ता और निर्णय प्रदान करते हैं।
  • एजेंट्स के बीच कॉन्टेक्स्ट का भटकना और दिशा बदलना बड़े कोडबेस को प्रबंधित करना असंभव बना देता है।
  • मर्ज कॉन्फ्लिक्ट और टूटे हुए कोड को ठीक करने में लगने वाला समय एजेंट्स से मिलने वाली उत्पादकता को खत्म कर देता है।

Claude, Cursor या Codex जैसे वर्तमान टूल्स प्रारंभिक उपयोग में प्रभावी लगते हैं, लेकिन बड़े पैमाने पर काम करने पर वे अस्थिर हो जाते हैं। जब एक साथ कई एजेंट्स चलाए जाते हैं, तो रिपॉजिटरी में अराजकता फैल जाती है क्योंकि उनके पास कोई निश्चित कार्यप्रणाली नहीं होती। यह अनिश्चितता डेवलपर्स को समय बचाने के बजाय बार-बार प्रॉम्प्ट सुधारने और त्रुटियों को मैन्युअल रूप से ठीक करने के लिए मजबूर करती है।

हार्नेस इंजीनियरिंग और Archon की कार्यप्रणाली

  • हार्नेस इंजीनियरिंग एजेंट के व्यवहार पर भरोसा करने के बजाय पूरी प्रक्रिया को पहले से परिभाषित करती है।
  • एजेंट्स अपनी ज़रूरत के अनुसार विशिष्ट स्किल्स और वर्कफ़्लो को स्वचालित रूप से खोज और लोड कर सकते हैं।
  • UI इंटरफ़ेस के माध्यम से विफल चरणों की पहचान करना और उन्हें ठीक करना आसान हो जाता है।

Archon का उपयोग करने के लिए स्थानीय मशीन पर 'archonserv' कमांड के माध्यम से UI सक्रिय किया जाता है। यह सिस्टम कोड लिखने के दौरान पारदर्शिता प्रदान करता है, जिससे डेवलपर देख सकते हैं कि कौन सा स्टेप विफल हुआ। Git वर्क ट्री का उपयोग यह सुनिश्चित करता है कि सभी बदलाव 'main' ब्रांच से अलग रहें, जिससे एक साफ-सुथरी पुल रिक्वेस्ट (PR) और सुसंगत संरचना प्राप्त होती है।

स्थिरता के तीन स्तंभ: वर्कफ़्लो, आइसोलेशन और स्किल्स

  • YAML DAGs एक अनिवार्य चेकलिस्ट के रूप में कार्य करते हैं जहाँ कुछ चरण AI-आधारित और कुछ निश्चित (Fixed) होते हैं।
  • आइसोलेशन सुनिश्चित करता है कि कई एजेंट्स एक-दूसरे के काम को ओवरराइट न करें।
  • चैट हिस्ट्री के बजाय वर्कफ़्लो में जानकारी संग्रहीत होने से हर अगला रन अधिक सटीक हो जाता है।

Archon को विशेष रूप से कोडिंग के लिए बनाया गया है, जो इसे LangChain जैसे सामान्य बॉट-बिल्डिंग फ्रेमवर्क से अलग बनाता है। यह सिस्टम अंदाज़ा लगाने की प्रक्रिया को खत्म कर देता है क्योंकि एजेंट एक वास्तविक और पुन: प्रयोज्य सिस्टम का पालन करता है। समान इनपुट पर समान आउटपुट प्राप्त करना ही वह मुख्य विशेषता है जो पहले के एजेंट मॉडलों में मौजूद नहीं थी।

Archon का कार्यान्वयन और सीमाएँ

  • ओपन सोर्स होने के कारण यह स्थानीय M-सीरीज चिप्स पर बिना VPS कॉन्फ़िगरेशन के चलता है।
  • जटिल वर्कफ़्लो डिज़ाइन करने के लिए डेवलपर को अग्रिम योजना और अतिरिक्त प्रयास की आवश्यकता होती है।
  • सिस्टम की सफलता अभी भी उपयोग किए जा रहे मूल AI मॉडल की क्षमता पर निर्भर करती है।

Archon उन डेवलपर्स के लिए सबसे अधिक प्रभावी है जो केवल त्वरित प्रॉम्प्ट देने के बजाय गंभीर एजेंट-आधारित सॉफ्टवेयर निर्माण करना चाहते हैं। हालांकि वर्कफ़्लो सेट अप करना समय ले सकता है, लेकिन यह पारदर्शिता और नियंत्रण प्रदान करता है जो भविष्य के विकास के लिए महत्वपूर्ण है। यह टूल साधारण डेमो और वास्तविक कार्यप्रवाह के बीच के अंतर को कम करता है।

Community Posts

View all posts