इतने सारे टोकन बर्बाद न करें! एक ही स्थानीय LLM के साथ PI कोडिंग एजेंट बनाम OPENCODE।

LLuigi Tech
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00नमस्ते सभी को, यह 'एजेंट बनाम ओपन कोड' का एक डेमो है और हम इनका परीक्षण करेंगे
00:00:09इस उदाहरण पर दो हार्नेस; यह एक गेम है जिसे मैंने अपने पिछले वीडियो में वाइब-कोड किया था
00:00:20यह वाला और हाँ, इस वीडियो में मैं परीक्षण करना चाहता हूँ कि इस गेम को कैसे ठीक किया जाए
00:00:29क्योंकि इसमें कुछ बग्स हैं, उदाहरण के लिए जैसा कि आप देख सकते हैं, X मार्कर ने मैच जीत लिया
00:00:38लेकिन सेल हाइलाइट नहीं हुए हैं, इसलिए हम एक स्थानीय LLM के साथ इसी तरह का सुधार करने की कोशिश करेंगे
00:00:51एक स्थानीय LLM के साथ, जो Qwen 2.5 3B है, जो मेरी राय में सबसे अच्छा मॉडल है
00:01:04जिसे आप अभी अपने कंप्यूटर पर चला सकते हैं, तो चलिए पहले Pi के साथ कोशिश करते हैं
00:01:16तो यह Pi है और मैं इसे इस निर्देशिका के अंदर चलाऊंगा जहाँ स्रोत अलग-अलग फाइलों में हैं
00:01:30तो मेरे पास index.html, game.js और style.js हैं और हम कोशिश करेंगे
00:01:42दोनों हार्नेस के अंदर एक ही प्रॉम्प्ट और हम परिणामों की तुलना करेंगे और मैं
00:01:55यह देखने के लिए एक टाइमर का भी उपयोग करूँगा कि कार्य करने में कितना समय लगेगा। तो यह प्रॉम्प्ट है।
00:02:11प्रॉम्प्ट है: सेल क्यूब्स को अधिक दृश्यमान बनाएं और उनके बीच जगह जोड़ें
00:02:19क्योंकि जैसा कि आप यहाँ देख सकते हैं, क्यूब्स एक-दूसरे के बहुत करीब हैं और फिर हमारे पास
00:02:28दूसरा कार्य है जो विजेता लॉजिक को बेहतर बनाना है; जीतने वाले मार्कर
00:02:37हरे हो जाने चाहिए और यह एक और समस्या है क्योंकि आप यह नहीं देखते कि
00:02:46खिलाड़ी मार्करों के साथ कहाँ जीता और हाँ, इसने मेरे प्रॉम्प्ट का पालन करना शुरू कर दिया और यह
00:02:59Pi है, इसलिए यह वर्तमान निर्देशिका का विश्लेषण करना शुरू करता है और यहाँ आप
00:03:09उपयोग किए गए संदर्भ को देख सकते हैं, लेकिन शायद यह देखना अधिक दिलचस्प है कि गेम को ठीक करने में
00:03:20कितना समय लगा और हाँ, यह काम कर रहा है और फिर हम वही कार्य करेंगे
00:03:30ओपन कोड के साथ और मैं उसी तरह का परीक्षण करने के लिए रेपो को रीसेट कर दूँगा। तो अब मैं
00:03:41वीडियो को थोड़ी देर के लिए रोक दूँगा और जब यह गेम को ठीक कर लेगा तब आपसे मिलूँगा।
00:04:00ठीक है, हो गया। यह अभी भी परिवर्तनों की रिपोर्ट लिख रहा है और फिर हम परिणामों का परीक्षण करेंगे।
00:04:20ठीक है, हो गया। Qwen 3.6 के साथ 7 मिनट और 44 सेकंड लगे, तो चलिए
00:04:38परिणामों को आजमाते हैं। तो यह रिपोर्ट है, यह वही है जो तकनीकी रूप से कोड में हुआ है
00:04:47और जैसा कि आप देख सकते हैं इसने कई बार कई हिस्सों में game.js को आंशिक रूप से पढ़ा
00:04:58और यह एक डिफ भी है तो जैसा कि आप देख सकते हैं इसे फाइल में काफी कुछ
00:05:09एडिट करना पड़ा और कुल मिलाकर 9.4k टोकन भेजे गए और 2.8k प्राप्त हुए, तो यह
00:05:23कॉन्टेक्स्ट उपयोग का परिणाम है। तो चलिए परिणाम को आजमाते हैं, रीलोड करते हैं और जैसा कि
00:05:35आप देख सकते हैं अब सेल क्यूब्स अधिक स्पष्ट और एक-दूसरे से अधिक अलग हैं
00:05:44तो चलिए गेम खेलते हैं। मैं सेंटर सेल से शुरुआत करूँगा, ठीक है और मैं इसे जीतने दूँगा
00:06:00ठीक है परफेक्ट, तो अब कंप्यूटर जीत गया है और जैसा कि आप देख सकते हैं हमारे पास क्यूब्स अधिक
00:06:11अलग-अलग हैं और विजेता मार्कर भी हाइलाइट किए गए हैं, तो यह काम करता है और यह
00:06:20Pi कोडिंग एजेंट के साथ था। अब हम वही परीक्षण ओपन कोड और उसी मॉडल
00:06:30और उसी कोड के साथ करेंगे तो मैं कोड को रीसेट कर दूँगा। ठीक है, तो अब बदलाव वापस
00:06:50बग वाले संस्करण पर आ गए हैं और अब हम ओपन कोड के साथ वही प्रॉम्प्ट आजमाएंगे
00:07:00सेल्स के लिए और विन लॉजिक के लिए, और मैं बसिको के साथ उसी मॉडल का उपयोग करूँगा
00:07:11और बसिको एक कस्टम एजेंट है जिसे मैंने बनाया है और शुरू भी किया है
00:07:27और मैंने बसिको एजेंट बनाया क्योंकि यह डिफॉल्ट कोडिंग एजेंट की तुलना में बहुत सरल है
00:07:36और बसिको एजेंट यह है
00:07:56यह सिर्फ एक साधारण मार्कडाउन फाइल है; तो आप बसिको एक मिनिमल एजेंट हैं और हाँ मैंने
00:08:07यहाँ बहुत कुछ निर्दिष्ट नहीं किया है, बस सर्च इंजन टूल के साथ वेब फेच का उपयोग करने के लिए
00:08:15जिसका हम इस उपयोग के मामले में उपयोग नहीं करेंगे, तो यह एक बहुत ही सरल एजेंट है सिर्फ यह
00:08:24देखने के लिए, ओपन कोड के लिए समान परिस्थितियाँ फिर से बनाने के लिए और हम पहले से ही
00:08:3412k कॉन्टेक्स्ट का उपयोग कर रहे हैं। तो यह index game.js के साथ शुरू हुआ और यहाँ भी हम
00:08:47वीडियो पॉज के बाद अंतिम परिणाम देखेंगे, यह अभी भी चल रहा है और यहाँ बहुत अधिक
00:08:58फीडबैक नहीं है और मैं यह भी कहना चाहता था कि मैंने Gemma के साथ भी यही परीक्षण किया था
00:09:07लेकिन यह इस तरह के प्रोजेक्ट पर टूल कॉलिंग करने में सक्षम नहीं था
00:09:20तो Gemma 3d टिक-टैक-टो गेम को फिर से बनाने में सक्षम था लेकिन फिर
00:09:30यह इन फाइलों को एडिट करने के लिए टूल कॉल नहीं कर पाया, इसलिए मैंने यह परीक्षण केवल
00:09:38Qwen 3.6 के साथ किया क्योंकि मुझे लगता है कि यह इस तरह के स्थानीय परिदृश्यों के लिए सबसे अच्छा है
00:09:48हाँ दिलचस्प है क्योंकि यह टू-डू को भर रहा है; दो कार्य हैं, एक है
00:09:58सेल क्यूब्स को अधिक दृश्यमान बनाना और दूसरा लॉजिक को ठीक करना, तो इसमें थोड़ा सा
00:10:07ओवरहेड होगा Pi एजेंट की तुलना में, लेकिन Pi एजेंट बिना किसी बीच के
00:10:17टू-डू के इस तरह के कार्य को करने में सक्षम था, लेकिन शायद अधिक जटिल
00:10:26स्थितियों में टू-डू होना उपयोगी हो सकता है, लेकिन हाँ, यह LLM मॉडल है
00:10:35जो मेरी राय में बड़ा अंतर पैदा करता है, न कि हार्नेस, लेकिन हम
00:10:44देखेंगे
00:10:56आप
00:11:27ठीक है लगभग हो गया, दोनों टू-डू पूरे हो गए हैं लेकिन इसे अभी भी पढ़ना है और
00:11:40फिर फाइल में लिखना है
00:11:52ठीक है यह रिपोर्ट लिख रहा है, मुझे उम्मीद है कि यह फिर समाप्त हो जाएगा और हमें 12
00:12:05मिनट हो गए हैं तो यह ज्यादा है लेकिन ठीक है यह समाप्त हो गया है। पॉज़ करें और जैसा कि आप देख सकते हैं
00:12:15ओपन कोड के साथ इस्तेमाल किया गया कॉन्टेक्स्ट लगभग 23k है और शायद वे
00:12:26इस्तेमाल किए गए टोकन को अलग तरीके से रिपोर्ट करते हैं लेकिन ऐसा लगता है कि Pi ने समस्याओं को ठीक करने के लिए आधे टोकन का उपयोग किया
00:12:36तो यह तकनीकी रिपोर्ट है; इसने सुधार करने के लिए कई बार
00:12:46game.js को खोला। तो चलिए गेम को आजमाते हैं यह देखने के लिए कि क्या सुधार वास्तव में
00:12:57काम करते हैं; रीलोड करें और यह Pi वर्जन जैसा ही लगता है, सेंटर सेल ठीक है
00:13:19चलिए गेम जीतने की कोशिश करते हैं। ठीक है मैं जीत गया और जैसा कि आप देख सकते हैं हमें वही परिणाम मिला
00:13:32जो हमें Pi के साथ मिला था लेकिन अधिक टोकन और समाधान के लिए खर्च किए गए अधिक समय के साथ
00:13:43तो इस उपयोग के मामले में ओपन कोड, जिसमें आमतौर पर कई विशेषताएं होती हैं
00:13:55जैसे गार्डरेल्स और अधिक प्रॉम्प्ट ट्वीक्स, उसे भी वही समाधान मिला जो हमें
00:14:06Pi के साथ मिला था लेकिन कम समय और कम टोकन में। तो निष्कर्ष में, मेरी राय में जैसा कि
00:14:18मैंने पहले कहा था, इस्तेमाल किया गया LLM सबसे प्रासंगिक और महत्वपूर्ण हिस्सा है
00:14:28हार्नेस उपयोगी और महत्वपूर्ण हैं लेकिन डेटा की गुणवत्ता अधिक महत्वपूर्ण है
00:14:36जो इसे कॉन्टेक्स्ट में डालता है और Pi कोडिंग एजेंट के साथ इस स्थिति में
00:14:47हमारे पास कम ओवरहेड है और हमें LLM में बहुत बड़े प्रॉम्प्ट के बिना भी अच्छा परिणाम मिला
00:14:58मुझे कमेंट्स में बताएं कि आपका पसंदीदा ओपन सोर्स हार्नेस कोडिंग एजेंट कौन सा है
00:15:06और मिलते हैं अगले वीडियो में, बाय

Key Takeaway

स्थानीय LLM कोडिंग कार्यों में हार्नेस की जटिलता के बजाय मॉडल की डेटा गुणवत्ता और कम ओवरहेड वाला प्रॉम्प्टिंग टोकन दक्षता और गति को 50% तक बढ़ा देता है।

Highlights

  • Qwen 2.5 3B स्थानीय स्तर पर चलाने के लिए उपलब्ध सबसे प्रभावी लघु भाषा मॉडल (SLM) है।

  • Pi कोडिंग एजेंट ने टिक-टैक-टो बग को ठीक करने के लिए केवल 9,400 इनपुट और 2,800 आउटपुट टोकन का उपयोग किया।

  • ओपनकोड हार्नेस को समान कार्य पूरा करने में 23,000 टोकन खर्च करने पड़े, जो Pi की तुलना में दोगुने से अधिक है।

  • Pi कोडिंग एजेंट ने 7 मिनट 44 सेकंड में सुधार पूरा किया, जबकि ओपनकोड को उसी स्थानीय मॉडल के साथ 12 मिनट से अधिक समय लगा।

  • Gemma मॉडल स्थानीय कोडिंग परिदृश्यों में टूल-कॉलिंग और फाइल संपादन कार्यों को निष्पादित करने में विफल रहा।

Timeline

स्थानीय कोडिंग एजेंटों का सेटअप और परीक्षण उद्देश्य

  • परीक्षण एक 3D टिक-टैक-टो गेम में विजुअल बग और विजेता लॉजिक को ठीक करने पर केंद्रित है।
  • स्थानीय निष्पादन के लिए Qwen 2.5 3B मॉडल को इसकी दक्षता के कारण चुना गया है।
  • प्रोजेक्ट संरचना में index.html, game.js और style.js जैसी अलग-अलग फाइलें शामिल हैं।

3D गेम के वर्तमान संस्करण में जीत के बाद सेल हाइलाइट नहीं होते हैं और क्यूब्स के बीच दृश्य स्पष्टता की कमी है। इन समस्याओं को हल करने के लिए Pi कोडिंग एजेंट और ओपनकोड के बीच सीधे प्रदर्शन की तुलना की जा रही है। टाइमर का उपयोग कार्य पूरा करने की गति को मापने के लिए किया जाता है।

Pi कोडिंग एजेंट का प्रदर्शन और टोकन खपत

  • Pi एजेंट ने 7 मिनट और 44 सेकंड के भीतर कोड में आवश्यक बदलाव सफलतापूर्वक लागू किए।
  • सुधार प्रक्रिया के दौरान कुल 9.4k टोकन भेजे गए और 2.8k टोकन प्राप्त हुए।
  • संशोधित कोड में सेल क्यूब्स के बीच अंतराल बढ़ गया और जीतने वाले मार्कर हरे रंग में हाइलाइट होने लगे।

निर्देशिका का विश्लेषण करने के बाद Pi ने game.js फाइल को आंशिक रूप से पढ़ा और सटीक डिफ (diff) संपादन किया। यह विधि कम इनपुट टोकन का उपयोग करती है क्योंकि यह पूरे कोडबेस को बार-बार लोड करने के बजाय केवल आवश्यक हिस्सों पर ध्यान केंद्रित करती है। परिणामी गेम पूरी तरह कार्यात्मक है और विजुअल फीडबैक की समस्या हल हो गई है।

ओपनकोड और बसिको एजेंट की तुलनात्मक अक्षमता

  • ओपनकोड हार्नेस ने उसी कार्य को पूरा करने के लिए लगभग 23,000 टोकन का उपयोग किया।
  • कार्य पूरा करने में लगा कुल समय 12 मिनट से अधिक था, जो Pi से काफी धीमा है।
  • बसिको जैसे सरल कस्टम एजेंट भी अत्यधिक प्रॉम्प्ट ओवरहेड के कारण टोकन बर्बादी को कम नहीं कर पाए।

ओपनकोड में गार्डरेल्स और जटिल प्रॉम्प्ट ट्वीक्स के कारण अतिरिक्त ओवरहेड पैदा होता है। इसने कई बार game.js फाइल को खोला और टू-डू लिस्ट भरने में समय बिताया, जो छोटे कार्यों के लिए अनावश्यक साबित हुआ। हालाँकि अंतिम परिणाम Pi के समान ही था, लेकिन संसाधन उपयोग और समय की लागत बहुत अधिक थी।

मॉडल चयन और अंतिम निष्कर्ष

  • स्थानीय कोडिंग सफलता में सॉफ्टवेयर हार्नेस की तुलना में LLM की क्षमता अधिक महत्वपूर्ण है।
  • Qwen 3.6 स्थानीय स्तर पर टूल कॉलिंग और फाइल संपादन के लिए सबसे विश्वसनीय विकल्प है।
  • कम ओवरहेड वाले एजेंट बेहतर परिणाम देते हैं क्योंकि वे LLM के संदर्भ को अनावश्यक निर्देशों से नहीं भरते।

Gemma जैसे अन्य मॉडलों ने समान परिस्थितियों में टूल कॉलिंग करने में असमर्थता दिखाई, जिससे वे कोडिंग एजेंट के रूप में अनुपयुक्त हो गए। निष्कर्ष यह है कि डेटा की गुणवत्ता और संदर्भ को न्यूनतम रखना ही कुशल स्थानीय AI विकास की कुंजी है। Pi कोडिंग एजेंट अपनी सादगी और गति के कारण ओपनकोड से बेहतर प्रदर्शन करता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video