Hermes: खुद को बेहतर बनाने वाला AI एजेंट जो हर दिन और भी स्मार्ट होता जाता है

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00ठीक है, हर्मीस एक ओपन-सोर्स AI एजेंट है जिसे अमेरिकी कंपनी न्यूज़ रिसर्च ने बनाया है जो
00:00:06स्व-सुधार (self-improving) करने वाला है। तो मूल रूप से, आप इसका जितना अधिक उपयोग करेंगे, यह उतना ही बेहतर होता जाएगा। यह विचार करता है,
00:00:10अपने आप सीखता और विकसित होता है, यह आपकी कही गई किसी भी बात को कभी नहीं भूलता और यह अपने स्वयं के
00:00:16कौशल (skills) भी बनाता है। लेकिन क्या यह सब OpenClaw जैसी चीज़ को बदलने के लिए पर्याप्त है, जो कई
00:00:22अधिक चैनलों का समर्थन करता है, जिसमें बेहतर सैंडबॉक्सिंग है और जो बहुत अधिक परिपक्व है? सब्सक्राइब दबाएं और चलिए इसमें गहराई से उतरते हैं।
00:00:30तो हर्मीस नाम, इसमें कोई आश्चर्य नहीं कि ग्रीक संदेशवाहक देवता से आया है। और वहीं से
00:00:37यह प्रतीक भी आया है। आप वीडियो में बाद में इसके बारे में और देखेंगे। लेकिन अभी स्थिति यह है कि,
00:00:42मैंने पहले ही OpenClaw के बारे में एक वीडियो बना लिया है, जो बहुत अच्छा है, लेकिन इसमें बहुत सारी सुविधाएँ हैं जिनका मैं
00:00:47व्यक्तिगत रूप से उपयोग नहीं करूँगा। और NanoClaw, जिसमें बहुत छोटा फ़ीचर सेट है, लेकिन इसे
00:00:52Claude एजेंट SDK के ऊपर बनाया गया है, जो अब मेरे लिए कम उपयोगी है क्योंकि
00:00:59थर्ड-पार्टी टूल्स के साथ Claude सब्सक्रिप्शन का उपयोग करने के अजीब नियम हैं। इसलिए अब मैं एक नए AI सहायक की तलाश में हूँ
00:01:04और देखते हैं कि क्या हर्मीस, स्व-सुधार करने वाला AI एजेंट, उस कमी को पूरा कर सकता है। मैं इसका उपयोग
00:01:09अपने द्वारा बनाए गए पिछले वीडियो के आधार पर मेरे लिए प्रमोशनल ट्वीट बनाने के लिए करने जा रहा हूँ। और मैं इसे
00:01:14उस स्तर तक पहुँचने के लिए कुछ स्क्रिप्ट और निर्देश दूँगा। अब, यह काफी छोटा काम है, लेकिन ध्यान
00:01:20इस बात पर अधिक है कि क्या हर्मीस मेरी लेखन शैली और उन सभी फीडबैक को याद रख सकता है जो मैं इसे देने वाला हूँ
00:01:26ताकि वह मेरी पसंद का ट्वीट बना सके, बिना मेरे बार-बार पूछे। चलिए शुरू करते हैं। तो मैंने पहले ही
00:01:30इस कमांड का उपयोग करके हर्मीस इंस्टॉल कर लिया है, जो बहुत सरल है और इसमें
00:01:35मॉडल चुनने से लेकर सब कुछ शामिल था। मैंने Gemma 4 के साथ OpenRouter को चुना, लेकिन अगर मेरा हार्डवेयर इसे संभाल सकता,
00:01:40तो मैं इसे स्थानीय रूप से चलाता और इसे हर्मीस, मैसेजिंग प्लेटफॉर्म और CLI के टूल्स से जोड़ता। अगर आपने
00:01:45OpenClaw का उपयोग किया है, तो यह पूरी प्रक्रिया बहुत जानी-पहचानी लगेगी। मैंने सुरक्षित रहने के लिए इसे VPS पर भी सेटअप किया है,
00:01:51लेकिन अगर आप चाहें, तो आप इसे आसानी से अपनी मशीन पर स्थानीय रूप से इंस्टॉल कर सकते हैं। तो यहाँ से,
00:01:55मैं हर्मीस कमांड लिखूँगा, जो एक नई चैट शुरू करेगा जिसमें यहाँ उपलब्ध टूल्स और स्किल्स के साथ
00:01:59हर्मीस का प्रतीक दिखाई देगा। ध्यान दें, जब आप हर्मीस कमांड चलाते हैं, तो यह एक नया
00:02:04सेशन बनाता है और पिछले वाले को तब तक फिर से शुरू नहीं करता जब तक आप निर्दिष्ट न करें, बिल्कुल क्लाउड कोड की तरह। तो यहाँ मैं
00:02:08इसे एक प्रॉम्प्ट देने जा रहा हूँ। मैं चाहता हूँ कि आप मेरे वीडियो की स्क्रिप्ट के आधार पर ट्वीट लिखने में मेरी मदद करें।
00:02:12आइए ऐसा करने की प्रक्रिया को देखें। थोड़ी देर बाद, यह एक प्रतिक्रिया के साथ आता है,
00:02:16जिसकी संरचना मुझे पसंद है। और इसलिए मैं इसे एक अनुवर्ती प्रॉम्प्ट देने जा रहा हूँ। मेरे पास स्क्रिप्ट्स
00:02:21फ़ोल्डर के अंदर स्क्रिप्ट हैं, मेरी लेखन शैली और आवाज़ को समझने के लिए उनका अध्ययन करें। मैंने इसे अपना
00:02:25लक्षित दर्शक (target audience) और ट्वीट्स की लंबाई भी बता दी है। तो अब यह मेरी फ़ाइलों को खोजने के लिए कुछ टूल्स का उपयोग कर रहा है
00:02:30और थोड़ी देर बाद यह मेरी स्क्रिप्ट का विश्लेषण करता है ताकि मुझे मेरी शैली का विवरण दे सके।
00:02:34तो यह कहता है कि मैं व्यावहारिक और संशयवादी (skeptical) हूँ, जो सच है। मैं डेवलपर-केंद्रित हूँ और मैं पारदर्शी
00:02:40और भरोसेमंद हूँ। इसने मेरे लक्षित दर्शकों के लिए एक रणनीति भी बनाई है, जो मुझे पसंद आई।
00:02:45लेकिन मैंने अपना मन बदल लिया है। भले ही मैंने कहा था कि मैं चाहता हूँ कि ट्वीट लगभग 210 वर्णों के हों,
00:02:50मैं वास्तव में चाहता हूँ कि वे थोड़े लंबे हों। इसलिए मैं इसे एक नया प्रॉम्प्ट देने जा रहा हूँ। और मैंने देखा है कि
00:02:54इसमें काफी समय लग रहा है और बहुत सारे संदर्भ (context) का उपयोग हो रहा है। तो मैं जो कर सकता हूँ वह है सेशन के बीच में
00:02:59मॉडल को बदलना, इसके लिए मॉडल स्लैश कमांड चलाकर और उस मॉडल को निर्दिष्ट करके जिसे मैं चाहता हूँ। इस मामले में, मुझे
00:03:04GLM 5 Turbo चाहिए। तो अब यह उस मॉडल पर स्विच हो गया है। मैं इसे ट्वीट को लंबा करने के लिए एक नया प्रॉम्प्ट देने जा रहा हूँ।
00:03:08और यह बहुत तेज़ी से जवाब देता है, लेकिन इसने बिना मेरे बताए
00:03:13मेमोरी में बहुत सारी जानकारी भी जोड़ दी है। तो इसने लंबाई को 210 से बदलकर 400 कर दिया है और ट्वीट्स की शैली को बदल दिया है
00:03:19जो मैं चाहता हूँ। देखते हैं कि क्या मैं वास्तव में अपनी नवीनतम स्क्रिप्ट से एक अच्छा ट्वीट जनरेट कर सकता हूँ।
00:03:23और इसने पहली बार में काफी अच्छा प्रयास किया है, लेकिन कुछ चीजें ऐसी हैं जो मैं
00:03:28व्यक्तिगत रूप से नहीं कहूँगा जैसे "ब्रेकिंग ए स्वेट" और मैं "इन्क्रेडिबल" शब्द का उपयोग नहीं करूँगा। मैं "रियली गुड" वाक्यांश का उपयोग करूँगा।
00:03:34और कुछ बदलावों के बाद इसने एक ऐसा ट्वीट तैयार किया है जिसका मैं वास्तव में अपनी
00:03:39प्रोफ़ाइल में उपयोग करूँगा। और इसने उन सबको मेमोरी में सुरक्षित कर लिया है। मैं इसे एक स्किल बनाने के लिए प्रॉम्प्ट करने जा रहा हूँ ताकि
00:03:44भविष्य में ट्वीट लिखना मेरे लिए आसान हो जाए। और अब यह स्किल बनाने के लिए स्किल मैनेजर स्किल का उपयोग करता है।
00:03:49आइए इसे काम करते हुए देखें। और देखिए, इसने मेरे लिए कई विकल्पों के साथ एक ट्वीट लिखा है,
00:03:54और मैं वह चुन सकता हूँ जो मुझे सबसे ज्यादा पसंद है। इसने आगे बढ़कर एक थ्रेड भी बना दिया है जिसका उपयोग मैं
00:03:59चाहूँ तो कई ट्वीट लिखने के लिए कर सकता हूँ। तो तकनीकी रूप से, क्योंकि इसने सब कुछ याद रखा है,
00:04:04अगर मैं एक बिल्कुल नया हर्मीस सेशन बनाता हूँ, डिफ़ॉल्ट मॉडल बदलता हूँ और इससे पूछता हूँ कि क्या यह जानता है कि
00:04:09मुझे अपने ट्वीट लिखना कैसा पसंद है, तो यह मुझे सटीक जवाब देता है कि मुझे अपने ट्वीट
00:04:14लिखना कैसा पसंद है, यहाँ तक कि किस तरह के इमोजी मुझे पसंद हैं यह भी। अब आप सोच रहे होंगे कि हर्मीस
00:04:19बिना आपके टोकन खर्च किए मेमोरी से यह सारी जानकारी कैसे निकाल पाता है। खैर,
00:04:24मेमोरी एक बाहरी फ़ाइल में स्टोर होती है। यानी आपकी memory.md फ़ाइल या एक बाहरी प्रोसेसर जैसे
00:04:30super memory, mem0 या open viking अगर आप इसे कॉन्फ़िगर करते हैं। और मेमोरी प्रत्येक सेशन में प्री-लोडेड या प्री-फ़ेच होती है।
00:04:38लेकिन यह पूरी चीज़ नहीं होती। वास्तव में, यह एक कॉम्पैक्ट वर्शन होता है जो लगभग साढे तीन
00:04:43हज़ार वर्णों तक सीमित होता है, जो मॉडल के आधार पर लगभग 700 टोकन होते हैं। लेकिन सभी सेशन
00:04:49FTS5 का उपयोग करके SQLite डेटाबेस के अंदर स्टोर होते हैं ताकि फुल टेक्स्ट सर्च किया जा सके। इसलिए यदि आप हर्मीस से
00:04:56यह याद रखने के लिए कहते हैं कि आपने कल क्या कहा था, तो यह डेटाबेस में जाएगा, खोज करेगा और आपको वह
00:05:01जानकारी देगा। यह कुछ अजीब भी करता है। यह 50% संदर्भ विंडो (context window) से ऊपर होने पर आपके सेशन को कंप्रेस कर देता है,
00:05:06जो क्लाउड कोड जैसी चीज़ से अलग है, जो इसे 80% पर करता है। लेकिन मुझे लगता है कि मॉडल के आधार पर एक अच्छा पैमाना बताना मुश्किल है।
00:05:11तो 50% एक अच्छा अनुमानित नंबर है। लेकिन यह क्या करता है कि पूरी चीज़ को कंप्रेस करने के बजाय,
00:05:17यह पुराने टूल कॉल्स के आउटपुट को हटा देता है और सेशन के हेड और टेल (शुरुआत और अंत) को रखता है,
00:05:23लेकिन बीच वाले हिस्से को कंप्रेस कर देता है। वास्तव में यही SQLite डेटाबेस में सेव होता है,
00:05:28न कि पूरी बातचीत। यह हर 10 या इसके आसपास टर्न्स के बाद खुद को महत्वपूर्ण जानकारी मेमोरी में सेव करने
00:05:35और जब भी आवश्यक हो स्किल लिखने के लिए भी प्रेरित करता है। अब मुझे पता है कि हर्मीस की पूरी शक्ति को
00:05:39इस बहुत छोटे डेमो सेशन में देखना बहुत मुश्किल है, लेकिन उम्मीद है कि आप अंदाज़ा लगा सकते हैं कि
00:05:44यह आपके द्वारा दी गई जानकारी के आधार पर कितनी अच्छी तरह याद रखेगा और स्किल्स बनाएगा। और वास्तव में मैं इसका अधिक बार उपयोग करने जा रहा हूँ।
00:05:50तो इस महीने या शायद उसके अगले महीने, मैं GLM जैसे बहुत सस्ते मॉडल के साथ हर्मीस को
00:05:54अपने मुख्य व्यक्तिगत सहायक के रूप में उपयोग करने पर ध्यान केंद्रित करूँगा और मैं आपको बताऊँगा कि यह कैसा रहा। लेकिन हमेशा की तरह,
00:05:59कमेंट में अपने विचार मुझे बताएं। फिर से, सब्सक्राइब करना न भूलें और
00:06:04अगली बार तक, हैप्पी कोडिंग।

Key Takeaway

हर्मीस एक स्व-सुधार करने वाला ओपन-सोर्स AI एजेंट है जो SQLite-आधारित लॉन्ग-टर्म मेमोरी और ऑटोमैटिक स्किल निर्माण के जरिए उपयोगकर्ता की पसंद और कार्यशैली को स्थायी रूप से याद रखता है।

Highlights

हर्मीस एक ओपन-सोर्स AI एजेंट है जो SQLite डेटाबेस और FTS5 का उपयोग करके पिछले सभी सत्रों की बातचीत को याद रखता है।

यह एजेंट 50% कॉन्टेक्स्ट विंडो भरने पर पुराने टूल कॉल आउटपुट को हटाकर और बीच के हिस्से को कंप्रेस करके टोकन खर्च कम करता है।

उपयोगकर्ता की लेखन शैली को समझने के लिए हर्मीस स्क्रिप्ट फ़ाइलों का विश्लेषण करता है और 'स्किल मैनेजर' के माध्यम से भविष्य के कार्यों के लिए कस्टम स्किल्स बनाता है।

इसकी मेमोरी एक बाहरी memory.md फ़ाइल या mem0 और open viking जैसे बाहरी प्रोसेसर में 3,500 वर्णों (लगभग 700 टोकन) के कॉम्पैक्ट वर्शन के रूप में स्टोर होती है।

सत्र के दौरान 'मॉडल स्लैश' कमांड का उपयोग करके मॉडल को तुरंत बदला जा सकता है, जैसे Gemma 4 से GLM 5 Turbo पर स्विच करना।

Timeline

हर्मीस AI एजेंट की मुख्य विशेषताएँ और क्षमताएं

  • अमेरिकी कंपनी न्यूज़ रिसर्च ने हर्मीस को एक स्व-सुधार करने वाले ओपन-सोर्स एजेंट के रूप में विकसित किया है।
  • यह एजेंट अपने स्वयं के कौशल विकसित करता है और उपयोगकर्ता द्वारा दी गई किसी भी जानकारी को नहीं भूलता है।

यह एजेंट ग्रीक संदेशवाहक देवता के नाम पर आधारित है और इसका मुख्य उद्देश्य निरंतर सीखना और विकसित होना है। यह अन्य एजेंटों की तुलना में अधिक व्यक्तिगत अनुभव प्रदान करता है क्योंकि यह उपयोगकर्ता के फीडबैक के आधार पर अपनी कार्यक्षमता में सुधार करता रहता है।

इंस्टॉलेशन प्रक्रिया और शुरुआती सेटअप

  • हर्मीस को स्थानीय मशीन या VPS पर एक सरल कमांड के जरिए इंस्टॉल करना संभव है।
  • सेटअप के दौरान OpenRouter के माध्यम से Gemma 4 जैसे विभिन्न मॉडलों को चुनने का विकल्प मिलता है।

क्लाउड सब्सक्रिप्शन के जटिल नियमों के कारण एक स्वतंत्र विकल्प के रूप में इसे चुना गया है। सुरक्षा के लिए इसे VPS पर चलाया जा सकता है, लेकिन यह स्थानीय हार्डवेयर पर CLI और मैसेजिंग टूल्स के साथ भी एकीकृत होता है।

व्यक्तिगत लेखन शैली और मेमोरी का परीक्षण

  • हर्मीस पिछली स्क्रिप्ट का विश्लेषण करके उपयोगकर्ता की आवाज़ और शैली का सटीक विवरण तैयार करता है।
  • फीडबैक के आधार पर यह ट्वीट की लंबाई और शब्दावली जैसे विशिष्ट मापदंडों को तुरंत अनुकूलित करता है।

वीडियो स्क्रिप्ट के विश्लेषण के बाद एजेंट ने उपयोगकर्ता को 'व्यावहारिक और संशयवादी' के रूप में पहचाना। बार-बार निर्देश दिए बिना ही इसने 'ब्रेकिंग ए स्वेट' जैसे अवांछित वाक्यांशों को हटाकर 'रियली गुड' जैसे पसंदीदा वाक्यांशों को अपना लिया। यह जानकारी भविष्य के सत्रों के लिए इसकी मेमोरी में सुरक्षित हो जाती है।

स्किल निर्माण और भविष्य के कार्यों का स्वचालन

  • स्किल मैनेजर टूल का उपयोग करके हर्मीस भविष्य के कार्यों के लिए नए और स्थायी कौशल बनाता है।
  • नया सत्र शुरू करने और मॉडल बदलने के बावजूद यह उपयोगकर्ता की पसंद और इमोजी के उपयोग को याद रखता है।

एक बार स्किल बन जाने के बाद, एजेंट कई ट्वीट और थ्रेड विकल्प पेश करता है। यह निरंतरता सुनिश्चित करता है ताकि उपयोगकर्ता को हर बार अपनी प्राथमिकताओं को दोबारा न समझाना पड़े। यह पूरी तरह से एक व्यक्तिगत सहायक की तरह काम करता है जो समय के साथ अधिक कुशल होता जाता है।

तकनीकी संरचना: मेमोरी मैनेजमेंट और कॉन्टेक्स्ट कम्प्रेशन

  • स्मृति संचय के लिए SQLite डेटाबेस और FTS5 फुल टेक्स्ट सर्च तकनीक का प्रयोग होता है।
  • 50% कॉन्टेक्स्ट विंडो भरने पर यह सत्र के बीच के हिस्से को कंप्रेस करके केवल शुरुआत और अंत को सुरक्षित रखता है।

टोकन बचाने के लिए हर्मीस हर 10 टर्न के बाद महत्वपूर्ण जानकारी को memory.md फ़ाइल में सेव करने के लिए खुद को प्रेरित करता है। बाहरी प्रोसेसर जैसे super memory या mem0 का उपयोग करके मेमोरी को और अधिक प्रभावी बनाया जा सकता है। यह 700 टोकन के कॉम्पैक्ट वर्शन का उपयोग करके हर सत्र में संदर्भ लोड करता है।

Community Posts

View all posts