मैंने एक बदलाव करके अपने AI एजेंट की लागत 70% तक कम कर ली (Manifest)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00यह मैनिफेस्ट (Manifest) है। मैंने एक वीकेंड के लिए इसे अपनाया और मेरी टोकन लागत 70% कम हो गई।
00:00:05वही एजेंट, वही काम, बस बेहतर रूटिंग। यदि आप AI एजेंट बना रहे हैं, तो बहुत संभावना है कि
00:00:11आप जरूरत से कहीं ज्यादा भुगतान कर रहे हैं। अधिकांश अनुरोधों को GPT-4-0 या क्लाउड ओपस की आवश्यकता नहीं होती,
00:00:17लेकिन वे वैसे भी उन्हीं का उपयोग कर रहे हैं। तो हमारा एजेंट महंगे मॉडल का उपयोग करने लगता है
00:00:22वर्गीकरण, रूटिंग, सारांश जैसे बुनियादी कामों के लिए और इस तरह आपका बिल चुपचाप
00:00:27जरूरत से तीन से पांच गुना अधिक हो जाता है। मैनिफेस्ट काम कैसे करता है? आइए जानते हैं।
00:00:37यहाँ से चीजें गड़बड़ होती हैं। एजेंट सिर्फ कुछ कॉल नहीं करते, वे हजारों ऐसी कॉल करते हैं।
00:00:44और उनमें से अधिकांश कॉल वास्तव में सरल होते हैं। एक टूल चुनें, एक हिस्से का सारांश निकालें, इनपुट को वर्गीकृत करें। लेकिन अगर
00:00:50सब कुछ सर्वश्रेष्ठ मॉडल के पास जाता है, तो आप काफी बुनियादी काम के लिए प्रीमियम कीमत चुका रहे हैं। तो आप
00:00:57इसे ठीक करने की कोशिश कर सकते हैं, शायद रूटिंग लॉजिक लिखकर, और अब आपका कोड इन सभी if-else
00:01:02स्टेटमेंट्स से भर जाएगा जो आपके प्रॉम्पट्स बदलते ही टूट जाते हैं। ठीक है, हाँ, हम बस ओपनराउटर का उपयोग कर सकते हैं,
00:01:08बिल्कुल, लेकिन इसमें एक शुल्क लगता है। और फिर आपके प्रॉम्पट्स वास्तव में मशीन से बाहर चले जाते हैं। मुझे लगता है कि
00:01:13लाइट एलएलएम (Lite LLM) नाम की भी कोई चीज है जिसे आप आज़मा सकते हैं, जो ठोस है, लेकिन आपको अभी भी रूटिंग का प्रबंधन
00:01:18मैन्युअल रूप से करना होगा। तो असली समस्या मॉडल तक पहुंच नहीं है, बल्कि हर बार सही मॉडल चुनना है।
00:01:25और, देवियों और सज्जनों, यही मैनिफेस्ट करता है। यह आपके एजेंट और आपके मॉडल के बीच बैठता है।
00:01:31आप एक अनुरोध भेजते हैं, यह इसे 23 आयामों पर स्कोर करता है, और इसे सबसे सस्ते मॉडल पर रूट करता है
00:01:36जो इसे संभाल सके। कोई रीराइट नहीं है और सिर्फ एक एंडपॉइंट है। यदि आप इस तरह के कोडिंग टूल और टिप्स का आनंद लेते हैं,
00:01:41तो सब्सक्राइब करना न भूलें। हमारे वीडियो लगातार आते रहते हैं। ठीक है, बेहतरीन। अब मुझे आपको दिखाने दें।
00:01:47वही एजेंट, वही कार्य। मैं यहाँ डॉकर (Docker) के साथ मैनिफेस्ट को स्पिन करता हूँ, साधारण कर्ल कमांड, डॉकर कंपोज़ अप,
00:01:55और अब मैं अपना ओपनएआई (OpenAI) एंडपॉइंट इसकी ओर पॉइंट करता हूँ। यहाँ बस यही एक बदलाव है। अब मैं अलग-अलग को लिंक कर सकता हूँ
00:02:01यहाँ, जैसा कि आप देख सकते हैं, एंथ्रोपिक, ओपनएआई, ओलामा। मैंने ओपनएआई चुना, अपनी की (key) डाली, और मैंने
00:02:08ओलामा को लिंक किया ताकि यह दोनों के बीच जा सके। और अब हम इस पायथन स्क्रिप्ट को चलाएंगे। आप देख सकते हैं कि मैं उपयोग कर रहा हूँ
00:02:12यहाँ मैनिफेस्ट एपीआई की। बस यही एक की हमें चाहिए क्योंकि बाकी मैनिफेस्ट के पास है, ठीक है?
00:02:18तो जब हम इसे चलाते हैं, तो एजेंट काम करना शुरू कर देता है। और हर चीज को एक महंगे मॉडल पर भेजने के बजाय,
00:02:24मैनिफेस्ट एक निर्णय लेता है। यह वाला सरल है। इसे सस्ता रूट करो। अब वापस यहाँ आएं। हमारा डैशबोर्ड
00:02:31वास्तविक समय में अपडेट होता है, हमें टोकन उपयोग, प्रति एजेंट लागत, और बजट ट्रैकिंग दिखाता है। मुख्य संख्या
00:02:38बदल सकती है, लेकिन यह 70% तक सस्ता हो सकता है। वही आउटपुट, कम लागत, और क्योंकि
00:02:44यह स्थानीय रूप से चलता है, आपके प्रॉम्प्ट्स सिर्फ रूट होने के लिए आपकी मशीन से बाहर नहीं जाते हैं। इसमें बहुत ज्यादा
00:02:50समय या संसाधन नहीं लगे, इसलिए यह आपके प्रवाह में एकीकृत करने योग्य है, खासकर यदि आप
00:02:55AI बना रहे हैं और उपयोग कर रहे हैं। ठीक है, तो अब यहाँ वास्तव में क्या होता है? आप मैनिफेस्ट को एक कंट्रोलर की तरह सोच सकते हैं,
00:03:00है ना? आपका एजेंट एक अनुरोध अंदर भेजता है, मैनिफेस्ट तय करता है कि इसे वास्तव में कहाँ जाना चाहिए,
00:03:07तो यह एक एपीआई मॉडल हो सकता है, कोई सब्सक्रिप्शन, कोई स्थानीय मॉडल, कोई लामा या लामा सीपीपी हो सकता है।
00:03:14यह कई प्रदाताओं के सैकड़ों मॉडलों का समर्थन करता है, लेकिन इन सबके लिए यहाँ महत्वपूर्ण हिस्सा यह है।
00:03:19यह निर्णय लेने के लिए किसी अन्य एलएलएम को कॉल नहीं करता है। यह अतार्किक होगा, तो यह बस धीमा और महंगा होगा।
00:03:25इसके बजाय, यह नियतात्मक स्कोरिंग (deterministic scoring) का उपयोग करता है, इसलिए रूटिंग दो मिलीसेकंड के अंदर होती है।
00:03:32इसमें कोई अतिरिक्त विलंब नहीं है। मैनिफेस्ट बस बीच में बैठता है, और यह बेहतर निर्णय लेता है,
00:03:38और यह स्पष्ट रूप से एजेंटों के लिए बनाया गया है। ओपन कॉल प्लगइन, मल्टी-एजेंट ट्रैकिंग, हमारे पास वे हैं, और हमारे पास तो
00:03:44ऑब्जर्वेबिलिटी भी इन-बिल्ट है। सबसे बड़ी बचत कठिन प्रॉम्प्ट से नहीं आती है। वे उन सभी छोटी चीजों से आती हैं।
00:03:50वास्तव में बस वो उबाऊ कॉल जो हमारे एजेंट लगातार करते हैं। ठीक है, तो जल्दी से, यह
00:03:56उन टूल्स से कैसे अलग है जिन्हें हम पहले से जानते हैं, इसलिए मैं इसकी बहुत जल्दी तुलना करने जा रहा हूँ? मैंने उल्लेख किया
00:04:01ओपनराउटर का पहले। तो ओपनराउटर आपको एक क्लाउड एंडपॉइंट देता है, लेकिन आपका ट्रैफिक अभी भी आपके सिस्टम से बाहर जाता है।
00:04:06मैनिफेस्ट पूरी तरह से सेल्फ-होस्टेड चल सकता है। फिर हमारे पास लाइट एलएलएम का टूल है जिसका मैंने उल्लेख किया था। यह आपको एक
00:04:13एकीकृत इंटरफ़ेस देता है, लेकिन रूटिंग अभी भी कुछ ऐसा है जिसे आपको मैन्युअल रूप से नियंत्रित करना होगा। मैनिफेस्ट रूटिंग को
00:04:19स्वचालित रूप से संभालता है। रूटिंग इंटेलिजेंस भी है। अब, जहाँ मैनिफेस्ट 23 आयामों पर अनुरोधों को स्कोर करता है,
00:04:25वह उनकी रूटिंग इंटेलिजेंस का संस्करण है। इस तरह की अन्य चीजें विफल होने (failover) या नियमों पर निर्भर करती हैं।
00:04:31फिर हमारे पास सब्सक्रिप्शन हैं। हाँ। तो जबकि आप वास्तव में मैनिफेस्ट के लिए भुगतान नहीं करते हैं, आपको अभी भी
00:04:38अब, एजेंट फोकस एक ऐसी चीज़ है जहाँ मैनिफेस्ट वास्तव में अलग खड़ा होता है। यह मल्टी-एजेंट वर्कफ़्लो के लिए बना है।
00:04:46मैनिफेस्ट वास्तव में अलग खड़ा होता है। यह मल्टी-एजेंट वर्कफ़्लो के लिए बनाया गया है। तो अंतर सरल है।
00:04:51यदि आप एक्सेस चाहते हैं, तो बस ओपनराउटर का उपयोग करें, ठीक है? यदि आप नियंत्रण चाहते हैं, तो लाइट एलएलएम है। लेकिन यदि आपकी
00:04:57समस्या वास्तव में एजेंटों से होने वाली लागत है, क्योंकि हम ये सभी एपीआई कॉल कर रहे हैं, मैनिफेस्ट उसके लिए बनाया गया है।
00:05:03आपकी लागत कम करने के लिए अनगिनत उपकरण हैं। आपको बस उन्हें खोजने की आवश्यकता है, और यह उनमें से एक तरीका है।
00:05:08अब, यहाँ ईमानदार होना, क्योंकि यह बहुत अच्छा है, लेकिन एक AI टूल के साथ, आपको कुछ ऐसी चीजें मिलेंगी जो शायद आपको
00:05:14ईमानदारी से चकरा दें। पहले, अच्छा पक्ष। जहाँ पहला होगा बचत, विशेष रूप से सब्सक्रिप्शन रूटिंग के साथ।
00:05:19आप उन योजनाओं का उपयोग कर रहे हैं जिनके लिए आप पहले ही भुगतान करते हैं बजाय इसके कि प्रति टोकन फिर से भुगतान करें।
00:05:26फिर फॉलबैक (fallbacks), ठीक है? यदि कुछ विफल हो जाता है, तो आपका एजेंट काम करता रहता है, जो कि एक बहुत बड़ी जीत है।
00:05:33फिर हमारे पास डैशबोर्ड है। डैशबोर्ड बहुत अच्छा है क्योंकि आप वास्तव में देख सकते हैं कि आपका पैसा कहाँ जा रहा है
00:05:38विभिन्न मॉडलों के पार, प्रति एजेंट, प्रति कार्य, सब कुछ वास्तविक समय में। और यह मौजूदा ग्राहकों के साथ
00:05:45बिना किसी बड़े बदलाव के काम करता है। लेकिन जैसा मैंने कहा, कुछ चीजें हैं जो हम उम्मीद करेंगे कि इस तरह के टूल में हों।
00:05:50और आप जानते हैं, जैसे आपकी स्कोरिंग ओपिनियनेटेड (opinionated) होगी, ठीक है?
00:05:56AI. ठीक है। तो कभी-कभी यह आपके उम्मीद से ज्यादा सस्ता रूट करता है। आप उसे ओवरराइड कर सकते हैं, लेकिन आपको यह जानने की जरूरत है
00:06:02कि यह बैकग्राउंड में हो रहा है। सेटअप भी शून्य नहीं है क्योंकि आप अभी भी कीज़ का प्रबंधन कर रहे हैं और प्रदाताओं को
00:06:07वायर कर रहे हैं, लेकिन यह बिल्कुल सरल था। और डेवलपर्स को अभी भी अधिक एसडीके, अधिक स्टोरेज विकल्प, और अधिक
00:06:13सुविधाओं की आवश्यकता है। तो हाँ, यह बहुत अच्छा है, लेकिन यह अभी भी इंफ्रास्ट्रक्चर है। यह एकदम सही नहीं है। कुछ चीजों को
00:06:19ट्वीक करने की आवश्यकता है। यदि आप हर दिन एजेंट चलाते हैं, या यदि आपके एजेंट बहुत सारी छोटी कॉल करते हैं, तो यह निश्चित रूप से इसके लायक है।
00:06:25हेक, भले ही आप प्रॉम्प्ट्स को स्थानीय रखने की परवाह करते हों, यह बहुत अच्छा है, लेकिन शायद तब नहीं यदि आप
00:06:32शून्य सेटअप चाहते हैं। उस मामले में, ओपनराउटर जैसा कुछ सरल है, लेकिन हम में से अधिकांश डेवलपर्स जो एजेंट बना रहे हैं,
00:06:38यह आपकी लागत कम करने के सबसे तेज़ तरीकों में से एक है क्योंकि आप अपना एजेंट नहीं बदलते हैं। हम सब कुछ रखते हैं।
00:06:44आप बस यह बदलते हैं कि यह एक साथ कैसे रूट होता है। वही इनपुट, वही आउटपुट, कम बिल। और वही है
00:06:50यहाँ की कुंजी। यदि आप इस तरह के कोडिंग टूल और टिप्स का आनंद लेते हैं, तो बेटरस्टैक चैनल को सब्सक्राइब करना सुनिश्चित करें।
00:06:54हम आपको अगले वीडियो में देखेंगे।

Key Takeaway

मैनिफेस्ट का उपयोग करके AI एजेंट के अनुरोधों को सबसे सस्ते सक्षम मॉडल पर स्वचालित रूप से रूट करने से प्रदर्शन में बदलाव किए बिना परिचालन लागत 70% तक कम हो सकती है।

Highlights

  • मैनिफेस्ट (Manifest) के उपयोग से AI एजेंट की टोकन लागत में 70% तक की कमी आई है।

  • एजेंट अक्सर बुनियादी कार्यों जैसे वर्गीकरण और सारांश के लिए अनावश्यक रूप से महंगे मॉडलों का उपयोग करते हैं।

  • मैनिफेस्ट अनुरोधों को 23 विभिन्न आयामों पर स्कोर करता है और उन्हें सबसे सस्ते सक्षम मॉडल पर रूट करता है।

  • यह सिस्टम नियतात्मक स्कोरिंग (deterministic scoring) का उपयोग करता है, जिससे रूटिंग निर्णय 2 मिलीसेकंड से कम समय में पूरे हो जाते हैं।

  • मैनिफेस्ट पूरी तरह से सेल्फ-होस्टेड हो सकता है, जिससे प्रॉम्प्ट्स को मशीन से बाहर भेजे बिना सुरक्षित रखा जा सकता है।

Timeline

एजेंट लागत की समस्या

  • AI एजेंट अक्सर बुनियादी कार्यों के लिए महंगे मॉडलों का उपयोग करके जरूरत से 3 से 5 गुना अधिक बिल उत्पन्न करते हैं।
  • मौजूदा रूटिंग समाधान जैसे if-else लॉजिक या मैनुअल कॉन्फ़िगरेशन स्केलेबल नहीं हैं और प्रॉम्प्ट्स बदलते ही टूट जाते हैं।

एजेंटों द्वारा की जाने वाली हजारों छोटी कॉल्स, जैसे टूल चयन या इनपुट वर्गीकरण, महंगे प्रीमियम मॉडलों पर चलने के कारण अत्यधिक खर्चीली हो जाती हैं। डेवलपर अक्सर इसे ठीक करने के लिए कोड में जटिल रूटिंग लॉजिक लिखते हैं या लाइट एलएलएम (Lite LLM) जैसे टूल का उपयोग करते हैं, लेकिन इन स्थितियों में भी मैनुअल प्रबंधन की आवश्यकता बनी रहती है।

मैनिफेस्ट का कार्य तंत्र

  • मैनिफेस्ट एजेंट और मॉडल के बीच एक कंट्रोलर की तरह काम करता है।
  • यह निर्णय लेने के लिए अतिरिक्त एलएलएम कॉल नहीं करता, जिससे विलंबता (latency) नहीं बढ़ती।

डॉकर के माध्यम से सेटअप करने के बाद, यह ओपनएआई या एंथ्रोपिक जैसे विभिन्न मॉडलों के बीच एक एपीआई एंडपॉइंट के रूप में कार्य करता है। यह 23 आयामों पर स्कोरिंग करके वास्तविक समय में बजट और टोकन उपयोग को ट्रैक करता है, जिससे सबसे सस्ता और सक्षम मॉडल चुनना संभव होता है।

तुलनात्मक विश्लेषण और सीमाएं

  • ओपनराउटर ट्रैफिक को बाहरी क्लाउड पर भेजता है, जबकि मैनिफेस्ट पूरी तरह से स्थानीय होस्टिंग का समर्थन करता है।
  • मैनिफेस्ट की स्कोरिंग ओपिनियनेटेड (opinionated) है और अभी भी इसे पूर्ण इंफ्रास्ट्रक्चर के रूप में और अधिक एसडीके (SDK) की आवश्यकता है।

लाइट एलएलएम की तुलना में मैनिफेस्ट रूटिंग को पूरी तरह स्वचालित करता है, जो इसे मल्टी-एजेंट वर्कफ़्लो के लिए अधिक उपयुक्त बनाता है। हालांकि यह लागत बचत और फॉलबैक सुरक्षा प्रदान करता है, लेकिन इसे सेटअप करने के लिए कीज़ का प्रबंधन और प्रदाताओं को कनेक्ट करना पड़ता है, जो शून्य-सेटअप समाधान की तलाश करने वालों के लिए चुनौतीपूर्ण हो सकता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video