मैंने एक बदलाव करके अपने AI एजेंट की लागत 70% तक कम कर ली (Manifest)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00यह मैनिफेस्ट (Manifest) है। मैंने एक वीकेंड के लिए इसे अपनाया और मेरी टोकन लागत 70% कम हो गई।
00:00:05वही एजेंट, वही काम, बस बेहतर रूटिंग। यदि आप AI एजेंट बना रहे हैं, तो बहुत संभावना है कि
00:00:11आप जरूरत से कहीं ज्यादा भुगतान कर रहे हैं। अधिकांश अनुरोधों को GPT-4-0 या क्लाउड ओपस की आवश्यकता नहीं होती,
00:00:17लेकिन वे वैसे भी उन्हीं का उपयोग कर रहे हैं। तो हमारा एजेंट महंगे मॉडल का उपयोग करने लगता है
00:00:22वर्गीकरण, रूटिंग, सारांश जैसे बुनियादी कामों के लिए और इस तरह आपका बिल चुपचाप
00:00:27जरूरत से तीन से पांच गुना अधिक हो जाता है। मैनिफेस्ट काम कैसे करता है? आइए जानते हैं।
00:00:37यहाँ से चीजें गड़बड़ होती हैं। एजेंट सिर्फ कुछ कॉल नहीं करते, वे हजारों ऐसी कॉल करते हैं।
00:00:44और उनमें से अधिकांश कॉल वास्तव में सरल होते हैं। एक टूल चुनें, एक हिस्से का सारांश निकालें, इनपुट को वर्गीकृत करें। लेकिन अगर
00:00:50सब कुछ सर्वश्रेष्ठ मॉडल के पास जाता है, तो आप काफी बुनियादी काम के लिए प्रीमियम कीमत चुका रहे हैं। तो आप
00:00:57इसे ठीक करने की कोशिश कर सकते हैं, शायद रूटिंग लॉजिक लिखकर, और अब आपका कोड इन सभी if-else
00:01:02स्टेटमेंट्स से भर जाएगा जो आपके प्रॉम्पट्स बदलते ही टूट जाते हैं। ठीक है, हाँ, हम बस ओपनराउटर का उपयोग कर सकते हैं,
00:01:08बिल्कुल, लेकिन इसमें एक शुल्क लगता है। और फिर आपके प्रॉम्पट्स वास्तव में मशीन से बाहर चले जाते हैं। मुझे लगता है कि
00:01:13लाइट एलएलएम (Lite LLM) नाम की भी कोई चीज है जिसे आप आज़मा सकते हैं, जो ठोस है, लेकिन आपको अभी भी रूटिंग का प्रबंधन
00:01:18मैन्युअल रूप से करना होगा। तो असली समस्या मॉडल तक पहुंच नहीं है, बल्कि हर बार सही मॉडल चुनना है।
00:01:25और, देवियों और सज्जनों, यही मैनिफेस्ट करता है। यह आपके एजेंट और आपके मॉडल के बीच बैठता है।
00:01:31आप एक अनुरोध भेजते हैं, यह इसे 23 आयामों पर स्कोर करता है, और इसे सबसे सस्ते मॉडल पर रूट करता है
00:01:36जो इसे संभाल सके। कोई रीराइट नहीं है और सिर्फ एक एंडपॉइंट है। यदि आप इस तरह के कोडिंग टूल और टिप्स का आनंद लेते हैं,
00:01:41तो सब्सक्राइब करना न भूलें। हमारे वीडियो लगातार आते रहते हैं। ठीक है, बेहतरीन। अब मुझे आपको दिखाने दें।
00:01:47वही एजेंट, वही कार्य। मैं यहाँ डॉकर (Docker) के साथ मैनिफेस्ट को स्पिन करता हूँ, साधारण कर्ल कमांड, डॉकर कंपोज़ अप,
00:01:55और अब मैं अपना ओपनएआई (OpenAI) एंडपॉइंट इसकी ओर पॉइंट करता हूँ। यहाँ बस यही एक बदलाव है। अब मैं अलग-अलग को लिंक कर सकता हूँ
00:02:01यहाँ, जैसा कि आप देख सकते हैं, एंथ्रोपिक, ओपनएआई, ओलामा। मैंने ओपनएआई चुना, अपनी की (key) डाली, और मैंने
00:02:08ओलामा को लिंक किया ताकि यह दोनों के बीच जा सके। और अब हम इस पायथन स्क्रिप्ट को चलाएंगे। आप देख सकते हैं कि मैं उपयोग कर रहा हूँ
00:02:12यहाँ मैनिफेस्ट एपीआई की। बस यही एक की हमें चाहिए क्योंकि बाकी मैनिफेस्ट के पास है, ठीक है?
00:02:18तो जब हम इसे चलाते हैं, तो एजेंट काम करना शुरू कर देता है। और हर चीज को एक महंगे मॉडल पर भेजने के बजाय,
00:02:24मैनिफेस्ट एक निर्णय लेता है। यह वाला सरल है। इसे सस्ता रूट करो। अब वापस यहाँ आएं। हमारा डैशबोर्ड
00:02:31वास्तविक समय में अपडेट होता है, हमें टोकन उपयोग, प्रति एजेंट लागत, और बजट ट्रैकिंग दिखाता है। मुख्य संख्या
00:02:38बदल सकती है, लेकिन यह 70% तक सस्ता हो सकता है। वही आउटपुट, कम लागत, और क्योंकि
00:02:44यह स्थानीय रूप से चलता है, आपके प्रॉम्प्ट्स सिर्फ रूट होने के लिए आपकी मशीन से बाहर नहीं जाते हैं। इसमें बहुत ज्यादा
00:02:50समय या संसाधन नहीं लगे, इसलिए यह आपके प्रवाह में एकीकृत करने योग्य है, खासकर यदि आप
00:02:55AI बना रहे हैं और उपयोग कर रहे हैं। ठीक है, तो अब यहाँ वास्तव में क्या होता है? आप मैनिफेस्ट को एक कंट्रोलर की तरह सोच सकते हैं,
00:03:00है ना? आपका एजेंट एक अनुरोध अंदर भेजता है, मैनिफेस्ट तय करता है कि इसे वास्तव में कहाँ जाना चाहिए,
00:03:07तो यह एक एपीआई मॉडल हो सकता है, कोई सब्सक्रिप्शन, कोई स्थानीय मॉडल, कोई लामा या लामा सीपीपी हो सकता है।
00:03:14यह कई प्रदाताओं के सैकड़ों मॉडलों का समर्थन करता है, लेकिन इन सबके लिए यहाँ महत्वपूर्ण हिस्सा यह है।
00:03:19यह निर्णय लेने के लिए किसी अन्य एलएलएम को कॉल नहीं करता है। यह अतार्किक होगा, तो यह बस धीमा और महंगा होगा।
00:03:25इसके बजाय, यह नियतात्मक स्कोरिंग (deterministic scoring) का उपयोग करता है, इसलिए रूटिंग दो मिलीसेकंड के अंदर होती है।
00:03:32इसमें कोई अतिरिक्त विलंब नहीं है। मैनिफेस्ट बस बीच में बैठता है, और यह बेहतर निर्णय लेता है,
00:03:38और यह स्पष्ट रूप से एजेंटों के लिए बनाया गया है। ओपन कॉल प्लगइन, मल्टी-एजेंट ट्रैकिंग, हमारे पास वे हैं, और हमारे पास तो
00:03:44ऑब्जर्वेबिलिटी भी इन-बिल्ट है। सबसे बड़ी बचत कठिन प्रॉम्प्ट से नहीं आती है। वे उन सभी छोटी चीजों से आती हैं।
00:03:50वास्तव में बस वो उबाऊ कॉल जो हमारे एजेंट लगातार करते हैं। ठीक है, तो जल्दी से, यह
00:03:56उन टूल्स से कैसे अलग है जिन्हें हम पहले से जानते हैं, इसलिए मैं इसकी बहुत जल्दी तुलना करने जा रहा हूँ? मैंने उल्लेख किया
00:04:01ओपनराउटर का पहले। तो ओपनराउटर आपको एक क्लाउड एंडपॉइंट देता है, लेकिन आपका ट्रैफिक अभी भी आपके सिस्टम से बाहर जाता है।
00:04:06मैनिफेस्ट पूरी तरह से सेल्फ-होस्टेड चल सकता है। फिर हमारे पास लाइट एलएलएम का टूल है जिसका मैंने उल्लेख किया था। यह आपको एक
00:04:13एकीकृत इंटरफ़ेस देता है, लेकिन रूटिंग अभी भी कुछ ऐसा है जिसे आपको मैन्युअल रूप से नियंत्रित करना होगा। मैनिफेस्ट रूटिंग को
00:04:19स्वचालित रूप से संभालता है। रूटिंग इंटेलिजेंस भी है। अब, जहाँ मैनिफेस्ट 23 आयामों पर अनुरोधों को स्कोर करता है,
00:04:25वह उनकी रूटिंग इंटेलिजेंस का संस्करण है। इस तरह की अन्य चीजें विफल होने (failover) या नियमों पर निर्भर करती हैं।
00:04:31फिर हमारे पास सब्सक्रिप्शन हैं। हाँ। तो जबकि आप वास्तव में मैनिफेस्ट के लिए भुगतान नहीं करते हैं, आपको अभी भी
00:04:38अब, एजेंट फोकस एक ऐसी चीज़ है जहाँ मैनिफेस्ट वास्तव में अलग खड़ा होता है। यह मल्टी-एजेंट वर्कफ़्लो के लिए बना है।
00:04:46मैनिफेस्ट वास्तव में अलग खड़ा होता है। यह मल्टी-एजेंट वर्कफ़्लो के लिए बनाया गया है। तो अंतर सरल है।
00:04:51यदि आप एक्सेस चाहते हैं, तो बस ओपनराउटर का उपयोग करें, ठीक है? यदि आप नियंत्रण चाहते हैं, तो लाइट एलएलएम है। लेकिन यदि आपकी
00:04:57समस्या वास्तव में एजेंटों से होने वाली लागत है, क्योंकि हम ये सभी एपीआई कॉल कर रहे हैं, मैनिफेस्ट उसके लिए बनाया गया है।
00:05:03आपकी लागत कम करने के लिए अनगिनत उपकरण हैं। आपको बस उन्हें खोजने की आवश्यकता है, और यह उनमें से एक तरीका है।
00:05:08अब, यहाँ ईमानदार होना, क्योंकि यह बहुत अच्छा है, लेकिन एक AI टूल के साथ, आपको कुछ ऐसी चीजें मिलेंगी जो शायद आपको
00:05:14ईमानदारी से चकरा दें। पहले, अच्छा पक्ष। जहाँ पहला होगा बचत, विशेष रूप से सब्सक्रिप्शन रूटिंग के साथ।
00:05:19आप उन योजनाओं का उपयोग कर रहे हैं जिनके लिए आप पहले ही भुगतान करते हैं बजाय इसके कि प्रति टोकन फिर से भुगतान करें।
00:05:26फिर फॉलबैक (fallbacks), ठीक है? यदि कुछ विफल हो जाता है, तो आपका एजेंट काम करता रहता है, जो कि एक बहुत बड़ी जीत है।
00:05:33फिर हमारे पास डैशबोर्ड है। डैशबोर्ड बहुत अच्छा है क्योंकि आप वास्तव में देख सकते हैं कि आपका पैसा कहाँ जा रहा है
00:05:38विभिन्न मॉडलों के पार, प्रति एजेंट, प्रति कार्य, सब कुछ वास्तविक समय में। और यह मौजूदा ग्राहकों के साथ
00:05:45बिना किसी बड़े बदलाव के काम करता है। लेकिन जैसा मैंने कहा, कुछ चीजें हैं जो हम उम्मीद करेंगे कि इस तरह के टूल में हों।
00:05:50और आप जानते हैं, जैसे आपकी स्कोरिंग ओपिनियनेटेड (opinionated) होगी, ठीक है?
00:05:56AI. ठीक है। तो कभी-कभी यह आपके उम्मीद से ज्यादा सस्ता रूट करता है। आप उसे ओवरराइड कर सकते हैं, लेकिन आपको यह जानने की जरूरत है
00:06:02कि यह बैकग्राउंड में हो रहा है। सेटअप भी शून्य नहीं है क्योंकि आप अभी भी कीज़ का प्रबंधन कर रहे हैं और प्रदाताओं को
00:06:07वायर कर रहे हैं, लेकिन यह बिल्कुल सरल था। और डेवलपर्स को अभी भी अधिक एसडीके, अधिक स्टोरेज विकल्प, और अधिक
00:06:13सुविधाओं की आवश्यकता है। तो हाँ, यह बहुत अच्छा है, लेकिन यह अभी भी इंफ्रास्ट्रक्चर है। यह एकदम सही नहीं है। कुछ चीजों को
00:06:19ट्वीक करने की आवश्यकता है। यदि आप हर दिन एजेंट चलाते हैं, या यदि आपके एजेंट बहुत सारी छोटी कॉल करते हैं, तो यह निश्चित रूप से इसके लायक है।
00:06:25हेक, भले ही आप प्रॉम्प्ट्स को स्थानीय रखने की परवाह करते हों, यह बहुत अच्छा है, लेकिन शायद तब नहीं यदि आप
00:06:32शून्य सेटअप चाहते हैं। उस मामले में, ओपनराउटर जैसा कुछ सरल है, लेकिन हम में से अधिकांश डेवलपर्स जो एजेंट बना रहे हैं,
00:06:38यह आपकी लागत कम करने के सबसे तेज़ तरीकों में से एक है क्योंकि आप अपना एजेंट नहीं बदलते हैं। हम सब कुछ रखते हैं।
00:06:44आप बस यह बदलते हैं कि यह एक साथ कैसे रूट होता है। वही इनपुट, वही आउटपुट, कम बिल। और वही है
00:06:50यहाँ की कुंजी। यदि आप इस तरह के कोडिंग टूल और टिप्स का आनंद लेते हैं, तो बेटरस्टैक चैनल को सब्सक्राइब करना सुनिश्चित करें।
00:06:54हम आपको अगले वीडियो में देखेंगे।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video