Headroom: नेटफ्लिक्स का वह टूल जो AI एजेंट्स को 10 गुना सस्ता बनाता है

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00यह है हेडरूम, एक ओपन सोर्स टूल जो आपके AI एजेंट द्वारा पढ़ी जाने वाली हर चीज़ को कंप्रेस करता है,
00:00:04यानी टूल कॉल्स, कोड फ़ाइलें और RAG, LLM तक पहुँचने से पहले, जिसका मतलब है कि आप टोकन कम कर सकते हैं
00:00:0960 या 95% तक, बिल्कुल वही उत्तर पाने के लिए। और चतुराई वाली बात यह है कि यह रिवर्सिबल है, इसलिए
00:00:14मॉडल जब चाहे पूरी जानकारी वापस मांग सकता है। लेकिन कंप्रेस करने का
00:00:18आमतौर पर मतलब होता है कि आप कुछ खो देते हैं, तो आप अधिकांश संदर्भ को हटाकर भी सही
00:00:23उत्तर कैसे प्राप्त कर सकते हैं? यह वास्तव में एक दिलचस्प सवाल है, तो सब्सक्राइब बटन दबाएं और आइए पता करें।
00:00:31अगर आपने कभी ClaudeCode जैसा हार्नेस इस्तेमाल किया है, तो आप जानते हैं कि यह बहुत सारे टोकन का उपयोग करता है। हर टूल कॉल
00:00:35भारी JSON लॉग डंप कर सकता है, जो ज़्यादातर शोर होते हैं, महत्वपूर्ण जानकारी से ध्यान भटकाते हैं,
00:00:40और यह सब कॉन्टेक्स्ट विंडो में भर जाता है, जिसके लिए आप भुगतान कर रहे होते हैं।
00:00:45खासकर अगर आप अल्ट्राकोड मोड पर Opus जैसा कुछ इस्तेमाल करते हैं, जो डायनामिक वर्कफ़्लो चलाता है,
00:00:50बिना टोकन कैप के समानांतर सब-एजेंटों को स्पिन करता है। यही कारण है कि नेटफ्लिक्स के सीनियर देव, तेजस चोपड़ा ने
00:00:57हेडरूम बनाया, जो कंटेंट प्रकार का पता लगाकर महत्वपूर्ण जानकारी को सुरक्षित रखने का काम करता है।
00:01:01तो JSON एरे के लिए, यह विसंगतियों और एज केसेस को रखता है, इसके पास एक कोड कंप्रेसर है जो
00:01:06वास्तविक सिंटैक्स ट्री को पढ़ता है, और जब यह बिल्ड लॉग पढ़ता है, तो यह विफलताओं को रखता है और पास हुए टेस्ट को हटा देता है।
00:01:11लेकिन यहां दिलचस्प हिस्सा है। सादे टेक्स्ट के लिए, हेडरूम अपने स्वयं के मॉडल का उपयोग करता है जिसे CompressBase कहते हैं,
00:01:17जिसे तेजस ने केवल कंप्रेशन के लिए खुद ट्रेन किया है, और यह मॉडल आपकी मशीन पर स्थानीय रूप से चलता है।
00:01:22हेडरूम का दावा है कि इसने पहले ही उपयोगकर्ताओं के लगभग 700,000 डॉलर के टोकन बचा लिए हैं,
00:01:26और वास्तव में चतुर बात यह है कि यह संकुचित टेक्स्ट में एक ब्रेडक्रंब छोड़ देता है,
00:01:30जिसमें एक हैश होता है जिसे मॉडल अनकंप्रेस्ड डेटा को पुनः प्राप्त करने के लिए उपयोग कर सकता है यदि उसे कभी इसकी आवश्यकता हो।
00:01:35अब, अगर आपने Caveman पर जेम्स का वीडियो देखा है, तो वह भी संदर्भ को कम करता है,
00:01:39लेकिन विपरीत दिशा से, और मैं वीडियो में बाद में इसके बारे में और बताऊंगा।
00:01:43लेकिन अभी के लिए, आइए यह समझने के लिए कि यह कैसे काम करता है, हेडरूम का एक बुनियादी उदाहरण देखते हैं।
00:01:46अब, हेडरूम एक पायथन सर्वर का उपयोग करके काम करता है जो आपके ऐप के बीच बैठता है,
00:01:50तो यह क्रॉल्ड कोड हो सकता है, और उदाहरण के लिए, एंथ्रोपिक सर्वर।
00:01:54तो जब कोई टूल कॉल परिणाम वापस आता है, तो प्रॉक्सी इसे रस्ट का उपयोग करके कंप्रेस करती है,
00:01:59और बस संकुचित संस्करण को API को भेज देती है।
00:02:01तो आप सर्वर को pip के साथ इंस्टॉल कर सकते हैं, लेकिन मैं uv का उपयोग करने जा रहा हूं और सुनिश्चित करूंगा कि पायथन का संस्करण
00:02:063.12 है, क्योंकि यह इससे नए संस्करणों पर काम नहीं करेगा।
00:02:09फिर इस लाइब्रेरी से हेडरूम प्रॉक्सी कमांड चलाएं, जो इस पोर्ट पर प्रॉक्सी को ट्रिगर करता है।
00:02:14हेडरूम के पास एक टाइपस्क्रिप्ट या पायथन SDK भी है,
00:02:17और डेमो के लिए, हम क्लाउड SDK का उपयोग करके एक ऐप बनाने के लिए पायथन वाले का उपयोग करने जा रहे हैं।
00:02:22तो हम दोनों को इस तरह इंस्टॉल कर सकते हैं, और फिर हम ऐप के माध्यम से जाने के लिए तैयार हैं।
00:02:25अब, योजना आपको यह दिखाने की है कि बाद में क्लाउड कोड के साथ हेडरूम का उपयोग कैसे करें,
00:02:29लेकिन मैं बस आपको यह दिखाना चाहता था कि यह पर्दे के पीछे कैसे काम करता है।
00:02:32तो इस ऐप के लिए, हमारे पास सभी लॉग फ़ाइलें पढ़ने और त्रुटि का पता लगाने के लिए एक उपयोगकर्ता प्रॉम्प्ट है,
00:02:36साथ ही मूल कारण भी। और यहाँ से, हम टूल कॉल को फेक करने जा रहे हैं।
00:02:40तो हम क्लाउड को सर्वर लॉग फ़ाइल को कैट करने के लिए एक बैश टूल कॉल करने के लिए कहेंगे,
00:02:44जिसमें बहुत सारे फेक लॉग्स हैं और इसे यहाँ ऊपर इम्पोर्ट किया गया है।
00:02:47और फिर हम टूल कॉल परिणाम लौटाने जा रहे हैं।
00:02:49अब, हम सीधे हेडरूम को टेक्स्ट फ़ाइल नहीं दे रहे हैं
00:02:52क्योंकि यह केवल टूल कॉल आउटपुट को कंप्रेस करता है।
00:02:54तो यहाँ हम मॉडल निर्दिष्ट करते हैं और इसके नीचे, हम हेडरूम कंप्रेस फ़ंक्शन का उपयोग कर रहे हैं
00:02:59सटीक टोकन गिनती के लिए मॉडल के साथ संदेश लेने के लिए।
00:03:02हेडरूम वास्तव में Haiku का उपयोग नहीं करता है।
00:03:04और फिर हम इसे प्रॉक्सी का बेस URL देते हैं।
00:03:06और फिर हमारे पास परीक्षण उद्देश्यों के लिए बहुत सारे कंट्रोल लॉग्स हैं,
00:03:08जो आपको हेडरूम से पहले और बाद का संदेश दिखाते हैं,
00:03:11और कुछ और कंट्रोल लॉग्स जो प्रतिशत बचत दिखाते हैं।
00:03:13और उसके बाद, हम हेडरूम से संकुचित संदेश को क्लाउड कोड में पास करते हैं,
00:03:17जिसमें उपयोगकर्ता प्रॉम्प्ट भी शामिल है।
00:03:18तो अब अगर हम वह फ़ाइल चलाएं, तो हम देख सकते हैं कि हेडरूम ने 98% टोकन बचा लिए हैं।
00:03:23तो यहाँ पहले के टोकन हैं और यहाँ बाद के टोकन हैं।
00:03:26तो यह 17,000 से अधिक टोकन बचाता है।
00:03:28और इसे पहले और बाद में देखने पर यह स्पष्ट हो जाता है।
00:03:31तो अगर हम ऊपर स्क्रॉल करें, तो यह पहले का है, तो यह वह है जो सामान्य रूप से क्लाउड कोड को भेजा जाता है।
00:03:35हमें उपयोगकर्ता प्रॉम्प्ट, टूल कॉल और टूल प्रतिक्रिया मिलती है, जो पूरी लॉग फ़ाइल है।
00:03:39और अगर हम यहाँ देखें कि हेडरूम क्या भेजता है, तो हम देख सकते हैं कि हमें वही उपयोगकर्ता संदेश और टूल कॉल मिलता है,
00:03:43लेकिन टूल प्रतिक्रिया बहुत कम है।
00:03:45और इसने यहाँ क्या किया है कि अनावश्यक टोकन को हटाने के लिए सांख्यिकीय कंप्रेशन का उपयोग किया है।
00:03:50तो इसने 419 समान जानकारी वाले लॉग हटा दिए हैं और उन्हें एक सारांश में कंप्रेस कर दिया है।
00:03:54अब यहाँ हम नीचे देख सकते हैं कि हेडरूम क्लाउड को बताता है कि यह संकुचित आउटपुट है।
00:03:58यह इस हैश का उपयोग करके इसे पुनः प्राप्त कर सकता है।
00:04:00अब यहाँ हम हेडरूम के तत्काल नुकसानों में से एक देखते हैं कि क्लाउड को लगता है कि उसके पास
00:04:05कार्य पूरा करने के लिए पर्याप्त जानकारी नहीं है, लेकिन निश्चित रूप से है।
00:04:08तो हम जो करने जा रहे हैं वह है अपनी फ़ाइल को फिर से चलाना।
00:04:10और हम देख सकते हैं कि इस बार हमारे पास अभी भी 98% बचत है, लेकिन हमारे पास क्लाउड से बहुत अधिक जानकारी है।
00:04:16आइए एक और डेमो आज़माते हैं।
00:04:17हमेशा की तरह, हमें हेडरूम प्रॉक्सी चलाने की आवश्यकता है, लेकिन इस बार मैं इसे और अधिक पैरामीटर दे रहा हूं।
00:04:21तो यहाँ हम देख सकते हैं कि मैं ML मान जोड़ रहा हूं, जो सादे टेक्स्ट को कंप्रेस करने के लिए स्थानीय रूप से कंप्रेस मॉडल का उपयोग करता है।
00:04:26और मैंने कोड अवेयर कंप्रेसर को उपलब्ध कराने के लिए कोड जोड़ा है।
00:04:30और फिर मैंने इसे चालू करने के लिए कोड अवेयर फ़्लैग जोड़ा है।
00:04:32तो अब हम देख सकते हैं कि यह यहाँ सक्षम है।
00:04:34फिर मैं क्लाउड कोड चलाने जा रहा हूं, लेकिन पहले मैं बेस URL को प्रॉक्सी पर सेट करने जा रहा हूं।
00:04:39और इस तरह, मैं क्लाउड को इस प्रोजेक्ट की हर एक TS फ़ाइल पढ़ने का प्रॉम्प्ट देने जा रहा हूं
00:04:44और मुझे प्रासंगिक कोड के उद्धरणों के साथ एक गहरा अवलोकन दें कि यह प्रोजेक्ट क्या कर रहा है।
00:04:49और थोड़ी देर बाद, यह मुझे एक प्रतिक्रिया देता है कि इसने सभी टाइपस्क्रिप्ट फ़ाइलों को पढ़ लिया है
00:04:53पांच पैकेजों में और इसने मुझे एक डिफ़ॉल्ट अवलोकन दिया है।
00:04:56लेकिन अगर हम कॉन्टेक्स्ट स्लैश कमांड चलाते हैं, जो मैंने पहले किया है, तो हम देख सकते हैं कि इसने 89.1k टोकन का उपयोग किया है।
00:05:02अब मैं वास्तव में आगे बढ़ा और हेडरूम का उपयोग किए बिना क्लाउड में एक समान प्रॉम्प्ट चलाया।
00:05:06और अगर हम नीचे स्क्रॉल करें और देखें कि हमने कॉन्टेक्स्ट सब कमांड कहाँ चलाया,
00:05:10इसने थोड़े और टोकन का उपयोग किया है।
00:05:11अब, मुझे यकीन नहीं है कि इसने यहाँ ओपस 1 मिलियन कॉन्टेक्स्ट विंडो का उपयोग करना क्यों चुना है।
00:05:16n ने यहाँ 200k कॉन्टेक्स्ट विंडो चुनी है, लेकिन हम प्रॉक्सी से कंप्रेशन कहाँ था, यह जानने के लिए jq के साथ इस एंडपॉइंट को कर्ल कर सकते हैं
00:05:21यह देखने के लिए कि कंप्रेशन कहाँ से था।
00:05:23अब, इसमें बहुत सारी जानकारी है, इसलिए इसे खोजने में मुझे थोड़ा समय लगा।
00:05:26लेकिन अगर हम ऊपर स्क्रॉल करें, तो हम देख सकते हैं कि हेडरूम कंप्रेशन द्वारा कितने टोकन बचाए गए
00:05:30और यह भी देख सकते हैं कि कंप्रेशन ने हमें कितने पैसे बचाए।
00:05:32अब, बेशक, यह सब केवल एक प्रॉम्प्ट से था।
00:05:35लेकिन कल्पना करें कि अगर मेरे पास कई क्लाउड कोड सत्र चल रहे होते और मेरे पास सभी टूल कॉल्स को कंप्रेस करने वाला हेडरूम होता।
00:05:39कल्पना कीजिए कि मैं और कितने टोकन बचा पाता।
00:05:42मैं यह भी बताना चाहता हूं कि जब मैंने ओपस पर कम प्रयास के साथ सटीक प्रॉम्प्ट चलाया,
00:05:46तो हेडरूम ने वास्तव में कोई टोकन बचत नहीं की।
00:05:49तभी टोकन बचत दिखाई दी जब मैं कम से मध्यम स्तर पर गया।
00:05:53तो शायद अगर मैं उच्च, अति-उच्च या अधिकतम पर होता, तो यह और भी अधिक टोकन बचाता।
00:05:57लेकिन वैसे, यह हेडरूम का एक संक्षिप्त अवलोकन था।
00:06:00और बेशक, ऐसी और भी बहुत सी विशेषताएं हैं जिन्हें मैं देख सकता था,
00:06:03जैसे क्रॉस-एजेंट मेमोरी, जो क्लाउड, कोडेक्स और अन्य हार्नेस को
00:06:07बिल्कुल समान संकुचित संदर्भ साझा करने देती है।
00:06:09हेडरूम लर्न, जो यह पता लगाने के लिए कि उसने कितना कठिन कंप्रेस किया, आपके विफल सत्रों को माइन करता है
00:06:12और सीखता है ताकि वह भविष्य में वही गलती न करे,
00:06:15साथ ही लोकप्रिय SDK के साथ एकीकरण भी।
00:06:18लेकिन हेडरूम के बारे में विचार करने के लिए एक महत्वपूर्ण बात है।
00:06:21हर बार जब मॉडल को वह जानकारी नहीं मिलती जिसकी उसे आवश्यकता है
00:06:24और वह हेडरूम को पूरा डेटा प्रदान करने के लिए कहता है, तो यह दूसरी राउंड ट्रिप करता है,
00:06:28जिसका मतलब है कि कुछ मामलों में आप हेडरूम के बिना की तुलना में इसके साथ अधिक टोकन का उपयोग कर लेते हैं।
00:06:33लेकिन मुझे लगता है कि यह हेडरूम लर्न फीचर का उपयोग करने का लाभ है,
00:06:36जो भविष्य में ऐसा होने से रोकने की कोशिश करता है।
00:06:39लेकिन याद है जब मैंने वीडियो में पहले Caveman के बारे में बात की थी?
00:06:42खैर, Caveman मॉडल को छोटे टुकड़ों में प्रतिक्रिया देने का निर्देश देकर टोकन को कम करता है,
00:06:46फिलर शब्दों को हटाना, आदि।
00:06:48लेकिन जैसा कि आपने अभी डेमो में देखा है, हेडरूम मॉडल के पढ़ने से पहले ही
00:06:51उस जानकारी को छोटा कर देता है जो मॉडल पढ़ता है।
00:06:52तो एक आउटपुट को काटता है जबकि दूसरा इनपुट को काटता है,
00:06:56जिसका मतलब है कि तकनीकी रूप से आप अधिकतम टोकन बचत के लिए उनका एक साथ उपयोग कर सकते हैं,
00:07:00अगर आप वास्तव में टोकन बचाने की इतनी परवाह करते हैं।

Key Takeaway

हेडरूम एक ओपन-सोर्स प्रॉक्सी टूल है जो AI एजेंटों के इनपुट डेटा को समझदारी से कंप्रेस करके टोकन उपयोग में 95% तक की कमी लाता है, जिससे भारी वर्कफ़्लो की लागत काफी कम हो जाती है।

Highlights

  • हेडरूम (Headroom) AI एजेंटों द्वारा संसाधित किए जाने वाले डेटा को 60% से 95% तक संकुचित (compress) कर देता है।

  • यह उपकरण टूल कॉल, कोड फ़ाइलें और RAG डेटा के शोर को हटाकर महत्वपूर्ण जानकारी को सुरक्षित रखता है।

  • सादे टेक्स्ट को कंप्रेस करने के लिए हेडरूम 'CompressBase' नामक एक विशेष स्थानीय मॉडल का उपयोग करता है।

  • संकुचित डेटा में एक हैश आधारित ब्रेडक्रंब होता है, जिससे मॉडल आवश्यकता पड़ने पर मूल डेटा को पुनः प्राप्त कर सकता है।

  • हेडरूम का उपयोग करके उपयोगकर्ताओं ने अब तक लगभग 700,000 डॉलर के टोकन खर्च बचाए हैं।

  • यह उपकरण एक पायथन प्रॉक्सी सर्वर के रूप में कार्य करता है जो ऐप और LLM के बीच डेटा प्रवाह को नियंत्रित करता है।

Timeline

हेडरूम का परिचय और कार्यप्रणाली

  • हेडरूम AI एजेंटों के लिए अनावश्यक टोकन को हटाकर कॉन्टेक्स्ट विंडो को अनुकूलित करता है।
  • यह उपकरण डेटा प्रकार के अनुसार अलग-अलग कंप्रेशन तकनीक अपनाता है जैसे JSON के लिए विसंगति संरक्षण और कोड के लिए सिंटैक्स ट्री का उपयोग।
  • संकुचित डेटा पूरी तरह से रिवर्सिबल है।

AI एजेंट अक्सर बड़ी मात्रा में शोर और अनावश्यक डेटा के कारण अधिक टोकन खर्च करते हैं। हेडरूम बिल्ड लॉग्स से केवल विफलताएं रखता है और पास हुए टेस्ट हटा देता है। स्थानीय रूप से चलने वाला CompressBase मॉडल सादे टेक्स्ट को सघन बनाता है, जबकि ब्रेडक्रंब हैश यह सुनिश्चित करते हैं कि मॉडल जरूरत पड़ने पर पूरी जानकारी मांग सके।

सेटअप और तकनीकी डेमो

  • इसे पायथन सर्वर के माध्यम से ऐप और एंथ्रोपिक जैसे API के बीच प्रॉक्सी के रूप में तैनात किया जाता है।
  • इसका इंस्टॉलेशन uv का उपयोग करके पायथन 3.12 वातावरण में किया जा सकता है।
  • टूल कॉल आउटपुट को संकुचित करने से 98% तक टोकन बचत का प्रदर्शन हुआ है।

हेडरूम प्रॉक्सी रस्ट का उपयोग करके रीयल-टाइम में टूल कॉल परिणामों को कंप्रेस करता है। डेमो में, इसने 17,000 से अधिक अनावश्यक टोकन हटाए और 419 समान लॉग्स को एक संक्षिप्त सारांश में बदल दिया। यदि मॉडल को कार्य पूरा करने के लिए अधिक जानकारी चाहिए, तो यह टूल दूसरी राउंड ट्रिप में पूरा डेटा भी प्रदान करता है।

उन्नत विशेषताएं और विचार

  • ML और कोड-अवेयर कंप्रेशन फ्लैग्स के साथ अधिक सटीक डेटा प्रबंधन संभव है।
  • हेडरूम लर्न (Headroom Learn) विफल सत्रों से सीखकर भविष्य में कंप्रेशन गुणवत्ता में सुधार करता है।
  • Caveman जैसे टूल जो आउटपुट को कंप्रेस करते हैं, के साथ मिलकर हेडरूम अधिकतम टोकन दक्षता प्रदान कर सकता है।

उन्नत सेटिंग्स में ML मान जोड़कर सादे टेक्स्ट का स्थानीय संपीड़न किया जा सकता है। क्रॉस-एजेंट मेमोरी फीचर विभिन्न हार्नेस को समान संकुचित संदर्भ साझा करने की अनुमति देता है। हालांकि, यदि डेटा पुनः प्राप्त करने के लिए बार-बार राउंड ट्रिप करनी पड़ती है, तो टोकन बचत का लाभ कम हो सकता है, जिसे 'हेडरूम लर्न' के माध्यम से अनुकूलित किया जाता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video