00:00:00AI एजेंटों के साथ एक बड़ी समस्या है। जब आप उन्हें एक URL देते हैं, तो वे अक्सर दावा करते हैं कि उन्होंने पेज पढ़ लिया है,
00:00:06लेकिन उनकी आंतरिक दृष्टि अक्सर बाधित होती है। एक नया टूल आया है
00:00:11जिसे "एजेंट रीडिंग टेस्ट" कहा जाता है, जिसे डैकारी केरी द्वारा डिजाइन किया गया है और जिसका उद्देश्य
00:00:16इस मुद्दे को हल करना है। यह कैनरी टोकन की एक श्रृंखला का उपयोग करता है, जो 10 अलग-अलग
00:00:23वेब पेजों पर छिपे अद्वितीय स्ट्रिंग्स हैं, यह साबित करने के लिए कि एजेंट की पढ़ने की क्षमता कहाँ विफल होती है। इस वीडियो में,
00:00:28हम एजेंट रीडिंग टेस्ट पर एक नज़र डालेंगे, देखेंगे कि यह कैसे काम करता है, और इसे खुद आजमाएंगे।
00:00:34इसमें बहुत मज़ा आने वाला है, तो चलिए इसमें गोता लगाते हैं।
00:00:37तो ज्यादातर लोग मान लेते हैं कि जब कोई एजेंट किसी URL पर जाता है, तो उसे वही दिखता है जो इंसान को दिखता है। लेकिन वास्तव में,
00:00:47एजेंट फेच पाइपलाइनों पर भरोसा करते हैं जिन्हें आधुनिक वेब डेवलपमेंट प्रथाओं द्वारा भ्रमित किया जा सकता है।
00:00:53एजेंट रीडिंग टेस्ट इन विशिष्ट विफलता मोड को लक्षित करता है। एक उदाहरण "बॉयलरप्लेट बरियल" है,
00:00:59जहाँ वास्तविक सामग्री को 80,000 वर्णों के इनलाइन CSS के बाद रखा जाता है। यदि किसी एजेंट के पास
00:01:06प्रारंभिक फेच के लिए एक छोटा संदर्भ विंडो है, तो वह केवल स्टाइलिंग कोड देख सकता है और निष्कर्ष निकाल सकता है
00:01:12कि पेज खाली है। टेस्ट में इस तरह की 10 अलग-अलग चुनौतियाँ शामिल हैं, जो हमें यह पहचानने में मदद करती हैं
00:01:17कि क्या एजेंट वास्तव में पूरा पेज पढ़ रहा है। उदाहरण के लिए, ट्रंकेशन टेस्ट है।
00:01:22कैनरी विभिन्न अंतरालों पर रखे जाते हैं, जैसे कि 75k और 130k वर्ण। और यह परीक्षण करता है कि
00:01:30क्या एजेंट की पाइपलाइन लंबे दस्तावेज़ों को बीच में ही काट देती है। और उदाहरण के लिए, कई आधुनिक साइटें सिंगल-पेज
00:01:36एप्लीकेशन का उपयोग करती हैं जहाँ सामग्री केवल जावास्क्रिप्ट चलने के बाद ही दिखाई देती है। और कई एजेंट केवल
00:01:43लोडिंग स्पिनर को देखते हैं और पेज का बाहरी ढांचा देखते हैं। लेकिन यह टेस्ट हमें यह पहचानने में मदद करता है कि क्या वास्तव में
00:01:49ऐसा ही है। कभी-कभी ऐसी स्थितियाँ हो सकती हैं जहाँ टूटा हुआ कोड एक अपराधी हो सकता है। जैसे कि,
00:01:54एक अधूरा बंद किया गया मार्कडाउन टैग बाकी पेज की सामग्री को निगल सकता है, जिससे यह
00:02:00एजेंट के पार्सर के लिए अदृश्य हो जाता है। और कभी-कभी दस्तावेज़ भाषा टैब के पीछे जानकारी छिपाते हैं, जैसे कि
00:02:06पायथन उदाहरण और जावा उदाहरण के बीच स्विच करना। यदि एजेंट केवल पहले टैब को स्क्रैप करता है, तो वह
00:02:12बाकी जानकारी को छोड़ देता है। तो यह टेस्ट एजेंट की पेज पढ़ने की वास्तविक क्षमता का मूल्यांकन करने के लिए इन और इसी तरह की अन्य चुनौतियों से गुजरता है
00:02:17और फिर आपको 20 में से एक अंतिम स्कोर देता है। लेकिन हमें यह भी ध्यान में रखना होगा
00:02:23कि यह टेस्ट फुलप्रूफ नहीं है। कुछ एजेंट वास्तव में चालाक तरकीबों का उपयोग करके इसमें धोखाधड़ी करने में सफल रहे।
00:02:28टेस्ट के सबसे दिलचस्प निष्कर्षों में से एक है स्कोर मुद्रास्फीति। क्लाउड कोड जैसे एजेंटों के साथ
00:02:35शुरुआती परीक्षण के दौरान, एजेंट अक्सर दावा करते थे कि उन्हें 17 या 18 टोकन मिले हैं,
00:02:42भले ही उन्हें वास्तव में केवल 15 ही मिले हों। वे ऐसा वर्कअराउंड के माध्यम से करते हैं। उदाहरण के लिए, यदि कोई पेज
00:02:48रीडायरेक्ट का उपयोग करता है जिसका एजेंट की पाइपलाइन पालन नहीं करती है, तो एजेंट हेडर में रीडायरेक्ट को नोटिस कर सकता है,
00:02:54मैन्युअल रूप से दूसरे चरण में नए URL को प्राप्त कर सकता है और क्रेडिट का दावा कर सकता है। हालांकि यह मददगार है,
00:03:00यह इस तथ्य को छुपाता है कि एजेंट का स्वचालित रीडिंग टूल वास्तव में टूटा हुआ है। इसलिए कुछ
00:03:05मामलों में, स्कोर मुद्रास्फीति अभी भी हो सकती है। इसलिए इस टेस्ट को थोड़ा संदेह के साथ लें। लेकिन उस सब के साथ,
00:03:11आइए आगे बढ़ें और इसे खुद आजमाएं। और टेस्ट को चलाना काफी सीधा है।
00:03:16आप इसे अपने पसंदीदा AI एजेंट या ब्राउज़ टूल को agentreadingtest.com पर निर्देशित करके और उसे
00:03:23साइट पर सभी कैनरी टोकन खोजने के लिए कह कर चला सकते हैं। और फिर आपको इसकी सूची की तुलना साइट में प्रदान की गई
00:03:29उत्तर कुंजी से करनी होगी। मैं आपको दिखाऊंगा कि यह एक सेकंड में कैसे काम करता है। तो मेरे मामले में, मैंने Kimi 2.5 को
00:03:35टेस्ट आयोजित करने के लिए कहा। मैंने इसे बस शुरुआती प्रॉम्प्ट दिया और इसे अपना काम करने दिया। किमी को
00:03:40पूरे टेस्ट से गुजरने में लगभग दो मिनट लगे। और अंत में, हमें यह लंबा टेक्स्ट आउटपुट मिलता है,
00:03:46जिसे हमें पूरी तरह से अनदेखा कर देना चाहिए क्योंकि हम केवल कैनरी मार्कर में रुचि रखते हैं जो यह हमें वापस देता है।
00:03:52तो उस क्षेत्र को खोजें जहाँ एजेंट स्वयं मार्कर आउटपुट करता है। और यही वह सुराग है
00:03:58जो वास्तव में यह मूल्यांकन करेगा कि एजेंट ने टेस्ट कितना अच्छा किया। इसलिए हमें उस सूची को कॉपी करना चाहिए और फिर
00:04:04अंतिम वास्तविक परिणाम प्राप्त करने के लिए इसे वेबसाइट के स्कोर अनुभाग में पेस्ट करना चाहिए। और जैसा कि आप देख सकते हैं,
00:04:10Kimi 2.5 ने 20 में से 13 अंक प्राप्त किए। और हमें इस बारे में अधिक विस्तृत अवलोकन भी मिलता है कि
00:04:16एजेंट ने कहाँ अच्छा किया और कहाँ वह विफल रहा। और जैसा कि आप देख सकते हैं, किमी को टैब की गई सामग्री को पढ़ने में कुछ समस्या हुई।
00:04:23और हम यह भी देखते हैं कि उसे मार्कडाउन सामग्री को ठीक से पढ़ने में कठिनाई हुई। तो कुल मिलाकर, मुझे लगता है कि यह
00:04:28एक बहुत अच्छा टेस्ट है जो आपको इस बात का अंदाजा देता है कि एजेंट वास्तव में वेब को कैसे पढ़ते हैं और पहचानते हैं
00:04:33कि वे कहाँ शॉर्टकट ले रहे हैं या मतिभ्रम (hallucinations) पैदा कर रहे हैं। और मुझे यह भी लगता है कि यह
00:04:38एक अच्छा अनुस्मारक है कि आधुनिक एजेंटों की पूरी बुद्धिमत्ता के बावजूद, अभी भी वेब के कुछ विशिष्ट
00:04:44क्षेत्र हैं जहाँ एजेंट अभी भी सटीक रूप से जानकारी प्राप्त करने के लिए संघर्ष करते हैं। तो यह रहा,
00:04:49दोस्तों, संक्षेप में एजेंट रीडिंग टेस्ट यही है। इस पर आपके क्या विचार हैं?
00:04:54यदि आप अन्य AI एजेंटों के लिए यह टेस्ट चलाते हैं, तो अपने परिणाम नीचे कमेंट सेक्शन में पोस्ट करें।
00:04:59यह देखना बहुत दिलचस्प होगा कि किन एजेंटों के स्कोर सबसे अच्छे हैं। और दोस्तों, अगर आपको
00:05:04इस प्रकार के तकनीकी ब्रेकडाउन पसंद हैं, तो कृपया वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं।
00:05:08और हमारे चैनल को सब्सक्राइब करना न भूलें। मैं Better Stack से एंड्रेस हूँ,
00:05:14और मैं आपसे अगले वीडियो में मिलूँगा।