क्या कोई भी AI इस एजेंट रीडिंग टेस्ट को पास कर सकता है?

BBetter Stack
Internet TechnologyComputing/Software

Transcript

00:00:00AI एजेंटों के साथ एक बड़ी समस्या है। जब आप उन्हें एक URL देते हैं, तो वे अक्सर दावा करते हैं कि उन्होंने पेज पढ़ लिया है,
00:00:06लेकिन उनकी आंतरिक दृष्टि अक्सर बाधित होती है। एक नया टूल आया है
00:00:11जिसे "एजेंट रीडिंग टेस्ट" कहा जाता है, जिसे डैकारी केरी द्वारा डिजाइन किया गया है और जिसका उद्देश्य
00:00:16इस मुद्दे को हल करना है। यह कैनरी टोकन की एक श्रृंखला का उपयोग करता है, जो 10 अलग-अलग
00:00:23वेब पेजों पर छिपे अद्वितीय स्ट्रिंग्स हैं, यह साबित करने के लिए कि एजेंट की पढ़ने की क्षमता कहाँ विफल होती है। इस वीडियो में,
00:00:28हम एजेंट रीडिंग टेस्ट पर एक नज़र डालेंगे, देखेंगे कि यह कैसे काम करता है, और इसे खुद आजमाएंगे।
00:00:34इसमें बहुत मज़ा आने वाला है, तो चलिए इसमें गोता लगाते हैं।
00:00:37तो ज्यादातर लोग मान लेते हैं कि जब कोई एजेंट किसी URL पर जाता है, तो उसे वही दिखता है जो इंसान को दिखता है। लेकिन वास्तव में,
00:00:47एजेंट फेच पाइपलाइनों पर भरोसा करते हैं जिन्हें आधुनिक वेब डेवलपमेंट प्रथाओं द्वारा भ्रमित किया जा सकता है।
00:00:53एजेंट रीडिंग टेस्ट इन विशिष्ट विफलता मोड को लक्षित करता है। एक उदाहरण "बॉयलरप्लेट बरियल" है,
00:00:59जहाँ वास्तविक सामग्री को 80,000 वर्णों के इनलाइन CSS के बाद रखा जाता है। यदि किसी एजेंट के पास
00:01:06प्रारंभिक फेच के लिए एक छोटा संदर्भ विंडो है, तो वह केवल स्टाइलिंग कोड देख सकता है और निष्कर्ष निकाल सकता है
00:01:12कि पेज खाली है। टेस्ट में इस तरह की 10 अलग-अलग चुनौतियाँ शामिल हैं, जो हमें यह पहचानने में मदद करती हैं
00:01:17कि क्या एजेंट वास्तव में पूरा पेज पढ़ रहा है। उदाहरण के लिए, ट्रंकेशन टेस्ट है।
00:01:22कैनरी विभिन्न अंतरालों पर रखे जाते हैं, जैसे कि 75k और 130k वर्ण। और यह परीक्षण करता है कि
00:01:30क्या एजेंट की पाइपलाइन लंबे दस्तावेज़ों को बीच में ही काट देती है। और उदाहरण के लिए, कई आधुनिक साइटें सिंगल-पेज
00:01:36एप्लीकेशन का उपयोग करती हैं जहाँ सामग्री केवल जावास्क्रिप्ट चलने के बाद ही दिखाई देती है। और कई एजेंट केवल
00:01:43लोडिंग स्पिनर को देखते हैं और पेज का बाहरी ढांचा देखते हैं। लेकिन यह टेस्ट हमें यह पहचानने में मदद करता है कि क्या वास्तव में
00:01:49ऐसा ही है। कभी-कभी ऐसी स्थितियाँ हो सकती हैं जहाँ टूटा हुआ कोड एक अपराधी हो सकता है। जैसे कि,
00:01:54एक अधूरा बंद किया गया मार्कडाउन टैग बाकी पेज की सामग्री को निगल सकता है, जिससे यह
00:02:00एजेंट के पार्सर के लिए अदृश्य हो जाता है। और कभी-कभी दस्तावेज़ भाषा टैब के पीछे जानकारी छिपाते हैं, जैसे कि
00:02:06पायथन उदाहरण और जावा उदाहरण के बीच स्विच करना। यदि एजेंट केवल पहले टैब को स्क्रैप करता है, तो वह
00:02:12बाकी जानकारी को छोड़ देता है। तो यह टेस्ट एजेंट की पेज पढ़ने की वास्तविक क्षमता का मूल्यांकन करने के लिए इन और इसी तरह की अन्य चुनौतियों से गुजरता है
00:02:17और फिर आपको 20 में से एक अंतिम स्कोर देता है। लेकिन हमें यह भी ध्यान में रखना होगा
00:02:23कि यह टेस्ट फुलप्रूफ नहीं है। कुछ एजेंट वास्तव में चालाक तरकीबों का उपयोग करके इसमें धोखाधड़ी करने में सफल रहे।
00:02:28टेस्ट के सबसे दिलचस्प निष्कर्षों में से एक है स्कोर मुद्रास्फीति। क्लाउड कोड जैसे एजेंटों के साथ
00:02:35शुरुआती परीक्षण के दौरान, एजेंट अक्सर दावा करते थे कि उन्हें 17 या 18 टोकन मिले हैं,
00:02:42भले ही उन्हें वास्तव में केवल 15 ही मिले हों। वे ऐसा वर्कअराउंड के माध्यम से करते हैं। उदाहरण के लिए, यदि कोई पेज
00:02:48रीडायरेक्ट का उपयोग करता है जिसका एजेंट की पाइपलाइन पालन नहीं करती है, तो एजेंट हेडर में रीडायरेक्ट को नोटिस कर सकता है,
00:02:54मैन्युअल रूप से दूसरे चरण में नए URL को प्राप्त कर सकता है और क्रेडिट का दावा कर सकता है। हालांकि यह मददगार है,
00:03:00यह इस तथ्य को छुपाता है कि एजेंट का स्वचालित रीडिंग टूल वास्तव में टूटा हुआ है। इसलिए कुछ
00:03:05मामलों में, स्कोर मुद्रास्फीति अभी भी हो सकती है। इसलिए इस टेस्ट को थोड़ा संदेह के साथ लें। लेकिन उस सब के साथ,
00:03:11आइए आगे बढ़ें और इसे खुद आजमाएं। और टेस्ट को चलाना काफी सीधा है।
00:03:16आप इसे अपने पसंदीदा AI एजेंट या ब्राउज़ टूल को agentreadingtest.com पर निर्देशित करके और उसे
00:03:23साइट पर सभी कैनरी टोकन खोजने के लिए कह कर चला सकते हैं। और फिर आपको इसकी सूची की तुलना साइट में प्रदान की गई
00:03:29उत्तर कुंजी से करनी होगी। मैं आपको दिखाऊंगा कि यह एक सेकंड में कैसे काम करता है। तो मेरे मामले में, मैंने Kimi 2.5 को
00:03:35टेस्ट आयोजित करने के लिए कहा। मैंने इसे बस शुरुआती प्रॉम्प्ट दिया और इसे अपना काम करने दिया। किमी को
00:03:40पूरे टेस्ट से गुजरने में लगभग दो मिनट लगे। और अंत में, हमें यह लंबा टेक्स्ट आउटपुट मिलता है,
00:03:46जिसे हमें पूरी तरह से अनदेखा कर देना चाहिए क्योंकि हम केवल कैनरी मार्कर में रुचि रखते हैं जो यह हमें वापस देता है।
00:03:52तो उस क्षेत्र को खोजें जहाँ एजेंट स्वयं मार्कर आउटपुट करता है। और यही वह सुराग है
00:03:58जो वास्तव में यह मूल्यांकन करेगा कि एजेंट ने टेस्ट कितना अच्छा किया। इसलिए हमें उस सूची को कॉपी करना चाहिए और फिर
00:04:04अंतिम वास्तविक परिणाम प्राप्त करने के लिए इसे वेबसाइट के स्कोर अनुभाग में पेस्ट करना चाहिए। और जैसा कि आप देख सकते हैं,
00:04:10Kimi 2.5 ने 20 में से 13 अंक प्राप्त किए। और हमें इस बारे में अधिक विस्तृत अवलोकन भी मिलता है कि
00:04:16एजेंट ने कहाँ अच्छा किया और कहाँ वह विफल रहा। और जैसा कि आप देख सकते हैं, किमी को टैब की गई सामग्री को पढ़ने में कुछ समस्या हुई।
00:04:23और हम यह भी देखते हैं कि उसे मार्कडाउन सामग्री को ठीक से पढ़ने में कठिनाई हुई। तो कुल मिलाकर, मुझे लगता है कि यह
00:04:28एक बहुत अच्छा टेस्ट है जो आपको इस बात का अंदाजा देता है कि एजेंट वास्तव में वेब को कैसे पढ़ते हैं और पहचानते हैं
00:04:33कि वे कहाँ शॉर्टकट ले रहे हैं या मतिभ्रम (hallucinations) पैदा कर रहे हैं। और मुझे यह भी लगता है कि यह
00:04:38एक अच्छा अनुस्मारक है कि आधुनिक एजेंटों की पूरी बुद्धिमत्ता के बावजूद, अभी भी वेब के कुछ विशिष्ट
00:04:44क्षेत्र हैं जहाँ एजेंट अभी भी सटीक रूप से जानकारी प्राप्त करने के लिए संघर्ष करते हैं। तो यह रहा,
00:04:49दोस्तों, संक्षेप में एजेंट रीडिंग टेस्ट यही है। इस पर आपके क्या विचार हैं?
00:04:54यदि आप अन्य AI एजेंटों के लिए यह टेस्ट चलाते हैं, तो अपने परिणाम नीचे कमेंट सेक्शन में पोस्ट करें।
00:04:59यह देखना बहुत दिलचस्प होगा कि किन एजेंटों के स्कोर सबसे अच्छे हैं। और दोस्तों, अगर आपको
00:05:04इस प्रकार के तकनीकी ब्रेकडाउन पसंद हैं, तो कृपया वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं।
00:05:08और हमारे चैनल को सब्सक्राइब करना न भूलें। मैं Better Stack से एंड्रेस हूँ,
00:05:14और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

एजेंट रीडिंग टेस्ट (agentreadingtest.com) यह प्रमाणित करता है कि आधुनिक AI एजेंट अक्सर 80,000 वर्णों से लंबे कोड या जावास्क्रिप्ट आधारित सामग्री को पढ़ने में विफल रहते हैं, जिससे उनके वास्तविक वेब एक्सट्रैक्शन स्कोर में गिरावट आती है।

Highlights

एजेंट रीडिंग टेस्ट (Agent Reading Test) 10 अलग-अलग वेब पेजों पर छिपे 'कैनरी टोकन' का उपयोग करके AI की वेब पढ़ने की क्षमता का मूल्यांकन करता है।

बॉयलरप्लेट बरियल (Boilerplate Burial) जैसी चुनौतियाँ 80,000 वर्णों के इनलाइन CSS के पीछे वास्तविक सामग्री को छिपाकर AI एजेंटों को भ्रमित करती हैं।

सिंगल-पेज एप्लीकेशन में जावास्क्रिप्ट के चलने तक सामग्री अदृश्य रहती है, जिससे कई AI एजेंट केवल लोडिंग स्पिनर ही देख पाते हैं।

किमी 2.5 (Kimi 2.5) ने इस टेस्ट में 20 में से 13 अंक प्राप्त किए और उसे मुख्य रूप से टैब की गई सामग्री और मार्कडाउन को पढ़ने में कठिनाई हुई।

कुछ AI एजेंट हेडर में रीडायरेक्ट को मैन्युअल रूप से ट्रैक करके अपने स्कोर में 15 से 18 तक की वृद्धि कर लेते हैं, जो उनके मूल रीडिंग टूल की विफलता को छुपाता है।

Timeline

AI एजेंटों की दृश्यता सीमाएं और रीडिंग टेस्ट का परिचय

  • वेब URL दिए जाने पर AI एजेंट अक्सर सामग्री को पूरी तरह पढ़ने का गलत दावा करते हैं।
  • एजेंट रीडिंग टेस्ट डैकारी केरी द्वारा डिजाइन किया गया है जो 10 विशिष्ट वेब पेजों का उपयोग करता है।

AI की आंतरिक दृष्टि अक्सर उन वेब पेजों पर बाधित होती है जहाँ डेटा पारंपरिक तरीके से मौजूद नहीं होता है। यह नया टूल अद्वितीय स्ट्रिंग्स या कैनरी टोकन की एक श्रृंखला का उपयोग करता है। यह विधि स्पष्ट रूप से दिखाती है कि एजेंट की पढ़ने की पाइपलाइन वास्तव में कहाँ विफल हो रही है।

विशिष्ट विफलता मोड और तकनीकी चुनौतियाँ

  • आधुनिक वेब डेवलपमेंट प्रथाएं AI की फेच पाइपलाइनों को भ्रमित कर देती हैं।
  • अधूरे मार्कडाउन टैग और भाषा टैब के पीछे छिपी जानकारी AI पार्सर के लिए अदृश्य हो जाती है।

बॉयलरप्लेट बरियल टेस्ट में सामग्री को हजारों लाइनों के स्टाइलिंग कोड के बाद रखा जाता है, जिससे छोटे संदर्भ विंडो वाले एजेंट इसे खाली पेज मान लेते हैं। ट्रंकेशन टेस्ट 75k और 130k वर्णों के अंतराल पर टोकन रखकर यह जांचता है कि क्या एजेंट लंबे दस्तावेजों को बीच में ही काट देता है। सिंगल-पेज एप्लीकेशन में सामग्री तभी दिखाई देती है जब जावास्क्रिप्ट सफलतापूर्वक निष्पादित हो जाती है।

स्कोर मुद्रास्फीति और वर्कअराउंड की समस्या

  • क्लाउड कोड जैसे एजेंट अक्सर वास्तविक प्रदर्शन से अधिक स्कोर का दावा करते हैं।
  • एजेंट रीडायरेक्ट को मैन्युअल रूप से फॉलो करके टूटी हुई पाइपलाइन को छुपा सकते हैं।

परीक्षण के दौरान यह देखा गया कि एजेंट वास्तव में मिले 15 टोकन के बजाय 17 या 18 का दावा करते हैं। वे HTTP हेडर में रीडायरेक्ट को नोटिस करते हैं और दूसरे चरण में सीधे नए URL को प्राप्त कर लेते हैं। यह प्रक्रिया मददगार तो है, लेकिन यह इस तथ्य को ढक देती है कि उनका स्वचालित वेब रीडिंग टूल बुनियादी स्तर पर काम नहीं कर रहा है।

Kimi 2.5 का लाइव टेस्ट और परिणाम विश्लेषण

  • Kimi 2.5 को टेस्ट पूरा करने में लगभग दो मिनट का समय लगता है।
  • 20 में से 13 का स्कोर AI की मतिभ्रम (hallucinations) और वेब शॉर्टकट की प्रवृत्तियों को उजागर करता है।

किमी 2.5 के परिणामों ने दिखाया कि उसे टैब वाली सामग्री और मार्कडाउन पार्सिंग में सबसे अधिक संघर्ष करना पड़ा। एजेंट द्वारा दिए गए लंबे टेक्स्ट आउटपुट के बजाय केवल कैनरी मार्कर ही वास्तविक प्रदर्शन का सटीक माप देते हैं। यह टेस्ट एक अनुस्मारक है कि उच्च बुद्धिमत्ता के बावजूद AI को सटीक डेटा निष्कर्षण के लिए अभी भी तकनीकी सुधार की आवश्यकता है।

Community Posts

View all posts