00:00:00تواجه وكلاء الذكاء الاصطناعي مشكلة واحدة كبيرة. فعندما تعطيهم رابطًا، غالبًا ما يدعون أنهم قرأوا الصفحة،
00:00:06لكن رؤيتهم الداخلية غالبًا ما تكون محجوبة. هناك أداة جديدة متاحة
00:00:11تسمى "Agent Reading Test"، صممها داكاري كاري وتهدف إلى حل
00:00:16هذه المشكلة. وهي تستخدم سلسلة من رموز "الكناري"، وهي سلاسل فريدة مخبأة عبر 10 صفحات
00:00:23ويب مختلفة، لإثبات أين تنهار قدرة الوكيل على القراءة بالضبط. في هذا الفيديو،
00:00:28سنلقي نظرة على اختبار قراءة الوكلاء، ونرى كيف يعمل، ونجربه بأنفسنا.
00:00:34سيكون الأمر ممتعًا للغاية، لذا دعونا نتعمق فيه.
00:00:37يفترض معظم الناس أنه عندما يزور الوكيل رابطًا، فإنه يرى ما يراه الإنسان. ولكن في الواقع،
00:00:47تعتمد الوكلاء على خطوط جلب البيانات التي قد تتعثر بسبب ممارسات تطوير الويب الحديثة.
00:00:53يستهدف اختبار قراءة الوكيل أوضاع الفشل المحددة هذه. أحد الأمثلة هو "دفن المحتوى الأساسي"،
00:00:59حيث يتم وضع المحتوى الفعلي بعد 80,000 حرف من لغة CSS المضمنة. إذا كان للوكيل
00:01:06نافذة سياق صغيرة لجلبه الأولي، فقد يرى فقط كود التنسيق ويستنتج
00:01:12أن الصفحة فارغة. يتضمن الاختبار 10 تحديات متميزة كهذه، تساعدنا
00:01:17في تحديد ما إذا كان الوكيل يقرأ الصفحة كاملة حقًا. على سبيل المثال، هناك اختبار الاقتطاع.
00:01:22يتم وضع رموز الكناري على فترات مختلفة، مثل 75 ألف و130 ألف حرف. وهذا يختبر ما إذا كان
00:01:30خط معالجة الوكيل يقطع الوثائق الطويلة. وعلى سبيل المثال، تستخدم العديد من المواقع الحديثة
00:01:36تطبيقات الصفحة الواحدة حيث لا يظهر المحتوى إلا بعد تشغيل JavaScript. والعديد من الوكلاء
00:01:43ينظرون فقط إلى أيقونة التحميل ويرون هيكل الصفحة فقط. لكن هذا الاختبار يساعدنا في تحديد ما إذا كان هذا هو الحال حقًا.
00:01:49أحيانًا قد تكون هناك حالات يكون فيها الكود المعطوب هو السبب. مثلًا،
00:01:54يمكن لوسم Markdown غير مغلق أن يبتلع بقية محتوى الصفحة، مما يجعله غير مرئي
00:02:00لمحلل الوكيل. وأحيانًا تخفي الوثائق المعلومات خلف تبويبات اللغة، مثل التنقل
00:02:06بين مثال Python ومثال Java. إذا قام الوكيل بسحب التبويب الأول فقط، فإنه يفقد
00:02:12بقية المعلومات. لذا يمر هذا الاختبار عبر هذه التحديات وغيرها لتقييم
00:02:17قدرة الوكيل الحقيقية على قراءة الصفحة ثم يعطيك درجة نهائية من 20. ولكن علينا أيضًا
00:02:23أن نضع في اعتبارنا أن هذا الاختبار ليس مضادًا للرصاص. فبعض الوكلاء تمكنوا بالفعل من الغش فيه
00:02:28باستخدام تكتيكات مخادعة. ومن أكثر النتائج إثارة للاهتمام في الاختبار هي تضخم الدرجات. خلال
00:02:35الاختبارات المبكرة مع وكلاء مثل Claude Code، غالبًا ما كان الوكلاء يدعون أنهم وجدوا 17 أو 18 رمزًا
00:02:42حتى عندما لم يجدوا في الواقع سوى 15. يفعلون ذلك من خلال حلول بديلة. على سبيل المثال، إذا كانت
00:02:48الصفحة تستخدم إعادة توجيه لا يتبعها خط معالجة الوكيل، فقد يلاحظ الوكيل إعادة التوجيه في
00:02:54الترويسة، ويجلب الرابط الجديد يدويًا في الخطوة الثانية ويدعي الفضل. ورغم أن هذا مفيد،
00:03:00إلا أنه يخفي حقيقة أن أداة القراءة الآلية للوكيل معطلة في الواقع. لذا في بعض
00:03:05الحالات، يمكن أن يحدث تضخم في الدرجات. لذا تعامل مع هذا الاختبار بحذر. ومع ذلك،
00:03:11دعونا نمضي قدمًا ونجربه بأنفسنا. وإجراء الاختبار بسيط للغاية.
00:03:16يمكنك تشغيله عن طريق توجيه وكيل الذكاء الاصطناعي المفضل لديك أو أداة التصفح إلى agentreadingtest.com واطلب منه
00:03:23العثور على جميع رموز الكناري في الموقع. ثم عليك مقارنة قائمته بمفتاح الإجابة
00:03:29المتوفر في الموقع. سأريكم كيف يعمل ذلك في ثانية. في حالتي، طلبت من Kimi 2.5
00:03:35إجراء الاختبار. لقد قمت فقط بإعطائه الموجه الأولي وتركته يقوم بعمله. استغرق
00:03:40Kimi حوالي دقيقتين للمرور عبر الاختبار بأكمله. وفي النهاية، نحصل على هذا النص الطويل،
00:03:46والذي يجب أن نتجاهله تمامًا لأننا مهتمون فقط بعلامات الكناري التي يعيدها
00:03:52إلينا. لذا ابحث عن المنطقة التي يخرج فيها الوكيل العلامات نفسها. وهذا هو الدليل
00:03:58الذي سيقيم بالفعل مدى جودة أداء الوكيل في الاختبار. لذا يجب نسخ تلك القائمة ثم
00:04:04لصقها في قسم النتائج بالموقع للحصول على النتائج الحقيقية النهائية. وكما ترون،
00:04:10سجل Kimi 2.5 درجة 13 من أصل 20 نقطة. ونحصل أيضًا على نظرة عامة أكثر تفصيلاً حول أين
00:04:16أبلى الوكيل بلاءً حسنًا وأين فشل. وكما ترون، واجه Kimi بعض المشاكل في قراءة محتوى التبويبات.
00:04:23ونرى أيضًا أنه واجه صعوبات في قراءة محتوى Markdown بشكل صحيح. بشكل عام، أعتقد أن هذا
00:04:28اختبار رائع يعطيك فكرة عن كيفية قراءة الوكلاء للويب ويحدد
00:04:33أين يتخذون اختصارات أو ينتجون هلوسات. وأعتقد أيضًا أن هذا
00:04:38تذكير جيد بأنه رغم كل ذكاء الوكلاء الحديثين، لا تزال هناك بعض
00:04:44المناطق المعينة في الويب حيث لا يزال الوكلاء يكافحون لاسترجاع المعلومات بدقة. هاهو ذا
00:04:49يا رفاق، هذا هو اختبار قراءة الوكيل باختصار. ما هي أفكاركم حوله؟
00:04:54إذا انتهى بكم الأمر بإجراء هذا الاختبار لوكلاء ذكاء اصطناعي آخرين، فانشروا نتائجكم في قسم التعليقات
00:04:59بالأسفل. سيكون من المثير جدًا رؤية أي الوكلاء يحققون أفضل الدرجات. ويا رفاق، إذا أعجبتكم
00:05:04هذه الأنواع من التحليلات التقنية، يرجى إعلامي عن طريق الضغط على زر الإعجاب تحت
00:05:08الفيديو. ولا تنسوا أيضًا الاشتراك في قناتنا. كان معكم أندريس من Better Stack،
00:05:14وسأراكم في الفيديوهات القادمة.