00:00:00У ИИ-агентов есть одна большая проблема. Когда вы даете им URL-адрес, они часто заявляют, что прочитали страницу,
00:00:06но их внутреннее зрение часто ограничено. Появился новый инструмент
00:00:11под названием Agent Reading Test, разработанный Дакари Кэри и призванный решить
00:00:16эту проблему. Он использует серию «канареечных токенов» — уникальных строк, скрытых на 10 различных
00:00:23веб-страницах, чтобы точно показать, где возможности чтения агента дают сбой. В этом видео
00:00:28мы разберем Agent Reading Test, посмотрим, как он работает, и опробуем его сами.
00:00:34Будет очень интересно, так что давайте приступим.
00:00:37Большинство людей полагают, что когда агент переходит по URL, он видит то же самое, что и человек. Но на самом деле
00:00:47агенты полагаются на конвейеры выборки данных, которые могут давать сбои из-за современных методов веб-разработки.
00:00:53Agent Reading Test нацелен именно на такие сценарии отказов. Один из примеров — «захоронение в шаблоне»,
00:00:59где основной контент размещается после 80 000 символов встроенного CSS. Если у агента
00:01:06небольшое окно контекста для первичной выборки, он может увидеть только код стилей и решить,
00:01:12что страница пуста. Тест включает 10 подобных испытаний, которые помогают нам
00:01:17определить, действительно ли агент читает всю страницу. Например, есть тест на усечение текста.
00:01:22«Канарейки» размещаются через разные интервалы, скажем, на 75-й и 130-й тысяче символов. Это проверяет,
00:01:30не обрывает ли конвейер агента длинную документацию. Другой пример: многие современные сайты используют
00:01:36одностраничные приложения, где контент появляется только после выполнения JavaScript. И многие агенты
00:01:43видят лишь индикатор загрузки и пустую оболочку страницы. Данный тест помогает выяснить, так ли это
00:01:49на самом деле. Иногда причиной может стать «битый» код. Например,
00:01:54незакрытый тег Markdown может поглотить весь остальной контент страницы, сделав его невидимым для
00:02:00парсера агента. А иногда документация скрывает информацию за вкладками языков — например, при
00:02:06переключении между примерами на Python и Java. Если агент сканирует только первую вкладку, он упускает
00:02:12всю остальную информацию. Тест проходит через эти и другие подобные вызовы, чтобы оценить
00:02:17реальную способность агента читать страницу, и выставляет итоговый балл из 20. Но мы должны
00:02:23помнить, что этот тест не является пуленепробиваемым. Некоторым агентам удается «сжульничать»,
00:02:28используя хитрую тактику. Один из самых интересных выводов теста — это инфляция баллов. В ходе
00:02:35раннего тестирования такие агенты, как Claude Code, часто утверждали, что нашли 17 или 18 токенов,
00:02:42хотя на самом деле обнаружили только 15. Они делают это с помощью обходных путей. Например, если
00:02:48страница использует редирект, по которому конвейер агента не переходит автоматически, агент может заметить редирект
00:02:54в заголовке, вручную запросить новый URL на втором шаге и приписать себе заслугу. Хотя это полезно,
00:03:00это маскирует тот факт, что автоматизированный инструмент чтения у агента на самом деле сломан. Так что в некоторых
00:03:05случаях инфляция баллов все же случается. Относитесь к результатам с долей скепсиса. Но, сказав это,
00:03:11давайте перейдем к делу и попробуем все сами. Запустить тест довольно просто.
00:03:16Вы можете запустить его, направив вашего любимого ИИ-агента или инструмент просмотра на сайт agentreadingtest.com
00:03:23и попросив его найти все канареечные токены на сайте. Затем вам нужно сравнить его список с ключом ответов,
00:03:29представленным на сайте. Я покажу, как это работает, через секунду. В моем случае я попросил Kimi 2.5
00:03:35пройти этот тест. Я просто ввел начальный промпт и позволил ему делать свое дело. У Kimi ушло
00:03:40примерно две минуты на прохождение всего теста. В конце мы получаем этот длинный текстовый вывод,
00:03:46который нам следует полностью проигнорировать, так как нас интересуют только возвращенные маркеры-канарейки.
00:03:52Найдите область, где агент выводит сами маркеры. Именно эта улика
00:03:58позволит оценить, насколько хорошо агент справился с тестом. Нам нужно скопировать этот список и
00:04:04вставить его в раздел подсчета баллов на сайте, чтобы получить истинный финальный результат. И, как видите,
00:04:10Kimi 2.5 набрал 13 баллов из 20. Мы также получаем более подробный обзор того, с чем
00:04:16агент справился хорошо, а где потерпел неудачу. Как видно, у Kimi возникли проблемы с чтением контента во вкладках.
00:04:23Также мы видим, что у него были трудности с правильным чтением контента в формате Markdown. В целом, я считаю,
00:04:28что это отличный тест, дающий представление о том, как агенты на самом деле читают веб-страницы, и выявляющий,
00:04:33где они ищут легкие пути или выдают галлюцинации. Я также думаю, что это
00:04:38хорошее напоминание: даже при всем интеллекте современных агентов, все еще существуют специфические
00:04:44области веба, где им трудно точно извлекать информацию. Вот так, друзья,
00:04:49это и есть Agent Reading Test в двух словах. Что вы о нем думаете?
00:04:54Если вы решите запустить этот тест для других ИИ-агентов, делитесь результатами в комментариях
00:04:59ниже. Будет очень любопытно узнать, у каких агентов самые высокие баллы. И, ребята, если вам нравятся
00:05:04подобные технические разборы, пожалуйста, дайте мне знать, нажав на кнопку «лайк» под
00:05:08этим видео. И не забудьте подписаться на наш канал. С вами был Андрис из Better Stack,
00:05:14и увидимся в следующих видео.