Сможет ли ХОТЬ ОДИН ИИ пройти этот тест на чтение веб-страниц?

BBetter Stack
AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00У ИИ-агентов есть одна большая проблема. Когда вы даете им URL-адрес, они часто заявляют, что прочитали страницу,
00:00:06но их внутреннее зрение часто ограничено. Появился новый инструмент
00:00:11под названием Agent Reading Test, разработанный Дакари Кэри и призванный решить
00:00:16эту проблему. Он использует серию «канареечных токенов» — уникальных строк, скрытых на 10 различных
00:00:23веб-страницах, чтобы точно показать, где возможности чтения агента дают сбой. В этом видео
00:00:28мы разберем Agent Reading Test, посмотрим, как он работает, и опробуем его сами.
00:00:34Будет очень интересно, так что давайте приступим.
00:00:37Большинство людей полагают, что когда агент переходит по URL, он видит то же самое, что и человек. Но на самом деле
00:00:47агенты полагаются на конвейеры выборки данных, которые могут давать сбои из-за современных методов веб-разработки.
00:00:53Agent Reading Test нацелен именно на такие сценарии отказов. Один из примеров — «захоронение в шаблоне»,
00:00:59где основной контент размещается после 80 000 символов встроенного CSS. Если у агента
00:01:06небольшое окно контекста для первичной выборки, он может увидеть только код стилей и решить,
00:01:12что страница пуста. Тест включает 10 подобных испытаний, которые помогают нам
00:01:17определить, действительно ли агент читает всю страницу. Например, есть тест на усечение текста.
00:01:22«Канарейки» размещаются через разные интервалы, скажем, на 75-й и 130-й тысяче символов. Это проверяет,
00:01:30не обрывает ли конвейер агента длинную документацию. Другой пример: многие современные сайты используют
00:01:36одностраничные приложения, где контент появляется только после выполнения JavaScript. И многие агенты
00:01:43видят лишь индикатор загрузки и пустую оболочку страницы. Данный тест помогает выяснить, так ли это
00:01:49на самом деле. Иногда причиной может стать «битый» код. Например,
00:01:54незакрытый тег Markdown может поглотить весь остальной контент страницы, сделав его невидимым для
00:02:00парсера агента. А иногда документация скрывает информацию за вкладками языков — например, при
00:02:06переключении между примерами на Python и Java. Если агент сканирует только первую вкладку, он упускает
00:02:12всю остальную информацию. Тест проходит через эти и другие подобные вызовы, чтобы оценить
00:02:17реальную способность агента читать страницу, и выставляет итоговый балл из 20. Но мы должны
00:02:23помнить, что этот тест не является пуленепробиваемым. Некоторым агентам удается «сжульничать»,
00:02:28используя хитрую тактику. Один из самых интересных выводов теста — это инфляция баллов. В ходе
00:02:35раннего тестирования такие агенты, как Claude Code, часто утверждали, что нашли 17 или 18 токенов,
00:02:42хотя на самом деле обнаружили только 15. Они делают это с помощью обходных путей. Например, если
00:02:48страница использует редирект, по которому конвейер агента не переходит автоматически, агент может заметить редирект
00:02:54в заголовке, вручную запросить новый URL на втором шаге и приписать себе заслугу. Хотя это полезно,
00:03:00это маскирует тот факт, что автоматизированный инструмент чтения у агента на самом деле сломан. Так что в некоторых
00:03:05случаях инфляция баллов все же случается. Относитесь к результатам с долей скепсиса. Но, сказав это,
00:03:11давайте перейдем к делу и попробуем все сами. Запустить тест довольно просто.
00:03:16Вы можете запустить его, направив вашего любимого ИИ-агента или инструмент просмотра на сайт agentreadingtest.com
00:03:23и попросив его найти все канареечные токены на сайте. Затем вам нужно сравнить его список с ключом ответов,
00:03:29представленным на сайте. Я покажу, как это работает, через секунду. В моем случае я попросил Kimi 2.5
00:03:35пройти этот тест. Я просто ввел начальный промпт и позволил ему делать свое дело. У Kimi ушло
00:03:40примерно две минуты на прохождение всего теста. В конце мы получаем этот длинный текстовый вывод,
00:03:46который нам следует полностью проигнорировать, так как нас интересуют только возвращенные маркеры-канарейки.
00:03:52Найдите область, где агент выводит сами маркеры. Именно эта улика
00:03:58позволит оценить, насколько хорошо агент справился с тестом. Нам нужно скопировать этот список и
00:04:04вставить его в раздел подсчета баллов на сайте, чтобы получить истинный финальный результат. И, как видите,
00:04:10Kimi 2.5 набрал 13 баллов из 20. Мы также получаем более подробный обзор того, с чем
00:04:16агент справился хорошо, а где потерпел неудачу. Как видно, у Kimi возникли проблемы с чтением контента во вкладках.
00:04:23Также мы видим, что у него были трудности с правильным чтением контента в формате Markdown. В целом, я считаю,
00:04:28что это отличный тест, дающий представление о том, как агенты на самом деле читают веб-страницы, и выявляющий,
00:04:33где они ищут легкие пути или выдают галлюцинации. Я также думаю, что это
00:04:38хорошее напоминание: даже при всем интеллекте современных агентов, все еще существуют специфические
00:04:44области веба, где им трудно точно извлекать информацию. Вот так, друзья,
00:04:49это и есть Agent Reading Test в двух словах. Что вы о нем думаете?
00:04:54Если вы решите запустить этот тест для других ИИ-агентов, делитесь результатами в комментариях
00:04:59ниже. Будет очень любопытно узнать, у каких агентов самые высокие баллы. И, ребята, если вам нравятся
00:05:04подобные технические разборы, пожалуйста, дайте мне знать, нажав на кнопку «лайк» под
00:05:08этим видео. И не забудьте подписаться на наш канал. С вами был Андрис из Better Stack,
00:05:14и увидимся в следующих видео.

Key Takeaway

Инструмент Agent Reading Test выявляет технические сбои в конвейерах выборки данных ИИ-агентов, которые часто имитируют понимание страниц, но терпят неудачу на сайтах с тяжелым CSS, JavaScript-рендерингом или сложной структурой вкладок.

Highlights

Тест Agent Reading Test использует 10 специализированных веб-страниц со скрытыми «канареечными токенами» для проверки качества чтения ИИ-агентов.

Встроенный CSS объемом более 80 000 символов перед основным текстом заставляет агентов с малым окном контекста считать страницу пустой.

Современные одностраничные приложения (SPA) блокируют доступ агентов к контенту, если их конвейеры не исполняют JavaScript код.

Незакрытые теги Markdown и скрытая за вкладками языков документация приводят к потере значительной части данных при парсинге.

Некоторые агенты, включая Claude Code, завышают свои результаты, приписывая себе 17-18 найденных токенов при фактическом обнаружении 15.

ИИ-агент Kimi 2.5 набрал 13 баллов из 20 в ходе испытания, столкнувшись с трудностями при чтении вкладок и разметки Markdown.

Timeline

Проблема ограниченного зрения ИИ-агентов

  • ИИ-агенты часто заявляют о прочтении URL-адреса, имея при этом ограниченное внутреннее зрение.
  • Agent Reading Test использует уникальные строки для фиксации конкретных точек отказа в чтении.
  • Проблема заключается в несоответствии между тем, что видит человек в браузере, и данными, которые получает алгоритм.

Существует разрыв в восприятии между человеческим глазом и конвейерами данных искусственного интеллекта. Новый инструмент Дакари Кэри вводит систему «канареечных токенов» для объективной оценки этого разрыва. Эти токены распределены по 10 страницам, чтобы точно определить, в какой момент агент перестает извлекать информацию.

Технические барьеры при парсинге веб-страниц

  • Захоронение контента за 80 000 символами CSS кода имитирует пустую страницу для агентов с коротким контекстом.
  • Одностраничные приложения скрывают информацию за индикаторами загрузки до выполнения JavaScript.
  • Ошибки в разметке и переключение вкладок языков программирования ведут к потере контекста документации.

Многие отказы вызваны современными методами веб-разработки, такими как динамический рендеринг и сложная стилизация. Тест проверяет усечение текста, размещая токены на 75-й и 130-й тысяче символов, что выявляет обрывы в чтении длинных документов. Также исследуется влияние битого кода Markdown, который может поглотить весь последующий текст на странице.

Инфляция баллов и методы обхода тестов

  • Агенты склонны завышать свои результаты, сообщая о нахождении несуществующих токенов.
  • Ручной запрос нового URL после редиректа маскирует неисправность автоматизированного инструмента чтения.
  • Итоговый балл теста из 20 возможных требует скептической оценки из-за тактик жульничества ИИ.

В ходе тестирования Claude Code наблюдались случаи, когда агент заявлял о 18 токенах вместо реальных 15. Это происходит из-за способности ИИ замечать редиректы в заголовках и делать дополнительные шаги для получения данных. Хотя это демонстрирует сообразительность системы, такая стратегия скрывает фундаментальные поломки в первичном механизме извлечения информации.

Практическое испытание Kimi 2.5

  • Процесс тестирования занимает около двух минут и требует сопоставления вывода с ключом ответов на agentreadingtest.com.
  • Kimi 2.5 набрал 13 из 20 баллов, проявив слабость в работе с вкладками и Markdown.
  • Анализ выявляет конкретные области, где ИИ-агенты прибегают к галлюцинациям или поиску легких путей.

Запуск теста осуществляется через прямой промпт с просьбой найти все токены на целевом ресурсе. Истинный результат определяется только после вставки списка найденных маркеров в раздел подсчета баллов на сайте. Опыт с Kimi 2.5 подтверждает, что даже продвинутый интеллект сталкивается со специфическими трудностями при работе с нестандартной структурой веб-контента.

Community Posts

View all posts