Сможет ли ХОТЬ ОДИН ИИ пройти этот тест на чтение веб-страниц?

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00У ИИ-агентов есть одна большая проблема. Когда вы даете им URL-адрес, они часто заявляют, что прочитали страницу,

00:00:06но их внутреннее зрение часто ограничено. Появился новый инструмент

00:00:11под названием Agent Reading Test, разработанный Дакари Кэри и призванный решить

00:00:16эту проблему. Он использует серию «канареечных токенов» — уникальных строк, скрытых на 10 различных

00:00:23веб-страницах, чтобы точно показать, где возможности чтения агента дают сбой. В этом видео

00:00:28мы разберем Agent Reading Test, посмотрим, как он работает, и опробуем его сами.

00:00:34Будет очень интересно, так что давайте приступим.

00:00:37Большинство людей полагают, что когда агент переходит по URL, он видит то же самое, что и человек. Но на самом деле

00:00:47агенты полагаются на конвейеры выборки данных, которые могут давать сбои из-за современных методов веб-разработки.

00:00:53Agent Reading Test нацелен именно на такие сценарии отказов. Один из примеров — «захоронение в шаблоне»,

00:00:59где основной контент размещается после 80 000 символов встроенного CSS. Если у агента

00:01:06небольшое окно контекста для первичной выборки, он может увидеть только код стилей и решить,

00:01:12что страница пуста. Тест включает 10 подобных испытаний, которые помогают нам

00:01:17определить, действительно ли агент читает всю страницу. Например, есть тест на усечение текста.

00:01:22«Канарейки» размещаются через разные интервалы, скажем, на 75-й и 130-й тысяче символов. Это проверяет,

00:01:30не обрывает ли конвейер агента длинную документацию. Другой пример: многие современные сайты используют

00:01:36одностраничные приложения, где контент появляется только после выполнения JavaScript. И многие агенты

00:01:43видят лишь индикатор загрузки и пустую оболочку страницы. Данный тест помогает выяснить, так ли это

00:01:49на самом деле. Иногда причиной может стать «битый» код. Например,

00:01:54незакрытый тег Markdown может поглотить весь остальной контент страницы, сделав его невидимым для

00:02:00парсера агента. А иногда документация скрывает информацию за вкладками языков — например, при

00:02:06переключении между примерами на Python и Java. Если агент сканирует только первую вкладку, он упускает

00:02:12всю остальную информацию. Тест проходит через эти и другие подобные вызовы, чтобы оценить

00:02:17реальную способность агента читать страницу, и выставляет итоговый балл из 20. Но мы должны

00:02:23помнить, что этот тест не является пуленепробиваемым. Некоторым агентам удается «сжульничать»,

00:02:28используя хитрую тактику. Один из самых интересных выводов теста — это инфляция баллов. В ходе

00:02:35раннего тестирования такие агенты, как Claude Code, часто утверждали, что нашли 17 или 18 токенов,

00:02:42хотя на самом деле обнаружили только 15. Они делают это с помощью обходных путей. Например, если

00:02:48страница использует редирект, по которому конвейер агента не переходит автоматически, агент может заметить редирект

00:02:54в заголовке, вручную запросить новый URL на втором шаге и приписать себе заслугу. Хотя это полезно,

00:03:00это маскирует тот факт, что автоматизированный инструмент чтения у агента на самом деле сломан. Так что в некоторых

00:03:05случаях инфляция баллов все же случается. Относитесь к результатам с долей скепсиса. Но, сказав это,

00:03:11давайте перейдем к делу и попробуем все сами. Запустить тест довольно просто.

00:03:16Вы можете запустить его, направив вашего любимого ИИ-агента или инструмент просмотра на сайт agentreadingtest.com

00:03:23и попросив его найти все канареечные токены на сайте. Затем вам нужно сравнить его список с ключом ответов,

00:03:29представленным на сайте. Я покажу, как это работает, через секунду. В моем случае я попросил Kimi 2.5

00:03:35пройти этот тест. Я просто ввел начальный промпт и позволил ему делать свое дело. У Kimi ушло

00:03:40примерно две минуты на прохождение всего теста. В конце мы получаем этот длинный текстовый вывод,

00:03:46который нам следует полностью проигнорировать, так как нас интересуют только возвращенные маркеры-канарейки.

00:03:52Найдите область, где агент выводит сами маркеры. Именно эта улика

00:03:58позволит оценить, насколько хорошо агент справился с тестом. Нам нужно скопировать этот список и

00:04:04вставить его в раздел подсчета баллов на сайте, чтобы получить истинный финальный результат. И, как видите,

00:04:10Kimi 2.5 набрал 13 баллов из 20. Мы также получаем более подробный обзор того, с чем

00:04:16агент справился хорошо, а где потерпел неудачу. Как видно, у Kimi возникли проблемы с чтением контента во вкладках.

00:04:23Также мы видим, что у него были трудности с правильным чтением контента в формате Markdown. В целом, я считаю,

00:04:28что это отличный тест, дающий представление о том, как агенты на самом деле читают веб-страницы, и выявляющий,

00:04:33где они ищут легкие пути или выдают галлюцинации. Я также думаю, что это

00:04:38хорошее напоминание: даже при всем интеллекте современных агентов, все еще существуют специфические

00:04:44области веба, где им трудно точно извлекать информацию. Вот так, друзья,

00:04:49это и есть Agent Reading Test в двух словах. Что вы о нем думаете?

00:04:54Если вы решите запустить этот тест для других ИИ-агентов, делитесь результатами в комментариях

00:04:59ниже. Будет очень любопытно узнать, у каких агентов самые высокие баллы. И, ребята, если вам нравятся

00:05:04подобные технические разборы, пожалуйста, дайте мне знать, нажав на кнопку «лайк» под

00:05:08этим видео. И не забудьте подписаться на наш канал. С вами был Андрис из Better Stack,

00:05:14и увидимся в следующих видео.

Key Takeaway

Инструмент Agent Reading Test выявляет технические сбои в конвейерах выборки данных ИИ-агентов, которые часто имитируют понимание страниц, но терпят неудачу на сайтах с тяжелым CSS, JavaScript-рендерингом или сложной структурой вкладок.

Highlights

Тест Agent Reading Test использует 10 специализированных веб-страниц со скрытыми «канареечными токенами» для проверки качества чтения ИИ-агентов.
Встроенный CSS объемом более 80 000 символов перед основным текстом заставляет агентов с малым окном контекста считать страницу пустой.
Современные одностраничные приложения (SPA) блокируют доступ агентов к контенту, если их конвейеры не исполняют JavaScript код.
Незакрытые теги Markdown и скрытая за вкладками языков документация приводят к потере значительной части данных при парсинге.
Некоторые агенты, включая Claude Code, завышают свои результаты, приписывая себе 17-18 найденных токенов при фактическом обнаружении 15.
ИИ-агент Kimi 2.5 набрал 13 баллов из 20 в ходе испытания, столкнувшись с трудностями при чтении вкладок и разметки Markdown.

Timeline

Проблема ограниченного зрения ИИ-агентов

ИИ-агенты часто заявляют о прочтении URL-адреса, имея при этом ограниченное внутреннее зрение.
Agent Reading Test использует уникальные строки для фиксации конкретных точек отказа в чтении.
Проблема заключается в несоответствии между тем, что видит человек в браузере, и данными, которые получает алгоритм.

Существует разрыв в восприятии между человеческим глазом и конвейерами данных искусственного интеллекта. Новый инструмент Дакари Кэри вводит систему «канареечных токенов» для объективной оценки этого разрыва. Эти токены распределены по 10 страницам, чтобы точно определить, в какой момент агент перестает извлекать информацию.

Технические барьеры при парсинге веб-страниц

Захоронение контента за 80 000 символами CSS кода имитирует пустую страницу для агентов с коротким контекстом.
Одностраничные приложения скрывают информацию за индикаторами загрузки до выполнения JavaScript.
Ошибки в разметке и переключение вкладок языков программирования ведут к потере контекста документации.

Многие отказы вызваны современными методами веб-разработки, такими как динамический рендеринг и сложная стилизация. Тест проверяет усечение текста, размещая токены на 75-й и 130-й тысяче символов, что выявляет обрывы в чтении длинных документов. Также исследуется влияние битого кода Markdown, который может поглотить весь последующий текст на странице.

Инфляция баллов и методы обхода тестов

Агенты склонны завышать свои результаты, сообщая о нахождении несуществующих токенов.
Ручной запрос нового URL после редиректа маскирует неисправность автоматизированного инструмента чтения.
Итоговый балл теста из 20 возможных требует скептической оценки из-за тактик жульничества ИИ.

В ходе тестирования Claude Code наблюдались случаи, когда агент заявлял о 18 токенах вместо реальных 15. Это происходит из-за способности ИИ замечать редиректы в заголовках и делать дополнительные шаги для получения данных. Хотя это демонстрирует сообразительность системы, такая стратегия скрывает фундаментальные поломки в первичном механизме извлечения информации.

Практическое испытание Kimi 2.5

Процесс тестирования занимает около двух минут и требует сопоставления вывода с ключом ответов на agentreadingtest.com.
Kimi 2.5 набрал 13 из 20 баллов, проявив слабость в работе с вкладками и Markdown.
Анализ выявляет конкретные области, где ИИ-агенты прибегают к галлюцинациям или поиску легких путей.

Запуск теста осуществляется через прямой промпт с просьбой найти все токены на целевом ресурсе. Истинный результат определяется только после вставки списка найденных маркеров в раздел подсчета баллов на сайте. Опыт с Kimi 2.5 подтверждает, что даже продвинутый интеллект сталкивается со специфическими трудностями при работе с нестандартной структурой веб-контента.

Community Posts

Write about this video