00:00:00AI 에이전트에게는 한 가지 큰 문제가 있습니다. URL을 주면 보통 페이지를 다 읽었다고 주장하지만,
00:00:06실제로는 내부 시야가 가려지는 경우가 빈번합니다. 현재 이 문제를 해결하기 위해
00:00:11다카리 캐리가 설계한 '에이전트 리딩 테스트(Agent Reading Test)'라는
00:00:16새로운 도구가 나왔습니다. 이 테스트는 10개의 서로 다른 웹 페이지에 숨겨진
00:00:23고유 문자열인 일련의 '카나리 토큰'을 사용하여 에이전트의 읽기 능력이 정확히 어디서 끊기는지 증명합니다.
00:00:28이번 영상에서는 에이전트 리딩 테스트를 살펴보고, 작동 방식과 직접 테스트하는 과정까지 알아보겠습니다.
00:00:34매우 흥미로운 내용이 될 테니 바로 시작해 보죠.
00:00:37대부분의 사람들은 에이전트가 URL에 접속하면 인간과 똑같은 화면을 본다고 가정합니다. 하지만 실제로는
00:00:47에이전트는 현대적인 웹 개발 방식에 의해 방해받을 수 있는 '페치 파이프라인(fetch pipelines)'에 의존합니다.
00:00:53에이전트 리딩 테스트는 이러한 특정 실패 모드들을 겨냥합니다. 한 예로 '상용구 매몰(boilerplate burial)'이 있는데,
00:00:59실제 콘텐츠가 8만 자에 달하는 인라인 CSS 코드 뒤에 배치되는 경우입니다.
00:01:06에이전트의 초기 페치 컨텍스트 창이 작다면 스타일 코드만 보고
00:01:12페이지가 비어 있다고 결론 내릴 수 있습니다. 이 테스트는 에이전트가 실제로 페이지 전체를 읽는지 확인하기 위해
00:01:17이와 같은 10가지 개별 과제를 포함합니다. 예를 들어 '절단(truncation) 테스트'가 있습니다.
00:01:2275k, 130k 자 등 다양한 간격에 카나리 토큰을 배치하여,
00:01:30에이전트의 파이프라인이 긴 문서를 도중에 잘라버리는지 테스트합니다. 또한 많은 현대적인 사이트들은
00:01:36자바스크립트가 실행된 후에야 콘텐츠가 나타나는 '싱글 페이지 애플리케이션(SPA)' 방식을 사용합니다.
00:01:43많은 에이전트들은 로딩 스피너만 보거나 페이지의 뼈대만 보게 되는데,
00:01:49이 테스트를 통해 실제로 그런지 확인할 수 있습니다. 때로는 잘못된 코드가 원인이 될 수도 있습니다.
00:01:54가령 닫히지 않은 마크다운 태그가 나머지 페이지 내용을 삼켜버려,
00:02:00에이전트의 파서에 보이지 않게 만들 수도 있죠. 또 어떤 문서는 언어 탭 뒤에 정보를 숨기기도 합니다.
00:02:06파이썬 예제와 자바 예제 사이를 전환하는 식이죠. 에이전트가 첫 번째 탭만 긁어온다면
00:02:12나머지 정보는 놓치게 됩니다. 이 테스트는 이러한 여러 과제를 통해 에이전트의 실제 읽기 능력을 평가하고
00:02:1720점 만점으로 최종 점수를 산출합니다. 하지만 이 테스트가 무적은 아니라는 점도 유념해야 합니다.
00:02:23일부 에이전트는 교묘한 전술을 써서 부정행위로 테스트를 통과하기도 합니다.
00:02:28테스트 결과 중 가장 흥미로운 발견 중 하나는 '점수 인플레이션'입니다.
00:02:35Claude Code 같은 에이전트 초창기 테스트 당시, 실제로는 15개의 토큰만 찾았음에도
00:02:4217개나 18개를 찾았다고 주장하는 경우가 많았습니다. 에이전트들은 우회 방법을 사용합니다.
00:02:48예를 들어, 에이전트의 파이프라인이 리다이렉트(URL 자동 이동)를 따르지 않을 때, 에이전트가 헤더에서
00:02:54리다이렉트를 감지하고 두 번째 단계에서 수동으로 새 URL을 가져와서 점수를 따내는 방식입니다.
00:03:00이는 도움이 되긴 하지만, 에이전트의 자동 읽기 도구가 실제로는 고장 났다는 사실을 가려버립니다.
00:03:05따라서 점수 인플레이션이 발생할 수 있다는 점을 고려하여 테스트 결과를 어느 정도 걸러서 봐야 합니다.
00:03:11자, 그럼 이제 직접 테스트를 해보겠습니다. 테스트 실행 방법은 꽤 간단합니다.
00:03:16좋아하는 AI 에이전트나 브라우징 도구로 agentreadingtest.com에 접속한 뒤
00:03:23사이트의 모든 카나리 토큰을 찾으라고 시키면 됩니다. 그런 다음 에이전트가 내놓은 목록을 사이트에 제공된 정답지와 비교하면 됩니다.
00:03:29잠시 후에 어떻게 하는지 보여드리죠. 제 경우에는 Kimi 2.5에게 테스트를 요청해 봤습니다.
00:03:35초기 프롬프트를 입력하고 실행되기를 기다렸습니다. Kimi가 전체 테스트를 수행하는 데
00:03:40약 2분 정도 걸렸습니다. 테스트가 끝나면 긴 텍스트 결과물이 나오는데,
00:03:46우리는 오직 에이전트가 반환한 카나리 마커에만 관심이 있으므로 긴 텍스트는 무시해도 됩니다.
00:03:52에이전트가 마커 자체를 출력한 영역을 찾으세요. 이것이 바로 에이전트가
00:03:58테스트를 얼마나 잘 수행했는지 평가할 수 있는 단서입니다. 해당 목록을 복사한 다음
00:04:04웹사이트의 점수 섹션에 붙여넣으면 최종적인 실제 결과를 얻을 수 있습니다. 보시는 것처럼
00:04:10Kimi 2.5는 20점 만점에 13점을 기록했습니다. 또한 에이전트가 어느 부분을 잘 수행했고
00:04:16어디서 실패했는지 더 자세한 개요를 확인할 수 있습니다. 보시다시피 Kimi는 탭으로 된 콘텐츠를 읽는 데 어려움을 겪었네요.
00:04:23마크다운 콘텐츠를 제대로 읽는 데도 어려움이 있었던 것을 알 수 있습니다. 전반적으로 이 테스트는
00:04:28에이전트가 실제로 웹을 어떻게 읽는지 파악하고, 어디서 편법을 쓰거나 환각을 일으키는지 식별하는 데 매우 유용하다고 생각합니다.
00:04:33또한 현대 에이전트들의 지능이 아무리 뛰어나더라도, 정보를 정확하게 검색하는 데
00:04:38여전히 취약한 특정 영역이 웹상에 존재한다는 점을 상기시켜 줍니다.
00:04:44자, 여기까지가 에이전트 리딩 테스트에 대한 핵심 요약이었습니다. 여러분은 어떻게 생각하시나요?
00:04:49다른 AI 에이전트로 이 테스트를 실행해 보신다면 아래 댓글창에 결과를 공유해 주세요.
00:04:54어떤 에이전트가 가장 높은 점수를 받을지 정말 궁금하네요. 여러분, 만약 이런
00:04:59기술적인 분석 영상이 좋으셨다면 영상 아래의 '좋아요' 버튼을 꾹 눌러서 알려주세요.
00:05:04그리고 저희 채널 구독도 잊지 마시고요. 지금까지 Better Stack의 Andris였고,
00:05:08다음 영상에서 뵙겠습니다.
00:05:14시청해 주셔서 감사합니다.