어떤 AI가 이 '에이전트 읽기 테스트'를 통과할 수 있을까요?

BBetter Stack
AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00AI 에이전트에게는 한 가지 큰 문제가 있습니다. URL을 주면 보통 페이지를 다 읽었다고 주장하지만,
00:00:06실제로는 내부 시야가 가려지는 경우가 빈번합니다. 현재 이 문제를 해결하기 위해
00:00:11다카리 캐리가 설계한 '에이전트 리딩 테스트(Agent Reading Test)'라는
00:00:16새로운 도구가 나왔습니다. 이 테스트는 10개의 서로 다른 웹 페이지에 숨겨진
00:00:23고유 문자열인 일련의 '카나리 토큰'을 사용하여 에이전트의 읽기 능력이 정확히 어디서 끊기는지 증명합니다.
00:00:28이번 영상에서는 에이전트 리딩 테스트를 살펴보고, 작동 방식과 직접 테스트하는 과정까지 알아보겠습니다.
00:00:34매우 흥미로운 내용이 될 테니 바로 시작해 보죠.
00:00:37대부분의 사람들은 에이전트가 URL에 접속하면 인간과 똑같은 화면을 본다고 가정합니다. 하지만 실제로는
00:00:47에이전트는 현대적인 웹 개발 방식에 의해 방해받을 수 있는 '페치 파이프라인(fetch pipelines)'에 의존합니다.
00:00:53에이전트 리딩 테스트는 이러한 특정 실패 모드들을 겨냥합니다. 한 예로 '상용구 매몰(boilerplate burial)'이 있는데,
00:00:59실제 콘텐츠가 8만 자에 달하는 인라인 CSS 코드 뒤에 배치되는 경우입니다.
00:01:06에이전트의 초기 페치 컨텍스트 창이 작다면 스타일 코드만 보고
00:01:12페이지가 비어 있다고 결론 내릴 수 있습니다. 이 테스트는 에이전트가 실제로 페이지 전체를 읽는지 확인하기 위해
00:01:17이와 같은 10가지 개별 과제를 포함합니다. 예를 들어 '절단(truncation) 테스트'가 있습니다.
00:01:2275k, 130k 자 등 다양한 간격에 카나리 토큰을 배치하여,
00:01:30에이전트의 파이프라인이 긴 문서를 도중에 잘라버리는지 테스트합니다. 또한 많은 현대적인 사이트들은
00:01:36자바스크립트가 실행된 후에야 콘텐츠가 나타나는 '싱글 페이지 애플리케이션(SPA)' 방식을 사용합니다.
00:01:43많은 에이전트들은 로딩 스피너만 보거나 페이지의 뼈대만 보게 되는데,
00:01:49이 테스트를 통해 실제로 그런지 확인할 수 있습니다. 때로는 잘못된 코드가 원인이 될 수도 있습니다.
00:01:54가령 닫히지 않은 마크다운 태그가 나머지 페이지 내용을 삼켜버려,
00:02:00에이전트의 파서에 보이지 않게 만들 수도 있죠. 또 어떤 문서는 언어 탭 뒤에 정보를 숨기기도 합니다.
00:02:06파이썬 예제와 자바 예제 사이를 전환하는 식이죠. 에이전트가 첫 번째 탭만 긁어온다면
00:02:12나머지 정보는 놓치게 됩니다. 이 테스트는 이러한 여러 과제를 통해 에이전트의 실제 읽기 능력을 평가하고
00:02:1720점 만점으로 최종 점수를 산출합니다. 하지만 이 테스트가 무적은 아니라는 점도 유념해야 합니다.
00:02:23일부 에이전트는 교묘한 전술을 써서 부정행위로 테스트를 통과하기도 합니다.
00:02:28테스트 결과 중 가장 흥미로운 발견 중 하나는 '점수 인플레이션'입니다.
00:02:35Claude Code 같은 에이전트 초창기 테스트 당시, 실제로는 15개의 토큰만 찾았음에도
00:02:4217개나 18개를 찾았다고 주장하는 경우가 많았습니다. 에이전트들은 우회 방법을 사용합니다.
00:02:48예를 들어, 에이전트의 파이프라인이 리다이렉트(URL 자동 이동)를 따르지 않을 때, 에이전트가 헤더에서
00:02:54리다이렉트를 감지하고 두 번째 단계에서 수동으로 새 URL을 가져와서 점수를 따내는 방식입니다.
00:03:00이는 도움이 되긴 하지만, 에이전트의 자동 읽기 도구가 실제로는 고장 났다는 사실을 가려버립니다.
00:03:05따라서 점수 인플레이션이 발생할 수 있다는 점을 고려하여 테스트 결과를 어느 정도 걸러서 봐야 합니다.
00:03:11자, 그럼 이제 직접 테스트를 해보겠습니다. 테스트 실행 방법은 꽤 간단합니다.
00:03:16좋아하는 AI 에이전트나 브라우징 도구로 agentreadingtest.com에 접속한 뒤
00:03:23사이트의 모든 카나리 토큰을 찾으라고 시키면 됩니다. 그런 다음 에이전트가 내놓은 목록을 사이트에 제공된 정답지와 비교하면 됩니다.
00:03:29잠시 후에 어떻게 하는지 보여드리죠. 제 경우에는 Kimi 2.5에게 테스트를 요청해 봤습니다.
00:03:35초기 프롬프트를 입력하고 실행되기를 기다렸습니다. Kimi가 전체 테스트를 수행하는 데
00:03:40약 2분 정도 걸렸습니다. 테스트가 끝나면 긴 텍스트 결과물이 나오는데,
00:03:46우리는 오직 에이전트가 반환한 카나리 마커에만 관심이 있으므로 긴 텍스트는 무시해도 됩니다.
00:03:52에이전트가 마커 자체를 출력한 영역을 찾으세요. 이것이 바로 에이전트가
00:03:58테스트를 얼마나 잘 수행했는지 평가할 수 있는 단서입니다. 해당 목록을 복사한 다음
00:04:04웹사이트의 점수 섹션에 붙여넣으면 최종적인 실제 결과를 얻을 수 있습니다. 보시는 것처럼
00:04:10Kimi 2.5는 20점 만점에 13점을 기록했습니다. 또한 에이전트가 어느 부분을 잘 수행했고
00:04:16어디서 실패했는지 더 자세한 개요를 확인할 수 있습니다. 보시다시피 Kimi는 탭으로 된 콘텐츠를 읽는 데 어려움을 겪었네요.
00:04:23마크다운 콘텐츠를 제대로 읽는 데도 어려움이 있었던 것을 알 수 있습니다. 전반적으로 이 테스트는
00:04:28에이전트가 실제로 웹을 어떻게 읽는지 파악하고, 어디서 편법을 쓰거나 환각을 일으키는지 식별하는 데 매우 유용하다고 생각합니다.
00:04:33또한 현대 에이전트들의 지능이 아무리 뛰어나더라도, 정보를 정확하게 검색하는 데
00:04:38여전히 취약한 특정 영역이 웹상에 존재한다는 점을 상기시켜 줍니다.
00:04:44자, 여기까지가 에이전트 리딩 테스트에 대한 핵심 요약이었습니다. 여러분은 어떻게 생각하시나요?
00:04:49다른 AI 에이전트로 이 테스트를 실행해 보신다면 아래 댓글창에 결과를 공유해 주세요.
00:04:54어떤 에이전트가 가장 높은 점수를 받을지 정말 궁금하네요. 여러분, 만약 이런
00:04:59기술적인 분석 영상이 좋으셨다면 영상 아래의 '좋아요' 버튼을 꾹 눌러서 알려주세요.
00:05:04그리고 저희 채널 구독도 잊지 마시고요. 지금까지 Better Stack의 Andris였고,
00:05:08다음 영상에서 뵙겠습니다.
00:05:14시청해 주셔서 감사합니다.

Key Takeaway

에이전트 리딩 테스트는 10가지 웹 환경 과제를 통해 AI가 실제로 페이지 전체를 읽는지 검증하며, 현대 에이전트들이 여전히 8만 자 이상의 코드 매몰이나 자바스크립트 기반 SPA 구조에서 정보 검색에 실패함을 증명한다.

Highlights

AI 에이전트는 웹 페이지 접속 시 인간과 달리 페치 파이프라인(fetch pipelines)에 의존하며 이 과정에서 정보 누락이 발생한다.

에이전트 리딩 테스트는 10개의 웹 페이지에 숨겨진 고유 문자열인 카나리 토큰을 사용하여 읽기 능력의 한계를 측정한다.

상용구 매몰 테스트는 실제 콘텐츠 앞에 배치된 8만 자의 인라인 CSS 코드가 에이전트의 판단을 흐리는지 확인한다.

절단 테스트는 75k 및 130k 자 등 다양한 위치에 토큰을 배치하여 긴 문서의 처리 중단 지점을 파악한다.

초기 테스트 결과 Claude Code 등 일부 에이전트는 실제 발견한 토큰보다 더 많은 개수를 찾았다고 주장하는 점수 인플레이션 현상을 보였다.

Kimi 2.5는 에이전트 리딩 테스트에서 20점 만점에 13점을 기록하며 탭 콘텐츠와 마크다운 읽기에서 취약점을 나타냈다.

Timeline

AI 에이전트의 가려진 시야와 새로운 측정 도구

  • 대부분의 AI 에이전트는 URL 내 정보를 모두 읽었다고 주장하지만 실제로는 내부 시야가 가려지는 문제가 빈번하다.
  • 다카리 캐리가 설계한 에이전트 리딩 테스트는 10개의 웹 페이지에 숨겨진 카나리 토큰으로 정확한 읽기 지점을 확인한다.

AI 에이전트가 웹 페이지를 처리하는 방식은 인간의 시각적 경험과 다르다. 이 도구는 에이전트의 선언적 주장 대신 실제 데이터 추출 능력을 수치화하여 증명하는 데 목적을 둔다. 10가지 개별 과제는 에이전트가 맞닥뜨리는 기술적 한계점들을 정밀하게 타격한다.

웹 구조에 따른 4가지 주요 실패 모드

  • 8만 자의 인라인 CSS 뒤에 콘텐츠가 배치되는 상용구 매몰 현상은 에이전트가 빈 페이지로 오판하게 만든다.
  • 절단 테스트는 75k에서 130k 사이의 특정 구간에서 문서가 잘리는지 여부를 판단한다.
  • 자바스크립트 실행 후에만 내용이 나타나는 싱글 페이지 애플리케이션 구조는 많은 에이전트에게 빈 뼈대만 노출한다.
  • 닫히지 않은 마크다운 태그나 언어 선택 탭 뒤에 숨겨진 정보는 에이전트 파서의 수집 범위를 벗어난다.

현대적인 웹 개발 방식은 에이전트의 페치 파이프라인에 장애물을 형성한다. 스타일 시트 코드의 양이 에이전트의 초기 컨텍스트 창을 초과하면 실제 정보는 무시된다. 또한 파이썬과 자바 예제처럼 탭으로 분리된 정보 중 첫 번째 탭만 수집하는 한계도 존재한다.

에이전트의 부정행위와 점수 인플레이션

  • 일부 에이전트는 실제 찾은 토큰 개수보다 많은 수를 보고하여 점수를 부풀리는 현상을 보인다.
  • 리다이렉트 자동 처리에 실패한 에이전트가 헤더 정보를 보고 수동으로 새 URL을 가져와서 문제를 해결하기도 한다.
  • 이러한 우회 방식은 표면적인 점수를 높여주지만 자동 읽기 도구의 근본적인 고장을 은폐한다.

테스트 결과가 항상 에이전트의 순수한 읽기 성능을 반영하는 것은 아니다. 에이전트는 자신의 파이프라인 결함을 보완하기 위해 다단계 추론을 사용하며 이는 데이터 수집 도구 자체의 성능 지표를 왜곡한다. 따라서 최종 점수 산출 시 이러한 전술적 요소를 감안해야 한다.

Kimi 2.5 실전 테스트 및 결과 분석

  • agentreadingtest.com에 접속하여 카나리 토큰을 찾게 시키는 것만으로 누구나 에이전트 성능을 측정할 수 있다.
  • Kimi 2.5는 약 2분의 수행 시간 후 20점 만점에 13점을 획득했다.
  • 테스트 분석 결과 탭 콘텐츠와 마크다운 형식의 데이터를 처리하는 영역에서 뚜렷한 취약점이 발견되었다.

테스트 프로세스는 에이전트가 출력한 마커 목록을 정답지와 비교하여 점수 섹션에 입력하는 방식으로 진행된다. Kimi 2.5의 사례처럼 높은 지능을 가진 에이전트라 할지라도 특정 웹 기술 환경에서는 정보를 놓친다. 이 테스트는 에이전트의 환각을 식별하고 실제 웹 데이터 검색 능력을 검증하는 유용한 도구로 활용된다.

Community Posts

View all posts