00:00:00AIエージェントには大きな問題が1つあります。URLを渡すと、彼らはよくそのページを読んだと主張しますが、
00:00:06実際には内部の視界が遮られていることが頻繁にあります。そんな中、新しいツールが登場しました。
00:00:11「Agent Reading Test」と呼ばれるもので、Dakary Carey氏によって設計されました。これは
00:00:16その問題を解決することを目的としています。これは一連の「カナリートークン」を使用します。これは10の異なる
00:00:23ウェブページに隠されたユニークな文字列で、エージェントの読解力がどこで破綻するかを正確に証明します。この動画では、
00:00:28Agent Reading Testを見て、その仕組みを確認し、実際に自分たちで試してみます。
00:00:34とても楽しい内容になるはずですので、さっそく始めていきましょう。
00:00:37ほとんどの人は、エージェントがURLにアクセスすると、人間と同じものを見ていると思い込んでいます。しかし実際には、
00:00:47エージェントはフェッチ・パイプラインに依存しており、現代のウェブ開発手法によって躓くことがあります。
00:00:53Agent Reading Testは、これらの特定の失敗モードをターゲットにしています。1つの例は、
00:00:59「ボイラープレートによる埋没」です。実際のコンテンツが8万文字のインラインCSSの後に配置されている場合です。もし
00:01:06初期フェッチのコンテキストウィンドウが小さいエージェントは、スタイリングコードしか見えず、
00:01:12ページは空であると結論付けてしまうかもしれません。テストにはこのような10の異なる課題が含まれており、
00:01:17エージェントが実際にページ全体を読んでいるかを特定するのに役立ちます。例えば、切り捨てテストがあります。
00:01:22カナリーは、75kや130k文字といった様々な間隔に配置されます。これにより、
00:01:30エージェントのパイプラインが長いドキュメントを途中でカットしていないかをテストします。また、多くの現代のサイトは、
00:01:36JavaScriptが実行された後にのみコンテンツが表示されるシングルページアプリケーションを使用しています。多くのエージェントは
00:01:43読み込み中のスピナーだけを見て、ページのシェル(外殻)しか認識しません。しかし、このテストはそれが本当に
00:01:49起きているかを特定するのに役立ちます。時には、壊れたコードが原因になることもあります。例えば、
00:01:54閉じられていないMarkdownタグが残りのページコンテンツを飲み込んでしまい、エージェントの
00:02:00パーサーからは見えなくなることがあります。また、ドキュメントが言語タブの後ろに情報を隠していることもあります。
00:02:06Pythonの例とJavaの例を切り替えるような場合です。エージェントが最初のタブしかスクレイピングしない場合、
00:02:12残りの情報を見逃してしまいます。このテストは、これらや他の同様の課題を通じて、ページを読むための
00:02:17エージェントの真の能力を評価し、20点満点で最終スコアを出します。ただし、留意すべき点は、
00:02:23このテストは万全ではないということです。一部のエージェントは、卑怯な戦術を使ってずる賢く切り抜けることがあります。
00:02:28このテストから得られた最も興味深い発見の1つは、スコアのインフレです。Claude Codeのような
00:02:35エージェントを使った初期のテスト中、エージェントは実際には15個しか見つけていないのに、
00:02:4217個や18個のトークンを見つけたとしばしば主張しました。彼らは回避策を使ってこれを行います。例えば、
00:02:48ページがエージェントのパイプラインが追従しないリダイレクトを使用している場合、エージェントはヘッダー内の
00:02:54リダイレクトに気づき、第2ステップで手動で新しいURLをフェッチして、手柄を主張することがあります。これは便利ではありますが、
00:03:00エージェントの自動読み取りツールが実際には壊れているという事実を覆い隠してしまいます。したがって、一部のケースでは
00:03:05スコアのインフレが依然として発生する可能性があります。ですから、このテストの結果は割り引いて考えてください。とはいえ、
00:03:11さっそく自分たちで試してみましょう。テストの実行は非常に簡単です。
00:03:16お気に入りのAIエージェントやブラウズツールを agentreadingtest.com に向け、
00:03:23サイト上のすべてのカナリートークンを見つけるように指示するだけです。そして、そのリストをサイトに
00:03:29用意されている解答集と比較する必要があります。その方法をすぐにお見せします。私の場合は、Kimi 2.5に
00:03:35テストを依頼しました。初期プロンプトを入力して、あとは任せるだけです。Kimiが
00:03:40テスト全体を終えるのに、およそ2分かかりました。最後にこのような長いテキスト出力が得られますが、
00:03:46私たちはエージェントが返してきたカナリーマーカーだけに興味があるので、これは完全に無視して構いません。
00:03:52エージェントがマーカー自体を出力している箇所を探してください。これが、
00:03:58エージェントがどれだけうまくテストをこなしたかを実際に評価するための手がかりになります。そのリストをコピーして、
00:04:04ウェブサイトのスコアセクションに貼り付けると、最終的な真の結果が返ってきます。ご覧の通り、
00:04:10Kimi 2.5は20点中13点でした。また、エージェントがどこで
00:04:16うまくいき、どこで失敗したかについてのより詳細な概要も表示されます。Kimiはタブ付きコンテンツの読み取りや、
00:04:23Markdownコンテンツを適切に読み取るのに苦労していたことがわかります。全体として、これは
00:04:28エージェントが実際にどのようにウェブを読み、どこで近道をしたりハルシネーションを起こしているかを把握できる、
00:04:33非常にクールなテストだと思います。また、最新のエージェントがいかに高度な知能を持っていても、
00:04:38ウェブ上には依然として正確な情報取得に苦戦する特定の領域があるということを、
00:04:44再認識させてくれる良い機会でもあります。というわけで、これがAgent Reading Testの
00:04:49概要でした。皆さんはどう思われましたか?
00:04:54もし他のAIエージェントでこのテストを実行した場合は、下のコメント欄に
00:04:59結果を投稿してください。どのエージェントが最高のスコアを出すのか非常に気になります。皆さん、
00:05:04このようなテクニカルな解説が気に入っていただけたら、動画の下にある「いいね」ボタンを押して教えてください。
00:05:08また、チャンネル登録もお忘れなく。Better StackのAndrisがお送りしました。
00:05:14それでは、次の動画でお会いしましょう。