00:00:00AI 智能体有一个大问题。当你给它们一个 URL 时,它们经常声称已经阅读了页面,
00:00:06但它们的内部视觉经常受阻。现在有一个新工具
00:00:11叫做 Agent Reading Test,由 Dakary Carey 设计,旨在解决
00:00:16这个问题。它使用一系列金丝雀令牌,即隐藏在 10 个不同
00:00:23网页中的唯一字符串,来精确证明智能体的阅读能力在哪里崩溃。在本视频中,
00:00:28我们将了解 Agent Reading Test,看看它是如何工作的,并亲自尝试一下。
00:00:34这会非常有趣,让我们开始吧。
00:00:37大多数人认为,当智能体访问一个 URL 时,它看到的内容和人类看到的一样。但实际上,
00:00:47智能体依赖于抓取管道,这些管道可能会被现代 Web 开发实践所迷惑。
00:00:53Agent Reading Test 针对这些特定的失败模式。一个例子是“样板文件埋没”,
00:00:59即实际内容被放置在 80,000 个字符的内联 CSS 之后。如果一个智能体
00:01:06初始抓取的上下文窗口很小,它可能只看到样式代码并得出
00:01:12页面为空的结论。该测试包含 10 个类似的独特挑战,帮助我们
00:01:17识别智能体是否真的阅读了整个页面。例如,有截断测试。
00:01:22金丝雀令牌被放置在不同的间隔,如 75k 和 130k 字符处。这测试了
00:01:30智能体的管道是否会切断长文档。例如,许多现代网站使用单页
00:01:36应用程序,其中的内容仅在 JavaScript 运行后才会出现。许多智能体只看到
00:01:43加载图标和页面外壳。但这个测试可以帮助我们识别这是否属实。
00:01:49有时,代码损坏也可能是罪魁祸首。例如,
00:01:54一个未闭合的 Markdown 标签会吞掉剩余的页面内容,使其对
00:02:00智能体的解析器不可见。有时文档会将信息隐藏在语言选项卡后面,比如
00:02:06在 Python 示例和 Java 示例之间切换。如果智能体只抓取第一个选项卡,它就会错过
00:02:12其余信息。因此,该测试通过这些及其他类似挑战来评估
00:02:17智能体阅读页面的真实能力,最后给出 20 分的总分。但我们也
00:02:23必须记住,这个测试并不是万无一失的。一些智能体实际上通过
00:02:28狡猾的策略设法作弊。测试中最有趣的发现之一是分数通胀。在
00:02:35对 Claude Code 等智能体进行早期测试期间,智能体经常声称找到了 17 或 18 个令牌,
00:02:42即便它们实际上只找到了 15 个。它们通过变通方法做到这一点。例如,如果一个页面
00:02:48使用了智能体管道无法追踪的重定向,智能体可能会注意到标头中的重定向,
00:02:54在第二步手动抓取新的 URL 并领取奖励。虽然这很有帮助,
00:03:00但这掩盖了智能体自动阅读工具实际上已损坏的事实。因此在某些
00:03:05情况下,分数通胀仍会发生。所以请对这个测试结果持保留态度。话虽如此,
00:03:11让我们继续亲自尝试一下。运行测试非常简单。
00:03:16你可以让喜欢的 AI 智能体或浏览工具访问 agentreadingtest.com,并要求它
00:03:23找到网站上的所有金丝雀令牌。然后你必须将其列表与网站提供的
00:03:29标准答案进行对比。稍后我将向你演示它是如何工作的。在我的例子中,我要求 Kimi 2.5
00:03:35进行测试。我只是用了初始提示语,让它自己发挥。Kimi
00:03:40大约花了整整两分钟才完成测试。最后,我们得到了这一长串文本输出,
00:03:46我们完全可以忽略它,因为我们只对它返回给我们的金丝雀标记感兴趣。
00:03:52找到智能体输出标记所在的区域。这是
00:03:58评估智能体测试表现的关键线索。我们应该复制该列表,然后
00:04:04将其粘贴到网站的评分部分,以获取最终的真实结果。正如你所看到的,
00:04:10Kimi 2.5 得到了 13 分(总分 20 分)。我们还能得到更详细的概览,了解
00:04:16智能体在哪些方面做得好,哪些方面失败了。可以看到,Kimi 在阅读选项卡内容时有些麻烦。
00:04:23我们还看到它在正确阅读 Markdown 内容方面存在困难。总的来说,我认为
00:04:28这是一个非常酷的测试,可以让你了解智能体到底是如何阅读网页的,并识别
00:04:33它们在哪里偷懒或产生幻觉。我还认为,
00:04:38这很好地提醒了我们,即使现代智能体已经如此智能,在网络的一些
00:04:44特定领域,它们在准确检索信息方面仍然面临困难。好了,
00:04:49这就是 Agent Reading Test 的概况。你对此有什么看法?
00:04:54如果你对其他 AI 智能体运行了这个测试,请在下方的评论区
00:04:59发布你的结果。我很想看看哪些智能体的得分最高。朋友们,如果你喜欢
00:05:04这类技术分析,请通过点击视频下方的点赞按钮告诉我。
00:05:08另外,别忘了订阅我们的频道。我是来自 Better Stack 的 Andris,
00:05:14我们下期视频再见。