00:00:00Os agentes de IA têm um grande problema. Quando você lhes dá um URL, eles costumam afirmar que leram a página,
00:00:06mas sua visão interna é frequentemente obstruída. Existe uma nova ferramenta disponível
00:00:11chamada Agent Reading Test, que foi projetada por Dakary Carey e tem o objetivo de resolver
00:00:16esse problema. Ela usa uma série de tokens Canary, que são strings únicas ocultas em 10 páginas
00:00:23web diferentes, para provar exatamente onde a capacidade de leitura de um agente falha. Neste vídeo,
00:00:28analisaremos o Agent Reading Test, veremos como funciona e o testaremos por conta própria.
00:00:34Vai ser muito divertido, então vamos mergulhar nisso.
00:00:37A maioria das pessoas presume que, quando um agente visita um URL, ele vê o que o humano vê. Mas, na realidade,
00:00:47os agentes dependem de pipelines de busca que podem ser enganados por práticas modernas de desenvolvimento web.
00:00:53O Agent Reading Test foca nesses modos de falha específicos. Um exemplo é o "sepultamento em código",
00:00:59onde o conteúdo real é colocado após 80.000 caracteres de CSS inline. Se um agente tiver
00:01:06uma janela de contexto pequena para sua busca inicial, ele pode ver apenas o código de estilização e concluir
00:01:12que a página está vazia. O teste inclui 10 desafios distintos como este, que nos ajudam
00:01:17a identificar se o agente está realmente lendo a página inteira. Por exemplo, há o teste de truncamento.
00:01:22Os Canaries são colocados em vários intervalos, como 75k e 130k caracteres. E isso testa se
00:01:30o pipeline do agente corta documentações longas. E, por exemplo, muitos sites modernos usam
00:01:36aplicações de página única onde o conteúdo só aparece após a execução do JavaScript. Muitos agentes apenas olham para o
00:01:43indicador de carregamento e veem a estrutura básica da página. Mas este teste ajuda a identificar se esse é realmente
00:01:49o caso. Às vezes, pode haver situações em que um código quebrado pode ser o culpado. Como, por exemplo,
00:01:54uma tag markdown não fechada pode engolir o restante do conteúdo da página, tornando-o invisível para o
00:02:00analisador do agente. E, às vezes, a documentação esconde informações atrás de abas de linguagem, como alternar
00:02:06entre o exemplo em Python e o exemplo em Java. Se o agente apenas coletar a primeira aba, ele perde
00:02:12o restante das informações. Portanto, este teste aborda esses e outros desafios semelhantes para avaliar a
00:02:17verdadeira capacidade do agente de ler uma página e, em seguida, dar uma pontuação final de 20. Mas também temos que
00:02:23ter em mente que este teste não é infalível. Alguns agentes conseguem trapacear nele
00:02:28usando táticas sorrateiras. Uma das descobertas mais interessantes do teste é a inflação da pontuação. Durante
00:02:35os testes iniciais com agentes como o Claude Code, os agentes frequentemente afirmavam ter encontrado 17 ou 18 tokens
00:02:42mesmo quando, na verdade, só encontravam 15. Eles fazem isso através de soluções alternativas. Por exemplo, se uma página
00:02:48usa um redirecionamento que o pipeline do agente não segue, o agente pode notar o redirecionamento no
00:02:54cabeçalho, buscar manualmente o novo URL em uma segunda etapa e reivindicar o crédito. Embora isso seja útil,
00:03:00isso mascara o fato de que a ferramenta de leitura automatizada do agente está, na verdade, quebrada. Portanto, em alguns
00:03:05casos, a inflação da pontuação ainda pode ocorrer. Então, encare este teste com cautela. Mas, dito isso,
00:03:11vamos em frente e testá-lo por nós mesmos. E executar o teste é bem simples.
00:03:16Você pode executá-lo apontando seu agente de IA ou ferramenta de navegação favorito para agentreadingtest.com e pedir para
00:03:23encontrar todos os tokens canary no site. E então você deve comparar a lista dele com o gabarito
00:03:29fornecido no site. Vou mostrar como isso funciona em um segundo. No meu caso, pedi ao Kimi 2.5 para
00:03:35realizar o teste. Apenas dei o comando inicial e deixei ele trabalhar. Levou
00:03:40aproximadamente dois minutos para o Kimi passar por todo o teste. E, ao final, recebemos esta longa saída de texto,
00:03:46que devemos ignorar completamente porque estamos interessados apenas nos marcadores canary que ele nos retorna.
00:03:52Portanto, encontre a área onde o agente exibe os próprios marcadores. E esta é a pista
00:03:58que realmente avaliará o quão bem o agente se saiu no teste. Devemos copiar essa lista e depois
00:04:04colá-la na seção de pontuação do site para obter os resultados reais finais. E, como você pode ver,
00:04:10o Kimi 2.5 marcou 13 de 20 pontos. E também temos uma visão mais detalhada de onde o
00:04:16agente se saiu bem e onde falhou. E, como podem ver, o Kimi teve problemas para ler conteúdo em abas.
00:04:23E também vemos que ele teve dificuldades para ler corretamente o conteúdo em markdown. No geral, acho que este
00:04:28é um teste bem legal que dá uma ideia de como os agentes realmente leem a web e identifica
00:04:33onde eles estão pegando atalhos ou produzindo alucinações. E eu também acho que este é
00:04:38um bom lembrete de que, mesmo com toda a inteligência dos agentes modernos, ainda existem áreas específicas
00:04:44da web onde os agentes ainda lutam para recuperar informações com precisão. Então aí
00:04:49está pessoal, esse é o Agent Reading Test em poucas palavras. O que vocês acham disso?
00:04:54Se você acabar executando este teste para outros agentes de IA, poste seus resultados na seção de comentários
00:04:59abaixo. Ficarei muito curioso para ver quais agentes têm as melhores pontuações. E pessoal, se vocês gostam
00:05:04desses tipos de análises técnicas, por favor, me avisem clicando no botão de curtir embaixo do
00:05:08vídeo. E também não se esqueçam de se inscrever no nosso canal. Aqui foi o Andris da Better Stack,
00:05:14e vejo vocês nos próximos vídeos.