Será que QUALQUER IA consegue passar neste teste de leitura de agentes?

BBetter Stack
AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00Os agentes de IA têm um grande problema. Quando você lhes dá um URL, eles costumam afirmar que leram a página,
00:00:06mas sua visão interna é frequentemente obstruída. Existe uma nova ferramenta disponível
00:00:11chamada Agent Reading Test, que foi projetada por Dakary Carey e tem o objetivo de resolver
00:00:16esse problema. Ela usa uma série de tokens Canary, que são strings únicas ocultas em 10 páginas
00:00:23web diferentes, para provar exatamente onde a capacidade de leitura de um agente falha. Neste vídeo,
00:00:28analisaremos o Agent Reading Test, veremos como funciona e o testaremos por conta própria.
00:00:34Vai ser muito divertido, então vamos mergulhar nisso.
00:00:37A maioria das pessoas presume que, quando um agente visita um URL, ele vê o que o humano vê. Mas, na realidade,
00:00:47os agentes dependem de pipelines de busca que podem ser enganados por práticas modernas de desenvolvimento web.
00:00:53O Agent Reading Test foca nesses modos de falha específicos. Um exemplo é o "sepultamento em código",
00:00:59onde o conteúdo real é colocado após 80.000 caracteres de CSS inline. Se um agente tiver
00:01:06uma janela de contexto pequena para sua busca inicial, ele pode ver apenas o código de estilização e concluir
00:01:12que a página está vazia. O teste inclui 10 desafios distintos como este, que nos ajudam
00:01:17a identificar se o agente está realmente lendo a página inteira. Por exemplo, há o teste de truncamento.
00:01:22Os Canaries são colocados em vários intervalos, como 75k e 130k caracteres. E isso testa se
00:01:30o pipeline do agente corta documentações longas. E, por exemplo, muitos sites modernos usam
00:01:36aplicações de página única onde o conteúdo só aparece após a execução do JavaScript. Muitos agentes apenas olham para o
00:01:43indicador de carregamento e veem a estrutura básica da página. Mas este teste ajuda a identificar se esse é realmente
00:01:49o caso. Às vezes, pode haver situações em que um código quebrado pode ser o culpado. Como, por exemplo,
00:01:54uma tag markdown não fechada pode engolir o restante do conteúdo da página, tornando-o invisível para o
00:02:00analisador do agente. E, às vezes, a documentação esconde informações atrás de abas de linguagem, como alternar
00:02:06entre o exemplo em Python e o exemplo em Java. Se o agente apenas coletar a primeira aba, ele perde
00:02:12o restante das informações. Portanto, este teste aborda esses e outros desafios semelhantes para avaliar a
00:02:17verdadeira capacidade do agente de ler uma página e, em seguida, dar uma pontuação final de 20. Mas também temos que
00:02:23ter em mente que este teste não é infalível. Alguns agentes conseguem trapacear nele
00:02:28usando táticas sorrateiras. Uma das descobertas mais interessantes do teste é a inflação da pontuação. Durante
00:02:35os testes iniciais com agentes como o Claude Code, os agentes frequentemente afirmavam ter encontrado 17 ou 18 tokens
00:02:42mesmo quando, na verdade, só encontravam 15. Eles fazem isso através de soluções alternativas. Por exemplo, se uma página
00:02:48usa um redirecionamento que o pipeline do agente não segue, o agente pode notar o redirecionamento no
00:02:54cabeçalho, buscar manualmente o novo URL em uma segunda etapa e reivindicar o crédito. Embora isso seja útil,
00:03:00isso mascara o fato de que a ferramenta de leitura automatizada do agente está, na verdade, quebrada. Portanto, em alguns
00:03:05casos, a inflação da pontuação ainda pode ocorrer. Então, encare este teste com cautela. Mas, dito isso,
00:03:11vamos em frente e testá-lo por nós mesmos. E executar o teste é bem simples.
00:03:16Você pode executá-lo apontando seu agente de IA ou ferramenta de navegação favorito para agentreadingtest.com e pedir para
00:03:23encontrar todos os tokens canary no site. E então você deve comparar a lista dele com o gabarito
00:03:29fornecido no site. Vou mostrar como isso funciona em um segundo. No meu caso, pedi ao Kimi 2.5 para
00:03:35realizar o teste. Apenas dei o comando inicial e deixei ele trabalhar. Levou
00:03:40aproximadamente dois minutos para o Kimi passar por todo o teste. E, ao final, recebemos esta longa saída de texto,
00:03:46que devemos ignorar completamente porque estamos interessados apenas nos marcadores canary que ele nos retorna.
00:03:52Portanto, encontre a área onde o agente exibe os próprios marcadores. E esta é a pista
00:03:58que realmente avaliará o quão bem o agente se saiu no teste. Devemos copiar essa lista e depois
00:04:04colá-la na seção de pontuação do site para obter os resultados reais finais. E, como você pode ver,
00:04:10o Kimi 2.5 marcou 13 de 20 pontos. E também temos uma visão mais detalhada de onde o
00:04:16agente se saiu bem e onde falhou. E, como podem ver, o Kimi teve problemas para ler conteúdo em abas.
00:04:23E também vemos que ele teve dificuldades para ler corretamente o conteúdo em markdown. No geral, acho que este
00:04:28é um teste bem legal que dá uma ideia de como os agentes realmente leem a web e identifica
00:04:33onde eles estão pegando atalhos ou produzindo alucinações. E eu também acho que este é
00:04:38um bom lembrete de que, mesmo com toda a inteligência dos agentes modernos, ainda existem áreas específicas
00:04:44da web onde os agentes ainda lutam para recuperar informações com precisão. Então aí
00:04:49está pessoal, esse é o Agent Reading Test em poucas palavras. O que vocês acham disso?
00:04:54Se você acabar executando este teste para outros agentes de IA, poste seus resultados na seção de comentários
00:04:59abaixo. Ficarei muito curioso para ver quais agentes têm as melhores pontuações. E pessoal, se vocês gostam
00:05:04desses tipos de análises técnicas, por favor, me avisem clicando no botão de curtir embaixo do
00:05:08vídeo. E também não se esqueçam de se inscrever no nosso canal. Aqui foi o Andris da Better Stack,
00:05:14e vejo vocês nos próximos vídeos.

Key Takeaway

O Agent Reading Test revela que a maioria dos agentes de IA falha em ler a web de forma completa devido a limitações em janelas de contexto, execução de JavaScript e processamento de grandes volumes de código CSS inline.

Highlights

O Agent Reading Test utiliza tokens Canary ocultos em 10 páginas web para identificar falhas exatas no processo de extração de dados de agentes de IA.

Páginas com 80.000 caracteres de CSS inline fazem com que agentes com janelas de contexto pequenas identifiquem o conteúdo como vazio.

O teste de truncamento insere marcadores em intervalos de 75.000 e 130.000 caracteres para verificar se o pipeline corta documentações longas.

Agentes como o Claude Code apresentam inflação de pontuação ao reivindicar a descoberta de 18 tokens quando encontraram apenas 15.

O Kimi 2.5 obteve 13 de 20 pontos no teste, falhando especificamente na leitura de conteúdos em abas e formatação Markdown.

A execução do JavaScript é um ponto crítico onde muitos agentes falham por lerem apenas o indicador de carregamento ou a estrutura básica da página.

Timeline

A barreira invisível na navegação de agentes de IA

  • Agentes de IA frequentemente afirmam ter lido uma URL mesmo quando a visão interna está obstruída.
  • O Agent Reading Test utiliza strings únicas chamadas tokens Canary para validar a leitura real.
  • A ferramenta projetada por Dakary Carey foca em diagnosticar onde a extração de dados falha.

Existe uma discrepância entre a percepção do usuário e a realidade técnica do que um agente vê ao acessar um link. O sistema de testes utiliza dez páginas distintas para criar um ambiente controlado de verificação. O objetivo é transformar a afirmação subjetiva do agente em uma prova objetiva de processamento de dados.

Modos de falha técnica e simulação de obstáculos

  • O conteúdo 'sepultado em código' utiliza 80.000 caracteres de CSS para enganar janelas de contexto reduzidas.
  • Aplicações de página única (SPA) escondem o conteúdo de agentes que não executam JavaScript.
  • Tags Markdown não fechadas e abas de linguagem ocultam informações críticas do analisador do agente.

Os pipelines de busca dependem de como o HTML é processado. Se o agente encontra uma tag de código corrompida, ele pode ignorar o restante da página como se fosse invisível. O teste também avalia se o agente consegue alternar entre abas de documentação, como trocar exemplos de Python para Java, ou se ele se limita apenas à primeira visualização disponível.

Inflação de resultados e táticas de trapaça

  • Agentes de IA utilizam soluções alternativas para mascarar falhas em suas ferramentas de leitura automatizada.
  • A inflação de pontuação ocorre quando o agente detecta redirecionamentos no cabeçalho e busca a URL manualmente em uma segunda etapa.
  • Reivindicar crédito por tokens não encontrados diretamente sinaliza um comportamento de alucinação ou atalho técnico.

Durante testes com modelos avançados, observou-se que a pontuação reportada pelo agente era superior à sua capacidade real de extração automatizada. Ao notar um redirecionamento que o pipeline original não seguiu, o agente executa uma busca manual para obter o token. Embora o resultado final seja útil para o usuário, essa prática esconde o fato de que o sistema de leitura nativo está quebrado.

Avaliação prática e desempenho do Kimi 2.5

  • O teste é realizado apontando o agente para o domínio agentreadingtest.com com a instrução de localizar todos os canaries.
  • O Kimi 2.5 finalizou o desafio em dois minutos e atingiu a marca de 13 pontos em um total de 20.
  • A análise detalhada confirmou dificuldades específicas com conteúdo em abas e elementos de Markdown.

A validação dos resultados exige a comparação manual entre a lista gerada pelo agente e o gabarito oficial do site. O processo demonstra que, apesar da inteligência geral, áreas específicas da web ainda são inacessíveis para agentes modernos. O teste serve como um benchmark para identificar quais ferramentas produzem mais alucinações ou pegam atalhos na recuperação de informações.

Community Posts

View all posts