00:00:00Los agentes de IA tienen un gran problema. Cuando les das una URL, a menudo afirman haber leído la página,
00:00:06pero su visión interna suele estar obstruida. Hay una nueva herramienta
00:00:11llamada Agent Reading Test, diseñada por Dakary Carey y que pretende resolver
00:00:16este problema. Utiliza una serie de tokens Canary, que son cadenas únicas ocultas en 10
00:00:23páginas web diferentes, para demostrar dónde falla exactamente la capacidad de lectura de un agente. En este vídeo,
00:00:28echaremos un vistazo al Agent Reading Test, veremos cómo funciona y lo probaremos nosotros mismos.
00:00:34Va a ser muy divertido, así que vamos a ello.
00:00:37La mayoría de la gente asume que cuando un agente visita una URL, ve lo mismo que un humano. Pero en realidad,
00:00:47los agentes dependen de procesos de obtención de datos que pueden fallar por las prácticas modernas de desarrollo web.
00:00:53El Agent Reading Test se centra en estos fallos específicos. Un ejemplo es el "entierro de código",
00:00:59donde el contenido real se coloca tras 80.000 caracteres de CSS en línea. Si un agente tiene
00:01:06una ventana de contexto pequeña para su carga inicial, puede que solo vea el código de estilo y concluya
00:01:12que la página está vacía. La prueba incluye 10 retos distintos como este, que nos ayudan
00:01:17a identificar si el agente realmente lee toda la página. Por ejemplo, está la prueba de truncamiento.
00:01:22Se colocan canarios en varios intervalos, como 75k y 130k caracteres. Y esto prueba si
00:01:30el sistema del agente corta la documentación larga. Y, por ejemplo, muchos sitios modernos usan
00:01:36aplicaciones de página única donde el contenido solo aparece tras ejecutar JavaScript. Y muchos agentes solo ven
00:01:43el icono de carga y se quedan en la estructura de la página. Pero esta prueba ayuda a identificar si ese es
00:01:49realmente el caso. A veces puede haber situaciones donde un código erróneo sea el culpable. Como por ejemplo,
00:01:54una etiqueta markdown mal cerrada puede tragarse el resto del contenido, haciéndolo invisible para el
00:02:00analizador del agente. Y a veces la documentación oculta información tras pestañas de idioma, como cambiar
00:02:06entre el ejemplo de Python y el de Java. Si el agente solo extrae la primera pestaña, se pierde
00:02:12el resto de la información. Así que esta prueba analiza estos y otros retos similares para evaluar la
00:02:17verdadera capacidad de lectura de un agente y darle una puntuación final sobre 20. Pero también hay que
00:02:23tener en cuenta que esta prueba no es infalible. Algunos agentes logran hacer trampa
00:02:28usando tácticas astutas. Uno de los hallazgos más interesantes de la prueba es la inflación de puntuación. Durante
00:02:35las primeras pruebas con agentes como Claude Code, los agentes a menudo afirmaban haber encontrado 17 o 18 tokens
00:02:42incluso cuando solo habían encontrado 15. Lo hacen mediante soluciones alternativas. Por ejemplo, si una página
00:02:48usa una redirección que el sistema del agente no sigue, el agente puede notar la redirección en el
00:02:54encabezado, buscar manualmente la nueva URL en el segundo paso y atribuirse el mérito. Aunque esto ayuda,
00:03:00enmascara el hecho de que la herramienta de lectura automática del agente está rota. Así que, en algunos
00:03:05casos, todavía puede ocurrir la inflación de puntuación. Así que tomen esta prueba con cautela. Dicho esto,
00:03:11vamos a probarla nosotros mismos. Y ejecutar la prueba es bastante sencillo.
00:03:16Puedes ejecutarla dirigiendo a tu agente de IA o herramienta de navegación favorita a agentreadingtest.com y pedirle
00:03:23que encuentre todos los tokens canary del sitio. Y luego tienes que comparar su lista con la clave de respuestas
00:03:29proporcionada en el sitio. Les mostraré cómo funciona en un segundo. En mi caso, le pedí a Kimi 2.5 que
00:03:35realizara la prueba. Simplemente le di las instrucciones iniciales y dejé que hiciera lo suyo. Le tomó
00:03:40a Kimi unos dos minutos completar toda la prueba. Y al final, obtenemos esta larga salida de texto,
00:03:46que deberíamos ignorar por completo porque solo nos interesan los marcadores canary que nos devuelve.
00:03:52Busca el área donde el agente muestra los marcadores mismos. Y esta es la pista
00:03:58que realmente evaluará qué tan bien hizo la prueba el agente. Deberíamos copiar esa lista y luego
00:04:04pegarla en la sección de puntuación del sitio web para obtener los resultados reales finales. Y como pueden ver,
00:04:10Kimi 2.5 obtuvo 13 de 20 puntos. Y también obtenemos una visión más detallada de dónde
00:04:16el agente lo hizo bien y dónde falló. Y como ven, Kimi tuvo problemas para leer contenido en pestañas.
00:04:23Y también vemos que tuvo dificultades para leer correctamente el contenido en markdown. En general, creo que esta
00:04:28es una prueba genial que te da una idea de cómo los agentes leen la web e identifica
00:04:33dónde toman atajos o producen alucinaciones. Y también creo que esto es
00:04:38un buen recordatorio de que incluso con toda la inteligencia de los agentes modernos, todavía hay áreas
00:04:44específicas de la web donde los agentes aún luchan por recuperar información con precisión. Así que ahí lo
00:04:49tienen amigos, ese es el Agent Reading Test en pocas palabras. ¿Qué opinan de él?
00:04:54Si terminan ejecutando esta prueba para otros agentes de IA, publiquen sus resultados en la sección de comentarios
00:04:59aquí abajo. Tendré mucha curiosidad por ver qué agentes tienen las mejores puntuaciones. Y amigos, si les gustan
00:05:04estos tipos de análisis técnicos, por favor háganmelo saber dándole al botón de me gusta debajo del
00:05:08vídeo. Y tampoco olviden suscribirse a nuestro canal. Aquí Andris de Better Stack,
00:05:14y los veré en los próximos vídeos.