00:00:00Les agents d'IA ont un gros problème. Quand vous leur donnez une URL, ils prétendent souvent avoir lu la page,
00:00:06mais leur vision interne est fréquemment obstruée. Il existe un nouvel outil
00:00:11appelé Agent Reading Test, conçu par Dakary Carey, qui est destiné à résoudre
00:00:16ce problème. Il utilise une série de jetons Canary, des chaînes de caractères uniques cachées sur 10 pages
00:00:23web différentes, pour prouver exactement où la capacité de lecture d'un agent échoue. Dans cette vidéo,
00:00:28nous allons examiner l'Agent Reading Test, voir comment il fonctionne et l'essayer nous-mêmes.
00:00:34Ça va être très amusant, alors plongeons dedans.
00:00:37La plupart des gens supposent que lorsqu'un agent visite une URL, il voit ce que l'humain voit. Mais en réalité,
00:00:47les agents dépendent de pipelines de récupération qui peuvent être piégés par les pratiques modernes du web.
00:00:53L'Agent Reading Test cible ces modes d'échec spécifiques. Un exemple est l'enfouissement
00:00:59dans le code répétitif, où le contenu réel est placé après 80 000 caractères de CSS en ligne. Si un agent a
00:01:06une petite fenêtre contextuelle pour sa récupération initiale, il pourrait ne voir que le code de style et conclure
00:01:12que la page est vide. Le test comprend 10 défis distincts de ce type, qui nous aident
00:01:17à identifier si l'agent lit réellement toute la page. Par exemple, il y a le test de troncature.
00:01:22Des Canaries sont placés à divers intervalles, comme 75k et 130k caractères. Et cela teste si
00:01:30le pipeline de l'agent coupe la documentation longue. Par exemple, de nombreux sites modernes utilisent des applications
00:01:36à page unique où le contenu n'apparaît qu'après l'exécution du JavaScript. Beaucoup d'agents ne voient que
00:01:43l'indicateur de chargement et l'enveloppe de la page. Ce test aide à identifier si c'est vraiment
00:01:49le cas. Parfois, du code erroné peut être le coupable. Comme par exemple,
00:01:54une balise markdown non fermée peut absorber le reste du contenu de la page, le rendant invisible pour
00:02:00l'analyseur de l'agent. Et parfois, la documentation cache des informations derrière des onglets de langue, comme passer
00:02:06de l'exemple Python à l'exemple Java. Si l'agent ne scanne que le premier onglet, il manque
00:02:12le reste des informations. Ce test passe donc en revue ces défis et d'autres similaires pour évaluer
00:02:17la véritable capacité de l'agent à lire une page et vous donne ensuite un score final sur 20. Mais il faut
00:02:23aussi garder à l'esprit que ce test n'est pas infaillible. Certains agents réussissent à tricher
00:02:28en utilisant des tactiques sournoises. L'une des découvertes les plus intéressantes du test est l'inflation des scores. Lors
00:02:35des premiers tests avec des agents comme Claude Code, les agents prétendaient souvent avoir trouvé 17 ou 18 jetons
00:02:42alors qu'ils n'en avaient trouvé que 15 en réalité. Ils font cela via des solutions de contournement. Par exemple, si une page
00:02:48utilise une redirection que le pipeline de l'agent ne suit pas, l'agent peut remarquer la redirection dans
00:02:54l'en-tête, récupérer manuellement la nouvelle URL dans une deuxième étape et s'attribuer le mérite. Bien que ce soit utile,
00:03:00cela masque le fait que l'outil de lecture automatique de l'agent est en réalité défectueux. Ainsi, dans certains
00:03:05cas, l'inflation du score peut encore se produire. Prenez donc ce test avec des pincettes. Mais cela dit,
00:03:11allons-y et essayons-le par nous-mêmes. L'exécution du test est assez simple.
00:03:16Vous pouvez le lancer en dirigeant votre agent IA ou outil de navigation préféré vers agentreadingtest.com et lui demander
00:03:23de trouver tous les jetons canary sur le site. Ensuite, vous devez comparer sa liste avec la clé de réponse
00:03:29fournie sur le site. Je vais vous montrer comment cela fonctionne dans un instant. Dans mon cas, j'ai demandé à Kimi 2.5 de
00:03:35mener le test. Je lui ai simplement donné l'instruction initiale et je l'ai laissé faire. Il a fallu
00:03:40environ deux minutes à Kimi pour parcourir tout le test. À la fin, nous obtenons ce long texte en sortie,
00:03:46que nous devrions absolument ignorer car nous ne sommes intéressés que par les marqueurs canary qu'il nous renvoie.
00:03:52Cherchez donc la zone où l'agent affiche les marqueurs eux-mêmes. C'est l'indice
00:03:58qui permettra d'évaluer réellement la performance de l'agent lors du test. Nous devrions copier cette liste et ensuite
00:04:04la coller dans la section des scores du site web pour obtenir les vrais résultats finaux. Et comme vous pouvez le voir,
00:04:10Kimi 2.5 a obtenu un score de 13 sur 20 points. Nous obtenons également un aperçu plus détaillé de
00:04:16ce que l'agent a bien fait et de ses échecs. Comme vous pouvez le voir, Kimi a eu du mal à lire le contenu par onglets.
00:04:23Et nous voyons aussi qu'il a eu des difficultés à lire correctement le contenu markdown. Dans l'ensemble, je pense que
00:04:28c'est un test assez cool qui donne une idée de la façon dont les agents lisent réellement le web et permet d'identifier
00:04:33où ils prennent des raccourcis ou produisent des hallucinations. Je pense aussi que c'est
00:04:38un bon rappel que même avec toute l'intelligence des agents modernes, il reste des zones spécifiques
00:04:44du web où les agents ont encore du mal à récupérer l'information avec précision. Voilà donc
00:04:49les amis, c'est l'Agent Reading Test en résumé. Qu'en pensez-vous ?
00:04:54Si vous finissez par lancer ce test sur d'autres agents IA, postez vos résultats dans les commentaires
00:04:59ci-dessous. Il sera très curieux de voir quels agents obtiennent les meilleurs scores. Et les amis, si vous aimez
00:05:04ce type d'analyses techniques, faites-le moi savoir en cliquant sur le bouton j'aime sous
00:05:08la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne. C'était Andris de Better Stack,
00:05:14et je vous verrai dans les prochaines vidéos.