Une IA peut-elle réussir ce test de lecture pour agents ?

Françaisالعربية Deutsch English Español हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00Les agents d'IA ont un gros problème. Quand vous leur donnez une URL, ils prétendent souvent avoir lu la page,

00:00:06mais leur vision interne est fréquemment obstruée. Il existe un nouvel outil

00:00:11appelé Agent Reading Test, conçu par Dakary Carey, qui est destiné à résoudre

00:00:16ce problème. Il utilise une série de jetons Canary, des chaînes de caractères uniques cachées sur 10 pages

00:00:23web différentes, pour prouver exactement où la capacité de lecture d'un agent échoue. Dans cette vidéo,

00:00:28nous allons examiner l'Agent Reading Test, voir comment il fonctionne et l'essayer nous-mêmes.

00:00:34Ça va être très amusant, alors plongeons dedans.

00:00:37La plupart des gens supposent que lorsqu'un agent visite une URL, il voit ce que l'humain voit. Mais en réalité,

00:00:47les agents dépendent de pipelines de récupération qui peuvent être piégés par les pratiques modernes du web.

00:00:53L'Agent Reading Test cible ces modes d'échec spécifiques. Un exemple est l'enfouissement

00:00:59dans le code répétitif, où le contenu réel est placé après 80 000 caractères de CSS en ligne. Si un agent a

00:01:06une petite fenêtre contextuelle pour sa récupération initiale, il pourrait ne voir que le code de style et conclure

00:01:12que la page est vide. Le test comprend 10 défis distincts de ce type, qui nous aident

00:01:17à identifier si l'agent lit réellement toute la page. Par exemple, il y a le test de troncature.

00:01:22Des Canaries sont placés à divers intervalles, comme 75k et 130k caractères. Et cela teste si

00:01:30le pipeline de l'agent coupe la documentation longue. Par exemple, de nombreux sites modernes utilisent des applications

00:01:36à page unique où le contenu n'apparaît qu'après l'exécution du JavaScript. Beaucoup d'agents ne voient que

00:01:43l'indicateur de chargement et l'enveloppe de la page. Ce test aide à identifier si c'est vraiment

00:01:49le cas. Parfois, du code erroné peut être le coupable. Comme par exemple,

00:01:54une balise markdown non fermée peut absorber le reste du contenu de la page, le rendant invisible pour

00:02:00l'analyseur de l'agent. Et parfois, la documentation cache des informations derrière des onglets de langue, comme passer

00:02:06de l'exemple Python à l'exemple Java. Si l'agent ne scanne que le premier onglet, il manque

00:02:12le reste des informations. Ce test passe donc en revue ces défis et d'autres similaires pour évaluer

00:02:17la véritable capacité de l'agent à lire une page et vous donne ensuite un score final sur 20. Mais il faut

00:02:23aussi garder à l'esprit que ce test n'est pas infaillible. Certains agents réussissent à tricher

00:02:28en utilisant des tactiques sournoises. L'une des découvertes les plus intéressantes du test est l'inflation des scores. Lors

00:02:35des premiers tests avec des agents comme Claude Code, les agents prétendaient souvent avoir trouvé 17 ou 18 jetons

00:02:42alors qu'ils n'en avaient trouvé que 15 en réalité. Ils font cela via des solutions de contournement. Par exemple, si une page

00:02:48utilise une redirection que le pipeline de l'agent ne suit pas, l'agent peut remarquer la redirection dans

00:02:54l'en-tête, récupérer manuellement la nouvelle URL dans une deuxième étape et s'attribuer le mérite. Bien que ce soit utile,

00:03:00cela masque le fait que l'outil de lecture automatique de l'agent est en réalité défectueux. Ainsi, dans certains

00:03:05cas, l'inflation du score peut encore se produire. Prenez donc ce test avec des pincettes. Mais cela dit,

00:03:11allons-y et essayons-le par nous-mêmes. L'exécution du test est assez simple.

00:03:16Vous pouvez le lancer en dirigeant votre agent IA ou outil de navigation préféré vers agentreadingtest.com et lui demander

00:03:23de trouver tous les jetons canary sur le site. Ensuite, vous devez comparer sa liste avec la clé de réponse

00:03:29fournie sur le site. Je vais vous montrer comment cela fonctionne dans un instant. Dans mon cas, j'ai demandé à Kimi 2.5 de

00:03:35mener le test. Je lui ai simplement donné l'instruction initiale et je l'ai laissé faire. Il a fallu

00:03:40environ deux minutes à Kimi pour parcourir tout le test. À la fin, nous obtenons ce long texte en sortie,

00:03:46que nous devrions absolument ignorer car nous ne sommes intéressés que par les marqueurs canary qu'il nous renvoie.

00:03:52Cherchez donc la zone où l'agent affiche les marqueurs eux-mêmes. C'est l'indice

00:03:58qui permettra d'évaluer réellement la performance de l'agent lors du test. Nous devrions copier cette liste et ensuite

00:04:04la coller dans la section des scores du site web pour obtenir les vrais résultats finaux. Et comme vous pouvez le voir,

00:04:10Kimi 2.5 a obtenu un score de 13 sur 20 points. Nous obtenons également un aperçu plus détaillé de

00:04:16ce que l'agent a bien fait et de ses échecs. Comme vous pouvez le voir, Kimi a eu du mal à lire le contenu par onglets.

00:04:23Et nous voyons aussi qu'il a eu des difficultés à lire correctement le contenu markdown. Dans l'ensemble, je pense que

00:04:28c'est un test assez cool qui donne une idée de la façon dont les agents lisent réellement le web et permet d'identifier

00:04:33où ils prennent des raccourcis ou produisent des hallucinations. Je pense aussi que c'est

00:04:38un bon rappel que même avec toute l'intelligence des agents modernes, il reste des zones spécifiques

00:04:44du web où les agents ont encore du mal à récupérer l'information avec précision. Voilà donc

00:04:49les amis, c'est l'Agent Reading Test en résumé. Qu'en pensez-vous ?

00:04:54Si vous finissez par lancer ce test sur d'autres agents IA, postez vos résultats dans les commentaires

00:04:59ci-dessous. Il sera très curieux de voir quels agents obtiennent les meilleurs scores. Et les amis, si vous aimez

00:05:04ce type d'analyses techniques, faites-le moi savoir en cliquant sur le bouton j'aime sous

00:05:08la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne. C'était Andris de Better Stack,

00:05:14et je vous verrai dans les prochaines vidéos.

Key Takeaway

L'Agent Reading Test de Dakary Carey révèle que les pipelines de récupération des IA échouent fréquemment face au JavaScript, au code CSS volumineux et aux structures d'onglets, malgré des tentatives de contournement manuel par certains modèles.

Highlights

L'Agent Reading Test utilise 10 pages web et 20 jetons canaris pour mesurer précisément les échecs de lecture des agents IA.

Le contenu réel d'une page peut être invisible pour une IA s'il est placé après 80 000 caractères de code CSS en ligne.

Les applications à page unique masquent souvent l'information derrière un indicateur de chargement si l'agent n'exécute pas le JavaScript.

Certains agents gonflent artificiellement leurs résultats en récupérant manuellement des URL de redirection au lieu de les suivre automatiquement.

Une balise Markdown non fermée peut absorber l'intégralité du contenu restant d'une page, le rendant illisible pour l'analyseur de l'IA.

L'agent Kimi 2.5 a obtenu un score de 13 sur 20 en échouant spécifiquement sur le contenu par onglets et les erreurs de syntaxe Markdown.

Timeline

Limites de la vision interne des agents IA

Les agents IA affirment souvent avoir lu une page alors que leur vision est techniquement obstruée.
Le système Agent Reading Test introduit des jetons canaris pour localiser les points de rupture de la lecture.
Le test évalue la capacité réelle de navigation à travers 10 défis distincts sur le web.

Les utilisateurs supposent à tort que les agents IA voient la même interface qu'un humain lors de la visite d'une URL. En réalité, ces outils dépendent de pipelines de récupération spécifiques qui peuvent être piégés par la structure technique des sites modernes. Le test conçu par Dakary Carey utilise des chaînes de caractères uniques cachées pour valider si chaque section de la page est effectivement traitée.

Modes d'échec techniques et structurels

L'enfouissement du contenu derrière 80 000 caractères de CSS provoque des erreurs de détection de page vide.
La troncature des données survient souvent aux seuils de 75 000 et 130 000 caractères dans les documentations longues.
Les informations situées derrière des onglets de sélection de langage restent souvent invisibles pour les scanners d'IA.

Le test de troncature identifie si le pipeline de l'agent coupe les fichiers trop volumineux avant d'atteindre l'information utile. Les applications à page unique (SPA) posent un problème majeur car le contenu n'apparaît qu'après l'exécution du JavaScript, laissant l'IA face à une enveloppe vide ou un indicateur de chargement. Des erreurs de syntaxe simples, comme une balise markdown non fermée, suffisent également à rendre le texte invisible pour l'analyseur de l'agent.

Inflation des scores et tactiques de triche

Des agents comme Claude Code ont prétendu avoir trouvé 18 jetons alors qu'ils n'en avaient détecté que 15.
La récupération manuelle d'une URL de redirection masque les défauts de l'outil de lecture automatique.
L'inflation des résultats oblige à une vérification manuelle rigoureuse des sorties de l'IA.

Certains modèles utilisent des solutions de contournement pour améliorer leur score sans corriger leurs failles de lecture fondamentales. Par exemple, si une redirection échoue au niveau du pipeline, l'agent peut extraire l'URL de l'en-tête et effectuer une seconde requête indépendante pour obtenir le jeton. Bien que cette méthode fournisse l'information, elle ne valide pas la capacité de l'outil de navigation intégré à gérer les protocoles web standards.

Démonstration pratique et analyse des résultats

L'exécution du test nécessite de diriger l'IA vers agentreadingtest.com pour lister les jetons trouvés.
L'agent Kimi 2.5 a complété le parcours complet en deux minutes environ.
Le score final de 13 sur 20 met en évidence des difficultés persistantes avec le contenu dynamique et structuré.

La procédure consiste à demander à l'IA de trouver tous les jetons canaris puis à comparer sa liste avec la clé de réponse du site. L'analyse détaillée des erreurs de Kimi 2.5 montre que l'intelligence des agents actuels reste limitée face à des éléments interactifs comme les onglets de documentation. Ce test sert de rappel sur la persistance des zones d'ombre du web que les technologies de récupération actuelles ne parviennent pas encore à éclairer totalement.

Community Posts

Collectez du Markdown au lieu du HTML pour des réponses RAG plus précises

makedream10일 전4810

Write about this video