00:00:00KI-Agenten haben ein großes Problem. Wenn man ihnen eine URL gibt, behaupten sie oft, die Seite gelesen zu haben,
00:00:06aber ihre interne Sicht ist häufig blockiert. Es gibt da ein neues Tool
00:00:11namens Agent Reading Test, das von Dakary Carey entwickelt wurde und dazu gedacht ist,
00:00:16dieses Problem zu lösen. Es verwendet eine Reihe von Canary-Token, das sind eindeutige Zeichenfolgen, die auf 10 verschiedenen
00:00:23Webseiten versteckt sind, um genau zu beweisen, wo die Lesefähigkeit eines Agenten versagt. In diesem Video
00:00:28werfen wir einen Blick auf den Agent Reading Test, sehen uns an, wie er funktioniert, und probieren ihn selbst aus.
00:00:34Das wird ein großer Spaß, also legen wir direkt los.
00:00:37Die meisten Leute nehmen an, dass ein Agent, wenn er eine URL besucht, das sieht, was der Mensch sieht. Aber in Wirklichkeit
00:00:47verlassen sich Agenten auf Fetch-Pipelines, die durch moderne Webentwicklungspraktiken gestört werden können.
00:00:53Der Agent Reading Test zielt auf diese spezifischen Fehlermodi ab. Ein Beispiel ist das Begraben im
00:00:59Quellcode-Wust, wo der eigentliche Inhalt erst nach 80.000 Zeichen Inline-CSS platziert ist. Wenn ein Agent
00:01:06ein kleines Kontextfenster für seinen ersten Abruf hat, sieht er vielleicht nur den Styling-Code und schlussfolgert,
00:01:12dass die Seite leer ist. Der Test umfasst 10 verschiedene Herausforderungen wie diese, die uns helfen
00:01:17festzustellen, ob der Agent tatsächlich die gesamte Seite liest. Da gibt es zum Beispiel den Kürzungstest.
00:01:22Canaries werden in verschiedenen Intervallen platziert, etwa bei 75.000 und 130.000 Zeichen. Dies testet,
00:01:30ob die Pipeline des Agenten lange Dokumentationen abschneidet. Viele moderne Websites verwenden zum Beispiel
00:01:36Single-Page-Applications, bei denen der Inhalt erst nach dem Ausführen von JavaScript erscheint. Viele Agenten sehen nur
00:01:43das Ladesymbol und nehmen nur das Grundgerüst der Seite wahr. Dieser Test hilft uns zu erkennen, ob das wirklich
00:01:49der Fall ist. Manchmal kann auch fehlerhafter Code die Ursache sein. Wie zum Beispiel
00:01:54ein nicht geschlossener Markdown-Tag, der den Rest des Seiteninhalts verschluckt und ihn für den Parser des
00:02:00Agenten unsichtbar macht. Und manchmal verstecken Dokumentationen Informationen hinter Sprach-Tabs, wie beim Wechsel
00:02:06zwischen dem Python-Beispiel und dem Java-Beispiel. Wenn der Agent nur den ersten Tab ausliest, verpasst er
00:02:12den Rest der Informationen. Dieser Test geht diese und ähnliche Herausforderungen durch, um die wahre Fähigkeit
00:02:17eines Agenten zum Lesen einer Seite zu bewerten und gibt am Ende eine Punktzahl von maximal 20. Wir müssen jedoch
00:02:23bedenken, dass dieser Test nicht absolut narrensicher ist. Einige Agenten schaffen es tatsächlich, mit
00:02:28hinterlistigen Taktiken zu schummeln. Eine der interessantesten Erkenntnisse aus dem Test ist die Ergebnis-Inflation.
00:02:35Bei frühen Tests mit Agenten wie Claude Code behaupteten die Agenten oft, 17 oder 18 Token gefunden zu haben,
00:02:42obwohl sie tatsächlich nur 15 fanden. Sie tun dies durch Umwege. Wenn eine Seite zum Beispiel
00:02:48eine Weiterleitung nutzt, der die Pipeline des Agenten nicht folgt, bemerkt der Agent die Weiterleitung vielleicht
00:02:54im Header, ruft die neue URL im zweiten Schritt manuell ab und schreibt sich den Erfolg gut. Das ist zwar hilfreich,
00:03:00verschleiert aber die Tatsache, dass das automatisierte Lesewerkzeug des Agenten eigentlich defekt ist. In manchen
00:03:05Fällen kann also immer noch eine Ergebnis-Inflation auftreten. Genießen Sie den Test also mit Vorsicht. Aber dennoch,
00:03:11probieren wir es jetzt einfach mal selbst aus. Die Durchführung des Tests ist ziemlich unkompliziert.
00:03:16Sie können ihn starten, indem Sie Ihren bevorzugten KI-Agenten oder Ihr Browser-Tool auf agentreadingtest.com richten
00:03:23und ihn bitten, alle Canary-Token auf der Seite zu finden. Danach müssen Sie seine Liste mit dem Lösungsschlüssel
00:03:29auf der Website vergleichen. Ich zeige Ihnen gleich, wie das funktioniert. In meinem Fall habe ich Kimi 2.5 gebeten,
00:03:35den Test durchzuführen. Ich habe ihn einfach mit dem Start-Prompt gefüttert und ihn machen lassen. Es dauerte
00:03:40für Kimi etwa zwei Minuten, den gesamten Test zu durchlaufen. Am Ende erhalten wir diese lange Textausgabe,
00:03:46die wir absolut ignorieren sollten, da uns nur die Canary-Marker interessieren, die er uns zurückgibt.
00:03:52Suchen Sie also den Bereich, in dem der Agent die Marker selbst ausgibt. Dies ist der entscheidende Hinweis,
00:03:58mit dem wir tatsächlich bewerten, wie gut der Agent im Test abgeschnitten hat. Wir sollten diese Liste kopieren und
00:04:04dann im Bewertungsbereich der Website einfügen, um die endgültigen, wahren Ergebnisse zu erhalten. Und wie Sie sehen,
00:04:10hat Kimi 2.5 13 von 20 Punkten erreicht. Wir erhalten außerdem einen detaillierteren Überblick darüber, wo der
00:04:16Agent gut abgeschnitten hat und wo er versagt hat. Wie man sieht, hatte Kimi Probleme beim Lesen von Tab-Inhalten.
00:04:23Und wir sehen auch, dass er Schwierigkeiten hatte, Markdown-Inhalte korrekt zu lesen. Insgesamt denke ich,
00:04:28dass dies ein ziemlich cooler Test ist, der ein Gefühl dafür vermittelt, wie Agenten das Web tatsächlich lesen, und zeigt,
00:04:33wo sie Abkürzungen nehmen oder Halluzinationen erzeugen. Ich denke auch, dass dies
00:04:38eine gute Erinnerung daran ist, dass es trotz der Intelligenz moderner Agenten immer noch spezifische
00:04:44Bereiche im Web gibt, in denen Agenten weiterhin Schwierigkeiten haben, Informationen präzise abzurufen. Da haben Sie
00:04:49es also, Leute, das ist der Agent Reading Test in aller Kürze. Was denken Sie darüber?
00:04:54Falls Sie diesen Test mit anderen KI-Agenten durchführen, posten Sie Ihre Ergebnisse unten in die Kommentare.
00:04:59Es wäre sehr spannend zu sehen, welche Agenten die besten Ergebnisse erzielen. Und Leute, wenn Ihnen
00:05:04diese Art von technischen Analysen gefällt, lassen Sie es mich wissen, indem Sie den Like-Button unter dem Video drücken.
00:05:08Vergessen Sie auch nicht, unseren Kanal zu abonnieren. Das war Andris von Better Stack,
00:05:14und wir sehen uns in den nächsten Videos.