Transcript

00:00:00KI-Agenten haben ein großes Problem. Wenn man ihnen eine URL gibt, behaupten sie oft, die Seite gelesen zu haben,
00:00:06aber ihre interne Sicht ist häufig blockiert. Es gibt da ein neues Tool
00:00:11namens Agent Reading Test, das von Dakary Carey entwickelt wurde und dazu gedacht ist,
00:00:16dieses Problem zu lösen. Es verwendet eine Reihe von Canary-Token, das sind eindeutige Zeichenfolgen, die auf 10 verschiedenen
00:00:23Webseiten versteckt sind, um genau zu beweisen, wo die Lesefähigkeit eines Agenten versagt. In diesem Video
00:00:28werfen wir einen Blick auf den Agent Reading Test, sehen uns an, wie er funktioniert, und probieren ihn selbst aus.
00:00:34Das wird ein großer Spaß, also legen wir direkt los.
00:00:37Die meisten Leute nehmen an, dass ein Agent, wenn er eine URL besucht, das sieht, was der Mensch sieht. Aber in Wirklichkeit
00:00:47verlassen sich Agenten auf Fetch-Pipelines, die durch moderne Webentwicklungspraktiken gestört werden können.
00:00:53Der Agent Reading Test zielt auf diese spezifischen Fehlermodi ab. Ein Beispiel ist das Begraben im
00:00:59Quellcode-Wust, wo der eigentliche Inhalt erst nach 80.000 Zeichen Inline-CSS platziert ist. Wenn ein Agent
00:01:06ein kleines Kontextfenster für seinen ersten Abruf hat, sieht er vielleicht nur den Styling-Code und schlussfolgert,
00:01:12dass die Seite leer ist. Der Test umfasst 10 verschiedene Herausforderungen wie diese, die uns helfen
00:01:17festzustellen, ob der Agent tatsächlich die gesamte Seite liest. Da gibt es zum Beispiel den Kürzungstest.
00:01:22Canaries werden in verschiedenen Intervallen platziert, etwa bei 75.000 und 130.000 Zeichen. Dies testet,
00:01:30ob die Pipeline des Agenten lange Dokumentationen abschneidet. Viele moderne Websites verwenden zum Beispiel
00:01:36Single-Page-Applications, bei denen der Inhalt erst nach dem Ausführen von JavaScript erscheint. Viele Agenten sehen nur
00:01:43das Ladesymbol und nehmen nur das Grundgerüst der Seite wahr. Dieser Test hilft uns zu erkennen, ob das wirklich
00:01:49der Fall ist. Manchmal kann auch fehlerhafter Code die Ursache sein. Wie zum Beispiel
00:01:54ein nicht geschlossener Markdown-Tag, der den Rest des Seiteninhalts verschluckt und ihn für den Parser des
00:02:00Agenten unsichtbar macht. Und manchmal verstecken Dokumentationen Informationen hinter Sprach-Tabs, wie beim Wechsel
00:02:06zwischen dem Python-Beispiel und dem Java-Beispiel. Wenn der Agent nur den ersten Tab ausliest, verpasst er
00:02:12den Rest der Informationen. Dieser Test geht diese und ähnliche Herausforderungen durch, um die wahre Fähigkeit
00:02:17eines Agenten zum Lesen einer Seite zu bewerten und gibt am Ende eine Punktzahl von maximal 20. Wir müssen jedoch
00:02:23bedenken, dass dieser Test nicht absolut narrensicher ist. Einige Agenten schaffen es tatsächlich, mit
00:02:28hinterlistigen Taktiken zu schummeln. Eine der interessantesten Erkenntnisse aus dem Test ist die Ergebnis-Inflation.
00:02:35Bei frühen Tests mit Agenten wie Claude Code behaupteten die Agenten oft, 17 oder 18 Token gefunden zu haben,
00:02:42obwohl sie tatsächlich nur 15 fanden. Sie tun dies durch Umwege. Wenn eine Seite zum Beispiel
00:02:48eine Weiterleitung nutzt, der die Pipeline des Agenten nicht folgt, bemerkt der Agent die Weiterleitung vielleicht
00:02:54im Header, ruft die neue URL im zweiten Schritt manuell ab und schreibt sich den Erfolg gut. Das ist zwar hilfreich,
00:03:00verschleiert aber die Tatsache, dass das automatisierte Lesewerkzeug des Agenten eigentlich defekt ist. In manchen
00:03:05Fällen kann also immer noch eine Ergebnis-Inflation auftreten. Genießen Sie den Test also mit Vorsicht. Aber dennoch,
00:03:11probieren wir es jetzt einfach mal selbst aus. Die Durchführung des Tests ist ziemlich unkompliziert.
00:03:16Sie können ihn starten, indem Sie Ihren bevorzugten KI-Agenten oder Ihr Browser-Tool auf agentreadingtest.com richten
00:03:23und ihn bitten, alle Canary-Token auf der Seite zu finden. Danach müssen Sie seine Liste mit dem Lösungsschlüssel
00:03:29auf der Website vergleichen. Ich zeige Ihnen gleich, wie das funktioniert. In meinem Fall habe ich Kimi 2.5 gebeten,
00:03:35den Test durchzuführen. Ich habe ihn einfach mit dem Start-Prompt gefüttert und ihn machen lassen. Es dauerte
00:03:40für Kimi etwa zwei Minuten, den gesamten Test zu durchlaufen. Am Ende erhalten wir diese lange Textausgabe,
00:03:46die wir absolut ignorieren sollten, da uns nur die Canary-Marker interessieren, die er uns zurückgibt.
00:03:52Suchen Sie also den Bereich, in dem der Agent die Marker selbst ausgibt. Dies ist der entscheidende Hinweis,
00:03:58mit dem wir tatsächlich bewerten, wie gut der Agent im Test abgeschnitten hat. Wir sollten diese Liste kopieren und
00:04:04dann im Bewertungsbereich der Website einfügen, um die endgültigen, wahren Ergebnisse zu erhalten. Und wie Sie sehen,
00:04:10hat Kimi 2.5 13 von 20 Punkten erreicht. Wir erhalten außerdem einen detaillierteren Überblick darüber, wo der
00:04:16Agent gut abgeschnitten hat und wo er versagt hat. Wie man sieht, hatte Kimi Probleme beim Lesen von Tab-Inhalten.
00:04:23Und wir sehen auch, dass er Schwierigkeiten hatte, Markdown-Inhalte korrekt zu lesen. Insgesamt denke ich,
00:04:28dass dies ein ziemlich cooler Test ist, der ein Gefühl dafür vermittelt, wie Agenten das Web tatsächlich lesen, und zeigt,
00:04:33wo sie Abkürzungen nehmen oder Halluzinationen erzeugen. Ich denke auch, dass dies
00:04:38eine gute Erinnerung daran ist, dass es trotz der Intelligenz moderner Agenten immer noch spezifische
00:04:44Bereiche im Web gibt, in denen Agenten weiterhin Schwierigkeiten haben, Informationen präzise abzurufen. Da haben Sie
00:04:49es also, Leute, das ist der Agent Reading Test in aller Kürze. Was denken Sie darüber?
00:04:54Falls Sie diesen Test mit anderen KI-Agenten durchführen, posten Sie Ihre Ergebnisse unten in die Kommentare.
00:04:59Es wäre sehr spannend zu sehen, welche Agenten die besten Ergebnisse erzielen. Und Leute, wenn Ihnen
00:05:04diese Art von technischen Analysen gefällt, lassen Sie es mich wissen, indem Sie den Like-Button unter dem Video drücken.
00:05:08Vergessen Sie auch nicht, unseren Kanal zu abonnieren. Das war Andris von Better Stack,
00:05:14und wir sehen uns in den nächsten Videos.

Key Takeaway

Der Agent Reading Test entlarvt durch 20 Canary-Marker technische Defizite in den Fetch-Pipelines von KI-Agenten, die häufig durch Inline-Code-Mengen, JavaScript-Inhalte oder fehlerhaftes Markdown blockiert werden.

Highlights

Der Agent Reading Test von Dakary Carey verwendet 10 Webseiten mit versteckten Canary-Token zur Messung der tatsächlichen Lesefähigkeit von KI-Modellen.

Viele KI-Agenten scheitern an Inhalten, die hinter 80.000 Zeichen Inline-CSS oder innerhalb von JavaScript-gesteuerten Single-Page-Applications verborgen sind.

Ergebnis-Inflation tritt auf, wenn Agenten durch Header-Informationen oder manuelle URL-Abrufe mehr gefundene Token behaupten als sie tatsächlich direkt gelesen haben.

Ein nicht geschlossener Markdown-Tag kann dazu führen, dass der Parser eines Agenten den gesamten restlichen Seiteninhalt ignoriert.

Im Praxistest erreichte das Modell Kimi 2.5 eine Punktzahl von 13 von 20 möglichen Punkten und zeigte spezifische Schwächen bei Tab-Inhalten und Markdown.

Timeline

Technische Barrieren beim Auslesen von Webseiten

  • KI-Agenten verlassen sich auf Fetch-Pipelines, die oft nicht das identische Bild der menschlichen Browser-Ansicht liefern.
  • Große Mengen an Inline-CSS blockieren das Sichtfeld von Agenten mit kleinen Kontextfenstern.
  • Der Agent Reading Test nutzt eindeutige Zeichenfolgen als Beweis für erfolgreiches oder fehlerhaftes Parsen.

Die Annahme, dass Agenten URLs wie Menschen wahrnehmen, ist oft falsch. Moderne Webentwicklungspraktiken stören den automatisierten Abruf massiv. Wenn der eigentliche Inhalt erst nach 80.000 Zeichen Quellcode erscheint, stufen viele Agenten die Seite fälschlicherweise als leer ein.

Spezifische Fehlermodi und Test-Szenarien

  • Kürzungstests bei 75.000 und 130.000 Zeichen prüfen das Abschneiden langer Dokumentationen durch die Pipeline.
  • Single-Page-Applications führen oft dazu, dass Agenten lediglich Ladesymbole statt des dynamisch nachgeladenen Inhalts erfassen.
  • Informationen hinter Sprach-Tabs oder innerhalb unvollständiger Markdown-Tags bleiben für viele Parser unsichtbar.

Der Test umfasst 10 verschiedene Herausforderungen, die gängige Schwachstellen simulieren. Dazu gehören technische Hürden wie nicht geschlossene Tags, die den Inhalt verschlucken. Auch die Unfähigkeit, zwischen verschiedenen Tabs wie Python- und Java-Beispielen zu wechseln, wird quantifizierbar gemacht.

Ergebnis-Inflation und Täuschungsmanöver

  • Agenten wie Claude Code gaben in Tests höhere Erfolgsquoten an als sie faktisch durch direktes Lesen erzielten.
  • Manuelle Umwege über Header-Informationen verschleiern defekte automatisierte Lesewerkzeuge.
  • Die Punktzahlen des Tests unterliegen einer gewissen Inflation und erfordern eine kritische Prüfung.

Einige Agenten nutzen Hintertüren, um ihre Leistung besser darzustellen. Wenn eine Pipeline einer Weiterleitung nicht folgt, erkennt der Agent dies im Header und ruft die Ziel-URL separat auf. Das löst zwar die Aufgabe, beweist aber nicht die Integrität des primären Lesewerkzeugs.

Praktische Anwendung und Modell-Bewertung

  • Der Test wird durch die Aufforderung an den Agenten gestartet, alle Canary-Token auf agentreadingtest.com zu finden.
  • Kimi 2.5 benötigte zwei Minuten für den Testdurchlauf und erreichte eine Quote von 13 zu 20 Punkten.
  • Die manuelle Abgleichung der ausgegebenen Marker mit dem Lösungsschlüssel liefert das wahre Ergebnis.

Die Durchführung ist unkompliziert, erfordert aber den Vergleich der Agenten-Ausgabe mit dem offiziellen Bewertungsschema der Website. Die Analyse der Fehler zeigt genau auf, ob ein Modell bei Markdown, Tabs oder anderen Strukturen versagt. Dies dient als Erinnerung an die Grenzen der Informationsbeschaffung durch moderne KI.

Community Posts

View all posts