Skills hatten EINE Aufgabe (und haben versagt)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Wie sich herausstellt, sind Skills vielleicht doch nicht der beste Weg, um euren Agents Kontext zu geben. Möglicherweise fahrt ihr besser damit, zur agents.md-Datei zurückzukehren.
00:00:08Das war das überraschende Ergebnis, das Vercel feststellte, als sie die beste Methode testeten, um Coding-Agents mit der Next.js-Dokumentation zu füttern.
00:00:15Springen wir also direkt rein und schauen uns an, was passiert ist, warum das so ist und was wir daraus über den effektiven Einsatz von Coding-Agents lernen.
00:00:26Wie gesagt: Vercels Ziel war es, einem Coding-Agent zusätzlichen Kontext zu geben – in diesem Fall die Next.js-Doku. Wenn ihr Next.js schreibt, soll der Agent über alle neuen APIs Bescheid wissen, da diese eventuell noch nicht in den Trainingsdaten enthalten sind.
00:00:41Oder genau das Gegenteil: Ihr nutzt eine ältere Version von Next.js und wollt sicherstellen, dass der Agent nur die Methoden verwendet, die damals verfügbar waren.
00:00:47Sie wollten ein System für versionsgenaue Dokumentation, auf das der Agent zugreifen kann.
00:00:51Dazu haben sie zwei gängige Ansätze getestet.
00:00:54Zuerst haben wir die „Skills“.
00:00:56Diese sind in letzter Zeit ziemlich populär geworden; etliche Frameworks und Tools nutzen sie oder veröffentlichen gerade neue.
00:01:01Ironischerweise gehört Vercel selbst zu den Vorreitern dieses Trends – mit ihrem Skills-CLI und ihrem Skills-Repository.
00:01:08Ich kann euch nur empfehlen, euch das mal anzusehen.
00:01:09Falls ihr nicht wisst, was Skills sind: Das ist eigentlich ein offener Standard von Anthropic. Es sind modulare Pakete aus Anweisungen, Skripten und Kontexten, die ein Agent bei Bedarf laden kann, um Aufgaben präziser zu erledigen.
00:01:20Aber genau das ist der entscheidende Punkt: Es liegt ganz allein beim Agent zu entscheiden, wann er diese Informationen lädt.
00:01:26Und dieser Teil scheint aktuell die Schwachstelle zu sein. Als Vercel die Evals durchführte, stellten sie fest, dass der Skill in 56 Prozent der Fälle überhaupt nicht aufgerufen wurde.
00:01:35Der Agent hat sich einfach dagegen entschieden, ihn zu benutzen.
00:01:37Überraschenderweise brachte der Skill dem Agenten in den Evals absolut keine Verbesserung im Vergleich zu einem Agenten ohne diesen Skill.
00:01:44Und noch erstaunlicher: Sie fanden heraus, dass der Skill sogar einen negativen Effekt haben kann.
00:01:48Manchmal schnitt er schlechter ab als die Baseline, wenn der Skill nicht genutzt wurde. Das deutet darauf hin, dass ein ungenutzter Skill Rauschen oder Ablenkung erzeugen kann.
00:01:57Um das zu beheben, haben sie im Prompt explizit dazu aufgefordert: „Bitte nutze diesen Skill“.
00:02:02Das hat tatsächlich geholfen. Die Trigger-Rate stieg auf 95 Prozent und die Erfolgsquote in den Evals auf 79 Prozent.
00:02:09Aber es gab neue Probleme: Winzige Unterschiede in der Formulierung führten zu drastisch anderen Ergebnissen.
00:02:15Wenn man zum Beispiel sagte „Du musst den Skill nutzen“, tat er das zwar, ignorierte dann aber den Projektkontext.
00:02:21Man musste also schreiben: „Nutze sowohl den Skill als auch den Projektkontext“.
00:02:24Vercel störte sich an der Anfälligkeit des Systems. Wenn minimale Textänderungen das Verhalten so stark beeinflussen, ist der Ansatz zu instabil für den produktiven Einsatz.
00:02:33Sie brauchten also eine verlässlichere Lösung – vielleicht eine, bei der der Agent diese Entscheidung gar nicht erst selbst treffen muss.
00:02:40An diesem Punkt kam die agents.md-Datei ins Spiel.
00:02:42Das ist ein offenes Format, das viele Agents nutzen. Wenn ihr Claude-Fans seid: Das ist genau dasselbe wie die claude.md.
00:02:49Sie dient dazu, dem Coding-Agent Anweisungen zu geben, die immer im System-Prompt enthalten sind.
00:02:53Im Gegensatz zu Skills entscheidet hier nicht der Agent, ob er die Infos abruft.
00:02:58Er hat sie bereits im System-Prompt. Aber das könnte wiederum ein Problem mit dem Kontextfenster erzeugen.
00:03:03Wir wissen ja: Wenn der Kontext zu groß wird, wird die Qualität des Outputs schlechter.
00:03:06Man will ja nicht die gesamte Next.js-Dokumentation in die agents.md-Datei kopieren.
00:03:10Wie löst man das also? Um dem entgegenzuwirken, hat Vercel in der agents.md einfach einen Dokumentations-Index verwendet.
00:03:17Das ist im Grunde nur eine Liste von Dateipfaden zu den einzelnen Dokumentationsdateien in eurem Dateisystem.
00:03:22Der zweite entscheidende Teil war eine Anweisung: „Bevorzuge bei Next.js-Aufgaben retrieval-basiertes Denken gegenüber vortrainiertem Wissen“.
00:03:31Ehrlich gesagt dachte ich zuerst, das würde zu ähnlichen Ergebnissen wie bei den Skills führen, da der Agent die Datei ja trotzdem erst abrufen und lesen muss.
00:03:38Aber in den Tests erreichten die Agents damit 100 Prozent bei allen Evals und perfekte Werte bei Build-, Lint- und Test-Evals.
00:03:47Es ist also deutlich zuverlässiger und präziser als Skills. Klassisches Software-Engineering halt.
00:03:53Oft ist der simplere, „dümmere“ Ansatz am Ende der beste. Man muss nicht alles übermäßig kompliziert machen.
00:03:58Aber warum ist das so? Warum ist die agents-Datei besser als Skills? Das ist schwer zu sagen.
00:04:03KI ist oft eine Blackbox, aber Vercel vermutet drei Faktoren, die alle mit der Entscheidungsfindung zu tun haben.
00:04:10Bei der agents-Datei gibt es für den Agenten keinen Entscheidungspunkt.
00:04:14Wir sagen ihm direkt zu Beginn im System-Prompt, dass er die Doku nutzen soll und wo genau jede Datei liegt.
00:04:20Dadurch wird das Wissen zu einem dauerhaften Kontext, statt es nur auf Abruf bereitzustellen und dem Modell die Wahl zu lassen.
00:04:27Es ist bereits Teil des Denkprozesses, weil wir es im System-Prompt vorgegeben haben.
00:04:31Das bedeutet aber nicht, dass Skills völlig nutzlos sind. Vercel fand heraus, dass sie sich sogar gut ergänzen.
00:04:36Skills funktionieren besser bei expliziten, vom Nutzer ausgelösten Workflows, wie „Aktualisiere meine Next.js-Version“,
00:04:41„Migriere zum App Router“ oder „Wende Framework-Best-Practices an“.
00:04:45Wenn es aber um das allgemeine Wissen über ein Framework innerhalb eures Coding-Agents geht,
00:04:48dann schlägt der passive Kontext der agents.md die Skills um Längen – zumindest mit den heutigen Modellen.
00:04:54Sicherlich werden zukünftige Modelle besser auf Skill-basierte Retrieval-Workflows optimiert sein, aber da sind wir noch nicht.
00:04:59Vercels Empfehlung für Framework-Autoren oder alle, die Skills oder agents.md-Dateien schreiben, lautet daher:
00:05:06Wartet nicht darauf, dass die Skills besser werden. Komprimiert euren Kontext so weit wie möglich.
00:05:10Designet für Retrieval, nicht für das Gedächtnis. Und am wichtigsten: Testet alles mit Evals.
00:05:16Und für die reinen Nutzer bietet Vercel ein Tool an, um die Dokumentation
00:05:21und die fertige agents.md-Datei für eure spezifische Next.js-Version herunterzuladen, damit ihr diesen neuen Ansatz sofort nutzen könnt.
00:05:29Ich bin gespannt, ob auch andere Tools diesen Weg einschlagen werden. Und mich interessiert natürlich eure Meinung dazu.
00:05:34Schreibt mir in die Kommentare, was ihr von Agents und Skills haltet.
00:05:37Und wenn ihr schon dabei seid, lasst ein Abo da. Wie immer: Wir sehen uns im nächsten Video.

Key Takeaway

Die Bereitstellung von Kontext über eine agents.md-Datei ist deutlich zuverlässiger als Skill-basierte Ansätze, da sie den Entscheidungsprozess des Agents eliminiert und Informationen direkt in den Denkprozess integriert.

Highlights

Vercels Tests zeigen

Timeline

Das Scheitern der Skills beim Kontext-Management

Das Video beginnt mit der überraschenden Erkenntnis, dass Skills nicht die optimale Methode sind, um Coding-Agents Kontext zu vermitteln. Vercel untersuchte dies am Beispiel der Next.js-Dokumentation, um sicherzustellen, dass Agents über aktuelle APIs oder spezifische Versionen informiert sind. Oft fehlen neue Funktionen in den ursprünglichen Trainingsdaten der Modelle, was zusätzliche externe Datenquellen notwendig macht. Die Zielsetzung war ein System für versionsgenaue Dokumentation, das verlässlich funktioniert. Dieser Vergleich dient als Grundlage für die gesamte Analyse der Effektivität von KI-Agenten.

Probleme mit der Zuverlässigkeit von Skills

In diesem Abschnitt wird das Konzept der Skills als modularer Standard von Anthropic erläutert, bei dem der Agent selbst entscheidet, wann er Informationen lädt. Vercels Tests ergaben jedoch eine erschreckende Trigger-Rate von nur 44%, was bedeutet, dass der Skill meist ignoriert wurde. Ohne explizite Aufforderung boten Skills keinerlei Verbesserung gegenüber der Baseline und wirkten teilweise sogar als störendes Rauschen. Dies verdeutlicht die aktuelle Schwäche der Modelle bei der autonomen Entscheidung über den Abruf von Werkzeugen. Die statistische Auswertung zeigt, dass die bloße Verfügbarkeit eines Skills nicht dessen Nutzung garantiert.

Die Instabilität von Prompt-Engineering

Um die niedrige Nutzungsrate zu korrigieren, versuchte Vercel, den Agenten durch explizite Prompts zur Skill-Nutzung zu zwingen. Obwohl die Trigger-Rate auf 95% stieg, traten neue Probleme durch die extreme Empfindlichkeit der Formulierungen auf. Winzige Änderungen im Text führten dazu, dass der Agent entweder den Projektkontext ignorierte oder andere Fehler machte. Vercel kam zu dem Schluss, dass dieser Ansatz für den produktiven Einsatz viel zu instabil und fehleranfällig ist. Es wurde klar, dass eine Lösung benötigt wird, die den Agenten von der Entscheidung befreit, ob er auf die Dokumentation zugreifen soll.

Der Durchbruch mit der agents.md-Datei

Vercel wechselte zum Format der agents.md (ähnlich wie claude.md), bei dem Anweisungen fest im System-Prompt verankert sind. Um das Kontextfenster nicht zu sprengen, wurde lediglich ein Index mit Dateipfaden zur Dokumentation hinterlegt. Zusammen mit der Anweisung, retrieval-basiertes Denken dem vortrainierten Wissen vorzuziehen, erzielten die Agents eine Erfolgsquote von 100%. Dieser „simplere" Ansatz erwies sich als deutlich überlegen gegenüber den komplexen Skill-Systemen. Es zeigt sich, dass klassische Software-Engineering-Prinzipien oft besser funktionieren als übermäßig komplexe KI-Logiken.

Warum passiver Kontext gewinnt und Empfehlungen

Abschließend analysiert der Sprecher, warum die agents.md-Datei so erfolgreich ist: Sie eliminiert den Entscheidungspunkt für den Agenten und macht das Wissen zum dauerhaften Bestandteil des Denkprozesses. Dennoch bleiben Skills nützlich für gezielte Aufgaben wie Versions-Upgrades oder Migrationen, die vom Nutzer aktiv ausgelöst werden. Vercel rät Entwicklern, Kontext so weit wie möglich zu komprimieren und alles mit Evals zu validieren. Für Next.js-Nutzer bietet Vercel bereits fertige agents.md-Dateien an, um diesen effizienten Workflow sofort umzusetzen. Der Sprecher schließt mit der Aufforderung zur Diskussion über die Zukunft von KI-Workflows ab.

Community Posts

View all posts