Dieses Claude Code-Plugin schreibt 94 % weniger Code (ponytail)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업경영/리더십

Transcript

00:00:00Sie kennen ihn. Langer Pferdeschwanz, ovale Brille, ist schon länger im Unternehmen als die Versionsverwaltung.
00:00:06Man zeigt ihm 50 Zeilen, er sieht sie sich an, sagt nichts und ersetzt sie durch eine einzige.
00:00:11Das ist die epische Beschreibung dieser neuen Bibliothek namens Ponytail, was ich irgendwie
00:00:17nachvollziehbar finde. Wir alle kennen diesen einen 10x-Entwickler, auf den diese Beschreibung perfekt passt. Aber Ponytail
00:00:23ist eigentlich ein ziemlich cooles Werkzeug. Es bringt Ihren KI-Coding-Agenten dazu, wie der faulste Senior-Entwickler
00:00:29im Raum zu denken. Und das ist eigentlich ein Kompliment. In diesem Video schauen wir uns Ponytail an,
00:00:35sehen, wie es funktioniert, und machen ein paar lustige Demos, um herauszufinden, ob dieser Kerl wirklich hält, was er verspricht.
00:00:41Das wird sicher viel Spaß machen, also tauchen wir direkt ein.
00:00:48Die Mission von Ponytail ist einfach: Alles super prägnant halten, den Ballast eliminieren, den KI-Agenten normalerweise
00:00:55produzieren, und versuchen, die schlankste Lösung für ein Problem zu finden, die möglich ist.
00:01:00Es ist ähnlich wie Caveman, der Bibliothek, die KI-Coding-Agenten dazu brachte, weniger zu reden,
00:01:06und dadurch weniger Token zu verbrauchen – worüber James auch ein tolles Video gemacht hat. Die Hauptidee
00:01:12dahinter ist die Umsetzung des YAGNI-Prinzips, was für “You Ain't Gonna Need It” steht. Es ist eine
00:01:18Softwareentwicklungs-Idee aus den 90ern. Der Kerngedanke dabei ist: Baue nichts, bevor du es
00:01:25tatsächlich brauchst. Füge keine Abstraktionsschicht hinzu, installiere keine Bibliothek, schreibe keine Klasse.
00:01:31Wenn das Problem auch ohne gelöst werden kann, dann löse es einfach ohne. Ponytail verankert das direkt
00:01:37in Ihrem Agenten, indem es ihm eine Entscheidungskette gibt, die er erklimmen muss, bevor er irgendetwas schreibt: Muss das überhaupt
00:01:43existieren? Kann die Standardbibliothek das übernehmen? Gibt es dafür ein natives Plattform-Feature? Ist bereits
00:01:50eine Abhängigkeit installiert, die das erledigt? Kann es ein Einzeiler sein? Nur wenn jede einzelne dieser
00:01:57Antworten ein Nein ist, schreibt es tatsächlich neuen Code. Und selbst dann hält es ihn so kurz wie
00:02:04möglich, um das Ziel zu erreichen.
00:02:05Und wenn wir uns einige ihrer Beispiele ansehen, besonders das modale Dialog-Beispiel, bekommen wir ein klares Bild dieser
00:02:11Methodik. Ein normaler Agent, wenn er aufgefordert wird, ein modales Dialogfeld für die Löschbestätigung hinzuzufügen,
00:02:18würde sofort eine Radix-UI-Bibliothek wie den React-Dialog installieren und Ihnen eine
00:02:25Abhängigkeit, ein Portal, ein Overlay, ein Root, einen Trigger, einen Content-Wrapper geben, nur um ein Feld mit zwei
00:02:34Buttons anzuzeigen. Aber Ponytail schaut sich das an und sagt: Hey, der Browser hat bereits ein Dialog-Element. Es schließt
00:02:41den Fokus automatisch ein, schließt sich bei Escape und rendert einen Hintergrund mit einem einzigen CSS-Selektor,
00:02:49und es wird seit 2022 von jedem großen Browser unterstützt. Anstatt 30 Zeilen in einem NPM-Paket
00:02:58erhalten Sie acht Zeilen und null Abhängigkeiten. Und dieser kleine Ponytail-Kommentar hier
00:03:04sagt Ihnen genau, was übersprungen wurde und warum das gemacht wurde. Falls Sie sich also eines Tages dazu entscheiden,
00:03:11auf die Radix-Version oder etwas Aufwendigeres aufzurüsten, wissen Sie, wo Sie nachsehen müssen und wo es aufgeschoben wurde.
00:03:16Es ist also faul, aber nicht verantwortungslos. Und durch die Nutzung dieser Faulheit behauptet Ponytail,
00:03:22Ihre Kosten um 47 bis 77 % senken zu können. Und sie liefern tatsächlich einige Benchmarks für diese Behauptung. Schauen wir uns diese
00:03:29einen Moment lang an. Wir haben hier drei Methoden: Ohne Fertigkeit, mit Caveman und mit Ponytail.
00:03:36Dazu drei Modelle und fünf Alltagsaufgaben. Zehn Durchläufe pro Zelle und für jeden davon das Medianegebnis. Und
00:03:43entscheidend ist, dass sie auch auf Korrektheit prüfen. Ein kaputter Einzeiler, der bei den Codezeilen super abschneidet, wird bei der
00:03:50Korrektheit durchfallen. Es geht also nicht nur darum, weniger zu schreiben, es muss auch funktionieren. Und es gibt auch einen interessanten
00:03:56Vorbehalt, der erwähnenswert ist: Die Kosten spiegeln Single-Shot-Aufrufe wider, bei denen die Fertigkeit jedes Mal neu gesendet wird. Anders ausgedrückt,
00:04:03funktioniert das Benchmark so, dass für jeden Test ein frischer API-Aufruf gesendet wird. Und bei jedem Mal
00:04:10wird das vollständige Ponytail-Regelwerk in den Prompt aufgenommen. Im Benchmark wird Ponytail also für die Kosten seiner
00:04:16eigenen Anweisungen bei jedem einzelnen Test bestraft. Im echten Leben bezahlen Sie für diese Anweisungen grob einmal
00:04:22pro Sitzung. Danach werden sie zwischengespeichert. Das bedeutet, der Kostenvorteil von 47 bis 77 % ist eigentlich
00:04:29untertrieben. In einer echten Arbeitssitzung, die über viele Prompts verteilt ist, ist der Kostenvorteil sogar noch größer,
00:04:36weil sich die Kosten für die Injektion der Fertigkeit über das ganze Gespräch amortisieren. Dennoch gibt es eine
00:04:42legitime Kritik, die es wert ist, erwähnt zu werden: Ein kürzlich veröffentlichter Blogbeitrag von Colin Eberhardt weist
00:04:48darauf hin, dass, wenn man Ponytail durch drei einfache Wörter ersetzt – “befolge YAGNI-Prinzipien” –, die Ergebnisse
00:04:55nahezu perfekt den Benchmark-Score von Ponytail erreichen. Und wenn man es auf sieben Wörter ausweitet – “befolge YAGNI-Prinzipien
00:05:03und Lösungen als Einzeiler” –, hat es den Benchmark sogar übertroffen. Ist Ponytail also Magie oder nur ein gut verpackter
00:05:11Prompt? Nun, ehrlich gesagt, das ist eine berechtigte Frage. Aber ich würde argumentieren, dass die Verpackung das Produkt ist. Sie erhalten die richtigen Regeln
00:05:18automatisch über verschiedene Agenten hinweg injiziert, mit Befehlen, Prüftools und einem “Depth-Ledger” obendrein. Außerdem
00:05:25hat Ponytail andere coole Features. “Befolge YAGNI” in Ihrem System-Prompt bietet Ihnen nicht das
00:05:31Ponytail-Prüf- oder Review-Feature. Aber jetzt lassen Sie es uns mit einem einfachen Beispiel testen.
00:05:37Ich habe hier zwei Cloud-Code-Instanzen offen und auf einer davon installiere ich das Ponytail-Plugin
00:05:44nur für den lokalen Bereich. Die andere wird eine einfache Standard-Cloud-Code-Instanz ohne
00:05:49aktivierte Plugins sein. Ich gebe beiden denselben Prompt, eine Wetter-Dashboard-App zu erstellen, die den Standort des Benutzers erkennt
00:05:56und die aktuellen Wetterbedingungen sowie einige andere Features anzeigt. Und ich werde denselben
00:06:02Prompt auf beiden Instanzen ausführen, mit der einzigen Ausnahme, dass ich bei der Ponytail-Instanz zusätzlich
00:06:08darum bitte, die Ponytail-Fertigkeit zu verwenden, da sie diese manchmal nicht automatisch aufgreift. Nach einigen
00:06:12Augenblicken sehen wir, dass die Ponytail-Version die Aufgabe bereits in unter einer Minute fertiggestellt hat, während die
00:06:18Standard-Version noch rechnet. Außerdem sehen wir einen sehr prägnanten Überblick darüber, was es gebaut hat und was Ponytail
00:06:25für maximale Effizienz weggelassen hat. Und wie wir hier sehen können, entschied es sich, alles in einer einzigen HTML-Datei zu haben.
00:06:34Währenddessen war die Aufgabe im Standardfenster in zwei Minuten und 30 Sekunden erledigt. Und wir können bereits sehen, dass diese
00:06:41Version viel aufgeblähter ist. Wir haben drei separate Dateien und diese Version wird mit einem Python-Server betrieben.
00:06:48Das ist keineswegs ein schlechtes Ergebnis, aber es ist viel über-technisierter als die erste Version.
00:06:54Aber schauen wir uns tatsächlich an, wie sie funktionieren. Erst einmal, dies ist die Version ohne Ponytail.
00:07:00Und während die App großartig aussieht, die Benutzeroberfläche schön ist und die API die Informationen wie erwartet abruft,
00:07:07bin ich ziemlich enttäuscht, dass es meinen Standort nicht automatisch erkannt hat, wie ich es verlangt hatte.
00:07:12Stattdessen zeigt es mir London als erstes Standardergebnis an. Aber jetzt, wenn wir zur Ponytail-Version springen,
00:07:19können wir hier deutlich sehen, dass es beim Öffnen fragt, meinen aktuellen Standort zu erhalten, und dann das Wetter
00:07:25passend zu diesem Standort ausgibt. Während die Benutzeroberfläche vielleicht nicht so schick und die App vielleicht minimalistischer ist,
00:07:33hat sie die Anweisungen genauer befolgt als die Standard-Version, was ehrlich gesagt ziemlich überraschend ist.
00:07:39Und zuletzt schauen wir uns die Nutzung an. Und hier können wir sehen, dass die Version mit Ponytail
00:07:45tatsächlich 50 % günstiger war als die Standard-Version. Und sie hat auch bei weitem weniger Codezeilen produziert.
00:07:52Und wie wir gerade gesehen haben, war sie in Bezug auf die Funktionalität sogar besser als die Standard-Version.
00:07:58Das beweist also, dass Ponytail tatsächlich funktioniert wie erwartet und dass es schlankeren Code produziert.
00:08:04Da dieser Test so erfolgreich war, entschied ich mich, etwas noch Interessanteres zu tun.
00:08:09Was, wenn ich Caveman und Ponytail kombiniere für maximale Effizienz? Was wird uns das bringen?
00:08:17Diesmal habe ich beide Plugins in einem neuen Verzeichnis aktiviert und denselben Prompt noch einmal ausgeführt.
00:08:22Und wieder einmal war die Aufgabe in unter einer Minute fertig und das Ergebnis war ziemlich ähnlich.
00:08:28Und ich hatte dieselbe Funktionalität. Es hat also wie erwartet funktioniert.
00:08:32Aber wenn wir uns das Ergebnis ansehen, unterschied es sich nicht allzu sehr von der Ponytail-Version, und die Kombination aus Caveman
00:08:37und Ponytail war sogar etwas teurer als die eigenständige Ponytail-Version.
00:08:44Das zeigt also, dass die Kombination der beiden keine wirkliche Verbesserung bringt.
00:08:49Sie können also dabei bleiben, nur Caveman oder besser noch, sich für die Nutzung von Ponytail zu entscheiden,
00:08:54wenn wir ihren Benchmarks glauben können, dass es tatsächlich besser als Caveman ist.
00:08:58Da haben Sie es also, Leute. Das ist Ponytail in aller Kürze.
00:09:02Ich bin ehrlich beeindruckt von dem positiven Ergebnis, das Claude mit der Ponytail-Fertigkeit
00:09:07erzeugen konnte, während der Ballast reduziert und gleichzeitig die Qualität beibehalten wurde.
00:09:13Ich schätze, das zeigt nur, dass viele unserer Coding-Lösungen wahrscheinlich über-technisiert sind
00:09:19und manchmal ist weniger tatsächlich mehr, wenn man es richtig einsetzt.
00:09:23Ich werde also definitiv Ponytail als Plugin in meinem Claude-Code-Setup behalten
00:09:29und wahrscheinlich für zukünftige Projekte nutzen.
00:09:31Aber was denken Sie über Ponytail? Haben Sie es ausprobiert?
00:09:34Werden Sie es nutzen? Lassen Sie es uns unten im Kommentarbereich wissen.
00:09:37Und Leute, wenn euch diese Art von technischen Analysen gefällt,
00:09:40lasst es mich wissen, indem ihr den “Gefällt mir”-Button unter dem Video drückt.
00:09:44Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:09:47Das war Andrus von BetterStack und wir sehen uns in den nächsten Videos.

Key Takeaway

Das Claude Code-Plugin Ponytail optimiert KI-Coding-Aufgaben durch konsequente Anwendung des YAGNI-Prinzips, was zu einer Reduzierung der Kosten um bis zu 77 % und deutlich schlankerem, effizienterem Code führt.

Highlights

  • Das Ponytail-Plugin senkt die Kosten für KI-Coding-Agenten um 47 bis 77 %.

  • Ponytail implementiert strikt das YAGNI-Prinzip ('You Ain't Gonna Need It'), indem es vor jedem Schreibvorgang eine festgelegte Entscheidungskette prüft.

  • In einem direkten Vergleich mit einer Standard-Instanz benötigte die Ponytail-Version für eine Wetter-Dashboard-App unter einer Minute, während die Standard-Instanz 2 Minuten und 30 Sekunden verbrauchte.

  • Die Ponytail-Version der Anwendung bestand aus einer einzigen HTML-Datei ohne zusätzliche Abhängigkeiten, wohingegen die Standard-Version drei Dateien und einen Python-Server erforderte.

  • Kombinationen mit anderen Plugins wie Caveman bieten keinen zusätzlichen Kostenvorteil oder Leistungssteigerung gegenüber der eigenständigen Nutzung von Ponytail.

Timeline

Funktionsweise und Methodik von Ponytail

  • Ponytail reduziert unnötigen Ballast bei der Code-Erstellung durch KI-Agenten.
  • Vor jeder Code-Erstellung durchläuft der Agent eine Hierarchie von Prüffragen.
  • Das YAGNI-Prinzip bildet die Grundlage für alle Entscheidungen innerhalb des Plugins.

Das Plugin fungiert als disziplinierender Faktor für KI-Agenten. Bevor Code geschrieben wird, muss der Agent prüfen, ob das Problem durch die Standardbibliothek, native Plattform-Features oder bereits installierte Abhängigkeiten gelöst werden kann. Erst wenn diese Optionen verneint werden, wird neuer Code erstellt, der zudem auf ein Minimum begrenzt bleibt.

Vergleichsanalyse und Benchmarks

  • Die Anwendung des Browser-nativen Dialog-Elements statt Radix-UI spart Abhängigkeiten und Codezeilen.
  • Die behauptete Kostenersparnis von 47 bis 77 % ist in der Praxis durch Caching der Anweisungen noch höher.
  • Die Effektivität von Ponytail lässt sich durch einfache, explizite Prompts zum YAGNI-Prinzip weitgehend reproduzieren.

Anhand des Beispiels eines modalen Dialogs zeigt sich, dass Ponytail native Browser-Funktionen bevorzugt, um Komplexität zu vermeiden. Die Benchmarks basieren auf Single-Shot-Aufrufen, bei denen die Anweisungen jedes Mal neu gesendet werden, was die Kosten für das Plugin künstlich erhöht. In echten Arbeitssitzungen amortisieren sich diese Kosten durch das Caching der Anweisungen über den Verlauf des Gesprächs.

Praktischer Demotest und Plugin-Kombination

  • Ponytail lieferte im direkten Vergleich eine funktionalere Wetter-App in der Hälfte der Zeit.
  • Die mit Ponytail erstellte App war minimalistischer und erfüllte Standortanforderungen präziser.
  • Die Kombination aus Ponytail und Caveman bietet keinen Mehrwert gegenüber der alleinigen Nutzung von Ponytail.

In einem realen Test erstellte das Plugin eine Wetter-Dashboard-App in unter einer Minute, während eine Standard-Instanz 150 Sekunden benötigte und komplexere Abhängigkeiten wählte. Ein Versuch, die Effizienz durch Kombination mit dem Caveman-Plugin zu steigern, war erfolglos und führte sogar zu leicht höheren Kosten ohne funktionalen Gewinn.

Community Posts

View all posts