Dieses Claude Code-Plugin schreibt 94 % weniger Code (ponytail)
BBetter Stack
Computing/SoftwareSmall Business/StartupsManagement
Transcript
00:00:00Sie kennen ihn. Langer Pferdeschwanz, ovale Brille, ist schon länger im Unternehmen als die Versionsverwaltung.
00:00:06Man zeigt ihm 50 Zeilen, er sieht sie sich an, sagt nichts und ersetzt sie durch eine einzige.
00:00:11Das ist die epische Beschreibung dieser neuen Bibliothek namens Ponytail, was ich irgendwie
00:00:17nachvollziehbar finde. Wir alle kennen diesen einen 10x-Entwickler, auf den diese Beschreibung perfekt passt. Aber Ponytail
00:00:23ist eigentlich ein ziemlich cooles Werkzeug. Es bringt Ihren KI-Coding-Agenten dazu, wie der faulste Senior-Entwickler
00:00:29im Raum zu denken. Und das ist eigentlich ein Kompliment. In diesem Video schauen wir uns Ponytail an,
00:00:35sehen, wie es funktioniert, und machen ein paar lustige Demos, um herauszufinden, ob dieser Kerl wirklich hält, was er verspricht.
00:00:41Das wird sicher viel Spaß machen, also tauchen wir direkt ein.
00:00:48Die Mission von Ponytail ist einfach: Alles super prägnant halten, den Ballast eliminieren, den KI-Agenten normalerweise
00:00:55produzieren, und versuchen, die schlankste Lösung für ein Problem zu finden, die möglich ist.
00:01:00Es ist ähnlich wie Caveman, der Bibliothek, die KI-Coding-Agenten dazu brachte, weniger zu reden,
00:01:06und dadurch weniger Token zu verbrauchen – worüber James auch ein tolles Video gemacht hat. Die Hauptidee
00:01:12dahinter ist die Umsetzung des YAGNI-Prinzips, was für “You Ain't Gonna Need It” steht. Es ist eine
00:01:18Softwareentwicklungs-Idee aus den 90ern. Der Kerngedanke dabei ist: Baue nichts, bevor du es
00:01:25tatsächlich brauchst. Füge keine Abstraktionsschicht hinzu, installiere keine Bibliothek, schreibe keine Klasse.
00:01:31Wenn das Problem auch ohne gelöst werden kann, dann löse es einfach ohne. Ponytail verankert das direkt
00:01:37in Ihrem Agenten, indem es ihm eine Entscheidungskette gibt, die er erklimmen muss, bevor er irgendetwas schreibt: Muss das überhaupt
00:01:43existieren? Kann die Standardbibliothek das übernehmen? Gibt es dafür ein natives Plattform-Feature? Ist bereits
00:01:50eine Abhängigkeit installiert, die das erledigt? Kann es ein Einzeiler sein? Nur wenn jede einzelne dieser
00:01:57Antworten ein Nein ist, schreibt es tatsächlich neuen Code. Und selbst dann hält es ihn so kurz wie
00:02:04möglich, um das Ziel zu erreichen.
00:02:05Und wenn wir uns einige ihrer Beispiele ansehen, besonders das modale Dialog-Beispiel, bekommen wir ein klares Bild dieser
00:02:11Methodik. Ein normaler Agent, wenn er aufgefordert wird, ein modales Dialogfeld für die Löschbestätigung hinzuzufügen,
00:02:18würde sofort eine Radix-UI-Bibliothek wie den React-Dialog installieren und Ihnen eine
00:02:25Abhängigkeit, ein Portal, ein Overlay, ein Root, einen Trigger, einen Content-Wrapper geben, nur um ein Feld mit zwei
00:02:34Buttons anzuzeigen. Aber Ponytail schaut sich das an und sagt: Hey, der Browser hat bereits ein Dialog-Element. Es schließt
00:02:41den Fokus automatisch ein, schließt sich bei Escape und rendert einen Hintergrund mit einem einzigen CSS-Selektor,
00:02:49und es wird seit 2022 von jedem großen Browser unterstützt. Anstatt 30 Zeilen in einem NPM-Paket
00:02:58erhalten Sie acht Zeilen und null Abhängigkeiten. Und dieser kleine Ponytail-Kommentar hier
00:03:04sagt Ihnen genau, was übersprungen wurde und warum das gemacht wurde. Falls Sie sich also eines Tages dazu entscheiden,
00:03:11auf die Radix-Version oder etwas Aufwendigeres aufzurüsten, wissen Sie, wo Sie nachsehen müssen und wo es aufgeschoben wurde.
00:03:16Es ist also faul, aber nicht verantwortungslos. Und durch die Nutzung dieser Faulheit behauptet Ponytail,
00:03:22Ihre Kosten um 47 bis 77 % senken zu können. Und sie liefern tatsächlich einige Benchmarks für diese Behauptung. Schauen wir uns diese
00:03:29einen Moment lang an. Wir haben hier drei Methoden: Ohne Fertigkeit, mit Caveman und mit Ponytail.
00:03:36Dazu drei Modelle und fünf Alltagsaufgaben. Zehn Durchläufe pro Zelle und für jeden davon das Medianegebnis. Und
00:03:43entscheidend ist, dass sie auch auf Korrektheit prüfen. Ein kaputter Einzeiler, der bei den Codezeilen super abschneidet, wird bei der
00:03:50Korrektheit durchfallen. Es geht also nicht nur darum, weniger zu schreiben, es muss auch funktionieren. Und es gibt auch einen interessanten
00:03:56Vorbehalt, der erwähnenswert ist: Die Kosten spiegeln Single-Shot-Aufrufe wider, bei denen die Fertigkeit jedes Mal neu gesendet wird. Anders ausgedrückt,
00:04:03funktioniert das Benchmark so, dass für jeden Test ein frischer API-Aufruf gesendet wird. Und bei jedem Mal
00:04:10wird das vollständige Ponytail-Regelwerk in den Prompt aufgenommen. Im Benchmark wird Ponytail also für die Kosten seiner
00:04:16eigenen Anweisungen bei jedem einzelnen Test bestraft. Im echten Leben bezahlen Sie für diese Anweisungen grob einmal
00:04:22pro Sitzung. Danach werden sie zwischengespeichert. Das bedeutet, der Kostenvorteil von 47 bis 77 % ist eigentlich
00:04:29untertrieben. In einer echten Arbeitssitzung, die über viele Prompts verteilt ist, ist der Kostenvorteil sogar noch größer,
00:04:36weil sich die Kosten für die Injektion der Fertigkeit über das ganze Gespräch amortisieren. Dennoch gibt es eine
00:04:42legitime Kritik, die es wert ist, erwähnt zu werden: Ein kürzlich veröffentlichter Blogbeitrag von Colin Eberhardt weist
00:04:48darauf hin, dass, wenn man Ponytail durch drei einfache Wörter ersetzt – “befolge YAGNI-Prinzipien” –, die Ergebnisse
00:04:55nahezu perfekt den Benchmark-Score von Ponytail erreichen. Und wenn man es auf sieben Wörter ausweitet – “befolge YAGNI-Prinzipien
00:05:03und Lösungen als Einzeiler” –, hat es den Benchmark sogar übertroffen. Ist Ponytail also Magie oder nur ein gut verpackter
00:05:11Prompt? Nun, ehrlich gesagt, das ist eine berechtigte Frage. Aber ich würde argumentieren, dass die Verpackung das Produkt ist. Sie erhalten die richtigen Regeln
00:05:18automatisch über verschiedene Agenten hinweg injiziert, mit Befehlen, Prüftools und einem “Depth-Ledger” obendrein. Außerdem
00:05:25hat Ponytail andere coole Features. “Befolge YAGNI” in Ihrem System-Prompt bietet Ihnen nicht das
00:05:31Ponytail-Prüf- oder Review-Feature. Aber jetzt lassen Sie es uns mit einem einfachen Beispiel testen.
00:05:37Ich habe hier zwei Cloud-Code-Instanzen offen und auf einer davon installiere ich das Ponytail-Plugin
00:05:44nur für den lokalen Bereich. Die andere wird eine einfache Standard-Cloud-Code-Instanz ohne
00:05:49aktivierte Plugins sein. Ich gebe beiden denselben Prompt, eine Wetter-Dashboard-App zu erstellen, die den Standort des Benutzers erkennt
00:05:56und die aktuellen Wetterbedingungen sowie einige andere Features anzeigt. Und ich werde denselben
00:06:02Prompt auf beiden Instanzen ausführen, mit der einzigen Ausnahme, dass ich bei der Ponytail-Instanz zusätzlich
00:06:08darum bitte, die Ponytail-Fertigkeit zu verwenden, da sie diese manchmal nicht automatisch aufgreift. Nach einigen
00:06:12Augenblicken sehen wir, dass die Ponytail-Version die Aufgabe bereits in unter einer Minute fertiggestellt hat, während die
00:06:18Standard-Version noch rechnet. Außerdem sehen wir einen sehr prägnanten Überblick darüber, was es gebaut hat und was Ponytail
00:06:25für maximale Effizienz weggelassen hat. Und wie wir hier sehen können, entschied es sich, alles in einer einzigen HTML-Datei zu haben.
00:06:34Währenddessen war die Aufgabe im Standardfenster in zwei Minuten und 30 Sekunden erledigt. Und wir können bereits sehen, dass diese
00:06:41Version viel aufgeblähter ist. Wir haben drei separate Dateien und diese Version wird mit einem Python-Server betrieben.
00:06:48Das ist keineswegs ein schlechtes Ergebnis, aber es ist viel über-technisierter als die erste Version.
00:06:54Aber schauen wir uns tatsächlich an, wie sie funktionieren. Erst einmal, dies ist die Version ohne Ponytail.
00:07:00Und während die App großartig aussieht, die Benutzeroberfläche schön ist und die API die Informationen wie erwartet abruft,
00:07:07bin ich ziemlich enttäuscht, dass es meinen Standort nicht automatisch erkannt hat, wie ich es verlangt hatte.
00:07:12Stattdessen zeigt es mir London als erstes Standardergebnis an. Aber jetzt, wenn wir zur Ponytail-Version springen,
00:07:19können wir hier deutlich sehen, dass es beim Öffnen fragt, meinen aktuellen Standort zu erhalten, und dann das Wetter
00:07:25passend zu diesem Standort ausgibt. Während die Benutzeroberfläche vielleicht nicht so schick und die App vielleicht minimalistischer ist,
00:07:33hat sie die Anweisungen genauer befolgt als die Standard-Version, was ehrlich gesagt ziemlich überraschend ist.
00:07:39Und zuletzt schauen wir uns die Nutzung an. Und hier können wir sehen, dass die Version mit Ponytail
00:07:45tatsächlich 50 % günstiger war als die Standard-Version. Und sie hat auch bei weitem weniger Codezeilen produziert.
00:07:52Und wie wir gerade gesehen haben, war sie in Bezug auf die Funktionalität sogar besser als die Standard-Version.
00:07:58Das beweist also, dass Ponytail tatsächlich funktioniert wie erwartet und dass es schlankeren Code produziert.
00:08:04Da dieser Test so erfolgreich war, entschied ich mich, etwas noch Interessanteres zu tun.
00:08:09Was, wenn ich Caveman und Ponytail kombiniere für maximale Effizienz? Was wird uns das bringen?
00:08:17Diesmal habe ich beide Plugins in einem neuen Verzeichnis aktiviert und denselben Prompt noch einmal ausgeführt.
00:08:22Und wieder einmal war die Aufgabe in unter einer Minute fertig und das Ergebnis war ziemlich ähnlich.
00:08:28Und ich hatte dieselbe Funktionalität. Es hat also wie erwartet funktioniert.
00:08:32Aber wenn wir uns das Ergebnis ansehen, unterschied es sich nicht allzu sehr von der Ponytail-Version, und die Kombination aus Caveman
00:08:37und Ponytail war sogar etwas teurer als die eigenständige Ponytail-Version.
00:08:44Das zeigt also, dass die Kombination der beiden keine wirkliche Verbesserung bringt.
00:08:49Sie können also dabei bleiben, nur Caveman oder besser noch, sich für die Nutzung von Ponytail zu entscheiden,
00:08:54wenn wir ihren Benchmarks glauben können, dass es tatsächlich besser als Caveman ist.
00:08:58Da haben Sie es also, Leute. Das ist Ponytail in aller Kürze.
00:09:02Ich bin ehrlich beeindruckt von dem positiven Ergebnis, das Claude mit der Ponytail-Fertigkeit
00:09:07erzeugen konnte, während der Ballast reduziert und gleichzeitig die Qualität beibehalten wurde.
00:09:13Ich schätze, das zeigt nur, dass viele unserer Coding-Lösungen wahrscheinlich über-technisiert sind
00:09:19und manchmal ist weniger tatsächlich mehr, wenn man es richtig einsetzt.
00:09:23Ich werde also definitiv Ponytail als Plugin in meinem Claude-Code-Setup behalten
00:09:29und wahrscheinlich für zukünftige Projekte nutzen.
00:09:31Aber was denken Sie über Ponytail? Haben Sie es ausprobiert?
00:09:34Werden Sie es nutzen? Lassen Sie es uns unten im Kommentarbereich wissen.
00:09:37Und Leute, wenn euch diese Art von technischen Analysen gefällt,
00:09:40lasst es mich wissen, indem ihr den “Gefällt mir”-Button unter dem Video drückt.
00:09:44Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:09:47Das war Andrus von BetterStack und wir sehen uns in den nächsten Videos.