00:00:00Wenn du gerne Geld sparst oder einfach die Art hasst, wie LLMs sprechen, ist das hier vielleicht was für dich.
00:00:03Es ist ein neuer Trend-Skill namens „Caveman“, der verspricht, bis zu 75 % der Output-Tokens
00:00:07einzusparen, während die volle technische Genauigkeit erhalten bleibt.
00:00:10Alles dank der weisen Worte von Kevin.
00:00:12Warum Zeit verschwenden?
00:00:13Viel Wort sagen, wenn wenig Wort reicht.
00:00:16Das funktioniert mit Claude, Codex und überall sonst und verwandelt deine Ausgaben von Füllwort-reichen,
00:00:20zu langen „Too long, didn't read“-Antworten in ein schönes TL;DR mit derselben technischen Genauigkeit.
00:00:24Es ist sogar anpassbar und bietet Extras wie den Wenyan-Modus, knappe Commits, Einzeiler-Code-Reviews
00:00:29und ein Input-Kompressions-Tool.
00:00:30Es mag zuerst etwas verrückt erscheinen, aber es steckt sogar Wissenschaft dahinter. Also legen wir los
00:00:34und schauen uns das Ganze mal an.
00:00:40Ich habe das vorhin in Claude Code mit einer Next.js-Demo-App getestet, die tatsächlich
00:00:44ein fiktives Authentifizierungssystem hat. Ich fragte einfach: „Kannst du erklären, wie Auth
00:00:48in dieser App implementiert ist?“
00:00:49Das hier ist der normale Claude Code ohne installierten Skill. Man sieht sofort,
00:00:53dass er Füllwörter nutzt und sagt, dies sei ein simuliertes Authentifizierungssystem.
00:00:56Dann kommt ein Gedankenstrich: „Kein Backend, keine Passwörter, keine echte Sicherheit,“
00:01:00existiert nur, um das Better Stack RUM-User-Tracking zu demonstrieren.
00:01:03Danach werden die Kerndateien und die Funktionsweise erklärt – alles in ganz normalem,
00:01:06gut lesbarem Englisch.
00:01:08Wenn wir dieselbe Frage stellen, aber diesmal den Caveman-Skill nutzen, sieht man,
00:01:11dass er direkt zum Punkt kommt und viel prägnanter ist.
00:01:13Der erste Satz lautet: „Nur Demo, clientseitige Auth, keine echte Sicherheit, gebaut für
00:01:17Better Stack RUM-Tracking-Demos.“
00:01:18Es gibt keine Füllwörter, keine Gedankenstriche oder ähnliches mehr.
00:01:21Es muss kein korrekter Satz gebildet werden; die technische Information kann direkt
00:01:25mitgeteilt werden.
00:01:26Dasselbe gilt für den Abschnitt „Funktionsweise“, den Ablauf und die Integrationspunkte.
00:01:29Man sieht hier: Anstatt die Funktionsweise in einem einfachen englischen Satz zu erklären,
00:01:33steht dort nur „App Load“ und ein Pfeil zur Prüfung des Local Storage nach dem gespeicherten User.
00:01:36Es ist also viel knapper, und ehrlich gesagt ist es das, was mir wichtig ist.
00:01:39Es ist mir egal, ob es in einfachem Englisch ist; ich wollte nur die technischen Informationen
00:01:43daraus haben.
00:01:44Diese Prägnanz ist der Hauptgrund, warum ich diesen Skill mag, aber das andere Verkaufsargument
00:01:47ist, dass dadurch die Output-Tokens reduziert werden sollten. Theoretisch holt man so
00:01:51mehr aus seinem Claude-Code-Abo heraus oder spart Geld bei den API-Tokens.
00:01:55Aber ich denke, es gibt hier einen kleinen Haken.
00:01:57Dies ist das Ergebnis eines Vergleichstests, den ich vorhin durchgeführt habe. Ich habe die
00:02:00Standard-Antwort von Claude Code mit einer knappen Antwort verglichen – bei der ich buchstäblich sage:
00:02:04„Fasse dich kurz“ – und mit unserem Caveman-Skill.
00:02:07Das basierte auf 10 Prompts, mit einfachen Fragen wie: „Wie unterscheidet sich Git Rebase von Git Merge?“
00:02:11Wie man sieht, sind die Ergebnisse sehr positiv.
00:02:14Wenn wir den Caveman-Skill statt der Baseline nutzen, haben wir eine Reduzierung der Output-Tokens
00:02:18um 45 % – und 39 % gegenüber der bloßen Aufforderung „Fasse dich kurz“ an Claude Code.
00:02:22Das wirkt sich natürlich auch auf die Kosten aus. Bei den Output-Tokens spart man 45 %.
00:02:26Die Baseline kostet etwa 8 Cent, während Caveman bei etwa 4 Cent liegt.
00:02:32Zunächst sieht also alles ziemlich gut aus.
00:02:34Interessant wird es jedoch, wenn wir die Kosten für die Input-Tokens mit einbeziehen.
00:02:38Da wir den Caveman-Skill nutzen, laden wir eine Markdown-Datei hoch, die natürlich
00:02:41viel mehr Text enthält als unsere Ein-Satz-Prompts. Bei der Baseline, wo wir nur
00:02:45diesen einen Satz senden, sind es nur Bruchteile eines Cents. Mit dem Skill hingegen
00:02:49sind es nun etwa 4 Cent.
00:02:50Kombiniert man die Kosten für Input- und Output-Tokens, sieht man, dass Caveman im Schnitt
00:02:54sogar 10 % teurer ist als die Baseline, weil die Ersparnis beim Output
00:02:58durch die höheren Input-Kosten wieder verloren geht.
00:03:01Aber das bedeutet nicht, dass Caveman verliert. Das gilt nämlich nur
00:03:04in sehr spezifischen Szenarien.
00:03:05Es stimmt nur dann, wenn wir einen einzelnen kleinen Prompt senden und keine Folgefragen stellen.
00:03:10Sobald man Folgefragen stellt, greift das Prompt-Caching, und wenn das passiert,
00:03:14wendet sich das Blatt wieder zugunsten von Caveman. Wir erzielen dann tatsächlich
00:03:19eine Kostenersparnis von 39 %.
00:03:20Wir haben uns hier etwas in Details verzettelt, aber es beweist, dass die Nutzung von
00:03:23Caveman logisch ist – noch bevor wir einen weiteren möglichen Vorteil betrachten:
00:03:27Eine Studie aus diesem Jahr zeigte, dass die Beschränkung großer Modelle auf kurze Antworten
00:03:31die Genauigkeit in bestimmten Benchmarks um 26 % verbesserte.
00:03:34Vielleicht war Kevin also doch der Schlaue, und es wäre schlau, den Kanal zu abonnieren.
00:03:38Du kannst diesen Skill selbst ausprobieren, indem du das „vacel skill“-Paket nutzt
00:03:41und einen Befehl wie diesen ausführst. Hier sehen wir auch, was der Agent tun soll.
00:03:45Es gibt Regeln wie: Lass Artikel wie „a“, „an“ und „the“ weg, streiche Füllwörter, Höflichkeitsfloskeln
00:03:49und Relativierungen.
00:03:50Nutze kurze Synonyme – also „big“ statt „extensive“ oder „fix“ statt „implement a solution for“.
00:03:54Beibehalten wollen wir hingegen Fachbegriffe, Codeblöcke und Fehlermeldungen.
00:04:00Danach folgt das Strukturmuster: Wir erwarten eine Sache, eine Aktion,
00:04:03einen Grund und einen nächsten Schritt.
00:04:05Schön und prägnant.
00:04:07Es gibt sogar Intensitätsmodi, um einzustellen, wie sehr man „Höhlenmensch“ sein will.
00:04:10Die Spanne reicht von „Light“ bis „Ultra“.
00:04:12Ich habe „Full“ benutzt, da dies der Standard ist. Im Modus „Ultra“ wird alles abgekürzt,
00:04:17Bindewörter werden entfernt, Pfeile für Kausalität genutzt und nur ein Wort verwendet,
00:04:21wenn ein Wort reicht.
00:04:22Es gibt auch einen Wenyan-Modus, der klassische chinesische Schriftzeichen nutzt,
00:04:26da diese am Token-effizientesten sind.
00:04:27Leider kann ich sie nicht lesen, also nützt mir das nicht viel.
00:04:30Das ist noch nicht alles, was Caveman bietet. Es gibt noch ein paar weitere Skills
00:04:33für spezifische Szenarien.
00:04:34Wir haben „Caveman Commit“, um knappe und präzise Nachrichten im Format „Conventional Commits“ zu schreiben.
00:04:38Es gibt „Caveman Review“ für Code-Reviews, die nur eine prägnante Zeile pro Fundstelle bieten,
00:04:42und ein „Compress“-Tool, um natürliche Sprachdateien in den Caveman-Stil zu bringen,
00:04:46sodass man sie mit etwas weniger Input-Tokens wiederverwenden kann.
00:04:49Schreibt mir in die Kommentare, wenn euch das gefällt, und vergesst nicht,
00:04:52zu abonnieren. Wie immer: Wir sehen uns im nächsten Video!