Mit diesem Claude-Skill halbiert ihr eure Token-Kosten

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Wenn du gerne Geld sparst oder einfach die Art hasst, wie LLMs sprechen, ist das hier vielleicht was für dich.
00:00:03Es ist ein neuer Trend-Skill namens „Caveman“, der verspricht, bis zu 75 % der Output-Tokens
00:00:07einzusparen, während die volle technische Genauigkeit erhalten bleibt.
00:00:10Alles dank der weisen Worte von Kevin.
00:00:12Warum Zeit verschwenden?
00:00:13Viel Wort sagen, wenn wenig Wort reicht.
00:00:16Das funktioniert mit Claude, Codex und überall sonst und verwandelt deine Ausgaben von Füllwort-reichen,
00:00:20zu langen „Too long, didn't read“-Antworten in ein schönes TL;DR mit derselben technischen Genauigkeit.
00:00:24Es ist sogar anpassbar und bietet Extras wie den Wenyan-Modus, knappe Commits, Einzeiler-Code-Reviews
00:00:29und ein Input-Kompressions-Tool.
00:00:30Es mag zuerst etwas verrückt erscheinen, aber es steckt sogar Wissenschaft dahinter. Also legen wir los
00:00:34und schauen uns das Ganze mal an.
00:00:40Ich habe das vorhin in Claude Code mit einer Next.js-Demo-App getestet, die tatsächlich
00:00:44ein fiktives Authentifizierungssystem hat. Ich fragte einfach: „Kannst du erklären, wie Auth
00:00:48in dieser App implementiert ist?“
00:00:49Das hier ist der normale Claude Code ohne installierten Skill. Man sieht sofort,
00:00:53dass er Füllwörter nutzt und sagt, dies sei ein simuliertes Authentifizierungssystem.
00:00:56Dann kommt ein Gedankenstrich: „Kein Backend, keine Passwörter, keine echte Sicherheit,“
00:01:00existiert nur, um das Better Stack RUM-User-Tracking zu demonstrieren.
00:01:03Danach werden die Kerndateien und die Funktionsweise erklärt – alles in ganz normalem,
00:01:06gut lesbarem Englisch.
00:01:08Wenn wir dieselbe Frage stellen, aber diesmal den Caveman-Skill nutzen, sieht man,
00:01:11dass er direkt zum Punkt kommt und viel prägnanter ist.
00:01:13Der erste Satz lautet: „Nur Demo, clientseitige Auth, keine echte Sicherheit, gebaut für
00:01:17Better Stack RUM-Tracking-Demos.“
00:01:18Es gibt keine Füllwörter, keine Gedankenstriche oder ähnliches mehr.
00:01:21Es muss kein korrekter Satz gebildet werden; die technische Information kann direkt
00:01:25mitgeteilt werden.
00:01:26Dasselbe gilt für den Abschnitt „Funktionsweise“, den Ablauf und die Integrationspunkte.
00:01:29Man sieht hier: Anstatt die Funktionsweise in einem einfachen englischen Satz zu erklären,
00:01:33steht dort nur „App Load“ und ein Pfeil zur Prüfung des Local Storage nach dem gespeicherten User.
00:01:36Es ist also viel knapper, und ehrlich gesagt ist es das, was mir wichtig ist.
00:01:39Es ist mir egal, ob es in einfachem Englisch ist; ich wollte nur die technischen Informationen
00:01:43daraus haben.
00:01:44Diese Prägnanz ist der Hauptgrund, warum ich diesen Skill mag, aber das andere Verkaufsargument
00:01:47ist, dass dadurch die Output-Tokens reduziert werden sollten. Theoretisch holt man so
00:01:51mehr aus seinem Claude-Code-Abo heraus oder spart Geld bei den API-Tokens.
00:01:55Aber ich denke, es gibt hier einen kleinen Haken.
00:01:57Dies ist das Ergebnis eines Vergleichstests, den ich vorhin durchgeführt habe. Ich habe die
00:02:00Standard-Antwort von Claude Code mit einer knappen Antwort verglichen – bei der ich buchstäblich sage:
00:02:04„Fasse dich kurz“ – und mit unserem Caveman-Skill.
00:02:07Das basierte auf 10 Prompts, mit einfachen Fragen wie: „Wie unterscheidet sich Git Rebase von Git Merge?“
00:02:11Wie man sieht, sind die Ergebnisse sehr positiv.
00:02:14Wenn wir den Caveman-Skill statt der Baseline nutzen, haben wir eine Reduzierung der Output-Tokens
00:02:18um 45 % – und 39 % gegenüber der bloßen Aufforderung „Fasse dich kurz“ an Claude Code.
00:02:22Das wirkt sich natürlich auch auf die Kosten aus. Bei den Output-Tokens spart man 45 %.
00:02:26Die Baseline kostet etwa 8 Cent, während Caveman bei etwa 4 Cent liegt.
00:02:32Zunächst sieht also alles ziemlich gut aus.
00:02:34Interessant wird es jedoch, wenn wir die Kosten für die Input-Tokens mit einbeziehen.
00:02:38Da wir den Caveman-Skill nutzen, laden wir eine Markdown-Datei hoch, die natürlich
00:02:41viel mehr Text enthält als unsere Ein-Satz-Prompts. Bei der Baseline, wo wir nur
00:02:45diesen einen Satz senden, sind es nur Bruchteile eines Cents. Mit dem Skill hingegen
00:02:49sind es nun etwa 4 Cent.
00:02:50Kombiniert man die Kosten für Input- und Output-Tokens, sieht man, dass Caveman im Schnitt
00:02:54sogar 10 % teurer ist als die Baseline, weil die Ersparnis beim Output
00:02:58durch die höheren Input-Kosten wieder verloren geht.
00:03:01Aber das bedeutet nicht, dass Caveman verliert. Das gilt nämlich nur
00:03:04in sehr spezifischen Szenarien.
00:03:05Es stimmt nur dann, wenn wir einen einzelnen kleinen Prompt senden und keine Folgefragen stellen.
00:03:10Sobald man Folgefragen stellt, greift das Prompt-Caching, und wenn das passiert,
00:03:14wendet sich das Blatt wieder zugunsten von Caveman. Wir erzielen dann tatsächlich
00:03:19eine Kostenersparnis von 39 %.
00:03:20Wir haben uns hier etwas in Details verzettelt, aber es beweist, dass die Nutzung von
00:03:23Caveman logisch ist – noch bevor wir einen weiteren möglichen Vorteil betrachten:
00:03:27Eine Studie aus diesem Jahr zeigte, dass die Beschränkung großer Modelle auf kurze Antworten
00:03:31die Genauigkeit in bestimmten Benchmarks um 26 % verbesserte.
00:03:34Vielleicht war Kevin also doch der Schlaue, und es wäre schlau, den Kanal zu abonnieren.
00:03:38Du kannst diesen Skill selbst ausprobieren, indem du das „vacel skill“-Paket nutzt
00:03:41und einen Befehl wie diesen ausführst. Hier sehen wir auch, was der Agent tun soll.
00:03:45Es gibt Regeln wie: Lass Artikel wie „a“, „an“ und „the“ weg, streiche Füllwörter, Höflichkeitsfloskeln
00:03:49und Relativierungen.
00:03:50Nutze kurze Synonyme – also „big“ statt „extensive“ oder „fix“ statt „implement a solution for“.
00:03:54Beibehalten wollen wir hingegen Fachbegriffe, Codeblöcke und Fehlermeldungen.
00:04:00Danach folgt das Strukturmuster: Wir erwarten eine Sache, eine Aktion,
00:04:03einen Grund und einen nächsten Schritt.
00:04:05Schön und prägnant.
00:04:07Es gibt sogar Intensitätsmodi, um einzustellen, wie sehr man „Höhlenmensch“ sein will.
00:04:10Die Spanne reicht von „Light“ bis „Ultra“.
00:04:12Ich habe „Full“ benutzt, da dies der Standard ist. Im Modus „Ultra“ wird alles abgekürzt,
00:04:17Bindewörter werden entfernt, Pfeile für Kausalität genutzt und nur ein Wort verwendet,
00:04:21wenn ein Wort reicht.
00:04:22Es gibt auch einen Wenyan-Modus, der klassische chinesische Schriftzeichen nutzt,
00:04:26da diese am Token-effizientesten sind.
00:04:27Leider kann ich sie nicht lesen, also nützt mir das nicht viel.
00:04:30Das ist noch nicht alles, was Caveman bietet. Es gibt noch ein paar weitere Skills
00:04:33für spezifische Szenarien.
00:04:34Wir haben „Caveman Commit“, um knappe und präzise Nachrichten im Format „Conventional Commits“ zu schreiben.
00:04:38Es gibt „Caveman Review“ für Code-Reviews, die nur eine prägnante Zeile pro Fundstelle bieten,
00:04:42und ein „Compress“-Tool, um natürliche Sprachdateien in den Caveman-Stil zu bringen,
00:04:46sodass man sie mit etwas weniger Input-Tokens wiederverwenden kann.
00:04:49Schreibt mir in die Kommentare, wenn euch das gefällt, und vergesst nicht,
00:04:52zu abonnieren. Wie immer: Wir sehen uns im nächsten Video!

Key Takeaway

Der Caveman-Skill halbiert die Output-Kosten von LLMs wie Claude durch radikale Textkompression ohne Informationsverlust und steigert dabei die technische Präzision um bis zu 26 %.

Highlights

Der Caveman-Skill reduziert die Anzahl der Output-Tokens um bis zu 45 % im Vergleich zu Standard-Antworten.

Die technische Genauigkeit bleibt vollständig erhalten, während Füllwörter, Artikel und Höflichkeitsfloskeln systematisch entfernt werden.

Modelle erzielen durch kurze Antworten in bestimmten Benchmarks eine um 26 % höhere Genauigkeit.

Prompt-Caching macht den Einsatz des Skills rentabel und führt bei Folgefragen zu einer Gesamtkostenersparnis von 39 %.

Der Ultra-Modus ersetzt Kausalzusammenhänge durch Pfeile und nutzt extreme Wortkürzungen zur Token-Maximierung.

Ein integriertes Kompressions-Tool wandelt Texte in natürlicher Sprache in den Caveman-Stil um, um Input-Kosten zu senken.

Timeline

Konzept und Mechanik des Caveman-Stils

  • Die Methode entfernt unnötige Füllwörter und grammatikalische Strukturen zugunsten reiner technischer Fakten.
  • Der Ansatz verspricht eine Reduktion der Output-Tokens um bis zu 75 % bei gleichbleibender Genauigkeit.
  • Zusatzfunktionen umfassen spezialisierte Modi für Commits, Code-Reviews und Input-Kompression.

Die Kommunikation folgt dem Prinzip der maximalen Effizienz durch minimale Wortwahl. Statt ausformulierter Sätze liefert das Modell direkte Antworten im TL;DR-Format. Wissenschaftliche Belegen stützen die Annahme, dass diese Form der Informationsdichte die Verarbeitung optimiert.

Vergleich der Antwortqualität im Praxistest

  • Standard-Antworten in Claude Code enthalten oft redundante Erklärungen und höfliche Einleitungen.
  • Caveman liefert technische Abläufe durch Symbole wie Pfeile und verzichtet auf korrekte Satzbildung.
  • Die Priorität liegt auf der Extraktion technischer Informationen statt auf menschlicher Lesbarkeit.

Ein Test mit einem Authentifizierungssystem in einer Next.js-App zeigt deutliche Unterschiede. Während die Baseline langatmig über die fehlende Sicherheit referiert, beschränkt sich der Skill auf Stichpunkte wie 'clientseitige Auth' und 'keine echte Sicherheit'. Der Informationsgehalt bleibt identisch, aber die Lesegeschwindigkeit für Entwickler steigt.

Wirtschaftlichkeitsanalyse und Token-Metriken

  • Im Vergleich zur Aufforderung 'Fasse dich kurz' spart Caveman zusätzliche 39 % an Tokens ein.
  • Höhere Input-Kosten durch den Skill-Upload werden durch Prompt-Caching bei Folgefragen amortisiert.
  • Die Beschränkung auf kurze Antworten verbessert die Modellgenauigkeit in Benchmarks um 26 %.

Eine Analyse von 10 Test-Prompts ergibt bei den reinen Output-Kosten eine Halbierung von 8 auf 4 Cent. Da der Skill als System-Prompt fungiert, steigen die initialen Input-Kosten leicht an. In realistischen Arbeitsszenarien mit mehreren Interaktionen überwiegt jedoch der Spareffekt durch Caching und geringeres Antwortvolumen.

Konfiguration und spezialisierte Werkzeuge

  • Regeln wie der Verzicht auf Relativierungen und die Nutzung kurzer Synonyme steuern das Modellverhalten.
  • Verschiedene Intensitätsstufen von 'Light' bis 'Ultra' erlauben eine Anpassung des Kürzungsgrades.
  • Spezial-Tools wie 'Caveman Commit' und 'Caveman Review' optimieren spezifische Entwickler-Workflows.

Der Skill wird über das 'vacel skill'-Paket implementiert und folgt einem festen Strukturmuster aus Aktion, Grund und nächstem Schritt. Der Ultra-Modus geht so weit, Bindewörter komplett zu tilgen. Für maximale Effizienz existiert zudem ein Wenyan-Modus in klassischem Chinesisch, da dieses Schriftsystem die höchste Token-Dichte pro Informationseinheit aufweist.

Community Posts

View all posts