Caveman Claude Code ist das neue Meta (Die wissenschaftlichen Fakten)

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Cloud-Code wie einen Höhlenmenschen sprechen zu lassen, spart vielleicht nicht nur Token.
00:00:04Es könnte tatsächlich auch Ihre Performance verbessern. Auf den ersten Blick
00:00:07klingt das wie ein kompletter Meme. Wir haben ein GitHub-Repo namens „Caveman“,
00:00:12das in 72 Stunden 5.000 Sterne erhalten hat.
00:00:15Und alles, was es tut, ist, Cloud-Code zu zwingen, wie ein Neandertaler zu sprechen.
00:00:19Es streicht alle Füllwörter. Die Idee ist, dass wir durch die prägnantere Ausdrucksweise
00:00:24dabei eine Menge Token sparen,
00:00:27aber tief in diesem Repo vergraben ist ein Link zu einer Forschungsarbeit, die erst vor
00:00:31einigen Wochen erschienen ist,
00:00:31die uns sagt: Wenn wir unsere Large Language Models zwingen, prägnanter zu sein,
00:00:36sparen wir nicht nur Token, sondern können ihre Performance drastisch verbessern.
00:00:40Heute werde ich also diesen gesamten „Caveman“-Skill analysieren.
00:00:42Ich werde erklären, was er Ihnen tatsächlich bringt, denn die Zahlen im Repo
00:00:46sind etwas irreführend, und wir werden diese Forschungsarbeit besprechen, damit Sie
00:00:50verstehen, was das eigentlich für Sie bedeutet. Das ist also Caveman,
00:00:54unser „Warum viele Worte sagen, wenn wenige Worte reichen“-Repo.
00:00:58Was macht es nun eigentlich? Ganz einfach:
00:01:02Es schneidet die Füllwörter im Cloud-Code weg. Jetzt spricht er wie ein Höhlenmensch.
00:01:07Es zeigt einige Vorher-Nachher-Beispiele, die Token-Differenz und hat sogar
00:01:11eine vollständige Benchmark-Liste mit den Aufgaben, die dem Cloud-Code gestellt wurden:
00:01:15React erklären, Re-Render-Bug, die normalerweise verwendeten Token,
00:01:19die Caveman-Token und die Ersparnis.
00:01:21Nun, die in diesem Repo genannten Zahlen sind ziemlich verrückt.
00:01:23Sie behaupten, dass wir mit diesem Skill
00:01:2675 % der Output-Token einsparen, während die volle technische Genauigkeit
00:01:30erhalten bleibt.
00:01:31Dieser Caveman-Modus ändert nicht, wie Cloud-Code intern logisch denkt.
00:01:35Es ändert nicht, wie er tatsächlich Code generiert. Nichts davon wird geändert.
00:01:38Es ist nur der Output. Das, was Sie als Antwort sehen.
00:01:41Es enthält auch ein Begleittool, das Ihre Memory-Dateien komprimiert,
00:01:45denken Sie an claud.md, in die Höhlenmenschen-Sprache.
00:01:47Und das soll unsere Input-Token pro Session um 45 % reduzieren.
00:01:52Um das klarzustellen: Sie reduzieren nicht generell 75 % Ihrer Output-Token
00:01:57und 45 % Ihrer gesamten Input-Token. Das stimmt so absolut nicht.
00:02:01Auch wenn wir diese Dinge sehen, die besagen: Hey,
00:02:03es spart 87 % der Token bei der Erklärung eines React-Re-Render-Bugs.
00:02:07Der Prompt, den Sie von Cloud-Code zurückbekommen, die Antwort selbst,
00:02:11der Text, ist nur ein kleiner Teil der gesamten Output-Token,
00:02:15genau wie die Memory-Dateien,
00:02:17wie claud.md, nur ein kleiner Teil des gesamten Inputs sind.
00:02:21Seien wir uns also ganz im Klaren darüber, was uns das auf der Token-Skala bringt.
00:02:25Sie sparen keine 80 % Ihrer Gesamttoken. Und um es etwas deutlicher zu machen,
00:02:28schlüsseln wir mal eine durchschnittliche Cloud-Code-Session mit 100.000 Token auf.
00:02:32Ich weiß, jede Session ist anders, aber folgen Sie mir einfach kurz.
00:02:36Wir haben eine Session mit 100.000 Token, aufgeteilt in zwei Teile.
00:02:40Der Input, der den Löwenanteil ausmacht.
00:02:42Das sind 75.000 Token, und der Output beträgt 25 %.
00:02:46Nun behauptet Caveman, wir würden den Output um 75 % reduzieren.
00:02:51Das stimmt nicht. Wenn wir uns den Output ansehen, besteht er eigentlich aus drei Teilen, oder?
00:02:56Wir haben Tool-Aufrufe, die einen Teil einnehmen, Code-Blöcke,
00:02:59also die eigentliche Codegenerierung, die einen weiteren Teil einnimmt.
00:03:02Und dann die eigentlichen Prosatexte, diese Antwort,
00:03:06diese interne Textantwort – das ist es, was Caveman anpasst.
00:03:10Das ist es, was reduziert wird. Davon können 75 % eingespart werden. Wissen Sie,
00:03:13wenn wir hier nach unten schauen, sehen wir: Okay,
00:03:16normalerweise nimmt die Prosa 6.000 Token ein. Mit Caveman
00:03:20sparen wir 4.000 Token. Wir erhalten also eine Reduktion von 4 %. Das ist immer noch sehr gut.
00:03:25Wenn wir im Laufe der Woche 4 % unserer Gesamttoken sparen,
00:03:29summiert sich das definitiv,
00:03:30besonders im aktuellen Umfeld, in dem wir alle so auf unsere Nutzung achten.
00:03:33Aber verstehen Sie: Das sind keine 87 %. Es sind 70 %,
00:03:3860 % von einem Teil eines Teils der gesamten Session.
00:03:43Darüber hinaus,
00:03:44wenn man sich den Input ansieht und von der 45-prozentigen Caveman-Kompression die Rede ist,
00:03:49auch das stimmt nicht wirklich.
00:03:50Wir sprechen hier über den System-Prompt-Bereich und nur über bestimmte Teile des
00:03:54System-Prompts. Insgesamt sparen wir hier was? Vielleicht tausend Token,
00:03:58vielleicht 2.000 Token. Und das über den Verlauf einer gesamten Session.
00:04:03Wenn ich 5.000 Token spare, 5 % jeder Session, ist das toll, gute Sache,
00:04:07aber es sind nicht diese astronomischen Zahlen. Seien Sie sich dessen bewusst:
00:04:13Das ist ein Spiel mit kleinen Margen. Es ist keine totale Veränderung.
00:04:15Sie werden nicht von einem 5er-Max-Plan auf einen 20er-Max-Plan upgraden können,
00:04:19nur weil wir 75 % sparen. Nein, nein, nein.
00:04:22Aber es steckt immer noch viel Wert darin, und sogar noch mehr Wert lässt sich herausholen,
00:04:25wenn wir uns die Studie ansehen, die hier ein wenig versteckt ist.
00:04:29Es gibt einen kleinen Abschnitt, der ihr gewidmet ist,
00:04:31aber das ist eine Studie namens „Brevity Constraints,
00:04:34Reverse Performance Hierarchies and Language Models“.
00:04:36Und diese erschien Anfang März dieses Jahres.
00:04:38Ich werde einen Link zur Studie unten in die Beschreibung packen, falls Sie sie sich ansehen wollen,
00:04:41aber lassen Sie uns kurz darüber sprechen, denn das ist wirklich interessant.
00:04:45Denn die Idee und Erwartung ist: größeres Modell,
00:04:49immer besser als kleineres Modell. Nun ja,
00:04:53nicht ganz, jedenfalls nicht laut dieser Studie.
00:04:56In dieser Studie wurden 31 Modelle anhand von 1.500
00:05:01Problemen evaluiert,
00:05:02und sie identifizierten den Mechanismus als spontane, skalenabhängige Wortgewalt,
00:05:07die Fehler durch übermäßige Ausarbeitung einführt. Was zum Geier bedeutet das?
00:05:11Das bedeutet, dass bei fast 8 % der Probleme über diese 1.500 Fälle und
00:05:1631 Modelle hinweg die größeren Sprachmodelle,
00:05:19diejenigen mit mehr Parametern, schlechter abschnitten als kleinere – um 28
00:05:24Prozentpunkte, trotz teilweise hundertmal mehr Parametern.
00:05:28Man hatte also Szenarien – und wohlgemerkt, das war mit Open-Weight-Modellen –,
00:05:32in denen ein Modell mit 2 Milliarden Parametern ein Modell mit 400 Milliarden
00:05:37Parametern schlug. Das geschah mehrfach. Das ist verrückt.
00:05:41Warum ist das so? Nun,
00:05:43sie vermuten, dass der Grund dafür ist, dass diese großen
00:05:49Sprachmodelle einfach verdammt viel zu viel reden.
00:05:51Sie sind so übermäßig wortreich, dass sie sich quasi im Kreis drehen
00:05:55und deshalb die falsche Antwort geben. In der Studie
00:05:58fanden sie heraus, dass man die Genauigkeit um 26 Prozentpunkte verbessert,
00:06:02wenn man große Modelle zu kurzen Antworten zwingt – „Caveman“-Antworten –,
00:06:07und Performance-Lücken um bis zu zwei Drittel reduziert.
00:06:09In vielen Fällen kehrte der Zwang zu mehr Prägnanz für diese großen Modelle,
00:06:14sie also mehr wie Höhlenmenschen agieren zu lassen, die Dynamik komplett um: Wo sie
00:06:18vorher gegen kleinere Modelle verloren, gewannen sie nun plötzlich.
00:06:21Das ist schon wild, besonders im Kontext dieses GitHub-Repos. Nun,
00:06:26offensichtlich sind dies Open-Weight-Modelle. Das ist kein Opus 4.6.
00:06:29Das ist kein Codex 5.4.
00:06:30Zeigen diese Frontier-Modelle exakt dasselbe Verhalten?
00:06:34Wir wissen es nicht unbedingt mit Sicherheit,
00:06:36aber wenn man solche Studien verfolgt, versteht man, dass sich das Gesehene
00:06:40meistens auf einer gewissen Ebene bei den Frontier-Modellen wiederholt.
00:06:44Vielleicht nicht so extrem, aber es ist wahrscheinlich etwas dran.
00:06:47Der Rest der Studie geht sehr ins Detail, wie sie die Tests durchgeführt haben,
00:06:51wie sie Korrelation von Kausalität trennen und warum sie denken,
00:06:55dass dies ein Problem ist. Wie ich schon sagte,
00:06:57hypothesieren sie, dass große Modelle übermäßig wortreiche Antworten generieren,
00:07:02die korrektes logisches Denken verschleiern – ein Phänomen, das sie „Overthinking“ nennen.
00:07:06Es versucht einfach, zu viel Output zu liefern.
00:07:07Anstatt einfach die Antwort zu geben und sich selbst nicht im Weg zu stehen,
00:07:10redet es sich buchstäblich in die falsche Antwort hinein.
00:07:13Sie sagen spezifisch: Die erlernte Tendenz zur Gründlichkeit wird
00:07:17kontraproduktiv und führt zur Anhäufung von Fehlern.
00:07:21Kürze-Beschränkungen helfen großen Modellen enorm, während sie die
00:07:25kleineren Modelle kaum beeinflussen. Eine naheliegende Frage ist nun: Warum?
00:07:28Warum ist das überhaupt der Fall? Warum haben diese größeren Modelle dieses Problem?
00:07:31Sie verweisen auf Reinforcement Learning (bestärkendes Lernen).
00:07:34Wenn man also ein neues Modell trainiert –
00:07:36stellen Sie sich vor, Opus 5.0 ist gerade im Training.
00:07:40Ein Teil des Prozesses ist Reinforcement Learning.
00:07:42Ich weiß nicht, ob Anthropic das spezifisch so macht,
00:07:44aber so wird es bei vielen Modellen gemacht.
00:07:45Im Grunde nehmen sie das neue Modell und lassen einen Menschen die
00:07:50Antworten bewerten. Sie zeigen mehrere Antworten und der Mensch sagt:
00:07:52„Die hier gefällt mir besser als die andere.“ Und die Studie sagt,
00:07:55dass Menschen wahrscheinlich eher wortreichere, gründlichere Antworten bevorzugen.
00:08:00Und aufgrund dessen
00:08:01sind diese größeren Modelle im Wesentlichen darauf trainiert, eher wortreich als
00:08:05prägnant und in manchen Fällen sogar korrekt zu sein.
00:08:08Aber das große Fazit hier ist: Diese Kürze-Beschränkungen kehrten die
00:08:12Performance-Hierarchien komplett um. Wo sie also vorher verloren,
00:08:14gewannen sie nun, einfach indem man ihnen sagte: Fass dich kürzer.
00:08:18Sie haben nicht geändert, wie sie denken, sie haben intern gar nichts geändert.
00:08:20Sie sagten nur: Sei ein Höhlenmensch. Sie nutzten nicht wortwörtlich dieses GitHub,
00:08:25aber es ist genau dasselbe Prinzip.
00:08:28Deshalb finde ich das eigentlich ziemlich interessant,
00:08:31nicht nur ein kompletter Meme, wissen Sie,
00:08:32abgesehen von der Tatsache, dass es hier einige Token-Vorteile gibt.
00:08:375 % der Token zu sparen, ist nichts, worüber man lachen sollte,
00:08:39besonders wenn man nicht in einem Max-20-Plan ist.
00:08:41Aber wenn es ein potenzielles Szenario gibt, in dem wir dadurch tatsächlich bessere Ergebnisse
00:08:44erzielen, besonders bei eher direkten Fragen –
00:08:47denn wenn man tiefer in die Studie eintaucht,
00:08:49schlüsselt sie auf, bei welchen Fragen dieses Problem und diese
00:08:53Dynamik auftraten. Es ist interessant, sehr interessant,
00:08:56weshalb es sich meiner Meinung nach lohnt, sich das anzusehen.
00:08:58Und es ist auch super einfach zu bedienen. Es ist nur ein Satz von Skills.
00:09:02Die Installation erfordert buchstäblich nur eine Zeile und dann das Ausführen.
00:09:06Wir rufen es entweder mit /caveman auf oder sagen einfach so etwas wie:
00:09:09„Sprich wie ein Höhlenmensch“, „Caveman-Modus“ oder „Bitte weniger Token“. Es gibt auch Abstufungen.
00:09:13Wir können auf „Ultra Caveman“ gehen, oder? Als kämen wir gerade aus dem Ozean,
00:09:17können kaum gerade stehen. Und dann haben wir „All-in Lite“.
00:09:21Man kann also über die Jahre verschiedene Level von Höhlenmenschen bekommen.
00:09:24Und es ist keine pauschale Sache.
00:09:25Dinge wie Fehlermeldungen werden zum Beispiel exakt zitiert. Und nochmals:
00:09:29Alles, was mit Code zu tun hat, alles mit Generierung,
00:09:31alles unter der Haube bleibt gleich. Wir ändern nicht, wie es wirklich denkt.
00:09:35Insgesamt denke ich also, dass es einen Versuch wert ist. Es ist ein einzelner Skill.
00:09:37Es spart Token und es gibt keinen wirklichen Nachteil. Und basierend auf der Studie
00:09:42gibt es hier tatsächlich potenziellen Vorteil bei den Ergebnissen.
00:09:45Und wenn Ihnen diese ganze Höhlenmensch-Sache nicht zusagt,
00:09:48denke ich, deutet dies zumindest darauf hin, eine Zeile in Ihre
00:09:52spot.md einzufügen, die besagt: „Sei prägnant, kein Füllmaterial,
00:09:56komm direkt zum Punkt, verwende weniger Worte“,
00:09:59denn offensichtlich liegt darin ein Vorteil – nicht nur bei den Token,
00:10:03sondern, wie wir gesehen haben, potenziell bei den tatsächlichen Antworten.
00:10:06Damit entlasse ich euch für heute.
00:10:07Was oberflächlich wie ein reines Meme-Projekt aussah,
00:10:11„Caveman Claude“, hat tatsächlich Substanz und eine gewisse,
00:10:15wissenschaftliche Strenge hinter dem Warum,
00:10:17was es meiner Meinung nach wirklich wert macht, es tatsächlich zu implementieren.
00:10:21Wie immer, lasst mich in den Kommentaren wissen, was ihr denkt,
00:10:25schaut euch unbedingt Chase AI
00:10:26Plus an, wenn ihr meine Claude-Code-Masterclass ausprobieren wollt,
00:10:29da kommen in den nächsten Tagen weitere Updates.
00:10:33Aber ansonsten: Wir sehen uns!

Key Takeaway

Die Beschränkung von Large Language Models auf eine prägnante „Höhlenmensch-Sprache“ spart nicht nur bis zu 5 % der Token-Kosten, sondern verhindert durch die Vermeidung von „Overthinking“ auch logische Fehler, was die Genauigkeit um 26 Prozentpunkte steigern kann.

Highlights

Das GitHub-Repo „Caveman“ erreichte innerhalb von 72 Stunden 5.000 Sterne durch das Erzwingen einer prägnanten Ausdrucksweise bei Claude Code.

Die Reduzierung von Füllwörtern spart in einer durchschnittlichen Session von 100.000 Token etwa 5 % der Gesamtmenge ein.

Eine Studie an 31 Modellen zeigt, dass größere Sprachmodelle bei 8 % der Aufgaben um 28 Prozentpunkte schlechter abschneiden als deutlich kleinere Modelle.

Das Erzwingen kurzer Antworten verbessert die Genauigkeit großer Modelle um 26 Prozentpunkte und schließt Performance-Lücken um bis zu zwei Drittel.

Menschliches Feedback im Reinforcement Learning bevorzugt oft wortreiche Antworten, was Modelle dazu trainiert, Korrektheit für Ausführlichkeit zu opfern.

Der Caveman-Modus reduziert die Größe von Memory-Dateien wie claud.md um bis zu 45 % durch Kompression in einfache Sprache.

Timeline

Das Caveman-Konzept und Token-Ersparnis

  • Das Projekt Caveman zwingt KI-Modelle durch das Streichen von Füllwörtern zu einer minimalistischen Ausdrucksweise.
  • Die technische Genauigkeit und die interne Logik der Codegenerierung bleiben bei diesem Modus vollständig erhalten.
  • Benchmarks versprechen eine Reduktion der Output-Token um bis zu 75 % bei reinen Texterklärungen.

Das System nutzt einen spezifischen Skill-Satz, um den Output von Claude Code zu verändern, ohne die zugrunde liegende Denkweise zu beeinflussen. Während die Ersparnis bei einzelnen Antworten wie Erklärungen zu React-Bugs extrem hoch ausfällt, bezieht sich dies nur auf den Prosa-Teil der Antwort. Ein Begleittool komprimiert zudem die Memory-Dateien im System-Prompt, um den Input-Token-Verbrauch pro Session zu senken.

Realistische Analyse der Token-Statistiken

  • In einer 100.000-Token-Session entfallen meist 75 % auf den Input und nur 25 % auf den Output.
  • Die tatsächliche Gesamtersparnis einer Session liegt trotz hoher Prozentangaben im Repo eher im Bereich von 4 % bis 5 %.
  • Code-Blöcke und Tool-Aufrufe bleiben von der Caveman-Kompression unberührt.

Die astronomischen Einsparungswerte von über 80 % beziehen sich lediglich auf den Textanteil der Antwort, nicht auf die gesamte Datenmenge. Da Code-Blöcke und die umfangreiche Historie im Input den Großteil der Token ausmachen, ist der Effekt in der Praxis moderat, aber dennoch für Nutzer mit Nutzungslimits wertvoll. Es handelt sich um eine Optimierung an den Rändern, die keinen Wechsel in eine niedrigere Tarifstufe ermöglicht.

Wissenschaftliche Belege für Leistungssteigerung durch Kürze

  • Größere Modelle leiden unter „Overthinking“, wobei übermäßige Ausführlichkeit das korrekte logische Denken verschleiert.
  • Kürze-Beschränkungen kehrten in Tests die Performance-Hierarchie um, sodass große Modelle ihre Überlegenheit gegenüber kleinen Modellen zurückgewannen.
  • Das Phänomen der spontanen Wortgewalt führt dazu, dass sich Modelle buchstäblich in eine falsche Antwort hineinreden.

Eine Studie vom März 2024 belegt, dass Modelle mit hunderten Milliarden Parametern oft an einfachen Aufgaben scheitern, weil sie zu viel generieren. Durch die Verpflichtung zu kurzen Antworten (Brevity Constraints) steigt die Präzision massiv an. Dieser Effekt ist bei großen Modellen stark ausgeprägt, während er bei kleinen Modellen kaum Auswirkungen auf die Korrektheit hat.

Ursachen in der Trainingsmethodik und praktische Anwendung

  • Reinforcement Learning durch menschliche Bewerter belohnt fälschlicherweise lange, gründlich wirkende Antworten gegenüber kurzen, korrekten Fakten.
  • Die Installation von Caveman erfordert lediglich eine einzige Befehlszeile und bietet verschiedene Intensitätsstufen von „Lite“ bis „Ultra“.
  • Ein einfacher Satz im System-Prompt zur Vermeidung von Füllmaterial erzielt bereits ähnliche Effekte wie spezialisierte Tools.

Die Tendenz zur Geschwätzigkeit ist ein Nebenprodukt des Trainingsprozesses, da Menschen wortreiche Antworten intuitiv als besser empfinden. Um dies zu umgehen, können Nutzer den Caveman-Modus aktivieren oder explizite Anweisungen in Dateien wie spot.md hinterlegen. Da Fehlermeldungen weiterhin exakt zitiert werden, entstehen durch die verkürzte Kommunikation keine Nachteile bei der Fehlersuche oder Code-Qualität.

Community Posts

View all posts