00:00:00Cloud-Code wie einen Höhlenmenschen sprechen zu lassen, spart vielleicht nicht nur Token.
00:00:04Es könnte tatsächlich auch Ihre Performance verbessern. Auf den ersten Blick
00:00:07klingt das wie ein kompletter Meme. Wir haben ein GitHub-Repo namens „Caveman“,
00:00:12das in 72 Stunden 5.000 Sterne erhalten hat.
00:00:15Und alles, was es tut, ist, Cloud-Code zu zwingen, wie ein Neandertaler zu sprechen.
00:00:19Es streicht alle Füllwörter. Die Idee ist, dass wir durch die prägnantere Ausdrucksweise
00:00:24dabei eine Menge Token sparen,
00:00:27aber tief in diesem Repo vergraben ist ein Link zu einer Forschungsarbeit, die erst vor
00:00:31einigen Wochen erschienen ist,
00:00:31die uns sagt: Wenn wir unsere Large Language Models zwingen, prägnanter zu sein,
00:00:36sparen wir nicht nur Token, sondern können ihre Performance drastisch verbessern.
00:00:40Heute werde ich also diesen gesamten „Caveman“-Skill analysieren.
00:00:42Ich werde erklären, was er Ihnen tatsächlich bringt, denn die Zahlen im Repo
00:00:46sind etwas irreführend, und wir werden diese Forschungsarbeit besprechen, damit Sie
00:00:50verstehen, was das eigentlich für Sie bedeutet. Das ist also Caveman,
00:00:54unser „Warum viele Worte sagen, wenn wenige Worte reichen“-Repo.
00:00:58Was macht es nun eigentlich? Ganz einfach:
00:01:02Es schneidet die Füllwörter im Cloud-Code weg. Jetzt spricht er wie ein Höhlenmensch.
00:01:07Es zeigt einige Vorher-Nachher-Beispiele, die Token-Differenz und hat sogar
00:01:11eine vollständige Benchmark-Liste mit den Aufgaben, die dem Cloud-Code gestellt wurden:
00:01:15React erklären, Re-Render-Bug, die normalerweise verwendeten Token,
00:01:19die Caveman-Token und die Ersparnis.
00:01:21Nun, die in diesem Repo genannten Zahlen sind ziemlich verrückt.
00:01:23Sie behaupten, dass wir mit diesem Skill
00:01:2675 % der Output-Token einsparen, während die volle technische Genauigkeit
00:01:30erhalten bleibt.
00:01:31Dieser Caveman-Modus ändert nicht, wie Cloud-Code intern logisch denkt.
00:01:35Es ändert nicht, wie er tatsächlich Code generiert. Nichts davon wird geändert.
00:01:38Es ist nur der Output. Das, was Sie als Antwort sehen.
00:01:41Es enthält auch ein Begleittool, das Ihre Memory-Dateien komprimiert,
00:01:45denken Sie an claud.md, in die Höhlenmenschen-Sprache.
00:01:47Und das soll unsere Input-Token pro Session um 45 % reduzieren.
00:01:52Um das klarzustellen: Sie reduzieren nicht generell 75 % Ihrer Output-Token
00:01:57und 45 % Ihrer gesamten Input-Token. Das stimmt so absolut nicht.
00:02:01Auch wenn wir diese Dinge sehen, die besagen: Hey,
00:02:03es spart 87 % der Token bei der Erklärung eines React-Re-Render-Bugs.
00:02:07Der Prompt, den Sie von Cloud-Code zurückbekommen, die Antwort selbst,
00:02:11der Text, ist nur ein kleiner Teil der gesamten Output-Token,
00:02:15genau wie die Memory-Dateien,
00:02:17wie claud.md, nur ein kleiner Teil des gesamten Inputs sind.
00:02:21Seien wir uns also ganz im Klaren darüber, was uns das auf der Token-Skala bringt.
00:02:25Sie sparen keine 80 % Ihrer Gesamttoken. Und um es etwas deutlicher zu machen,
00:02:28schlüsseln wir mal eine durchschnittliche Cloud-Code-Session mit 100.000 Token auf.
00:02:32Ich weiß, jede Session ist anders, aber folgen Sie mir einfach kurz.
00:02:36Wir haben eine Session mit 100.000 Token, aufgeteilt in zwei Teile.
00:02:40Der Input, der den Löwenanteil ausmacht.
00:02:42Das sind 75.000 Token, und der Output beträgt 25 %.
00:02:46Nun behauptet Caveman, wir würden den Output um 75 % reduzieren.
00:02:51Das stimmt nicht. Wenn wir uns den Output ansehen, besteht er eigentlich aus drei Teilen, oder?
00:02:56Wir haben Tool-Aufrufe, die einen Teil einnehmen, Code-Blöcke,
00:02:59also die eigentliche Codegenerierung, die einen weiteren Teil einnimmt.
00:03:02Und dann die eigentlichen Prosatexte, diese Antwort,
00:03:06diese interne Textantwort – das ist es, was Caveman anpasst.
00:03:10Das ist es, was reduziert wird. Davon können 75 % eingespart werden. Wissen Sie,
00:03:13wenn wir hier nach unten schauen, sehen wir: Okay,
00:03:16normalerweise nimmt die Prosa 6.000 Token ein. Mit Caveman
00:03:20sparen wir 4.000 Token. Wir erhalten also eine Reduktion von 4 %. Das ist immer noch sehr gut.
00:03:25Wenn wir im Laufe der Woche 4 % unserer Gesamttoken sparen,
00:03:29summiert sich das definitiv,
00:03:30besonders im aktuellen Umfeld, in dem wir alle so auf unsere Nutzung achten.
00:03:33Aber verstehen Sie: Das sind keine 87 %. Es sind 70 %,
00:03:3860 % von einem Teil eines Teils der gesamten Session.
00:03:43Darüber hinaus,
00:03:44wenn man sich den Input ansieht und von der 45-prozentigen Caveman-Kompression die Rede ist,
00:03:49auch das stimmt nicht wirklich.
00:03:50Wir sprechen hier über den System-Prompt-Bereich und nur über bestimmte Teile des
00:03:54System-Prompts. Insgesamt sparen wir hier was? Vielleicht tausend Token,
00:03:58vielleicht 2.000 Token. Und das über den Verlauf einer gesamten Session.
00:04:03Wenn ich 5.000 Token spare, 5 % jeder Session, ist das toll, gute Sache,
00:04:07aber es sind nicht diese astronomischen Zahlen. Seien Sie sich dessen bewusst:
00:04:13Das ist ein Spiel mit kleinen Margen. Es ist keine totale Veränderung.
00:04:15Sie werden nicht von einem 5er-Max-Plan auf einen 20er-Max-Plan upgraden können,
00:04:19nur weil wir 75 % sparen. Nein, nein, nein.
00:04:22Aber es steckt immer noch viel Wert darin, und sogar noch mehr Wert lässt sich herausholen,
00:04:25wenn wir uns die Studie ansehen, die hier ein wenig versteckt ist.
00:04:29Es gibt einen kleinen Abschnitt, der ihr gewidmet ist,
00:04:31aber das ist eine Studie namens „Brevity Constraints,
00:04:34Reverse Performance Hierarchies and Language Models“.
00:04:36Und diese erschien Anfang März dieses Jahres.
00:04:38Ich werde einen Link zur Studie unten in die Beschreibung packen, falls Sie sie sich ansehen wollen,
00:04:41aber lassen Sie uns kurz darüber sprechen, denn das ist wirklich interessant.
00:04:45Denn die Idee und Erwartung ist: größeres Modell,
00:04:49immer besser als kleineres Modell. Nun ja,
00:04:53nicht ganz, jedenfalls nicht laut dieser Studie.
00:04:56In dieser Studie wurden 31 Modelle anhand von 1.500
00:05:01Problemen evaluiert,
00:05:02und sie identifizierten den Mechanismus als spontane, skalenabhängige Wortgewalt,
00:05:07die Fehler durch übermäßige Ausarbeitung einführt. Was zum Geier bedeutet das?
00:05:11Das bedeutet, dass bei fast 8 % der Probleme über diese 1.500 Fälle und
00:05:1631 Modelle hinweg die größeren Sprachmodelle,
00:05:19diejenigen mit mehr Parametern, schlechter abschnitten als kleinere – um 28
00:05:24Prozentpunkte, trotz teilweise hundertmal mehr Parametern.
00:05:28Man hatte also Szenarien – und wohlgemerkt, das war mit Open-Weight-Modellen –,
00:05:32in denen ein Modell mit 2 Milliarden Parametern ein Modell mit 400 Milliarden
00:05:37Parametern schlug. Das geschah mehrfach. Das ist verrückt.
00:05:41Warum ist das so? Nun,
00:05:43sie vermuten, dass der Grund dafür ist, dass diese großen
00:05:49Sprachmodelle einfach verdammt viel zu viel reden.
00:05:51Sie sind so übermäßig wortreich, dass sie sich quasi im Kreis drehen
00:05:55und deshalb die falsche Antwort geben. In der Studie
00:05:58fanden sie heraus, dass man die Genauigkeit um 26 Prozentpunkte verbessert,
00:06:02wenn man große Modelle zu kurzen Antworten zwingt – „Caveman“-Antworten –,
00:06:07und Performance-Lücken um bis zu zwei Drittel reduziert.
00:06:09In vielen Fällen kehrte der Zwang zu mehr Prägnanz für diese großen Modelle,
00:06:14sie also mehr wie Höhlenmenschen agieren zu lassen, die Dynamik komplett um: Wo sie
00:06:18vorher gegen kleinere Modelle verloren, gewannen sie nun plötzlich.
00:06:21Das ist schon wild, besonders im Kontext dieses GitHub-Repos. Nun,
00:06:26offensichtlich sind dies Open-Weight-Modelle. Das ist kein Opus 4.6.
00:06:29Das ist kein Codex 5.4.
00:06:30Zeigen diese Frontier-Modelle exakt dasselbe Verhalten?
00:06:34Wir wissen es nicht unbedingt mit Sicherheit,
00:06:36aber wenn man solche Studien verfolgt, versteht man, dass sich das Gesehene
00:06:40meistens auf einer gewissen Ebene bei den Frontier-Modellen wiederholt.
00:06:44Vielleicht nicht so extrem, aber es ist wahrscheinlich etwas dran.
00:06:47Der Rest der Studie geht sehr ins Detail, wie sie die Tests durchgeführt haben,
00:06:51wie sie Korrelation von Kausalität trennen und warum sie denken,
00:06:55dass dies ein Problem ist. Wie ich schon sagte,
00:06:57hypothesieren sie, dass große Modelle übermäßig wortreiche Antworten generieren,
00:07:02die korrektes logisches Denken verschleiern – ein Phänomen, das sie „Overthinking“ nennen.
00:07:06Es versucht einfach, zu viel Output zu liefern.
00:07:07Anstatt einfach die Antwort zu geben und sich selbst nicht im Weg zu stehen,
00:07:10redet es sich buchstäblich in die falsche Antwort hinein.
00:07:13Sie sagen spezifisch: Die erlernte Tendenz zur Gründlichkeit wird
00:07:17kontraproduktiv und führt zur Anhäufung von Fehlern.
00:07:21Kürze-Beschränkungen helfen großen Modellen enorm, während sie die
00:07:25kleineren Modelle kaum beeinflussen. Eine naheliegende Frage ist nun: Warum?
00:07:28Warum ist das überhaupt der Fall? Warum haben diese größeren Modelle dieses Problem?
00:07:31Sie verweisen auf Reinforcement Learning (bestärkendes Lernen).
00:07:34Wenn man also ein neues Modell trainiert –
00:07:36stellen Sie sich vor, Opus 5.0 ist gerade im Training.
00:07:40Ein Teil des Prozesses ist Reinforcement Learning.
00:07:42Ich weiß nicht, ob Anthropic das spezifisch so macht,
00:07:44aber so wird es bei vielen Modellen gemacht.
00:07:45Im Grunde nehmen sie das neue Modell und lassen einen Menschen die
00:07:50Antworten bewerten. Sie zeigen mehrere Antworten und der Mensch sagt:
00:07:52„Die hier gefällt mir besser als die andere.“ Und die Studie sagt,
00:07:55dass Menschen wahrscheinlich eher wortreichere, gründlichere Antworten bevorzugen.
00:08:00Und aufgrund dessen
00:08:01sind diese größeren Modelle im Wesentlichen darauf trainiert, eher wortreich als
00:08:05prägnant und in manchen Fällen sogar korrekt zu sein.
00:08:08Aber das große Fazit hier ist: Diese Kürze-Beschränkungen kehrten die
00:08:12Performance-Hierarchien komplett um. Wo sie also vorher verloren,
00:08:14gewannen sie nun, einfach indem man ihnen sagte: Fass dich kürzer.
00:08:18Sie haben nicht geändert, wie sie denken, sie haben intern gar nichts geändert.
00:08:20Sie sagten nur: Sei ein Höhlenmensch. Sie nutzten nicht wortwörtlich dieses GitHub,
00:08:25aber es ist genau dasselbe Prinzip.
00:08:28Deshalb finde ich das eigentlich ziemlich interessant,
00:08:31nicht nur ein kompletter Meme, wissen Sie,
00:08:32abgesehen von der Tatsache, dass es hier einige Token-Vorteile gibt.
00:08:375 % der Token zu sparen, ist nichts, worüber man lachen sollte,
00:08:39besonders wenn man nicht in einem Max-20-Plan ist.
00:08:41Aber wenn es ein potenzielles Szenario gibt, in dem wir dadurch tatsächlich bessere Ergebnisse
00:08:44erzielen, besonders bei eher direkten Fragen –
00:08:47denn wenn man tiefer in die Studie eintaucht,
00:08:49schlüsselt sie auf, bei welchen Fragen dieses Problem und diese
00:08:53Dynamik auftraten. Es ist interessant, sehr interessant,
00:08:56weshalb es sich meiner Meinung nach lohnt, sich das anzusehen.
00:08:58Und es ist auch super einfach zu bedienen. Es ist nur ein Satz von Skills.
00:09:02Die Installation erfordert buchstäblich nur eine Zeile und dann das Ausführen.
00:09:06Wir rufen es entweder mit /caveman auf oder sagen einfach so etwas wie:
00:09:09„Sprich wie ein Höhlenmensch“, „Caveman-Modus“ oder „Bitte weniger Token“. Es gibt auch Abstufungen.
00:09:13Wir können auf „Ultra Caveman“ gehen, oder? Als kämen wir gerade aus dem Ozean,
00:09:17können kaum gerade stehen. Und dann haben wir „All-in Lite“.
00:09:21Man kann also über die Jahre verschiedene Level von Höhlenmenschen bekommen.
00:09:24Und es ist keine pauschale Sache.
00:09:25Dinge wie Fehlermeldungen werden zum Beispiel exakt zitiert. Und nochmals:
00:09:29Alles, was mit Code zu tun hat, alles mit Generierung,
00:09:31alles unter der Haube bleibt gleich. Wir ändern nicht, wie es wirklich denkt.
00:09:35Insgesamt denke ich also, dass es einen Versuch wert ist. Es ist ein einzelner Skill.
00:09:37Es spart Token und es gibt keinen wirklichen Nachteil. Und basierend auf der Studie
00:09:42gibt es hier tatsächlich potenziellen Vorteil bei den Ergebnissen.
00:09:45Und wenn Ihnen diese ganze Höhlenmensch-Sache nicht zusagt,
00:09:48denke ich, deutet dies zumindest darauf hin, eine Zeile in Ihre
00:09:52spot.md einzufügen, die besagt: „Sei prägnant, kein Füllmaterial,
00:09:56komm direkt zum Punkt, verwende weniger Worte“,
00:09:59denn offensichtlich liegt darin ein Vorteil – nicht nur bei den Token,
00:10:03sondern, wie wir gesehen haben, potenziell bei den tatsächlichen Antworten.
00:10:06Damit entlasse ich euch für heute.
00:10:07Was oberflächlich wie ein reines Meme-Projekt aussah,
00:10:11„Caveman Claude“, hat tatsächlich Substanz und eine gewisse,
00:10:15wissenschaftliche Strenge hinter dem Warum,
00:10:17was es meiner Meinung nach wirklich wert macht, es tatsächlich zu implementieren.
00:10:21Wie immer, lasst mich in den Kommentaren wissen, was ihr denkt,
00:10:25schaut euch unbedingt Chase AI
00:10:26Plus an, wenn ihr meine Claude-Code-Masterclass ausprobieren wollt,
00:10:29da kommen in den nächsten Tagen weitere Updates.
00:10:33Aber ansonsten: Wir sehen uns!