00:00:00Claude Code war in letzter Zeit nicht besonders gut.
00:00:02Unser Team nutzt es jeden Tag, und in den letzten Wochen haben wir unsere Limits
00:00:06viel schneller erreicht, als wir sollten.
00:00:07Das Kontextfenster von 1 Million Token sollte alles verbessern, aber eigentlich hat es
00:00:12alles nur verschlimmert.
00:00:13Deshalb haben wir nach Optimierungen gesucht, damit Claude Code länger durchhält.
00:00:18Bevor wir dazu kommen, wie man das Beste aus den Limits herausholt, wollen wir
00:00:22zuerst besprechen, wie das Plan- und Limitsystem von Claude eigentlich funktioniert.
00:00:26Dieser Abschnitt ist nur zur Erklärung für diejenigen gedacht, die nicht wissen,
00:00:30wie die Limits genau funktionieren.
00:00:31Claude hat zwei kostenpflichtige Pläne: den Pro- und den Max-Plan.
00:00:34Max ist der teuerste, und Pro ist ein günstigerer Plan für nur 20 $ monatlich.
00:00:38Beide Pläne haben Zugriff auf Funktionen, die im kostenlosen Plan nicht verfügbar sind,
00:00:43darunter Claude Code, Co-Work und andere.
00:00:45Aber sie alle folgen derselben Regel.
00:00:46Egal welcher Plan, jeder gibt Ihnen eine begrenzte Anzahl an Nachrichten,
00:00:51die Sie innerhalb eines 5-Stunden-Fensters senden können. Danach wird das Limit zurückgesetzt.
00:00:55Die Anzahl der Nachrichten unterscheidet sich je nach Plan.
00:00:57Das 5-Stunden-Fenster beginnt mit der ersten Nachricht, egal ob auf dem Desktop,
00:01:01im Web oder über ein anderes Claude-Interface.
00:01:03Sobald das Fenster läuft, zählt jede Nachricht gegen das Limit Ihres Plans.
00:01:08Nun könnte man erwarten, dass das Fenster nur zählt, wenn man aktiv ist.
00:01:11Aber selbst wenn Sie zwischendurch inaktiv sind und es erst in der 5. Stunde stark nutzen,
00:01:15läuft das Fenster weiter, und Sie müssen warten, bis die vollen 5 Stunden um sind,
00:01:20bevor Ihr Limit zurückgesetzt wird.
00:01:21Das 5-Stunden-Fenster ist zudem nicht geräteabhängig.
00:01:23Wenn Sie also mehrere Geräte mit demselben Konto nutzen, wird die gesamte Nutzung
00:01:27innerhalb desselben Limits gezählt.
00:01:28Beim Pro-Plan erhalten Sie etwa 45 Nachrichten pro 5-Stunden-Fenster.
00:01:32Der Max-Plan bietet 225, und der "Max 20 Times"-Plan, der teurer ist als der
00:01:37100-Dollar-Plan, bietet 900 Nachrichten im selben Zeitfenster.
00:01:41Diese Zahlen variieren je nach Modell: Mit Sonnet erhalten Sie mehr Nachrichten,
00:01:46mit Opus weniger.
00:01:47Vielleicht denken Sie, dass diese Anzahl an Nachrichten für Ihren Anwendungsfall völlig ausreicht.
00:01:51Aber das ist nur ein grober Schätzwert, und es gibt andere Faktoren, die das beeinflussen.
00:01:54Der erste Faktor ist das Modell, das Sie verwenden.
00:01:56Opus-Modelle verbrauchen etwa dreimal mehr Token für dieselbe Anfrage als Sonnet,
00:02:01da sie wesentlich leistungsstärker und rechenintensiver sind.
00:02:03Wenn Sie also ständig Opus nutzen, erhalten Sie keine 45 Nachrichten pro 5-Stunden-Fenster,
00:02:08und Ihr Limit ist viel schneller aufgebraucht.
00:02:10Der Pro-Plan hat insgesamt ein niedrigeres Limit.
00:02:12Was den Max-Plan betrifft: Während eine Einzelperson damit klarkommen mag,
00:02:16wird Max meist von Organisationen gekauft und auf Teammitglieder verteilt,
00:02:20sodass es bei mehreren Personen nicht lange vorhält.
00:02:21Wir machen das bei AI Labs genauso: Wir haben einen Max-Plan gekauft und im Team verteilt.
00:02:26Trotzdem stoßen wir häufig an das Limit, weshalb wir nach Wegen gesucht haben,
00:02:30es länger nutzbar zu machen.
00:02:31Der zweite Faktor ist die Art der Aufgabe, die Sie ausführen.
00:02:34Rechenintensive Aufgaben oder solche, die mehrere Tools erfordern, verbrauchen viele Token.
00:02:38Das Fenster ist also viel schneller erschöpft als üblich, und Sie schaffen vielleicht
00:02:43nicht einmal 45 Nachrichten im Pro-Plan.
00:02:44Zusätzlich hat Anthropic kürzlich das Sitzungslimit während der Stoßzeiten,
00:02:48wenn viele Personen den Dienst gleichzeitig nutzen, schneller reduziert.
00:02:52So ist Ihr Claude-Plan bereits aufgebraucht, bevor Sie nennenswerte Arbeit erledigen konnten.
00:02:56Deshalb ist jetzt der richtige Zeitpunkt zu lernen, wie Sie Ihr Zeitfenster optimal nutzen
00:03:00und Claude den ganzen Tag effektiv einsetzen.
00:03:02Doch bevor wir weitermachen, ein Wort von unserem Sponsor: Twin.
00:03:05Wenn Sie schon einmal versucht haben, mit Tools wie Zapier oder N8N zu automatisieren,
00:03:09kennen Sie das Problem: starre Workflows, ständige Ausfälle und verschwendete Stunden.
00:03:13Und lokale Agenten wie Claudebot sind Sicherheitsrisiken und viel zu teuer.
00:03:17Twin ändert das.
00:03:18Es ist ein No-Code-KI-Agent, der die Arbeit für Sie erledigt, während Sie schlafen.
00:03:21Er verbindet sich über APIs mit Tools, und falls diese nicht existieren,
00:03:26baut er Integrationen on-the-fly für eine unendliche Integrationsbibliothek.
00:03:29Gibt es keine API, kann Twin wie ein Mensch browsen und interagieren.
00:03:33Obendrein erhalten Sie Zugriff auf Tools wie Perplexity, Gamma, VO3 und Nanobanana.
00:03:38Sie haben gerade die Twin-API gestartet.
00:03:40So können Sie Agenten von überall triggern und in bestehende Workflows einbinden.
00:03:44Und das Beste daran?
00:03:45Diese Agenten lernen dazu.
00:03:46Sie reparieren sich selbst, verbessern sich mit der Zeit und laufen rund um die Uhr.
00:03:50Hören Sie auf, kaputte Automatisierungen zu überwachen.
00:03:52Klicken Sie auf den Link im fixierten Kommentar und schauen Sie sich Twin an.
00:03:55Vielleicht wissen Sie bereits, dass der Quellcode von Claude Code geleakt wurde.
00:03:58Viele haben darin Probleme identifiziert, die dazu führen können,
00:04:02dass die Limits schneller als beabsichtigt erreicht werden.
00:04:04Eines davon ist, dass abgeschnittene Antworten im Kontext verbleiben.
00:04:07Wenn Sie also eine Fehlermeldung erhalten, etwa dass ein Ratelimit erreicht wurde, kann dies eine unvollständige
00:04:12In diesem Fall wird ein erneuter Versuch unternommen,
00:04:13wobei der vorherige Kontext zusammen mit der fehlerhaften Teilnachricht beibehalten wird.
00:04:17Das bläht den Kontext mit unnötigen Informationen auf und verschwendet Token.
00:04:18Auch Skill-Auflistungen werden primär für einen schnelleren Zugriff injiziert,
00:04:22obwohl sie kaum Mehrwert bieten, da eine schnellere Abwicklung über das Skill-Tool bereits existiert.
00:04:27Ähnlich verhält es sich mit einigen anderen Problemen.
00:04:31Aufgrund dessen beschweren sich viele darüber, dass Claude-Limits schneller als erwartet erreicht werden.
00:04:33Um sowohl den offiziellen Limits als auch diesen versteckten Token-Fressern entgegenzuwirken,
00:04:38müssen Sie bestimmte Maßnahmen ergreifen, damit Claude Code beim Bau Ihrer Produkte länger durchhält.
00:04:43Auf diesem Kanal teilen wir alles, was wir über das Erstellen von Produkten mit KI herausfinden.
00:04:47Wenn Sie mehr Videos dazu sehen möchten, abonnieren Sie uns und halten Sie Ausschau nach neuen Inhalten.
00:04:51Wir beginnen mit Tipps, die Sie vielleicht schon kennen, wenn Sie unsere früheren Videos gesehen haben.
00:04:55Der erste ist der "clear"-Befehl.
00:04:59Nutzen Sie diesen immer dann, wenn Sie eine Aufgabe abgeschlossen haben und den alten Kontext nicht mehr benötigen.
00:05:00Wenn Sie zum Beispiel die Implementierung einer App fertiggestellt haben und zur Testphase übergehen,
00:05:01brauchen Sie den früheren Kontext nicht mehr.
00:05:05Es ist also besser, ihn zurückzusetzen und die nächste Aufgabe mit einem frischen Kontextfenster zu starten.
00:05:09Manchmal möchten Sie jedoch einen Teil dieses Kontexts beibehalten.
00:05:11In diesem Fall können Sie stattdessen den "compact"-Befehl ausführen.
00:05:15Er fasst die gesamte Interaktion zusammen und gibt Platz durch eine Zusammenfassung im Kontext frei.
00:05:18Wir empfehlen dies, weil Claude bei jeder Nachricht die gesamte bisherige Konversation mitsendet,
00:05:21einschließlich System-Prompts, Tools und dem gesamten Verlauf.
00:05:25Mit jeder neuen Nachricht wächst dies weiter an, was zu einem aufgeblähten Kontextfenster
00:05:29und einem höheren Token-Verbrauch pro Nachricht führt.
00:05:34Selbst beim Komprimieren blähen Sie das Fenster mit irrelevanten Inhalten auf,
00:05:35wenn Sie im Hauptfenster Nebenfragen stellen.
00:05:40Nutzen Sie daher den "by the way"-Befehl für kurze Zwischenfragen.
00:05:41Er antwortet in einem separaten Sitzungskontext.
00:05:46Diese Nebenfrage wird nicht mit der nächsten Nachricht gesendet, was zu weniger Token pro Anfrage führt.
00:05:47Auch wenn Planung nach einer tokenintensiven Aufgabe klingt, sollten Sie Ihre Projekte damit beginnen.
00:05:50Denn ohne Planung müssen Sie Claude später korrigieren, wenn die Implementierung
00:05:53nicht mit Ihren Anforderungen übereinstimmt.
00:05:57Vorab investierte Token für die Planung bewahren Sie davor, später viel mehr Token für Korrekturen zu verschwenden.
00:05:58Manchmal folgt Claude Ihren Anweisungen nicht wie gewünscht.
00:06:02In solchen Fällen prompten wir oft erneut mit der richtigen Implementierungsweise.
00:06:03Anstatt neu zu prompten, können Sie jedoch den "rewind"-Befehl nutzen, um das Gespräch
00:06:07und den Code auf einen Punkt vor der fehlerhaften Nachricht zurückzusetzen und die Änderungen
00:06:10direkt im Prompt vorzunehmen.
00:06:14Dasselbe erreichen Sie durch zweimaliges Drücken der Escape-Taste.
00:06:15Dies entfernt die falsche Implementierung aus dem Kontextfenster, und die falschen Ausgaben
00:06:18werden nicht an das Modell gesendet.
00:06:22Alle diese Befehle helfen Ihnen, während einer Sitzung Token zu sparen.
00:06:26Die größere Auswirkung hat jedoch die ursprüngliche Strukturierung Ihres Projekts.
00:06:31Vielleicht haben Sie Ihre Projekte bereits mit Frameworks wie Beemad, SpecKit oder anderen strukturiert.
00:06:32Die meisten dieser Frameworks sind jedoch sehr tokenintensiv.
00:06:35Wenn Sie sie in Ihrer eigenen App verwenden, wird Ihr Token-Limit schneller erreicht.
00:06:39Während diese Frameworks in Max-Plänen funktionieren mögen, ist das bei Pro-Plänen definitiv nicht der Fall.
00:06:41Selbst wenn Sie keine Frameworks nutzen, haben Sie vielleicht eigene Strukturen erstellt.
00:06:44Um eine "Claude.md"-Datei zu erstellen, haben Sie sicher den "init"-Befehl genutzt, der Ihren Code durchgeht
00:06:47und eine entsprechende Datei für Sie erstellt.
00:06:52Er erstellt zwar eine, aber diese enthält viele Probleme.
00:06:53Diese Datei soll dem KI-Agenten Orientierung bieten, listet aber oft Dinge auf,
00:06:56die die KI bereits von selbst weiß.
00:07:00Zum Beispiel zeigt sie Befehle zum Starten jedes Dev-Servers, was Claude bereits beherrscht.
00:07:04Solange Sie keine speziellen Flags zum Ausführen des Servers haben, müssen diese nicht hinein.
00:07:07Was die Architektur betrifft: Claude kann Dateinamen lesen und daraus schließen, worum es geht,
00:07:12da es Dateisysteme versteht und sie zur Navigation nutzt.
00:07:14Es besteht also kein echter Bedarf für solche Anweisungen, außer in speziellen Fällen,
00:07:17in denen zusätzliche Führung erforderlich ist.
00:07:20Wenn Sie Ihre eigene "Claude.md" schreiben, sollte diese idealerweise weniger als 300 Zeilen haben.
00:07:22Je kürzer die Datei, desto besser die Leistung und desto fokussierter ist Claude auf das Wesentliche.
00:07:27Sie sollte als Leitfaden dienen, nicht als detailliertes Handbuch für jeden einzelnen Schritt.
00:07:28Was Sie aufnehmen, sollte allgemeingültig für das Projekt sein, keine spezifischen Details
00:07:31jedes einzelnen Teils, die alle in eine Datei gepackt sind.
00:07:32Schreiben Sie nur Dinge in die "Claude.md", die Claude nicht standardmäßig weiß,
00:07:37wie etwa Verbote oder spezielle Entwicklungspraktiken.
00:07:41Sie müssen diese Datei richtig konfigurieren, da sie einmal pro Sitzung in den Kontext geladen wird
00:07:45und dort verbleibt.
00:07:47Unnötige Informationen im Kontextfenster bedeuten, dass Sie bei jedem Schritt Token verschwenden,
00:07:52die gar nicht benötigt würden.
00:07:56Für spezifische Aspekte wie Datenbanken oder Schemata sollten Sie separate Dokumente erstellen
00:07:57und diese in der "Claude.md"-Datei verlinken.
00:08:01Dies ermöglicht es Claude, progressiv nur die Dokumente zu laden, die es gerade wirklich braucht.
00:08:05Wie wir bereits im letzten Video erwähnt haben, hilft das Erstellen von Projektregeln für bestimmte Pfade,
00:08:08Claude fokussiert zu halten.
00:08:13Auf diese Weise hat Claude nur relevante Informationen im Kontext und vermeidet unnötigen Token-Verbrauch.
00:08:16Sie sollten also separate Regeldateien für bereichsspezifische Logik anlegen,
00:08:20damit Claude nur das Notwendige lädt.
00:08:22Nutzen Sie außerdem Skills für repetitive Workflows und fügen Sie Skripte und Referenzen hinzu,
00:08:27damit Aufgaben präziser ausgeführt werden.
00:08:28Skills helfen durch progressives Laden, und Claude bleibt auf den relevanten Aspekt konzentriert.
00:08:33Die Bündelung mit Skripten hilft, keine Token für deterministische Aufgaben zu verschwenden,
00:08:37die programmatisch gelöst werden können.
00:08:41Der Grund für die Trennung der Dateien ist simpel.
00:08:45Wenn Claude an einem Teil arbeitet, benötigt es keine Informationen über völlig andere Bereiche.
00:08:48Wenn jedoch alles in derselben "Claude.md"-Datei steht, wird alles jedes Mal geladen,
00:08:53was zu unnötigem Token-Verbrauch führt.
00:08:57Sie können auch das Flag "append system prompt" nutzen, um spezifische Anweisungen
00:08:58direkt dem System-Prompt hinzuzufügen.
00:09:03Die Sitzung startet dann mit diesen Anweisungen, anstatt alles in die "Claude.md" zu packen.
00:09:05Diese Anweisungen sind temporär und werden nach dem Ende der Sitzung entfernt.
00:09:10Das klingt vielleicht nach mehr Kontext, ist aber effizienter als eine einmalige Anweisung in der "Claude.md".
00:09:12Dort würde Claude sie dauerhaft im Kontext behalten und so unnötig Token verschwenden.
00:09:16Durch das Anhängen geben Sie die Anweisungen genau dann, wenn sie gebraucht werden.
00:09:17Wenn Ihnen unser Content gefällt, drücken Sie bitte den Hype-Button,
00:09:19da uns das hilft, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.
00:09:24Sie sollten auch das Effort-Level des verwendeten Modells festlegen.
00:09:29Wenn eine Aufgabe nicht viel Nachdenken erfordert, stellen Sie es auf "low",
00:09:30da die niedrige Einstellung Token spart.
00:09:35Standardmäßig ist es auf "effort auto" eingestellt, was bedeutet, dass das Modell entscheidet,
00:09:36wie viel Aufwand es betreibt. Sie können das aber manuell ändern.
00:09:40Bei weniger komplexen Aufgaben ist eine hohe Einstellung nicht nötig.
00:09:41Wie erwähnt, ist Opus das Modell mit dem höchsten Token-Verbrauch.
00:09:44Wechseln Sie bei einfachen Aufgaben also zu Haiku.
00:09:48Wenn die Aufgabe ein gewisses Maß an Denkarbeit erfordert, nutzen Sie Sonnet.
00:09:51Es ist vielleicht nicht so mächtig wie Opus, aber dennoch effizient und spart mehr Token.
00:09:56Wenn Sie mehrere MCPs konfiguriert haben und einen bestimmten nicht benötigen, deaktivieren Sie ihn,
00:09:59damit keine unnötigen Informationen in das Kontextfenster injiziert werden.
00:10:03Ein weiterer wichtiger Schritt ist das Erstellen von Hooks, die Inhalte filtern,
00:10:06die nicht in Claudes Kontext gehören.
00:10:10Ich habe zum Beispiel Testfälle für mein Projekt konfiguriert.
00:10:14Wenn wir diese ausführen, werden sowohl bestandene als auch fehlgeschlagene Tests gemeldet,
00:10:15und all das landet im Kontext.
00:10:20Claude interessieren jedoch primär die fehlgeschlagenen Tests, da diese korrigiert werden müssen.
00:10:21Sie können einen Hook erstellen, der per Skript verhindert, dass bestandene Tests
00:10:25in den Kontext gelangen, sodass nur die fehlgeschlagenen aufgenommen werden.
00:10:28Das spart im Vergleich zum Senden aller Testberichte eine erhebliche Menge an Token.
00:10:31Solche Hooks können Sie für viele andere Aufgaben konfigurieren, um den Token-Verbrauch zu optimieren.
00:10:34Abgesehen davon gibt es bestimmte Konfigurationen in Ihrem ".claud"-Ordner,
00:10:39um die Performance zu verbessern.
00:10:43Die erste ist, "disable prompt caching" auf "false" zu setzen.
00:10:48Dadurch cached Claude häufig genutzte Präfixe, was den Token-Verbrauch reduziert.
00:10:52Anthropic berechnet keine Kosten für Teile, die wiederholt gesendet werden; Sie zahlen nur für Neues.
00:10:54Sie können auch "auto memory" deaktivieren, um zu verhindern, dass Inhalte zum Kontext
00:10:57hinzugefügt werden und den Token-Verbrauch erhöhen.
00:11:01Auto Memory ist ein Hintergrundprozess, der Ihre Gespräche analysiert und nützliche
00:11:02Informationen in Speicherdateien für Ihr Projekt zusammenfasst.
00:11:05Deaktivieren Sie es, werden Ihre Gewohnheiten nicht verfolgt, aber es spart Token im Hintergrund.
00:11:10Es gibt ein weiteres Flag namens "disable background task", das Hintergrundprozesse stoppt,
00:11:13die kontinuierlich Token verbrauchen.
00:11:17Dazu gehören "dream", "memory refactoring" sowie Reinigung und Hintergrund-Indizierung.
00:11:21Das Abschalten spart Token, da diese Prozesse sonst auch dann an Ihrem Gespräch
00:11:25arbeiten würden, wenn Sie gar nicht aktiv chatten.
00:11:27Deaktivieren Sie auch das "Thinking", wenn es nicht benötigt wird, da dies viel Kontext
00:11:30verbraucht und Token bei Aufgaben verschwendet, die es gar nicht erfordern.
00:11:34Dies unterscheidet sich von der vorhin besprochenen Effort-Einstellung.
00:11:38Effort steuert, wie viel Claude innerhalb einer Antwort abwägt; weniger Effort
00:11:39bedeutet also weniger Denkarbeit, aber es denkt immer noch.
00:11:43Das komplette Deaktivieren von "Thinking" schaltet den internen Argumentationsschritt aus,
00:11:44und Claude generiert die Antwort direkt.
00:11:49Wenn Ihre Aufgabe kein tiefes Nachdenken erfordert, schalten Sie "Thinking" ganz aus.
00:11:52Wird etwas Denkarbeit benötigt, senken Sie stattdessen das Effort-Level.
00:11:56Konfigurieren Sie schließlich "max output tokens" auf eine feste Zahl.
00:11:57Es gibt keinen Standardwert, aber das Limit kontrolliert, wie viel das Modell generiert.
00:12:00Stellen Sie es niedriger ein, um aggressiv Token zu sparen, oder höher für längere Ausgaben.
00:12:02Das "Claude.md"-Template und weitere Ressourcen für dieses und alle früheren Videos
00:12:06finden Sie in AI Labs Pro zum Download für Ihre eigenen Projekte.
00:12:10Wenn Ihnen unsere Arbeit gefällt und Sie den Kanal unterstützen möchten, ist dies der beste Weg.
00:12:13Der Link steht in der Beschreibung.
00:12:16Damit sind wir am Ende dieses Videos angelangt.
00:12:20Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin solche Videos zu machen,
00:12:23können Sie das über den "Super Thanks"-Button unten tun.
00:12:28Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.
00:12:30...
00:12:34...
00:12:35...
00:12:39...
00:12:43...
00:12:46...
00:12:50...
00:12:55...
00:12:56...
00:13:00...
00:13:05...
00:13:09...
00:13:10...
00:13:11...
00:13:13...
00:13:17...
00:13:19...