Das Claude Code Limit-Problem ist endlich gelöst

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Claude Code war in letzter Zeit nicht besonders gut.

00:00:02Unser Team nutzt es jeden Tag, und in den letzten Wochen haben wir unsere Limits

00:00:06viel schneller erreicht, als wir sollten.

00:00:07Das Kontextfenster von 1 Million Token sollte alles verbessern, aber eigentlich hat es

00:00:12alles nur verschlimmert.

00:00:13Deshalb haben wir nach Optimierungen gesucht, damit Claude Code länger durchhält.

00:00:18Bevor wir dazu kommen, wie man das Beste aus den Limits herausholt, wollen wir

00:00:22zuerst besprechen, wie das Plan- und Limitsystem von Claude eigentlich funktioniert.

00:00:26Dieser Abschnitt ist nur zur Erklärung für diejenigen gedacht, die nicht wissen,

00:00:30wie die Limits genau funktionieren.

00:00:31Claude hat zwei kostenpflichtige Pläne: den Pro- und den Max-Plan.

00:00:34Max ist der teuerste, und Pro ist ein günstigerer Plan für nur 20 $ monatlich.

00:00:38Beide Pläne haben Zugriff auf Funktionen, die im kostenlosen Plan nicht verfügbar sind,

00:00:43darunter Claude Code, Co-Work und andere.

00:00:45Aber sie alle folgen derselben Regel.

00:00:46Egal welcher Plan, jeder gibt Ihnen eine begrenzte Anzahl an Nachrichten,

00:00:51die Sie innerhalb eines 5-Stunden-Fensters senden können. Danach wird das Limit zurückgesetzt.

00:00:55Die Anzahl der Nachrichten unterscheidet sich je nach Plan.

00:00:57Das 5-Stunden-Fenster beginnt mit der ersten Nachricht, egal ob auf dem Desktop,

00:01:01im Web oder über ein anderes Claude-Interface.

00:01:03Sobald das Fenster läuft, zählt jede Nachricht gegen das Limit Ihres Plans.

00:01:08Nun könnte man erwarten, dass das Fenster nur zählt, wenn man aktiv ist.

00:01:11Aber selbst wenn Sie zwischendurch inaktiv sind und es erst in der 5. Stunde stark nutzen,

00:01:15läuft das Fenster weiter, und Sie müssen warten, bis die vollen 5 Stunden um sind,

00:01:20bevor Ihr Limit zurückgesetzt wird.

00:01:21Das 5-Stunden-Fenster ist zudem nicht geräteabhängig.

00:01:23Wenn Sie also mehrere Geräte mit demselben Konto nutzen, wird die gesamte Nutzung

00:01:27innerhalb desselben Limits gezählt.

00:01:28Beim Pro-Plan erhalten Sie etwa 45 Nachrichten pro 5-Stunden-Fenster.

00:01:32Der Max-Plan bietet 225, und der "Max 20 Times"-Plan, der teurer ist als der

00:01:37100-Dollar-Plan, bietet 900 Nachrichten im selben Zeitfenster.

00:01:41Diese Zahlen variieren je nach Modell: Mit Sonnet erhalten Sie mehr Nachrichten,

00:01:46mit Opus weniger.

00:01:47Vielleicht denken Sie, dass diese Anzahl an Nachrichten für Ihren Anwendungsfall völlig ausreicht.

00:01:51Aber das ist nur ein grober Schätzwert, und es gibt andere Faktoren, die das beeinflussen.

00:01:54Der erste Faktor ist das Modell, das Sie verwenden.

00:01:56Opus-Modelle verbrauchen etwa dreimal mehr Token für dieselbe Anfrage als Sonnet,

00:02:01da sie wesentlich leistungsstärker und rechenintensiver sind.

00:02:03Wenn Sie also ständig Opus nutzen, erhalten Sie keine 45 Nachrichten pro 5-Stunden-Fenster,

00:02:08und Ihr Limit ist viel schneller aufgebraucht.

00:02:10Der Pro-Plan hat insgesamt ein niedrigeres Limit.

00:02:12Was den Max-Plan betrifft: Während eine Einzelperson damit klarkommen mag,

00:02:16wird Max meist von Organisationen gekauft und auf Teammitglieder verteilt,

00:02:20sodass es bei mehreren Personen nicht lange vorhält.

00:02:21Wir machen das bei AI Labs genauso: Wir haben einen Max-Plan gekauft und im Team verteilt.

00:02:26Trotzdem stoßen wir häufig an das Limit, weshalb wir nach Wegen gesucht haben,

00:02:30es länger nutzbar zu machen.

00:02:31Der zweite Faktor ist die Art der Aufgabe, die Sie ausführen.

00:02:34Rechenintensive Aufgaben oder solche, die mehrere Tools erfordern, verbrauchen viele Token.

00:02:38Das Fenster ist also viel schneller erschöpft als üblich, und Sie schaffen vielleicht

00:02:43nicht einmal 45 Nachrichten im Pro-Plan.

00:02:44Zusätzlich hat Anthropic kürzlich das Sitzungslimit während der Stoßzeiten,

00:02:48wenn viele Personen den Dienst gleichzeitig nutzen, schneller reduziert.

00:02:52So ist Ihr Claude-Plan bereits aufgebraucht, bevor Sie nennenswerte Arbeit erledigen konnten.

00:02:56Deshalb ist jetzt der richtige Zeitpunkt zu lernen, wie Sie Ihr Zeitfenster optimal nutzen

00:03:00und Claude den ganzen Tag effektiv einsetzen.

00:03:02Doch bevor wir weitermachen, ein Wort von unserem Sponsor: Twin.

00:03:05Wenn Sie schon einmal versucht haben, mit Tools wie Zapier oder N8N zu automatisieren,

00:03:09kennen Sie das Problem: starre Workflows, ständige Ausfälle und verschwendete Stunden.

00:03:13Und lokale Agenten wie Claudebot sind Sicherheitsrisiken und viel zu teuer.

00:03:17Twin ändert das.

00:03:18Es ist ein No-Code-KI-Agent, der die Arbeit für Sie erledigt, während Sie schlafen.

00:03:21Er verbindet sich über APIs mit Tools, und falls diese nicht existieren,

00:03:26baut er Integrationen on-the-fly für eine unendliche Integrationsbibliothek.

00:03:29Gibt es keine API, kann Twin wie ein Mensch browsen und interagieren.

00:03:33Obendrein erhalten Sie Zugriff auf Tools wie Perplexity, Gamma, VO3 und Nanobanana.

00:03:38Sie haben gerade die Twin-API gestartet.

00:03:40So können Sie Agenten von überall triggern und in bestehende Workflows einbinden.

00:03:44Und das Beste daran?

00:03:45Diese Agenten lernen dazu.

00:03:46Sie reparieren sich selbst, verbessern sich mit der Zeit und laufen rund um die Uhr.

00:03:50Hören Sie auf, kaputte Automatisierungen zu überwachen.

00:03:52Klicken Sie auf den Link im fixierten Kommentar und schauen Sie sich Twin an.

00:03:55Vielleicht wissen Sie bereits, dass der Quellcode von Claude Code geleakt wurde.

00:03:58Viele haben darin Probleme identifiziert, die dazu führen können,

00:04:02dass die Limits schneller als beabsichtigt erreicht werden.

00:04:04Eines davon ist, dass abgeschnittene Antworten im Kontext verbleiben.

00:04:07Wenn Sie also eine Fehlermeldung erhalten, etwa dass ein Ratelimit erreicht wurde, kann dies eine unvollständige

00:04:12In diesem Fall wird ein erneuter Versuch unternommen,

00:04:13wobei der vorherige Kontext zusammen mit der fehlerhaften Teilnachricht beibehalten wird.

00:04:17Das bläht den Kontext mit unnötigen Informationen auf und verschwendet Token.

00:04:18Auch Skill-Auflistungen werden primär für einen schnelleren Zugriff injiziert,

00:04:22obwohl sie kaum Mehrwert bieten, da eine schnellere Abwicklung über das Skill-Tool bereits existiert.

00:04:27Ähnlich verhält es sich mit einigen anderen Problemen.

00:04:31Aufgrund dessen beschweren sich viele darüber, dass Claude-Limits schneller als erwartet erreicht werden.

00:04:33Um sowohl den offiziellen Limits als auch diesen versteckten Token-Fressern entgegenzuwirken,

00:04:38müssen Sie bestimmte Maßnahmen ergreifen, damit Claude Code beim Bau Ihrer Produkte länger durchhält.

00:04:43Auf diesem Kanal teilen wir alles, was wir über das Erstellen von Produkten mit KI herausfinden.

00:04:47Wenn Sie mehr Videos dazu sehen möchten, abonnieren Sie uns und halten Sie Ausschau nach neuen Inhalten.

00:04:51Wir beginnen mit Tipps, die Sie vielleicht schon kennen, wenn Sie unsere früheren Videos gesehen haben.

00:04:55Der erste ist der "clear"-Befehl.

00:04:59Nutzen Sie diesen immer dann, wenn Sie eine Aufgabe abgeschlossen haben und den alten Kontext nicht mehr benötigen.

00:05:00Wenn Sie zum Beispiel die Implementierung einer App fertiggestellt haben und zur Testphase übergehen,

00:05:01brauchen Sie den früheren Kontext nicht mehr.

00:05:05Es ist also besser, ihn zurückzusetzen und die nächste Aufgabe mit einem frischen Kontextfenster zu starten.

00:05:09Manchmal möchten Sie jedoch einen Teil dieses Kontexts beibehalten.

00:05:11In diesem Fall können Sie stattdessen den "compact"-Befehl ausführen.

00:05:15Er fasst die gesamte Interaktion zusammen und gibt Platz durch eine Zusammenfassung im Kontext frei.

00:05:18Wir empfehlen dies, weil Claude bei jeder Nachricht die gesamte bisherige Konversation mitsendet,

00:05:21einschließlich System-Prompts, Tools und dem gesamten Verlauf.

00:05:25Mit jeder neuen Nachricht wächst dies weiter an, was zu einem aufgeblähten Kontextfenster

00:05:29und einem höheren Token-Verbrauch pro Nachricht führt.

00:05:34Selbst beim Komprimieren blähen Sie das Fenster mit irrelevanten Inhalten auf,

00:05:35wenn Sie im Hauptfenster Nebenfragen stellen.

00:05:40Nutzen Sie daher den "by the way"-Befehl für kurze Zwischenfragen.

00:05:41Er antwortet in einem separaten Sitzungskontext.

00:05:46Diese Nebenfrage wird nicht mit der nächsten Nachricht gesendet, was zu weniger Token pro Anfrage führt.

00:05:47Auch wenn Planung nach einer tokenintensiven Aufgabe klingt, sollten Sie Ihre Projekte damit beginnen.

00:05:50Denn ohne Planung müssen Sie Claude später korrigieren, wenn die Implementierung

00:05:53nicht mit Ihren Anforderungen übereinstimmt.

00:05:57Vorab investierte Token für die Planung bewahren Sie davor, später viel mehr Token für Korrekturen zu verschwenden.

00:05:58Manchmal folgt Claude Ihren Anweisungen nicht wie gewünscht.

00:06:02In solchen Fällen prompten wir oft erneut mit der richtigen Implementierungsweise.

00:06:03Anstatt neu zu prompten, können Sie jedoch den "rewind"-Befehl nutzen, um das Gespräch

00:06:07und den Code auf einen Punkt vor der fehlerhaften Nachricht zurückzusetzen und die Änderungen

00:06:10direkt im Prompt vorzunehmen.

00:06:14Dasselbe erreichen Sie durch zweimaliges Drücken der Escape-Taste.

00:06:15Dies entfernt die falsche Implementierung aus dem Kontextfenster, und die falschen Ausgaben

00:06:18werden nicht an das Modell gesendet.

00:06:22Alle diese Befehle helfen Ihnen, während einer Sitzung Token zu sparen.

00:06:26Die größere Auswirkung hat jedoch die ursprüngliche Strukturierung Ihres Projekts.

00:06:31Vielleicht haben Sie Ihre Projekte bereits mit Frameworks wie Beemad, SpecKit oder anderen strukturiert.

00:06:32Die meisten dieser Frameworks sind jedoch sehr tokenintensiv.

00:06:35Wenn Sie sie in Ihrer eigenen App verwenden, wird Ihr Token-Limit schneller erreicht.

00:06:39Während diese Frameworks in Max-Plänen funktionieren mögen, ist das bei Pro-Plänen definitiv nicht der Fall.

00:06:41Selbst wenn Sie keine Frameworks nutzen, haben Sie vielleicht eigene Strukturen erstellt.

00:06:44Um eine "Claude.md"-Datei zu erstellen, haben Sie sicher den "init"-Befehl genutzt, der Ihren Code durchgeht

00:06:47und eine entsprechende Datei für Sie erstellt.

00:06:52Er erstellt zwar eine, aber diese enthält viele Probleme.

00:06:53Diese Datei soll dem KI-Agenten Orientierung bieten, listet aber oft Dinge auf,

00:06:56die die KI bereits von selbst weiß.

00:07:00Zum Beispiel zeigt sie Befehle zum Starten jedes Dev-Servers, was Claude bereits beherrscht.

00:07:04Solange Sie keine speziellen Flags zum Ausführen des Servers haben, müssen diese nicht hinein.

00:07:07Was die Architektur betrifft: Claude kann Dateinamen lesen und daraus schließen, worum es geht,

00:07:12da es Dateisysteme versteht und sie zur Navigation nutzt.

00:07:14Es besteht also kein echter Bedarf für solche Anweisungen, außer in speziellen Fällen,

00:07:17in denen zusätzliche Führung erforderlich ist.

00:07:20Wenn Sie Ihre eigene "Claude.md" schreiben, sollte diese idealerweise weniger als 300 Zeilen haben.

00:07:22Je kürzer die Datei, desto besser die Leistung und desto fokussierter ist Claude auf das Wesentliche.

00:07:27Sie sollte als Leitfaden dienen, nicht als detailliertes Handbuch für jeden einzelnen Schritt.

00:07:28Was Sie aufnehmen, sollte allgemeingültig für das Projekt sein, keine spezifischen Details

00:07:31jedes einzelnen Teils, die alle in eine Datei gepackt sind.

00:07:32Schreiben Sie nur Dinge in die "Claude.md", die Claude nicht standardmäßig weiß,

00:07:37wie etwa Verbote oder spezielle Entwicklungspraktiken.

00:07:41Sie müssen diese Datei richtig konfigurieren, da sie einmal pro Sitzung in den Kontext geladen wird

00:07:45und dort verbleibt.

00:07:47Unnötige Informationen im Kontextfenster bedeuten, dass Sie bei jedem Schritt Token verschwenden,

00:07:52die gar nicht benötigt würden.

00:07:56Für spezifische Aspekte wie Datenbanken oder Schemata sollten Sie separate Dokumente erstellen

00:07:57und diese in der "Claude.md"-Datei verlinken.

00:08:01Dies ermöglicht es Claude, progressiv nur die Dokumente zu laden, die es gerade wirklich braucht.

00:08:05Wie wir bereits im letzten Video erwähnt haben, hilft das Erstellen von Projektregeln für bestimmte Pfade,

00:08:08Claude fokussiert zu halten.

00:08:13Auf diese Weise hat Claude nur relevante Informationen im Kontext und vermeidet unnötigen Token-Verbrauch.

00:08:16Sie sollten also separate Regeldateien für bereichsspezifische Logik anlegen,

00:08:20damit Claude nur das Notwendige lädt.

00:08:22Nutzen Sie außerdem Skills für repetitive Workflows und fügen Sie Skripte und Referenzen hinzu,

00:08:27damit Aufgaben präziser ausgeführt werden.

00:08:28Skills helfen durch progressives Laden, und Claude bleibt auf den relevanten Aspekt konzentriert.

00:08:33Die Bündelung mit Skripten hilft, keine Token für deterministische Aufgaben zu verschwenden,

00:08:37die programmatisch gelöst werden können.

00:08:41Der Grund für die Trennung der Dateien ist simpel.

00:08:45Wenn Claude an einem Teil arbeitet, benötigt es keine Informationen über völlig andere Bereiche.

00:08:48Wenn jedoch alles in derselben "Claude.md"-Datei steht, wird alles jedes Mal geladen,

00:08:53was zu unnötigem Token-Verbrauch führt.

00:08:57Sie können auch das Flag "append system prompt" nutzen, um spezifische Anweisungen

00:08:58direkt dem System-Prompt hinzuzufügen.

00:09:03Die Sitzung startet dann mit diesen Anweisungen, anstatt alles in die "Claude.md" zu packen.

00:09:05Diese Anweisungen sind temporär und werden nach dem Ende der Sitzung entfernt.

00:09:10Das klingt vielleicht nach mehr Kontext, ist aber effizienter als eine einmalige Anweisung in der "Claude.md".

00:09:12Dort würde Claude sie dauerhaft im Kontext behalten und so unnötig Token verschwenden.

00:09:16Durch das Anhängen geben Sie die Anweisungen genau dann, wenn sie gebraucht werden.

00:09:17Wenn Ihnen unser Content gefällt, drücken Sie bitte den Hype-Button,

00:09:19da uns das hilft, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.

00:09:24Sie sollten auch das Effort-Level des verwendeten Modells festlegen.

00:09:29Wenn eine Aufgabe nicht viel Nachdenken erfordert, stellen Sie es auf "low",

00:09:30da die niedrige Einstellung Token spart.

00:09:35Standardmäßig ist es auf "effort auto" eingestellt, was bedeutet, dass das Modell entscheidet,

00:09:36wie viel Aufwand es betreibt. Sie können das aber manuell ändern.

00:09:40Bei weniger komplexen Aufgaben ist eine hohe Einstellung nicht nötig.

00:09:41Wie erwähnt, ist Opus das Modell mit dem höchsten Token-Verbrauch.

00:09:44Wechseln Sie bei einfachen Aufgaben also zu Haiku.

00:09:48Wenn die Aufgabe ein gewisses Maß an Denkarbeit erfordert, nutzen Sie Sonnet.

00:09:51Es ist vielleicht nicht so mächtig wie Opus, aber dennoch effizient und spart mehr Token.

00:09:56Wenn Sie mehrere MCPs konfiguriert haben und einen bestimmten nicht benötigen, deaktivieren Sie ihn,

00:09:59damit keine unnötigen Informationen in das Kontextfenster injiziert werden.

00:10:03Ein weiterer wichtiger Schritt ist das Erstellen von Hooks, die Inhalte filtern,

00:10:06die nicht in Claudes Kontext gehören.

00:10:10Ich habe zum Beispiel Testfälle für mein Projekt konfiguriert.

00:10:14Wenn wir diese ausführen, werden sowohl bestandene als auch fehlgeschlagene Tests gemeldet,

00:10:15und all das landet im Kontext.

00:10:20Claude interessieren jedoch primär die fehlgeschlagenen Tests, da diese korrigiert werden müssen.

00:10:21Sie können einen Hook erstellen, der per Skript verhindert, dass bestandene Tests

00:10:25in den Kontext gelangen, sodass nur die fehlgeschlagenen aufgenommen werden.

00:10:28Das spart im Vergleich zum Senden aller Testberichte eine erhebliche Menge an Token.

00:10:31Solche Hooks können Sie für viele andere Aufgaben konfigurieren, um den Token-Verbrauch zu optimieren.

00:10:34Abgesehen davon gibt es bestimmte Konfigurationen in Ihrem ".claud"-Ordner,

00:10:39um die Performance zu verbessern.

00:10:43Die erste ist, "disable prompt caching" auf "false" zu setzen.

00:10:48Dadurch cached Claude häufig genutzte Präfixe, was den Token-Verbrauch reduziert.

00:10:52Anthropic berechnet keine Kosten für Teile, die wiederholt gesendet werden; Sie zahlen nur für Neues.

00:10:54Sie können auch "auto memory" deaktivieren, um zu verhindern, dass Inhalte zum Kontext

00:10:57hinzugefügt werden und den Token-Verbrauch erhöhen.

00:11:01Auto Memory ist ein Hintergrundprozess, der Ihre Gespräche analysiert und nützliche

00:11:02Informationen in Speicherdateien für Ihr Projekt zusammenfasst.

00:11:05Deaktivieren Sie es, werden Ihre Gewohnheiten nicht verfolgt, aber es spart Token im Hintergrund.

00:11:10Es gibt ein weiteres Flag namens "disable background task", das Hintergrundprozesse stoppt,

00:11:13die kontinuierlich Token verbrauchen.

00:11:17Dazu gehören "dream", "memory refactoring" sowie Reinigung und Hintergrund-Indizierung.

00:11:21Das Abschalten spart Token, da diese Prozesse sonst auch dann an Ihrem Gespräch

00:11:25arbeiten würden, wenn Sie gar nicht aktiv chatten.

00:11:27Deaktivieren Sie auch das "Thinking", wenn es nicht benötigt wird, da dies viel Kontext

00:11:30verbraucht und Token bei Aufgaben verschwendet, die es gar nicht erfordern.

00:11:34Dies unterscheidet sich von der vorhin besprochenen Effort-Einstellung.

00:11:38Effort steuert, wie viel Claude innerhalb einer Antwort abwägt; weniger Effort

00:11:39bedeutet also weniger Denkarbeit, aber es denkt immer noch.

00:11:43Das komplette Deaktivieren von "Thinking" schaltet den internen Argumentationsschritt aus,

00:11:44und Claude generiert die Antwort direkt.

00:11:49Wenn Ihre Aufgabe kein tiefes Nachdenken erfordert, schalten Sie "Thinking" ganz aus.

00:11:52Wird etwas Denkarbeit benötigt, senken Sie stattdessen das Effort-Level.

00:11:56Konfigurieren Sie schließlich "max output tokens" auf eine feste Zahl.

00:11:57Es gibt keinen Standardwert, aber das Limit kontrolliert, wie viel das Modell generiert.

00:12:00Stellen Sie es niedriger ein, um aggressiv Token zu sparen, oder höher für längere Ausgaben.

00:12:02Das "Claude.md"-Template und weitere Ressourcen für dieses und alle früheren Videos

00:12:06finden Sie in AI Labs Pro zum Download für Ihre eigenen Projekte.

00:12:10Wenn Ihnen unsere Arbeit gefällt und Sie den Kanal unterstützen möchten, ist dies der beste Weg.

00:12:13Der Link steht in der Beschreibung.

00:12:16Damit sind wir am Ende dieses Videos angelangt.

00:12:20Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin solche Videos zu machen,

00:12:23können Sie das über den "Super Thanks"-Button unten tun.

00:12:28Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.

00:12:30...

00:12:34...

00:12:35...

00:12:39...

00:12:43...

00:12:46...

00:12:50...

00:12:55...

00:12:56...

00:13:00...

00:13:05...

00:13:09...

00:13:10...

00:13:11...

00:13:13...

00:13:17...

00:13:19...

Key Takeaway

Durch die Kombination von granularen CLI-Befehlen wie 'compact', einer modularisierten Dokumentationsstruktur unter 300 Zeilen und dem Deaktivieren von Hintergrund-Tasks lässt sich die tägliche Nutzungsdauer von Claude Code trotz strikter Nachrichten-Limits signifikant verlängern.

Highlights

Das 5-Stunden-Fenster für Nachrichten-Limits startet mit der ersten Anfrage und gilt geräteübergreifend für das gesamte Konto.

Der Pro-Plan bietet etwa 45 Nachrichten pro Fenster, während der Max-Plan bis zu 225 und spezielle Pläne bis zu 900 Nachrichten erlauben.

Opus-Modelle verbrauchen pro Anfrage etwa dreimal so viele Token wie Sonnet-Modelle und reduzieren die verfügbare Nachrichtenanzahl drastisch.

Manuelle Befehle wie 'clear', 'compact' und 'rewind' entfernen unnötigen Kontext und sparen Token für nachfolgende Interaktionen.

Eine optimierte 'Claude.md'-Datei sollte weniger als 300 Zeilen umfassen und nur projektspezifische Anweisungen enthalten, die über Standardwissen hinausgehen.

Das Deaktivieren von Hintergrundprozessen wie 'auto memory', 'dream' und 'background indexing' in den Konfigurationsdateien verhindert kontinuierlichen Token-Verlust.

Hooks für Skripte können Inhalte filtern, sodass beispielsweise nur fehlgeschlagene Testergebnisse statt des gesamten Protokolls in den Kontext gelangen.

Timeline

Funktionsweise des Nachrichten-Limitsystems

Jeder kostenpflichtige Plan unterliegt einer festen Nachrichtenbegrenzung innerhalb eines rollierenden 5-Stunden-Fensters.
Das Zeitfenster beginnt mit der ersten Nachricht und läuft unabhängig von der tatsächlichen Aktivität des Nutzers ab.
Die Limits sind kontogebunden und werden durch die Nutzung verschiedener Geräte gleichzeitig erschöpft.

Die Anzahl der verfügbaren Nachrichten variiert stark zwischen den Modellen und Plänen. Während der Pro-Plan für 20 $ monatlich etwa 45 Nachrichten bietet, stellt der Max-Plan 225 Nachrichten bereit. Inaktivität pausiert das Fenster nicht, sodass Nutzer nach Erreichen des Limits die vollen fünf Stunden abwarten müssen, bis eine Zurücksetzung erfolgt.

Einflussfaktoren auf den Token-Verbrauch

Die Wahl des Modells bestimmt maßgeblich die Geschwindigkeit, mit der das Limit erreicht wird.
Rechenintensive Aufgaben mit mehreren Tool-Aufrufen verbrauchen mehr Token als einfache Textanfragen.
Anthropic reduziert die Sitzungslimits während allgemeiner Stoßzeiten zusätzlich, um die Serverlast zu bewältigen.

Opus-Modelle sind zwar leistungsfähiger, aber auch deutlich rechenintensiver als Sonnet, was zu einem dreifach höheren Token-Verbrauch führt. In Organisationen, die einen Max-Plan teilen, führt die gleichzeitige Nutzung durch mehrere Teammitglieder zu einer extrem schnellen Erschöpfung des Kontingents. Externe Faktoren wie die Auslastung der Plattform beeinflussen die verfügbare Kapazität zusätzlich.

Interaktive Befehle zur Kontext-Optimierung

Der 'clear'-Befehl löscht den gesamten bisherigen Kontext für einen sauberen Neustart nach abgeschlossenen Teilaufgaben.
Die 'compact'-Funktion ersetzt den detaillierten Verlauf durch eine kurze Zusammenfassung im Kontextfenster.
Mit 'rewind' oder doppeltem Drücken der Escape-Taste lassen sich fehlerhafte Implementierungen rückwirkend aus dem Verlauf entfernen.

Da Claude bei jeder neuen Nachricht den gesamten bisherigen Gesprächsverlauf mitsendet, wächst der Token-Verbrauch exponentiell an. Nebenfragen sollten über den 'by the way'-Befehl gestellt werden, da dieser in einem separaten Sitzungskontext antwortet und den Hauptverlauf nicht belastet. Frühzeitige Planung spart Token, da sie spätere Korrekturschleifen minimiert.

Effiziente Projektstruktur und Dokumentation

Standard-Frameworks zur Strukturierung sind oft zu tokenintensiv für Nutzer des Pro-Plans.
Die zentrale 'Claude.md'-Datei dient als schlanker Leitfaden und nicht als vollständiges Handbuch.
Modulare Dokumente für Datenbanken oder Schemata sollten nur bei Bedarf über Verlinkungen geladen werden.

Eine effiziente 'Claude.md' beschränkt sich auf Informationen, die das Modell nicht bereits aus der Dateistruktur oder Standardbefehlen ableiten kann. Durch die Aufteilung in bereichsspezifische Regeldateien lädt Claude nur die Logik, die für die aktuelle Aufgabe relevant ist. Der Einsatz von Skripten für deterministische Aufgaben verhindert, dass wertvolle Token für Prozesse verschwendet werden, die programmatisch lösbar sind.

Erweiterte Konfigurationen und Hintergrundprozesse

Manuelles Einstellen des Effort-Levels auf 'low' spart bei einfachen Aufgaben Rechenleistung und Token.
Das Deaktivieren der 'Thinking'-Funktion überspringt den internen Argumentationsschritt für direkte Antworten.
Aktiviertes Prompt-Caching reduziert die Kosten für wiederholt gesendete System-Präfixe.

In den Konfigurationsdateien im '.claud'-Ordner lassen sich Hintergrund-Tasks wie 'dream', 'memory refactoring' und die automatische Indizierung abschalten, die sonst auch bei Inaktivität Token verbrauchen würden. Hooks ermöglichen es zudem, Datenströme zu filtern, sodass beispielsweise bei Testläufen nur Fehlermeldungen in den Kontext übernommen werden. Die Festlegung eines festen Wertes für 'max output tokens' bietet zusätzliche Kontrolle über die Länge der generierten Antworten.

Community Posts

Praktisches Kontext-Management: Claude Code Token-Verbrauch um 40% senken

makedream15 日前6550

Write about this video