Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten

Anthropic hat in Zusammenarbeit mit dem SpaceX Colossus 1 Rechenzentrum begonnen, eine Infrastruktur mit 220.000 GPUs zu betreiben. Die Vergrößerung der Infrastruktur bedeutet nicht nur, dass das Modell intelligenter geworden ist. Für uns Entwickler ist es ein Signal, dass sich das Token-Limit pro Minute (TPM), das bisher ein Flaschenhals im Servicebetrieb war, grundlegend verändern wird. Die erste Hürde bei der Bereitstellung großer Agenten ist nicht die Modellleistung, sondern der Fehler 429 Too Many Requests.

Sicherung eines Limits von 4 Millionen Token pro Minute durch Upgrade auf Tier 4

Damit ein Agent komplexe Codebasen analysieren oder die Anfragen von Tausenden von Benutzern gleichzeitig verarbeiten kann, ist mindestens die Berechtigung der Stufe Tier 4 erforderlich. Ab 2026 erhöht sich das Limit für Eingabe-Token pro Minute (ITPM) beim Aufstieg in Tier 4 auf bis zu 4.000.000. Da dies ein System ist, das automatisch basierend auf dem kumulierten Zahlungsbetrag entschieden wird, müssen Sie strategisch vorgehen.

Laden Sie im Billing-Menü der Anthropic-Konsole vorab ein Startguthaben von mindestens 400 USD auf. Sie müssen den Schwellenwert für kumulierte Zahlungen sofort erreichen, damit das System die Stufe automatisch anhebt.
Fixieren Sie den Parameter service_tier im API-Request-Header auf auto. Dies ermöglicht einen flexiblen Wechsel zwischen reservierter Kapazität und Standardkontingenten, um Traffic-Spitzen standzuhalten.
Beantragen Sie den Beta-Zugang für das 1M-Kontextfenster. Ab Tier 4 wird der Zugriff auf die Berechtigung, große Datenmengen auf einmal einzuspeisen, priorisiert vergeben.

Sobald die Vorbereitungen abgeschlossen sind, öffnet sich das Limit auf bis zu 4.000 Anfragen pro Minute (RPM). Jetzt wird der Service nicht mehr gestoppt, weil die API bei hohem Traffic blockiert wird.

Senkung der Eingabekosten um 90% durch Prompt Caching

Das vergrößerte Kontextfenster ist ein zweischneidiges Schwert. Nur weil man 1 Million Token nutzen kann, bedeutet das nicht, dass das Bankkonto es verkraftet, wenn man sie jedes Mal vollständig sendet. Das Context Caching von Anthropic fixiert wiederkehrende System-Prompts oder Referenzdokumente im Serverspeicher. Basierend auf Claude Sonnet 4.6 kosten die Lesezugriffe auf den Cache 0,30 USD pro 1 Million Token. Im Vergleich zu den regulären Eingabekosten von 3,00 USD ist dies nur ein Zehntel.

Platzieren Sie unveränderliche Tool-Definitionen (Tool Definitions) ganz oben im Prompt und setzen Sie den ersten Cache-Unterbrechungspunkt (Breakpoint).
Platzieren Sie Dokumente, die aus einer Wissensdatenbank oder via RAG abgerufen wurden, in der Mitte und setzen Sie einen zweiten Unterbrechungspunkt. Nutzen Sie die Daten über die gesamte Sitzung hinweg wieder.
Stellen Sie sicher, dass der Präfix (Prefix) mindestens 2.048 Token umfasst. Wenn dieser Wert unterschritten wird, funktioniert die Caching-Funktion überhaupt nicht.

Wenn Sie die Cache-Hit-Rate auf nur 80% steigern, erhöht sich der tatsächliche Durchsatz um mehr als das Fünffache. Ihr Geldbeutel wird nicht leerer, während der Agent mehr Arbeit erledigt.

Hybrid-Design durch Mischen der Batch API

Nicht jede Anfrage muss innerhalb einer Sekunde abgeschlossen sein. Bei Aufgaben wie Daten-Labeling oder der Indizierung von Codebasen ist eine Echtzeit-Antwort nicht entscheidend. Solche Aufgaben können an die Batch API übergeben werden, wodurch die Kosten um die Hälfte sinken. Der Kern des Designs liegt darin, Aufgaben herauszufiltern, bei denen es ausreicht, das Ergebnis innerhalb von 24 Stunden zu erhalten.

Nutzen Sie die Messages API für Funktionen, die direkt mit dem Kunden kommunizieren, und trennen Sie alle internen Hintergrundaufgaben in die Batch-API-Gruppe.
Binden Sie eine Workflow-Engine wie Temporal an, um Batch-IDs zu verfolgen und asynchrone Pipelines zu erstellen, damit die nächste Logik zum Zeitpunkt der Fertigstellung ausgeführt wird.
Wenden Sie auch auf Batch-Anfragen ein 1-Stunden-TTL-Caching an. So können Sie den Batch-Rabatt von 50% mit dem Rabatt für das Caching von Eingabe-Token kombinieren.

In einer Umgebung, die monatlich 100 Millionen Token verbraucht, sinken die Betriebskosten durch diese Struktur von etwa 660 USD auf etwa 320 USD. Es ist weitaus vorteilhafter, das gesparte Geld zu nutzen, um die Anzahl der Schlussfolgerungen (Inference) des Agenten zu erhöhen.

Verkürzung der TTFT durch Cross-Region Routing

Da die Infrastruktur über ganz Nordamerika verteilt ist, variiert die Zeit bis zum ersten generierten Token (TTFT) je nach angesteuertem Endpunkt um hunderte Millisekunden. Mit der Cross-Region-Inference-Funktion von AWS Bedrock können Ressourcen aus mehreren Regionen gebündelt verwaltet werden. Anfragen werden automatisch von Regionen mit hohem Traffic zu Orten mit reichlich verfügbaren Ressourcen weitergeleitet.

Platzieren Sie ein Cloudflare AI Gateway vor den API-Aufrufen. Die Nutzung von Edge-Caching über mehr als 300 Standorte (PoP) weltweit beschleunigt die Antwortzeiten.
Aktivieren Sie in den SDK-Einstellungen das latenzbasierte Routing (Latency-based Routing). Es wählt in Echtzeit die Region aus, die am schnellsten antwortet, und sendet die Pakete dorthin.
Erzwingen Sie das HTTP/3-Protokoll. Die Handshake-Zeit wird verkürzt und die Verbindung bleibt auch in instabilen Netzwerken stabil.

Allein durch die Optimierung der Netzwerkeinstellungen kann die Antwortzeit um mehr als 35% reduziert werden. In dem Maße, in dem die Infrastruktur wächst, entscheidet die Technologie zur Pfadoptimierung über die Benutzererfahrung.

Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten

Sicherung eines Limits von 4 Millionen Token pro Minute durch Upgrade auf Tier 4

Laden Sie im Billing-Menü der Anthropic-Konsole vorab ein Startguthaben von mindestens 400 USD auf. Sie müssen den Schwellenwert für kumulierte Zahlungen sofort erreichen, damit das System die Stufe automatisch anhebt.

Fixieren Sie den Parameter service_tier im API-Request-Header auf auto. Dies ermöglicht einen flexiblen Wechsel zwischen reservierter Kapazität und Standardkontingenten, um Traffic-Spitzen standzuhalten.

Beantragen Sie den Beta-Zugang für das 1M-Kontextfenster. Ab Tier 4 wird der Zugriff auf die Berechtigung, große Datenmengen auf einmal einzuspeisen, priorisiert vergeben.

Senkung der Eingabekosten um 90% durch Prompt Caching

Platzieren Sie unveränderliche Tool-Definitionen (Tool Definitions) ganz oben im Prompt und setzen Sie den ersten Cache-Unterbrechungspunkt (Breakpoint).

Platzieren Sie Dokumente, die aus einer Wissensdatenbank oder via RAG abgerufen wurden, in der Mitte und setzen Sie einen zweiten Unterbrechungspunkt. Nutzen Sie die Daten über die gesamte Sitzung hinweg wieder.

Stellen Sie sicher, dass der Präfix (Prefix) mindestens 2.048 Token umfasst. Wenn dieser Wert unterschritten wird, funktioniert die Caching-Funktion überhaupt nicht.

Wenn Sie die Cache-Hit-Rate auf nur 80% steigern, erhöht sich der tatsächliche Durchsatz um mehr als das Fünffache. Ihr Geldbeutel wird nicht leerer, während der Agent mehr Arbeit erledigt.

Hybrid-Design durch Mischen der Batch API

Nutzen Sie die Messages API für Funktionen, die direkt mit dem Kunden kommunizieren, und trennen Sie alle internen Hintergrundaufgaben in die Batch-API-Gruppe.

Binden Sie eine Workflow-Engine wie Temporal an, um Batch-IDs zu verfolgen und asynchrone Pipelines zu erstellen, damit die nächste Logik zum Zeitpunkt der Fertigstellung ausgeführt wird.

Wenden Sie auch auf Batch-Anfragen ein 1-Stunden-TTL-Caching an. So können Sie den Batch-Rabatt von 50% mit dem Rabatt für das Caching von Eingabe-Token kombinieren.

Verkürzung der TTFT durch Cross-Region Routing

Platzieren Sie ein Cloudflare AI Gateway vor den API-Aufrufen. Die Nutzung von Edge-Caching über mehr als 300 Standorte (PoP) weltweit beschleunigt die Antwortzeiten.

Aktivieren Sie in den SDK-Einstellungen das latenzbasierte Routing (Latency-based Routing). Es wählt in Echtzeit die Region aus, die am schnellsten antwortet, und sendet die Pakete dorthin.

Erzwingen Sie das HTTP/3-Protokoll. Die Handshake-Zeit wird verkürzt und die Verbindung bleibt auch in instabilen Netzwerken stabil.

Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten

Related Video

Die Anthropic & xAI Partnerschaft im Detail: Alle Hintergründe

Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten

Sicherung eines Limits von 4 Millionen Token pro Minute durch Upgrade auf Tier 4

Senkung der Eingabekosten um 90% durch Prompt Caching

Hybrid-Design durch Mischen der Batch API

Verkürzung der TTFT durch Cross-Region Routing

Comments (0)

Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten

Sicherung eines Limits von 4 Millionen Token pro Minute durch Upgrade auf Tier 4

Senkung der Eingabekosten um 90% durch Prompt Caching

Hybrid-Design durch Mischen der Batch API

Verkürzung der TTFT durch Cross-Region Routing