Konkrete Methoden zur Sicherung von TPM-Limits beim Aufbau von Claude-Agenten
2026년 5월 7일
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Anthropic hat in Zusammenarbeit mit dem SpaceX Colossus 1 Rechenzentrum begonnen, eine Infrastruktur mit 220.000 GPUs zu betreiben. Die Vergrößerung der Infrastruktur bedeutet nicht nur, dass das Modell intelligenter geworden ist. Für uns Entwickler ist es ein Signal, dass sich das Token-Limit pro Minute (TPM), das bisher ein Flaschenhals im Servicebetrieb war, grundlegend verändern wird. Die erste Hürde bei der Bereitstellung großer Agenten ist nicht die Modellleistung, sondern der Fehler 429 Too Many Requests.
Damit ein Agent komplexe Codebasen analysieren oder die Anfragen von Tausenden von Benutzern gleichzeitig verarbeiten kann, ist mindestens die Berechtigung der Stufe Tier 4 erforderlich. Ab 2026 erhöht sich das Limit für Eingabe-Token pro Minute (ITPM) beim Aufstieg in Tier 4 auf bis zu 4.000.000. Da dies ein System ist, das automatisch basierend auf dem kumulierten Zahlungsbetrag entschieden wird, müssen Sie strategisch vorgehen.
service_tier im API-Request-Header auf auto. Dies ermöglicht einen flexiblen Wechsel zwischen reservierter Kapazität und Standardkontingenten, um Traffic-Spitzen standzuhalten.Sobald die Vorbereitungen abgeschlossen sind, öffnet sich das Limit auf bis zu 4.000 Anfragen pro Minute (RPM). Jetzt wird der Service nicht mehr gestoppt, weil die API bei hohem Traffic blockiert wird.
Das vergrößerte Kontextfenster ist ein zweischneidiges Schwert. Nur weil man 1 Million Token nutzen kann, bedeutet das nicht, dass das Bankkonto es verkraftet, wenn man sie jedes Mal vollständig sendet. Das Context Caching von Anthropic fixiert wiederkehrende System-Prompts oder Referenzdokumente im Serverspeicher. Basierend auf Claude Sonnet 4.6 kosten die Lesezugriffe auf den Cache 0,30 USD pro 1 Million Token. Im Vergleich zu den regulären Eingabekosten von 3,00 USD ist dies nur ein Zehntel.
Tool Definitions) ganz oben im Prompt und setzen Sie den ersten Cache-Unterbrechungspunkt (Breakpoint).Prefix) mindestens 2.048 Token umfasst. Wenn dieser Wert unterschritten wird, funktioniert die Caching-Funktion überhaupt nicht.Wenn Sie die Cache-Hit-Rate auf nur 80% steigern, erhöht sich der tatsächliche Durchsatz um mehr als das Fünffache. Ihr Geldbeutel wird nicht leerer, während der Agent mehr Arbeit erledigt.
Nicht jede Anfrage muss innerhalb einer Sekunde abgeschlossen sein. Bei Aufgaben wie Daten-Labeling oder der Indizierung von Codebasen ist eine Echtzeit-Antwort nicht entscheidend. Solche Aufgaben können an die Batch API übergeben werden, wodurch die Kosten um die Hälfte sinken. Der Kern des Designs liegt darin, Aufgaben herauszufiltern, bei denen es ausreicht, das Ergebnis innerhalb von 24 Stunden zu erhalten.
In einer Umgebung, die monatlich 100 Millionen Token verbraucht, sinken die Betriebskosten durch diese Struktur von etwa 660 USD auf etwa 320 USD. Es ist weitaus vorteilhafter, das gesparte Geld zu nutzen, um die Anzahl der Schlussfolgerungen (Inference) des Agenten zu erhöhen.
Da die Infrastruktur über ganz Nordamerika verteilt ist, variiert die Zeit bis zum ersten generierten Token (TTFT) je nach angesteuertem Endpunkt um hunderte Millisekunden. Mit der Cross-Region-Inference-Funktion von AWS Bedrock können Ressourcen aus mehreren Regionen gebündelt verwaltet werden. Anfragen werden automatisch von Regionen mit hohem Traffic zu Orten mit reichlich verfügbaren Ressourcen weitergeleitet.
Latency-based Routing). Es wählt in Echtzeit die Region aus, die am schnellsten antwortet, und sendet die Pakete dorthin.Allein durch die Optimierung der Netzwerkeinstellungen kann die Antwortzeit um mehr als 35% reduziert werden. In dem Maße, in dem die Infrastruktur wächst, entscheidet die Technologie zur Pfadoptimierung über die Benutzererfahrung.