Log in to leave a comment
No posts yet
Hören Sie auf, Redis selbst zu betreiben oder Textprotokolle in Ihrer Datenbank zu stapeln, um die Konversationshistorie pro Benutzer zu verwalten. Für Startup-Entwickler, die mit dem Infrastrukturmanagement überlastet sind, ist das ständige Senden des gesamten Kontextes an das Modell reine Token-Verschwendung und führt zu technischen Schulden. Anthropic Managed Agents speichern Ereignisprotokolle serverseitig über eine einzige session_id.
Es ist ganz einfach: Erstellen Sie lediglich eine Spalte anthropic_session_id in Ihrer bestehenden users-Tabelle. Wenn diese ID beim Zugriff eines Benutzers leer ist, rufen Sie die API auf, um eine neue Sitzung zu erstellen, und speichern Sie diese in der Datenbank. Falls bereits eine ID vorhanden ist, übergeben Sie diesen Wert einfach, um die Sitzung fortzusetzen.
Durch dieses Refactoring lassen sich die Kosten für Serverressourcen um mehr als 40% senken. Die Anzahl der Datenbank-E/A-Zugriffe sinkt natürlich, und vor allem wird die Effizienz des Prompt-Cachings maximiert, wodurch die Kosten für Eingabe-Token, die bisher bei jeder Übertragung redundant gesendet wurden, spürbar verschwinden. Im Vergleich zu den Kosten für den Betrieb eines eigenen Servers zur Kontextverwaltung liegt der operative Aufwand praktisch bei Null.
Das schlimmste Szenario bei der Vergabe von Notion- oder GitHub-Berechtigungen an einen Agenten ist der Abfluss von API-Schlüsseln. Wenn Sie Schlüssel in Server-Umgebungsvariablen speichern, können durch eine einzige Prompt-Injection alle Berechtigungen kompromittiert werden. Managed Agents nutzen ein Proxy-Modell namens Credential Vault, sodass selbst der Agent die tatsächlichen Schlüsselwerte nie zu Gesicht bekommt.
Um die Sicherheit zu gewährleisten, sollten Sie für jedes Projekt eine unabhängige Vault-Instanz erstellen. Wenn Sie API-Schlüssel externer Dienste im Vault registrieren, müssen Sie sicherstellen, dass sensible Daten gar nicht erst in den Antwortwerten enthalten sind. Durch Angabe der vault_ids beim Start einer Sitzung injiziert die Anthropic-Infrastruktur die Schlüssel automatisch in die Request-Header.
Dadurch entfällt die Notwendigkeit, Schlüssel auf dem lokalen Server zu speichern, was das Sicherheitsrisiko eliminiert. Insbesondere mühsame Aufgaben wie die Erneuerung von OAuth-Token werden vom Managed Agent übernommen, sodass Entwickler keine komplexe Logik schreiben müssen. Die Wahrscheinlichkeit von Sicherheitsvorfällen sinkt um über 90%, während die Integration erheblich komfortabler wird.
Komfort hat seinen Preis. Managed Agents berechnen eine Laufzeitgebühr von 0,08$ pro Stunde, solange eine Sitzung aktiv ist. Das bedeutet, dass Geld abfließt, wenn man sie einfach laufen lässt. Da jedoch in der Leerlaufzeit (Idle Time) keine Gebühren anfallen, ist eine Middleware erforderlich, die den Sitzungslebenszyklus präzise verwaltet.
Wenden Sie drei Automatisierungsstrategien an, um Kosten zu sparen: Erstens: Wenn 15 Minuten lang keine Benutzereingabe erfolgt, versetzen Sie die Sitzung sofort in den Leerlaufzustand und stellen Sie sie so ein, dass sie nach einer Stunde automatisch archiviert wird. Zweitens: Hintergrundaufgaben sollten die Sitzung sofort nach Ausgabe des Ergebnisses beenden und löschen. Drittens: Legen Sie in der Anthropic-Konsole ein monatliches Ausgabenlimit fest, um unerwartete Sitzungsspitzen von vornherein zu blockieren.
Der Schlüssel liegt darin, die aktive Zeit zu reduzieren. Durch die korrekte Implementierung einer Leerlauf-Management-Logik lassen sich die gesamten Betriebskosten um weitere 25% senken.
Wenn die Antwort des Agenten träge ist, springen die Benutzer sofort ab. Managed Agents reduzieren die Verarbeitungszeit durch Prompt-Caching um bis zu 85%, aber die Cold-Start-Zeit beim ersten Start einer Sitzung müssen Sie selbst lösen.
Um die Antwortzeit um mehr als 2 Sekunden zu verkürzen, rufen Sie die bestehende Sitzung sofort nach Erhalt der user_id ab und starten Sie unverzüglich die SSE (Server-Sent Events) Verbindung. Eine weitere Methode ist die Gestaltung des System-Prompts mit mehr als 1.024 Token. Nur dann wird das Prompt-Caching aktiviert, wodurch die Zeit bis zum ersten Token (TTFT) von 2,2 Sekunden auf etwa 0,8 Sekunden sinkt.
Falls der Agent während eines Tool-Aufrufs ein Stopp-Signal sendet, muss der Backend-Handler dies abfangen und die Konversation sofort fortsetzen. Mit dieser Art von Ausnahmebehandlung und Selbstreparatur-Logik steigt die Erfolgsquote komplexer Aufgaben um mehr als 10 Prozentpunkte. So entsteht eine Umgebung, in der man sich ohne Sorgen um die Infrastruktur ganz auf die Business-Logik konzentrieren kann.