Log in to leave a comment
No posts yet
Das Mikro-Sharding, das von Frameworks wie LangChain oder AutoGPT vorangetrieben wurde, ist gescheitert. Wenn man Schritte in Dutzende von Fragmenten aufteilt, mag die Logikkette zwar ausgefeilt erscheinen, in der Praxis wird jedoch bei jedem Aufruf der Kontext abgeschnitten, was lediglich die Nicht-Deterministik erhöht. Bei der Nutzung von LLMs mit massiv gesteigerten Denkfähigkeiten, wie Claude 3.5 oder dem bald erscheinenden Claude 4 Modell, muss die Strategie geändert werden. Hören Sie auf, mit fragmentierten Knoten zu kämpfen. Integrieren Sie stattdessen in eine zentralisierte Zustandsmanagement-Struktur, die von einem Planner gesteuert wird.
Um einen erfolgreichen Architekturwechsel zu vollziehen, kapseln Sie zunächst bestehende Mikro-Tasks als Methoden innerhalb einer Klasse in ein Tool-Repository (Tool Box) ein. Definieren Sie anschließend ein einzelnes State-Objekt, auf das alle Agenten referenzieren. Dieses muss zwingend die Felder plan (Schritt-für-Schritt-Plan), history (Tool-Ausführungsprotokoll) und artifacts (generierte Daten) enthalten.
Nutzen Sie die Reducer-Funktion von LangGraph, um diesen gemeinsamen Zustand jedes Mal zu aktualisieren, wenn ein Agent eine Aufgabe abschließt. Durch die physische Blockierung von Kontextabbrüchen entfällt das Senden redundanter Token. Teams, die auf diese Struktur umgestellt haben, konnten ihre API-Kosten sofort um über 30% senken.
Subjektive Urteile wie "das Ergebnis sieht gut aus" sind in einer Deployment-Umgebung wie eine Zeitbombe. Führen Sie das LLM-as-a-Judge Pattern ein, aber erzwingen Sie dies zwingend auf Code-Ebene. Der Evaluator-Agent muss die Ergebnisse des Generators in vier Metriken unterteilen – Genauigkeit, Konsistenz, Lesbarkeit und Effizienz – und diese in Zahlen umwandeln.
Verwenden Sie die Pydantic-Bibliothek, um zu erzwingen, dass das Bewertungsergebnis einem bestimmten JSON-Schema folgt.
RubricScore-Klasse und legen Sie jede Metrik als Integer-Feld zwischen 1 und 5 fest.Merge Block aus, um das Deployment in der CI/CD-Pipeline automatisch zu stoppen und ein Signal zur Überarbeitung zu senden.Durch den Aufbau eines solchen automatisierten Validierungssystems reduziert sich der Prüfaufwand, der manuell 5 Stunden dauerte, auf unter 10 Minuten. Mechanische Bewertung ist zwar kühl, erhöht aber die Vorhersehbarkeit des Systems entsprechend.
Sobald der Agent-Loop startet, sammeln sich Token mit erschreckender Geschwindigkeit an. Systemanweisungen und Tool-Definitionen jedes Mal neu zu senden, ist wie Geld auf die Straße zu werfen. Das Prompt Caching von Claude berechnet für gecachte Token nur etwa 10% der regulären Gebühr. Um diesen Vorteil zu nutzen, müssen Sie eine Präfix-Matching-Strategie anwenden, bei der die Prompt-Struktur von statischen zu dynamischen Teilen (Tools → System → Messages) angeordnet wird.
cache_control Breakpoints.<system-reminder> Tags, um variable Informationen einzufügen. So bleibt der Cache des oberen Präfixes intakt.Mit einer richtig entworfenen Caching-Strategie können Sie die API-Aufrufkosten um bis zu 90% senken. Auch die Antwortgeschwindigkeit wird spürbar schneller. Es ist der einzige Weg, sowohl Geld als auch Zeit zu sparen.
Wenn Generator und Evaluator stur aufeinander beharren und keine Einigung finden, gerät der Agent in einen Deadlock. Dies ist nicht nur ein einfacher Fehler, sondern eine Katastrophe, die zu explodierenden Kosten führt. Um dies zu verhindern, ist ein mehrschichtiger Circuit Breaker erforderlich, der die Anzahl der Arbeitsschritte und die Ähnlichkeit der Antworten überwacht. Insbesondere wenn die Kosinus-Ähnlichkeit zwischen der vorherigen und der aktuellen Antwort über 0,95 liegt, ist dies ein klares Signal, dass der Agent denselben Inhalt wiederholt und dumm in einer Schleife läuft.
Dem Agenten die volle Vollmacht zu übertragen, ist nicht mutig, sondern unverantwortlich. Es ist besser, ein Agenten-System ohne Sicherheitsvorrichtungen gar nicht erst zu betreiben.
Der Prozess, in dem drei Agenten gemischt zusammenarbeiten, ist eine Blackbox. Ohne zu wissen, wo Engpässe entstehen, ist eine Verbesserung unmöglich. Schließen Sie ein Tracking-System an, das dem OpenTelemetry-Standard entspricht, um den Nachrichtenfluss zwischen den Agenten zu visualisieren. Durch die Implementierung von Redis-basiertem Checkpointing müssen Sie bei einem Systemabsturz nicht von vorne beginnen, sondern können am letzten erfolgreichen Punkt fortfahren.
Extrahieren Sie den Wert cache_read_input_tokens aus den API-Antwort-Headern und stellen Sie ihn im Dashboard dar. Eine niedrige Cache-Hit-Rate ist ein Beweis dafür, dass die Prompt-Struktur fehlerhaft ist. Wenn Sie zudem die Geschwindigkeit, mit der der Loop konvergiert, als Metrik verwalten, können Sie den Erfolg des Prompt-Engineerings in Zahlen belegen. Speichern Sie Session-IDs und Artefakt-Versionen in PostgreSQL, um präzise zu rekonstruieren, an welchen Stellen das Agent-Team in der Vergangenheit Schwierigkeiten hatte. Agenten, die nicht protokolliert werden, werden niemals klüger.