Ich habe meine KI-Agenten-Kosten um 70 % gesenkt – mit dieser einen Änderung (Manifest)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Das ist Manifest. Ich habe es für ein Wochenende ausprobiert und meine Token-Kosten sanken um 70 %.
00:00:05Derselbe Agent, dieselben Aufgaben, nur besseres Routing. Wenn Sie KI-Agenten bauen, ist die Wahrscheinlichkeit hoch,
00:00:11dass Sie viel mehr bezahlen, als Sie sollten. Die meisten Anfragen benötigen kein GPT-4-o oder Claude Opus,
00:00:17aber genau das wird oft aufgerufen. Also nutzt unser Agent am Ende teure Modelle für
00:00:22einfache Dinge wie Klassifizierung, Routing, Zusammenfassungen, und so wird Ihre Rechnung stillschweigend
00:00:27drei- bis fünfmal höher, als sie sein sollte. Wie funktioniert Manifest überhaupt? Finden wir es heraus.
00:00:37Hier liegt das Problem. Agenten machen nicht nur ein paar Aufrufe, sie machen Tausende davon.
00:00:44Und die meisten dieser Aufrufe sind sehr einfach. Ein Tool wählen, einen Textabschnitt zusammenfassen, Input klassifizieren. Aber wenn
00:00:50alles an das beste Modell geht, zahlen Sie einen Premiumpreis für ziemlich einfache Arbeit. Man könnte
00:00:57versuchen, das durch Routing-Logik zu lösen, und schon ist Ihr Code voll von diesen If-Else-
00:01:02Anweisungen, die sofort kaputtgehen, sobald sich Ihre Prompts ändern. Okay, wir könnten einfach OpenRouter nutzen,
00:01:08klar, aber das kostet Gebühren. Und Ihre Prompts verlassen dabei die Maschine. Ich schätze, es gibt
00:01:13auch etwas namens LiteLLM, das Sie ausprobieren könnten, was solide ist, aber Sie müssen das Routing immer noch
00:01:18manuell verwalten. Das eigentliche Problem ist also nicht der Zugang zu Modellen, sondern jedes Mal das richtige zu wählen.
00:01:25Und genau das, meine Damen und Herren, macht Manifest. Es sitzt zwischen Ihrem Agenten und Ihren Modellen.
00:01:31Sie senden eine Anfrage, es bewertet diese über 23 Dimensionen und leitet sie an das günstigste Modell weiter,
00:01:36das sie bearbeiten kann. Es gibt keine Umschreibungen, nur einen Endpunkt. Wenn Sie solche Coding-Tools und Tipps
00:01:41mögen, abonnieren Sie unbedingt den Kanal. Wir bringen ständig neue Videos. Also gut, zeigen wir es.
00:01:47Derselbe Agent, dieselbe Aufgabe. Ich starte Manifest hier mit Docker, ein einfacher Curl-Befehl, Docker Compose up,
00:01:55und jetzt zeige ich meinen OpenAI-Endpunkt darauf. Das ist die einzige Änderung hier. Jetzt kann ich verschiedene
00:02:01Modelle verknüpfen, wie Sie sehen: Anthropic, OpenAI, Ollama. Ich habe OpenAI gewählt, meinen Key eingetragen und
00:02:08Ollama verknüpft, damit es dazwischen wechseln kann. Und jetzt führen wir dieses Python-Skript aus. Sie sehen, ich nutze
00:02:12den Manifest-API-Key hier. Das ist der einzige Key, den wir brauchen, weil Manifest die anderen hat, okay?
00:02:18Wenn wir das ausführen, fängt der Agent an zu arbeiten. Und anstatt alles an ein teures
00:02:24Modell zu senden, trifft Manifest eine Entscheidung. Das hier ist einfach. Routing günstiger. Jetzt zurück hierher. Unser Dashboard
00:02:31aktualisiert sich in Echtzeit und zeigt uns Token-Nutzung, Kosten pro Agent und Budget-Tracking. Die Zahl
00:02:38kann variieren, aber es kann bis zu 70 % günstiger sein. Dasselbe Ergebnis, niedrigere Kosten, und weil
00:02:44dies lokal läuft, verlassen Ihre Prompts nicht Ihre Maschine, nur um geroutet zu werden. Das hat nicht viel
00:02:50Zeit oder Ressourcen gekostet, also lohnt es sich, es in Ihren Workflow zu integrieren, besonders wenn Sie
00:02:55KI entwickeln und nutzen. Okay, was passiert hier also eigentlich? Sie können Manifest als eine Art
00:03:00Controller betrachten, richtig? Ihr Agent sendet eine Anfrage, Manifest entscheidet, wohin sie eigentlich gehen sollte,
00:03:07also könnte das ein API-Modell sein, ein Abonnement, ein lokales Modell, Ollama oder Llama.cpp.
00:03:14Es unterstützt Hunderte von Modellen bei zahlreichen Anbietern, aber hier ist der wichtige Teil für
00:03:19das alles. Es ruft kein weiteres LLM auf, um zu entscheiden. Das wäre kontraproduktiv, es wäre einfach
00:03:25langsam und teuer. Stattdessen verwendet es deterministisches Scoring, sodass das Routing unter zwei Millisekunden dauert.
00:03:32Keine zusätzliche Latenz dabei. Manifest sitzt einfach in der Mitte und trifft bessere Entscheidungen,
00:03:38und es ist eindeutig für Agenten gebaut. Tool-Calls, Multi-Agent-Tracking, das haben wir, und wir haben sogar
00:03:44Observability eingebaut. Die größten Einsparungen kommen nicht von harten Prompts. Sie kommen von all den
00:03:50kleinen, langweiligen Aufrufen, die unsere Agenten ständig machen. Okay, also kurz, wie ist das
00:03:56anders als Tools, die wir bereits kennen? Ich werde das kurz vergleichen. Ich erwähnte vorhin
00:04:01OpenRouter. OpenRouter gibt Ihnen einen Cloud-Endpunkt, aber Ihr Traffic verlässt trotzdem Ihr
00:04:06System. Manifest kann vollständig selbst gehostet werden. Dann haben wir das Tool, das ich erwähnte: LiteLLM. Das gibt Ihnen
00:04:13ein einheitliches Interface, aber das Routing ist immer noch etwas, das Sie manuell steuern müssen. Manifest übernimmt das
00:04:19Routing automatisch. Es gibt auch Routing-Intelligenz. Manifest bewertet Anfragen über 23
00:04:25Dimensionen, das ist deren Version von Routing-Intelligenz. Andere Tools dieser Art setzen auf Failover
00:04:31oder Regeln. Dann haben wir Abonnements. Ja. Während Sie für Manifest selbst nichts zahlen, benötigen Sie natürlich
00:04:38Dinge wie einen OpenAI- oder Claude-API-Key, richtig? Der Fokus auf Agenten ist etwas, womit
00:04:46Manifest wirklich hervorsticht. Es ist für Multi-Agenten-Workflows gebaut. Der Unterschied ist also einfach.
00:04:51Wenn Sie Zugang wollen, nutzen Sie OpenRouter, richtig? Wenn Sie Kontrolle wollen, gibt es LiteLLM. Aber wenn Ihr
00:04:57Problem tatsächlich Kosten durch Agenten sind, weil wir all diese API-Aufrufe machen, ist Manifest dafür
00:05:03gebaut. Es gibt zahllose Tools, um Ihre Kosten zu senken. Sie müssen sie nur finden, und das ist eines
00:05:08der Mittel. Um ehrlich zu sein, es ist großartig, aber bei einem KI-Tool werden Sie Dinge haben,
00:05:14die einen manchmal am Kopf kratzen lassen. Zuerst das Gute. Da sind die Einsparungen, besonders durch Abo-Routing.
00:05:19Sie nutzen Pläne, für die Sie bereits bezahlen, anstatt wieder pro Token zu zahlen.
00:05:26Dann die Fallbacks, richtig? Wenn etwas fehlschlägt, läuft Ihr Agent weiter, was ein riesiger Gewinn ist.
00:05:33Dann das Dashboard. Das Dashboard ist großartig, weil Sie sehen können, wo Ihr Geld
00:05:38bei verschiedenen Modellen bleibt, pro Agent, pro Aufgabe, alles in Echtzeit. Und es funktioniert mit bestehenden
00:05:45Clients ohne große Umschreibungen. Aber wie gesagt, es gibt Dinge, die wir von so einem Tool erwarten
00:05:50würden. Und wissen Sie, zum Beispiel, dass das Scoring meinungsbasiert ist, richtig?
00:05:56KI. Okay. Manchmal routet es günstiger, als Sie erwarten würden. Sie können das überschreiben, aber Sie müssen wissen,
00:06:02dass das im Hintergrund passiert. Setup ist auch nicht bei Null, weil Sie immer noch Keys verwalten und
00:06:07Anbieter verbinden, aber es war todsicher einfach. Und Entwickler wollen immer mehr SDKs, Speicheroptionen und mehr
00:06:13Funktionen. Also ja, es ist cool, aber es ist immer noch Infrastruktur. Es ist nicht perfekt. Manche Dinge müssen
00:06:19angepasst werden. Es ist definitiv die Mühe wert, wenn Sie täglich Agenten ausführen oder wenn Ihre Agenten viele
00:06:25kleine Aufrufe tätigen. Sogar wenn Ihnen wichtig ist, Prompts lokal zu halten, ist das super, aber vielleicht nicht, wenn Sie
00:06:32Null-Setup wollen. In diesem Fall ist etwas wie OpenRouter einfacher, aber für die meisten Entwickler,
00:06:38die Agenten bauen, ist das eine der schnellsten Arten, Kosten zu senken, weil Sie Ihren Agenten nicht ändern.
00:06:44Sie behalten alles bei. Sie ändern nur, wie alles zusammen geroutet wird. Dasselbe Input, derselbe Output, niedrigere Rechnung. Und das ist der
00:06:50Kernpunkt. Wenn Sie solche Coding-Tools und Tipps mögen, abonnieren Sie unbedingt den BetterStack-Kanal.
00:06:54Wir sehen uns im nächsten Video.

Key Takeaway

Manifest reduziert KI-Betriebskosten um bis zu 70 %, indem es Anfragen automatisch und deterministisch an das kostengünstigste Modell leitet, ohne den bestehenden Agenten-Code anzupassen.

Highlights

  • Die Implementierung von Manifest senkt die Token-Kosten bei KI-Agenten um bis zu 70 %.

  • Manifest entscheidet durch deterministisches Scoring über 23 Dimensionen in unter zwei Millisekunden, welches Modell eine Anfrage bearbeitet.

  • Das System erlaubt die lokale Selbst-Hostung, wodurch Prompts die Maschine während des Routings nicht verlassen.

  • Der Einsatz von Manifest erfordert keine Änderungen am bestehenden Code des Agenten, da es als zusätzliche Schicht zwischen Agent und Modell fungiert.

  • Ein in Echtzeit aktualisiertes Dashboard ermöglicht die Überwachung der Token-Nutzung und Kosten pro Agent oder Aufgabe.

  • Durch intelligentes Routing werden einfache Aufgaben wie Klassifizierungen oder Zusammenfassungen nicht mehr an hochpreisige Modelle wie GPT-4-o oder Claude Opus gesendet.

Timeline

Das Problem ineffizienter Modellnutzung

  • KI-Agenten verursachen hohe Kosten, da sie bei tausenden täglichen Aufrufen oft teure Spitzenmodelle für einfache Aufgaben verwenden.
  • Manuelle Routing-Logik durch If-Else-Anweisungen ist fehleranfällig bei Prompt-Änderungen.
  • Bestehende Lösungen wie OpenRouter verursachen Gebühren und lassen Daten das System verlassen, während LiteLLM manuelles Routing erfordert.

Agenten führen ständig einfache Operationen wie Tool-Auswahl, Textzusammenfassung oder Klassifizierung aus. Wenn diese Anfragen ohne Differenzierung an die leistungsfähigsten Modelle gesendet werden, steigen die Kosten unverhältnismäßig an. Versuche, dies durch manuelle Routing-Logik zu lösen, machen den Code unflexibel.

Funktionsweise und Implementierung von Manifest

  • Manifest agiert als Controller, der Anfragen bewertet und an das günstigste Modell weiterleitet.
  • Das deterministische Scoring ermöglicht Routing-Entscheidungen in unter zwei Millisekunden ohne zusätzliche Latenz.
  • Die Integration erfolgt über Docker und erfordert lediglich die Anpassung des API-Endpunkts im bestehenden System.

Manifest schaltet sich zwischen den Agenten und die verschiedenen Modell-Anbieter. Es analysiert die Anfrage anhand von 23 Dimensionen und wählt das am besten geeignete Modell aus. Da das System lokal gehostet werden kann, bleiben die Prompts auf dem eigenen Rechner.

Vergleich zu bestehenden Lösungen

  • OpenRouter bietet Cloud-Zugang, erfordert aber das Verlassen der Daten aus dem System.
  • LiteLLM stellt ein einheitliches Interface bereit, lässt jedoch die Routing-Entscheidung bei der manuellen Konfiguration durch den Entwickler.
  • Manifest unterscheidet sich durch die Spezialisierung auf Multi-Agenten-Workflows und automatisiertes Routing.

Während OpenRouter und LiteLLM andere Bedürfnisse abdecken, liegt der Fokus von Manifest spezifisch auf der Kostensenkung bei agentenbasierten Workflows. Durch die Kombination von Observability und automatisiertem Routing wird die Verwaltung komplexer Agenten-Umgebungen vereinfacht.

Vorteile und Limitierungen

  • Einsparungen resultieren vor allem aus dem effizienten Abo-Routing, bei dem bereits bezahlte Kontingente genutzt werden.
  • Fallbacks stellen sicher, dass Agenten auch bei Ausfällen einzelner Anbieter weiter funktionieren.
  • Die Lösung erfordert initiales Setup von Keys und Anbieter-Verknüpfungen und stellt ein Werkzeug für fortgeschrittene Entwickler dar.

Trotz der deutlichen Vorteile erfordert das Tool ein Verständnis für das meinungsbasierte Scoring, da dieses im Hintergrund arbeitet und gelegentlich günstiger routet, als manuell vorgesehen. Für Entwickler, die täglich mit KI-Agenten arbeiten, überwiegen jedoch die Vorteile der Kostentransparenz und der reduzierten API-Rechnungen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video