Ich habe meine KI-Agenten-Kosten um 70 % gesenkt – mit dieser einen Änderung (Manifest)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Das ist Manifest. Ich habe es für ein Wochenende ausprobiert und meine Token-Kosten sanken um 70 %.
00:00:05Derselbe Agent, dieselben Aufgaben, nur besseres Routing. Wenn Sie KI-Agenten bauen, ist die Wahrscheinlichkeit hoch,
00:00:11dass Sie viel mehr bezahlen, als Sie sollten. Die meisten Anfragen benötigen kein GPT-4-o oder Claude Opus,
00:00:17aber genau das wird oft aufgerufen. Also nutzt unser Agent am Ende teure Modelle für
00:00:22einfache Dinge wie Klassifizierung, Routing, Zusammenfassungen, und so wird Ihre Rechnung stillschweigend
00:00:27drei- bis fünfmal höher, als sie sein sollte. Wie funktioniert Manifest überhaupt? Finden wir es heraus.
00:00:37Hier liegt das Problem. Agenten machen nicht nur ein paar Aufrufe, sie machen Tausende davon.
00:00:44Und die meisten dieser Aufrufe sind sehr einfach. Ein Tool wählen, einen Textabschnitt zusammenfassen, Input klassifizieren. Aber wenn
00:00:50alles an das beste Modell geht, zahlen Sie einen Premiumpreis für ziemlich einfache Arbeit. Man könnte
00:00:57versuchen, das durch Routing-Logik zu lösen, und schon ist Ihr Code voll von diesen If-Else-
00:01:02Anweisungen, die sofort kaputtgehen, sobald sich Ihre Prompts ändern. Okay, wir könnten einfach OpenRouter nutzen,
00:01:08klar, aber das kostet Gebühren. Und Ihre Prompts verlassen dabei die Maschine. Ich schätze, es gibt
00:01:13auch etwas namens LiteLLM, das Sie ausprobieren könnten, was solide ist, aber Sie müssen das Routing immer noch
00:01:18manuell verwalten. Das eigentliche Problem ist also nicht der Zugang zu Modellen, sondern jedes Mal das richtige zu wählen.
00:01:25Und genau das, meine Damen und Herren, macht Manifest. Es sitzt zwischen Ihrem Agenten und Ihren Modellen.
00:01:31Sie senden eine Anfrage, es bewertet diese über 23 Dimensionen und leitet sie an das günstigste Modell weiter,
00:01:36das sie bearbeiten kann. Es gibt keine Umschreibungen, nur einen Endpunkt. Wenn Sie solche Coding-Tools und Tipps
00:01:41mögen, abonnieren Sie unbedingt den Kanal. Wir bringen ständig neue Videos. Also gut, zeigen wir es.
00:01:47Derselbe Agent, dieselbe Aufgabe. Ich starte Manifest hier mit Docker, ein einfacher Curl-Befehl, Docker Compose up,
00:01:55und jetzt zeige ich meinen OpenAI-Endpunkt darauf. Das ist die einzige Änderung hier. Jetzt kann ich verschiedene
00:02:01Modelle verknüpfen, wie Sie sehen: Anthropic, OpenAI, Ollama. Ich habe OpenAI gewählt, meinen Key eingetragen und
00:02:08Ollama verknüpft, damit es dazwischen wechseln kann. Und jetzt führen wir dieses Python-Skript aus. Sie sehen, ich nutze
00:02:12den Manifest-API-Key hier. Das ist der einzige Key, den wir brauchen, weil Manifest die anderen hat, okay?
00:02:18Wenn wir das ausführen, fängt der Agent an zu arbeiten. Und anstatt alles an ein teures
00:02:24Modell zu senden, trifft Manifest eine Entscheidung. Das hier ist einfach. Routing günstiger. Jetzt zurück hierher. Unser Dashboard
00:02:31aktualisiert sich in Echtzeit und zeigt uns Token-Nutzung, Kosten pro Agent und Budget-Tracking. Die Zahl
00:02:38kann variieren, aber es kann bis zu 70 % günstiger sein. Dasselbe Ergebnis, niedrigere Kosten, und weil
00:02:44dies lokal läuft, verlassen Ihre Prompts nicht Ihre Maschine, nur um geroutet zu werden. Das hat nicht viel
00:02:50Zeit oder Ressourcen gekostet, also lohnt es sich, es in Ihren Workflow zu integrieren, besonders wenn Sie
00:02:55KI entwickeln und nutzen. Okay, was passiert hier also eigentlich? Sie können Manifest als eine Art
00:03:00Controller betrachten, richtig? Ihr Agent sendet eine Anfrage, Manifest entscheidet, wohin sie eigentlich gehen sollte,
00:03:07also könnte das ein API-Modell sein, ein Abonnement, ein lokales Modell, Ollama oder Llama.cpp.
00:03:14Es unterstützt Hunderte von Modellen bei zahlreichen Anbietern, aber hier ist der wichtige Teil für
00:03:19das alles. Es ruft kein weiteres LLM auf, um zu entscheiden. Das wäre kontraproduktiv, es wäre einfach
00:03:25langsam und teuer. Stattdessen verwendet es deterministisches Scoring, sodass das Routing unter zwei Millisekunden dauert.
00:03:32Keine zusätzliche Latenz dabei. Manifest sitzt einfach in der Mitte und trifft bessere Entscheidungen,
00:03:38und es ist eindeutig für Agenten gebaut. Tool-Calls, Multi-Agent-Tracking, das haben wir, und wir haben sogar
00:03:44Observability eingebaut. Die größten Einsparungen kommen nicht von harten Prompts. Sie kommen von all den
00:03:50kleinen, langweiligen Aufrufen, die unsere Agenten ständig machen. Okay, also kurz, wie ist das
00:03:56anders als Tools, die wir bereits kennen? Ich werde das kurz vergleichen. Ich erwähnte vorhin
00:04:01OpenRouter. OpenRouter gibt Ihnen einen Cloud-Endpunkt, aber Ihr Traffic verlässt trotzdem Ihr
00:04:06System. Manifest kann vollständig selbst gehostet werden. Dann haben wir das Tool, das ich erwähnte: LiteLLM. Das gibt Ihnen
00:04:13ein einheitliches Interface, aber das Routing ist immer noch etwas, das Sie manuell steuern müssen. Manifest übernimmt das
00:04:19Routing automatisch. Es gibt auch Routing-Intelligenz. Manifest bewertet Anfragen über 23
00:04:25Dimensionen, das ist deren Version von Routing-Intelligenz. Andere Tools dieser Art setzen auf Failover
00:04:31oder Regeln. Dann haben wir Abonnements. Ja. Während Sie für Manifest selbst nichts zahlen, benötigen Sie natürlich
00:04:38Dinge wie einen OpenAI- oder Claude-API-Key, richtig? Der Fokus auf Agenten ist etwas, womit
00:04:46Manifest wirklich hervorsticht. Es ist für Multi-Agenten-Workflows gebaut. Der Unterschied ist also einfach.
00:04:51Wenn Sie Zugang wollen, nutzen Sie OpenRouter, richtig? Wenn Sie Kontrolle wollen, gibt es LiteLLM. Aber wenn Ihr
00:04:57Problem tatsächlich Kosten durch Agenten sind, weil wir all diese API-Aufrufe machen, ist Manifest dafür
00:05:03gebaut. Es gibt zahllose Tools, um Ihre Kosten zu senken. Sie müssen sie nur finden, und das ist eines
00:05:08der Mittel. Um ehrlich zu sein, es ist großartig, aber bei einem KI-Tool werden Sie Dinge haben,
00:05:14die einen manchmal am Kopf kratzen lassen. Zuerst das Gute. Da sind die Einsparungen, besonders durch Abo-Routing.
00:05:19Sie nutzen Pläne, für die Sie bereits bezahlen, anstatt wieder pro Token zu zahlen.
00:05:26Dann die Fallbacks, richtig? Wenn etwas fehlschlägt, läuft Ihr Agent weiter, was ein riesiger Gewinn ist.
00:05:33Dann das Dashboard. Das Dashboard ist großartig, weil Sie sehen können, wo Ihr Geld
00:05:38bei verschiedenen Modellen bleibt, pro Agent, pro Aufgabe, alles in Echtzeit. Und es funktioniert mit bestehenden
00:05:45Clients ohne große Umschreibungen. Aber wie gesagt, es gibt Dinge, die wir von so einem Tool erwarten
00:05:50würden. Und wissen Sie, zum Beispiel, dass das Scoring meinungsbasiert ist, richtig?
00:05:56KI. Okay. Manchmal routet es günstiger, als Sie erwarten würden. Sie können das überschreiben, aber Sie müssen wissen,
00:06:02dass das im Hintergrund passiert. Setup ist auch nicht bei Null, weil Sie immer noch Keys verwalten und
00:06:07Anbieter verbinden, aber es war todsicher einfach. Und Entwickler wollen immer mehr SDKs, Speicheroptionen und mehr
00:06:13Funktionen. Also ja, es ist cool, aber es ist immer noch Infrastruktur. Es ist nicht perfekt. Manche Dinge müssen
00:06:19angepasst werden. Es ist definitiv die Mühe wert, wenn Sie täglich Agenten ausführen oder wenn Ihre Agenten viele
00:06:25kleine Aufrufe tätigen. Sogar wenn Ihnen wichtig ist, Prompts lokal zu halten, ist das super, aber vielleicht nicht, wenn Sie
00:06:32Null-Setup wollen. In diesem Fall ist etwas wie OpenRouter einfacher, aber für die meisten Entwickler,
00:06:38die Agenten bauen, ist das eine der schnellsten Arten, Kosten zu senken, weil Sie Ihren Agenten nicht ändern.
00:06:44Sie behalten alles bei. Sie ändern nur, wie alles zusammen geroutet wird. Dasselbe Input, derselbe Output, niedrigere Rechnung. Und das ist der
00:06:50Kernpunkt. Wenn Sie solche Coding-Tools und Tipps mögen, abonnieren Sie unbedingt den BetterStack-Kanal.
00:06:54Wir sehen uns im nächsten Video.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video