Reduje los costos de mi agente de IA un 70% con un solo cambio (Manifest)

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Esto es Manifest. Cambié a él durante un fin de semana y mis costos de tokens bajaron un 70%.

00:00:05Mismo agente, mismas tareas, solo un mejor enrutamiento. Si estás creando agentes de IA, es muy probable

00:00:11que estés pagando mucho más de lo que deberías. La mayoría de las peticiones no necesitan GPT-4-0 o Claude Opus,

00:00:17pero eso es exactamente a lo que recurren de todos modos. Así que nuestro agente termina usando modelos costosos para

00:00:22cosas básicas como clasificación, enrutamiento, resúmenes, y así es como tu factura silenciosamente

00:00:27se vuelve de tres a cinco veces más alta de lo que debería. ¿Cómo funciona realmente Manifest? Vamos a descubrirlo.

00:00:37Aquí es donde las cosas fallan. Los agentes no solo hacen unas pocas llamadas, hacen miles de ellas.

00:00:44Y la mayoría de esas llamadas son muy simples. Elegir una herramienta, resumir un fragmento, clasificar datos. Pero si

00:00:50todo se envía al mejor modelo, estás pagando un precio premium por un trabajo bastante básico. Así que podrías

00:00:57intentar arreglarlo, supongo que escribiendo lógica de enrutamiento, y ahora tu código está lleno de todas estas sentencias

00:01:02if-else que se rompen en cuanto cambian tus prompts. Vale, sí, podríamos simplemente usar OpenRouter,

00:01:08claro, pero tiene una tarifa. Y además, tus prompts salen de tu máquina. Supongo que también existe

00:01:13algo llamado Lite LLM que podrías probar, que es sólido, pero todavía tienes que gestionar el enrutamiento

00:01:18manualmente. Así que el problema real no es el acceso a los modelos, sino elegir el correcto cada vez.

00:01:25Y eso, damas y caballeros, es lo que hace Manifest. Se coloca entre tu agente y tus modelos.

00:01:31Envías una petición, la puntúa en 23 dimensiones y la dirige al modelo más barato

00:01:36que pueda manejarla. No hay reescrituras, solo un endpoint. Si disfrutas de herramientas de codificación y consejos como

00:01:41este, asegúrate de suscribirte. Tenemos videos saliendo todo el tiempo. Muy bien, genial. Ahora déjame mostrarte.

00:01:47Mismo agente, misma tarea. Inicio Manifest con Docker aquí, un comando curl simple, Docker Compose up,

00:01:55y ahora apunto mi endpoint de OpenAI hacia él. Ese es el único cambio aquí. Ahora puedo enlazar diferentes

00:02:01aquí, como puedes ver, Anthropic, OpenAI, Ollama. Elegí OpenAI, inserté mi clave y enlacé

00:02:08Ollama para que pueda ir entre ambos. Y ahora vamos a ejecutar este script de Python. Puedes ver que estoy usando

00:02:12la clave API de Manifest aquí. Esa es la única clave que necesitamos porque Manifest tiene las otras, ¿vale?

00:02:18Así que cuando ejecutamos esto, el agente empieza a trabajar. Y en lugar de enviar todo a un modelo

00:02:24caro, Manifest toma una decisión. Esta es simple. Enrútala a uno más barato. Ahora volvamos aquí. Nuestro tablero

00:02:31se actualiza en tiempo real, mostrándonos el uso de tokens, el costo por agente y el seguimiento del presupuesto. El número clave

00:02:38puede cambiar, pero puede ser hasta un 70% más barato. Mismo resultado, menor costo, y debido a que

00:02:44esto se ejecuta localmente, tus prompts no abandonan tu máquina solo para ser enrutados. Esto no tomó mucho

00:02:50tiempo o recursos, así que es algo que vale la pena integrar en tu flujo, especialmente si estás

00:02:55construyendo y usando IA. Vale, entonces, ¿qué pasa realmente aquí? Puedes pensar en Manifest como un

00:03:00controlador, ¿verdad? Tu agente envía una petición, Manifest decide a dónde debe ir realmente,

00:03:07así que podría ser un modelo de API, podría ser una suscripción, un modelo local, Ollama o llama.cpp.

00:03:14Admite cientos de modelos a través de toneladas de proveedores, pero aquí está la parte importante de todo

00:03:19esto. No llama a otro LLM para decidir. Eso sería contraproducente, ya que sería

00:03:25lento y costoso. En cambio, utiliza puntuación determinista, por lo que el enrutamiento ocurre en menos de dos milisegundos.

00:03:32Sin latencia añadida a nada de esto. Manifest simplemente se sienta en el medio y toma mejores decisiones,

00:03:38y está claramente construido para agentes. Plugin de llamadas abiertas, seguimiento multi-agente, tenemos eso, e incluso

00:03:44tenemos observabilidad incorporada. Los mayores ahorros no provienen de los prompts difíciles. Vienen de todos los

00:03:50pequeños. Realmente solo las llamadas aburridas que nuestros agentes hacen constantemente. Vale, entonces, ¿cómo es esto

00:03:56diferente de las herramientas que ya conocemos? Voy a comparar esto rápidamente. Mencioné

00:04:01OpenRouter antes. Entonces, OpenRouter te da un endpoint en la nube, pero tu tráfico todavía sale de tu

00:04:06sistema. Manifest puede ejecutarse completamente auto-alojado. Luego tenemos la herramienta que mencioné, Lite LLM. Esto te da

00:04:13una interfaz unificada, pero el enrutamiento sigue siendo algo que tienes que controlar manualmente. Manifest maneja

00:04:19el enrutamiento automáticamente. También existe la inteligencia de enrutamiento. Ahora, donde Manifest puntúa las peticiones en 23

00:04:25dimensiones, esa es su versión de inteligencia de enrutamiento. Otras cosas como esta dependen de failover

00:04:31o reglas. Luego tenemos las suscripciones. Sí. Entonces, aunque no pagas por Manifest, todavía

00:04:38obviamente necesitas cosas como una clave API de OpenAI o Claude, ¿verdad? Ahora, el enfoque en agentes es algo donde

00:04:46Manifest realmente destaca. Está construido para flujos de trabajo multi-agente. Así que la diferencia es simple.

00:04:51Si quieres acceso, simplemente usa OpenRouter, ¿verdad? Si quieres control, ahí está Lite LLM. Pero si tu

00:04:57problema es en realidad el costo de los agentes, porque estamos haciendo todas estas llamadas API, Manifest está construido para

00:05:03eso. Hay incontables herramientas para reducir tus costos. Solo necesitas encontrarlas, y esta es una

00:05:08de las formas. Ahora, siendo honestos aquí, porque es genial, pero con una herramienta de IA, vas a obtener algunas

00:05:14cosas que podrían hacerte rascarte la cabeza honestamente. Primero, lo bueno. Lo primero serían

00:05:19los ahorros, especialmente con el enrutamiento de suscripciones. Estás usando planes que ya pagas en lugar de

00:05:26pagar por token de nuevo. Luego, los fallos, ¿verdad? Si algo falla, tu agente sigue adelante, lo cual es

00:05:33una gran victoria. Luego tenemos el tablero. El tablero es genial porque realmente puedes ver a dónde va tu dinero

00:05:38a través de diferentes modelos, por agente, por tarea, todo en tiempo real. Y funciona con clientes existentes

00:05:45sin ninguna reescritura importante. Pero como dije, hay cosas que esperaríamos que una herramienta como esta

00:05:50tuviera. Y sabes, hay cosas como que tu puntuación será opinada, ¿verdad?

00:05:56IA. Okay. Así que a veces enruta más barato de lo que esperarías. Puedes anular eso, pero necesitas saber

00:06:02que está sucediendo en segundo plano. La configuración tampoco es cero porque todavía estás gestionando claves y conectando

00:06:07proveedores, pero fue extremadamente simple. Y los desarrolladores todavía quieren más SDKs, más opciones de almacenamiento y más

00:06:13características. Así que sí, es realmente genial, pero sigue siendo infraestructura. No es perfecto. Algunas cosas necesitan

00:06:19ser ajustadas. Definitivamente vale la pena si ejecutas agentes todos los días, o si tus agentes hacen muchas

00:06:25pequeñas llamadas. De hecho, incluso si te importa mantener los prompts locales, esto es genial, pero tal vez no si

00:06:32quieres configuración cero. En ese caso, algo como OpenRouter es más simple, pero para la mayoría de nosotros que construimos

00:06:38agentes, esta es una de las formas más rápidas de reducir tu costo porque no cambias tu agente. Mantenemos

00:06:44todo. Solo cambias cómo se enruta. Mismas entradas, mismas salidas, factura más baja. Y esa es la

00:06:50clave aquí. Si disfrutas de herramientas de codificación y consejos como este, asegúrate de suscribirte al canal BetterStack.

00:06:54Nos vemos en otro video.

Key Takeaway

Manifest reduce los costos de operación de agentes de IA hasta un 70% al implementar enrutamiento determinista automático que dirige las tareas a los modelos más económicos sin necesidad de reescribir el código del agente.

Highlights

La implementación de Manifest reduce los costos de los agentes de IA hasta en un 70% mediante una mejor optimización del enrutamiento de peticiones.
El enrutamiento determinista de Manifest evalúa las peticiones en 23 dimensiones en menos de dos milisegundos sin añadir latencia significativa.
Manifest funciona localmente mediante Docker, lo que garantiza que los prompts no abandonen la máquina del usuario durante el proceso de enrutamiento.
A diferencia de soluciones como LiteLLM, que requieren gestión manual, Manifest automatiza la selección del modelo más económico capaz de manejar la tarea específica.
El sistema admite cientos de modelos de diversos proveedores, incluyendo opciones en la nube, suscripciones existentes y modelos locales a través de Ollama.

Timeline

Problemas de costos en agentes de IA

El uso de modelos premium como GPT-4 o Claude Opus para tareas básicas infla la factura de tokens entre tres y cinco veces.
La lógica manual de enrutamiento mediante sentencias if-else resulta ineficiente y propensa a fallos cuando los prompts cambian.
Opciones como OpenRouter requieren una tarifa y el envío de datos fuera de la máquina local, mientras que LiteLLM exige control manual del enrutamiento.

Los agentes realizan miles de llamadas simples como clasificación, resumen y selección de herramientas. Enviar cada una de estas peticiones al modelo más capaz genera un costo excesivo por un trabajo básico. Intentar solucionar esto manualmente añade complejidad al código y vulnerabilidad a los cambios en los prompts.

Funcionamiento y despliegue de Manifest

Manifest actúa como un controlador intermedio que evalúa peticiones en 23 dimensiones antes de dirigirlas al modelo adecuado.
La instalación mediante Docker permite integrar la herramienta sin modificar la lógica existente del agente, simplemente redirigiendo el endpoint.
El procesamiento ocurre mediante puntuación determinista en menos de dos milisegundos, evitando latencia adicional al proceso.

Al situarse entre el agente y los modelos, Manifest toma decisiones sobre dónde enviar la petición basándose en la complejidad y el costo. Admite múltiples proveedores y modelos locales como Ollama. La observabilidad incorporada permite monitorizar el uso de tokens y el presupuesto en tiempo real a través de un panel de control.

Comparativa y consideraciones prácticas

OpenRouter es ideal para acceso simple, LiteLLM para control manual y Manifest para optimización de costos en flujos multi-agente.
La herramienta permite utilizar suscripciones existentes en lugar de pagar por token individual, lo que representa una ventaja económica clara.
Las decisiones de enrutamiento son opinadas, lo que a veces requiere ajustes manuales por parte del usuario para anular selecciones automáticas.

Aunque el sistema es altamente efectivo para reducir costos sin cambiar los agentes, requiere gestión de claves API y configuración inicial de proveedores. Es una solución de infraestructura que aún requiere desarrollo adicional en SDKs y almacenamiento, pero que resulta ventajosa para quienes ejecutan agentes diariamente.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video