Reduje los costos de mi agente de IA un 70% con un solo cambio (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Esto es Manifest. Cambié a él durante un fin de semana y mis costos de tokens bajaron un 70%.
00:00:05Mismo agente, mismas tareas, solo un mejor enrutamiento. Si estás creando agentes de IA, es muy probable
00:00:11que estés pagando mucho más de lo que deberías. La mayoría de las peticiones no necesitan GPT-4-0 o Claude Opus,
00:00:17pero eso es exactamente a lo que recurren de todos modos. Así que nuestro agente termina usando modelos costosos para
00:00:22cosas básicas como clasificación, enrutamiento, resúmenes, y así es como tu factura silenciosamente
00:00:27se vuelve de tres a cinco veces más alta de lo que debería. ¿Cómo funciona realmente Manifest? Vamos a descubrirlo.
00:00:37Aquí es donde las cosas fallan. Los agentes no solo hacen unas pocas llamadas, hacen miles de ellas.
00:00:44Y la mayoría de esas llamadas son muy simples. Elegir una herramienta, resumir un fragmento, clasificar datos. Pero si
00:00:50todo se envía al mejor modelo, estás pagando un precio premium por un trabajo bastante básico. Así que podrías
00:00:57intentar arreglarlo, supongo que escribiendo lógica de enrutamiento, y ahora tu código está lleno de todas estas sentencias
00:01:02if-else que se rompen en cuanto cambian tus prompts. Vale, sí, podríamos simplemente usar OpenRouter,
00:01:08claro, pero tiene una tarifa. Y además, tus prompts salen de tu máquina. Supongo que también existe
00:01:13algo llamado Lite LLM que podrías probar, que es sólido, pero todavía tienes que gestionar el enrutamiento
00:01:18manualmente. Así que el problema real no es el acceso a los modelos, sino elegir el correcto cada vez.
00:01:25Y eso, damas y caballeros, es lo que hace Manifest. Se coloca entre tu agente y tus modelos.
00:01:31Envías una petición, la puntúa en 23 dimensiones y la dirige al modelo más barato
00:01:36que pueda manejarla. No hay reescrituras, solo un endpoint. Si disfrutas de herramientas de codificación y consejos como
00:01:41este, asegúrate de suscribirte. Tenemos videos saliendo todo el tiempo. Muy bien, genial. Ahora déjame mostrarte.
00:01:47Mismo agente, misma tarea. Inicio Manifest con Docker aquí, un comando curl simple, Docker Compose up,
00:01:55y ahora apunto mi endpoint de OpenAI hacia él. Ese es el único cambio aquí. Ahora puedo enlazar diferentes
00:02:01aquí, como puedes ver, Anthropic, OpenAI, Ollama. Elegí OpenAI, inserté mi clave y enlacé
00:02:08Ollama para que pueda ir entre ambos. Y ahora vamos a ejecutar este script de Python. Puedes ver que estoy usando
00:02:12la clave API de Manifest aquí. Esa es la única clave que necesitamos porque Manifest tiene las otras, ¿vale?
00:02:18Así que cuando ejecutamos esto, el agente empieza a trabajar. Y en lugar de enviar todo a un modelo
00:02:24caro, Manifest toma una decisión. Esta es simple. Enrútala a uno más barato. Ahora volvamos aquí. Nuestro tablero
00:02:31se actualiza en tiempo real, mostrándonos el uso de tokens, el costo por agente y el seguimiento del presupuesto. El número clave
00:02:38puede cambiar, pero puede ser hasta un 70% más barato. Mismo resultado, menor costo, y debido a que
00:02:44esto se ejecuta localmente, tus prompts no abandonan tu máquina solo para ser enrutados. Esto no tomó mucho
00:02:50tiempo o recursos, así que es algo que vale la pena integrar en tu flujo, especialmente si estás
00:02:55construyendo y usando IA. Vale, entonces, ¿qué pasa realmente aquí? Puedes pensar en Manifest como un
00:03:00controlador, ¿verdad? Tu agente envía una petición, Manifest decide a dónde debe ir realmente,
00:03:07así que podría ser un modelo de API, podría ser una suscripción, un modelo local, Ollama o llama.cpp.
00:03:14Admite cientos de modelos a través de toneladas de proveedores, pero aquí está la parte importante de todo
00:03:19esto. No llama a otro LLM para decidir. Eso sería contraproducente, ya que sería
00:03:25lento y costoso. En cambio, utiliza puntuación determinista, por lo que el enrutamiento ocurre en menos de dos milisegundos.
00:03:32Sin latencia añadida a nada de esto. Manifest simplemente se sienta en el medio y toma mejores decisiones,
00:03:38y está claramente construido para agentes. Plugin de llamadas abiertas, seguimiento multi-agente, tenemos eso, e incluso
00:03:44tenemos observabilidad incorporada. Los mayores ahorros no provienen de los prompts difíciles. Vienen de todos los
00:03:50pequeños. Realmente solo las llamadas aburridas que nuestros agentes hacen constantemente. Vale, entonces, ¿cómo es esto
00:03:56diferente de las herramientas que ya conocemos? Voy a comparar esto rápidamente. Mencioné
00:04:01OpenRouter antes. Entonces, OpenRouter te da un endpoint en la nube, pero tu tráfico todavía sale de tu
00:04:06sistema. Manifest puede ejecutarse completamente auto-alojado. Luego tenemos la herramienta que mencioné, Lite LLM. Esto te da
00:04:13una interfaz unificada, pero el enrutamiento sigue siendo algo que tienes que controlar manualmente. Manifest maneja
00:04:19el enrutamiento automáticamente. También existe la inteligencia de enrutamiento. Ahora, donde Manifest puntúa las peticiones en 23
00:04:25dimensiones, esa es su versión de inteligencia de enrutamiento. Otras cosas como esta dependen de failover
00:04:31o reglas. Luego tenemos las suscripciones. Sí. Entonces, aunque no pagas por Manifest, todavía
00:04:38obviamente necesitas cosas como una clave API de OpenAI o Claude, ¿verdad? Ahora, el enfoque en agentes es algo donde
00:04:46Manifest realmente destaca. Está construido para flujos de trabajo multi-agente. Así que la diferencia es simple.
00:04:51Si quieres acceso, simplemente usa OpenRouter, ¿verdad? Si quieres control, ahí está Lite LLM. Pero si tu
00:04:57problema es en realidad el costo de los agentes, porque estamos haciendo todas estas llamadas API, Manifest está construido para
00:05:03eso. Hay incontables herramientas para reducir tus costos. Solo necesitas encontrarlas, y esta es una
00:05:08de las formas. Ahora, siendo honestos aquí, porque es genial, pero con una herramienta de IA, vas a obtener algunas
00:05:14cosas que podrían hacerte rascarte la cabeza honestamente. Primero, lo bueno. Lo primero serían
00:05:19los ahorros, especialmente con el enrutamiento de suscripciones. Estás usando planes que ya pagas en lugar de
00:05:26pagar por token de nuevo. Luego, los fallos, ¿verdad? Si algo falla, tu agente sigue adelante, lo cual es
00:05:33una gran victoria. Luego tenemos el tablero. El tablero es genial porque realmente puedes ver a dónde va tu dinero
00:05:38a través de diferentes modelos, por agente, por tarea, todo en tiempo real. Y funciona con clientes existentes
00:05:45sin ninguna reescritura importante. Pero como dije, hay cosas que esperaríamos que una herramienta como esta
00:05:50tuviera. Y sabes, hay cosas como que tu puntuación será opinada, ¿verdad?
00:05:56IA. Okay. Así que a veces enruta más barato de lo que esperarías. Puedes anular eso, pero necesitas saber
00:06:02que está sucediendo en segundo plano. La configuración tampoco es cero porque todavía estás gestionando claves y conectando
00:06:07proveedores, pero fue extremadamente simple. Y los desarrolladores todavía quieren más SDKs, más opciones de almacenamiento y más
00:06:13características. Así que sí, es realmente genial, pero sigue siendo infraestructura. No es perfecto. Algunas cosas necesitan
00:06:19ser ajustadas. Definitivamente vale la pena si ejecutas agentes todos los días, o si tus agentes hacen muchas
00:06:25pequeñas llamadas. De hecho, incluso si te importa mantener los prompts locales, esto es genial, pero tal vez no si
00:06:32quieres configuración cero. En ese caso, algo como OpenRouter es más simple, pero para la mayoría de nosotros que construimos
00:06:38agentes, esta es una de las formas más rápidas de reducir tu costo porque no cambias tu agente. Mantenemos
00:06:44todo. Solo cambias cómo se enruta. Mismas entradas, mismas salidas, factura más baja. Y esa es la
00:06:50clave aquí. Si disfrutas de herramientas de codificación y consejos como este, asegúrate de suscribirte al canal BetterStack.
00:06:54Nos vemos en otro video.

Key Takeaway

Manifest reduce los costos de operación de agentes de IA hasta un 70% al implementar enrutamiento determinista automático que dirige las tareas a los modelos más económicos sin necesidad de reescribir el código del agente.

Highlights

  • La implementación de Manifest reduce los costos de los agentes de IA hasta en un 70% mediante una mejor optimización del enrutamiento de peticiones.

  • El enrutamiento determinista de Manifest evalúa las peticiones en 23 dimensiones en menos de dos milisegundos sin añadir latencia significativa.

  • Manifest funciona localmente mediante Docker, lo que garantiza que los prompts no abandonen la máquina del usuario durante el proceso de enrutamiento.

  • A diferencia de soluciones como LiteLLM, que requieren gestión manual, Manifest automatiza la selección del modelo más económico capaz de manejar la tarea específica.

  • El sistema admite cientos de modelos de diversos proveedores, incluyendo opciones en la nube, suscripciones existentes y modelos locales a través de Ollama.

Timeline

Problemas de costos en agentes de IA

  • El uso de modelos premium como GPT-4 o Claude Opus para tareas básicas infla la factura de tokens entre tres y cinco veces.
  • La lógica manual de enrutamiento mediante sentencias if-else resulta ineficiente y propensa a fallos cuando los prompts cambian.
  • Opciones como OpenRouter requieren una tarifa y el envío de datos fuera de la máquina local, mientras que LiteLLM exige control manual del enrutamiento.

Los agentes realizan miles de llamadas simples como clasificación, resumen y selección de herramientas. Enviar cada una de estas peticiones al modelo más capaz genera un costo excesivo por un trabajo básico. Intentar solucionar esto manualmente añade complejidad al código y vulnerabilidad a los cambios en los prompts.

Funcionamiento y despliegue de Manifest

  • Manifest actúa como un controlador intermedio que evalúa peticiones en 23 dimensiones antes de dirigirlas al modelo adecuado.
  • La instalación mediante Docker permite integrar la herramienta sin modificar la lógica existente del agente, simplemente redirigiendo el endpoint.
  • El procesamiento ocurre mediante puntuación determinista en menos de dos milisegundos, evitando latencia adicional al proceso.

Al situarse entre el agente y los modelos, Manifest toma decisiones sobre dónde enviar la petición basándose en la complejidad y el costo. Admite múltiples proveedores y modelos locales como Ollama. La observabilidad incorporada permite monitorizar el uso de tokens y el presupuesto en tiempo real a través de un panel de control.

Comparativa y consideraciones prácticas

  • OpenRouter es ideal para acceso simple, LiteLLM para control manual y Manifest para optimización de costos en flujos multi-agente.
  • La herramienta permite utilizar suscripciones existentes en lugar de pagar por token individual, lo que representa una ventaja económica clara.
  • Las decisiones de enrutamiento son opinadas, lo que a veces requiere ajustes manuales por parte del usuario para anular selecciones automáticas.

Aunque el sistema es altamente efectivo para reducir costos sin cambiar los agentes, requiere gestión de claves API y configuración inicial de proveedores. Es una solución de infraestructura que aún requiere desarrollo adicional en SDKs y almacenamiento, pero que resulta ventajosa para quienes ejecutan agentes diariamente.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video