Reduzi os Custos do Meu Agente de IA em 70% Com Uma Mudança (Manifest)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00Este é o Manifest. Mudei para ele durante um fim de semana e meus custos com tokens caíram 70%.
00:00:05O mesmo agente, as mesmas tarefas, apenas um roteamento melhor. Se você está criando agentes de IA,
00:00:11é muito provável que você esteja pagando muito mais do que deveria. A maioria das requisições não precisa do GPT-4-0 ou Claude Opus,
00:00:17mas é exatamente isso que elas estão acessando de qualquer forma. Então, nosso agente acaba usando modelos caros para
00:00:22coisas básicas como classificação, roteamento, resumos, e é assim que sua conta silenciosamente
00:00:27fica três a cinco vezes mais alta do que deveria ser. Como o Manifest funciona? Vamos descobrir.
00:00:37É aqui que as coisas falham. Agentes não fazem apenas algumas chamadas, eles fazem milhares dessas chamadas.
00:00:44E a maioria dessas chamadas é realmente simples. Escolher uma ferramenta, resumir um trecho, classificar uma entrada. Mas se
00:00:50tudo vai para o melhor modelo, você está pagando um preço premium por um trabalho bastante básico. Então você poderia
00:00:57tentar consertar isso, acho que escrevendo uma lógica de roteamento, e agora seu código está cheio de declarações if-else
00:01:02que quebram no segundo em que seus prompts mudam. Ok, sim, poderíamos apenas usar o OpenRouter,
00:01:08claro, mas há uma taxa para isso. E então seus prompts realmente saem da máquina. Acho que existe
00:01:13também algo chamado LiteLLM que você poderia tentar, que é sólido, mas você ainda tem que gerenciar o roteamento
00:01:18manualmente. Então, o problema real não é o acesso aos modelos, é escolher o certo todas as vezes.
00:01:25E isso, senhoras e senhores, é o que o Manifest faz. Ele fica entre seu agente e seus modelos.
00:01:31Você envia uma requisição, ele a pontua em 23 dimensões e a roteia para o modelo mais barato
00:01:36que pode lidar com ela. Não há reescritas e apenas um endpoint. Se você gosta de ferramentas de codificação e dicas como
00:01:41esta, não deixe de se inscrever. Temos vídeos saindo o tempo todo. Tudo bem, legal. Agora deixe-me mostrar.
00:01:47O mesmo agente, a mesma tarefa. Eu inicio o Manifest com Docker aqui, um comando curl simples, Docker Compose up,
00:01:55e agora aponto meu endpoint da OpenAI para ele. Essa é a única mudança aqui. Agora posso vincular diferentes
00:02:01modelos aqui, como você pode ver: Anthropic, OpenAI, Ollama. Eu escolhi a OpenAI, inseri minha chave e vinculei o
00:02:08Ollama para que ele possa alternar entre os dois. E agora vamos executar este script Python. Você pode ver que estou usando
00:02:12a chave de API do Manifest aqui. Essa é a única chave que precisamos, porque o Manifest tem as outras, ok?
00:02:18Então, quando executamos isso, o agente começa a trabalhar. E em vez de enviar tudo para um modelo
00:02:24caro, o Manifest toma uma decisão. Este é simples. Roteie de forma mais barata. Agora volte aqui. Nosso painel
00:02:31atualiza em tempo real, mostrando o uso de tokens, custo por agente e acompanhamento de orçamento. O número-chave
00:02:38pode variar, mas pode ser até 70% mais barato. O mesmo resultado, custo menor, e porque
00:02:44isso roda localmente, seus prompts não saem da sua máquina apenas para serem roteados. Isso não levou muito
00:02:50tempo ou recursos, então vale a pena integrar ao seu fluxo, especialmente se você está
00:02:55construindo e usando IA. Ok, então o que realmente acontece aqui? Você pode pensar no Manifest como um
00:03:00controlador, certo? Seu agente envia uma requisição, o Manifest decide para onde ela deve realmente ir,
00:03:07então isso pode ser um modelo de API, pode ser uma assinatura, um modelo local, Llama ou Llama.cpp.
00:03:14Ele suporta centenas de modelos em vários provedores, mas aqui está a parte importante para
00:03:19tudo isso. Ele não chama outro LLM para decidir. Isso seria contraproducente, então seria apenas
00:03:25lento e caro. Em vez disso, ele usa pontuação determinística, então o roteamento acontece em menos de dois milissegundos.
00:03:32Nenhuma latência adicionada a tudo isso. O Manifest apenas fica no meio e toma decisões melhores,
00:03:38e é claramente construído para agentes. Plugin open call, rastreamento multi-agente, nós temos isso, e até temos
00:03:44observabilidade embutida. As maiores economias não vêm de prompts difíceis. Elas vêm de todas as
00:03:50pequenas chamadas que nossos agentes fazem constantemente. Ok, então, rapidamente, como isso é
00:03:56diferente de ferramentas que já conhecemos? Vou comparar isso rapidamente. Eu mencionei
00:04:01o OpenRouter antes. Então o OpenRouter te dá um endpoint na nuvem, mas seu tráfego ainda sai do seu
00:04:06sistema. O Manifest pode ser totalmente auto-hospedado. Depois temos a ferramenta que mencionei, o LiteLLM. Isso te dá
00:04:13uma interface unificada, mas o roteamento ainda é algo que você tem que controlar manualmente. O Manifest lida com
00:04:19o roteamento automaticamente. Há também inteligência de roteamento. Agora, onde o Manifest pontua requisições em 23
00:04:25dimensões, essa é a versão deles de inteligência de roteamento. Outras ferramentas como essa dependem de failover
00:04:31ou regras. Depois temos as assinaturas. Sim. Então, embora você não pague pelo Manifest, você ainda
00:04:38obviamente precisa de coisas como uma chave de API da OpenAI ou Claude, certo? Agora, foco no agente é algo onde
00:04:46o Manifest realmente se destaca. Ele é construído para fluxos de trabalho multi-agente. Então a diferença é simples.
00:04:51Se você quer acesso, use o OpenRouter, certo? Se você quer controle, existe o LiteLLM. Mas se o seu
00:04:57problema é, na verdade, o custo dos agentes, porque estamos fazendo todas essas chamadas de API, o Manifest é construído para
00:05:03isso. Existem inúmeras ferramentas para reduzir seus custos. Você só precisa encontrá-las, e esta é uma
00:05:08das maneiras. Agora, sendo honesto aqui, porque é ótimo, mas com uma ferramenta de IA, você vai ter algumas
00:05:14coisas que podem fazer você ficar coçando a cabeça. Primeiro, o lado bom. A primeira seria a economia,
00:05:19especialmente com o roteamento de assinatura. Você está usando planos que já paga, em vez de
00:05:26pagar por token novamente. Depois, os fallbacks, certo? Se algo falha, seu agente continua funcionando, o que é
00:05:33uma grande vitória. Depois temos o painel. O painel é ótimo porque você pode realmente ver para onde seu dinheiro
00:05:38está indo entre diferentes modelos, por agente, por tarefa, tudo em tempo real. E funciona com clientes
00:05:45existentes sem grandes reescritas. Mas, como eu disse, há coisas que esperaríamos que uma ferramenta como
00:05:50esta tivesse. E, você sabe, há coisas como a pontuação ser opinativa, certo?
00:05:56IA. Ok. Então, às vezes, ele roteia de forma mais barata do que você esperaria. Você pode substituir isso, mas precisa saber
00:06:02que isso está acontecendo em segundo plano. A configuração também não é zero, porque você ainda está gerenciando chaves e configurando
00:06:07provedores, mas foi muito simples. E os desenvolvedores ainda querem mais SDKs, mais opções de armazenamento e mais
00:06:13funcionalidades. Então, sim, é muito legal, mas ainda é infraestrutura. Não é perfeito. Algumas coisas precisam
00:06:19ser ajustadas. Definitivamente vale a pena se você executa agentes todos os dias, ou se seus agentes fazem muitas
00:06:25pequenas chamadas. Heck, mesmo se você se preocupa em manter os prompts locais, isso é ótimo, mas talvez não se você
00:06:32quiser configuração zero. Nesse caso, algo como o OpenRouter é mais simples, mas para a maioria de nós desenvolvedores criando
00:06:38agentes, esta é uma das maneiras mais rápidas de reduzir seu custo, porque você não altera seu agente. Mantemos
00:06:44tudo. Você apenas altera como ele se conecta. As mesmas entradas, as mesmas saídas, a conta menor. E esse é o
00:06:50ponto principal aqui. Se você gosta de ferramentas de codificação e dicas como esta, não deixe de se inscrever no canal BetterStack.
00:06:54Vejo você em outro vídeo.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video