Reduzi os Custos do Meu Agente de IA em 70% Com Uma Mudança (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Este é o Manifest. Mudei para ele durante um fim de semana e meus custos com tokens caíram 70%.
00:00:05O mesmo agente, as mesmas tarefas, apenas um roteamento melhor. Se você está criando agentes de IA,
00:00:11é muito provável que você esteja pagando muito mais do que deveria. A maioria das requisições não precisa do GPT-4-0 ou Claude Opus,
00:00:17mas é exatamente isso que elas estão acessando de qualquer forma. Então, nosso agente acaba usando modelos caros para
00:00:22coisas básicas como classificação, roteamento, resumos, e é assim que sua conta silenciosamente
00:00:27fica três a cinco vezes mais alta do que deveria ser. Como o Manifest funciona? Vamos descobrir.
00:00:37É aqui que as coisas falham. Agentes não fazem apenas algumas chamadas, eles fazem milhares dessas chamadas.
00:00:44E a maioria dessas chamadas é realmente simples. Escolher uma ferramenta, resumir um trecho, classificar uma entrada. Mas se
00:00:50tudo vai para o melhor modelo, você está pagando um preço premium por um trabalho bastante básico. Então você poderia
00:00:57tentar consertar isso, acho que escrevendo uma lógica de roteamento, e agora seu código está cheio de declarações if-else
00:01:02que quebram no segundo em que seus prompts mudam. Ok, sim, poderíamos apenas usar o OpenRouter,
00:01:08claro, mas há uma taxa para isso. E então seus prompts realmente saem da máquina. Acho que existe
00:01:13também algo chamado LiteLLM que você poderia tentar, que é sólido, mas você ainda tem que gerenciar o roteamento
00:01:18manualmente. Então, o problema real não é o acesso aos modelos, é escolher o certo todas as vezes.
00:01:25E isso, senhoras e senhores, é o que o Manifest faz. Ele fica entre seu agente e seus modelos.
00:01:31Você envia uma requisição, ele a pontua em 23 dimensões e a roteia para o modelo mais barato
00:01:36que pode lidar com ela. Não há reescritas e apenas um endpoint. Se você gosta de ferramentas de codificação e dicas como
00:01:41esta, não deixe de se inscrever. Temos vídeos saindo o tempo todo. Tudo bem, legal. Agora deixe-me mostrar.
00:01:47O mesmo agente, a mesma tarefa. Eu inicio o Manifest com Docker aqui, um comando curl simples, Docker Compose up,
00:01:55e agora aponto meu endpoint da OpenAI para ele. Essa é a única mudança aqui. Agora posso vincular diferentes
00:02:01modelos aqui, como você pode ver: Anthropic, OpenAI, Ollama. Eu escolhi a OpenAI, inseri minha chave e vinculei o
00:02:08Ollama para que ele possa alternar entre os dois. E agora vamos executar este script Python. Você pode ver que estou usando
00:02:12a chave de API do Manifest aqui. Essa é a única chave que precisamos, porque o Manifest tem as outras, ok?
00:02:18Então, quando executamos isso, o agente começa a trabalhar. E em vez de enviar tudo para um modelo
00:02:24caro, o Manifest toma uma decisão. Este é simples. Roteie de forma mais barata. Agora volte aqui. Nosso painel
00:02:31atualiza em tempo real, mostrando o uso de tokens, custo por agente e acompanhamento de orçamento. O número-chave
00:02:38pode variar, mas pode ser até 70% mais barato. O mesmo resultado, custo menor, e porque
00:02:44isso roda localmente, seus prompts não saem da sua máquina apenas para serem roteados. Isso não levou muito
00:02:50tempo ou recursos, então vale a pena integrar ao seu fluxo, especialmente se você está
00:02:55construindo e usando IA. Ok, então o que realmente acontece aqui? Você pode pensar no Manifest como um
00:03:00controlador, certo? Seu agente envia uma requisição, o Manifest decide para onde ela deve realmente ir,
00:03:07então isso pode ser um modelo de API, pode ser uma assinatura, um modelo local, Llama ou Llama.cpp.
00:03:14Ele suporta centenas de modelos em vários provedores, mas aqui está a parte importante para
00:03:19tudo isso. Ele não chama outro LLM para decidir. Isso seria contraproducente, então seria apenas
00:03:25lento e caro. Em vez disso, ele usa pontuação determinística, então o roteamento acontece em menos de dois milissegundos.
00:03:32Nenhuma latência adicionada a tudo isso. O Manifest apenas fica no meio e toma decisões melhores,
00:03:38e é claramente construído para agentes. Plugin open call, rastreamento multi-agente, nós temos isso, e até temos
00:03:44observabilidade embutida. As maiores economias não vêm de prompts difíceis. Elas vêm de todas as
00:03:50pequenas chamadas que nossos agentes fazem constantemente. Ok, então, rapidamente, como isso é
00:03:56diferente de ferramentas que já conhecemos? Vou comparar isso rapidamente. Eu mencionei
00:04:01o OpenRouter antes. Então o OpenRouter te dá um endpoint na nuvem, mas seu tráfego ainda sai do seu
00:04:06sistema. O Manifest pode ser totalmente auto-hospedado. Depois temos a ferramenta que mencionei, o LiteLLM. Isso te dá
00:04:13uma interface unificada, mas o roteamento ainda é algo que você tem que controlar manualmente. O Manifest lida com
00:04:19o roteamento automaticamente. Há também inteligência de roteamento. Agora, onde o Manifest pontua requisições em 23
00:04:25dimensões, essa é a versão deles de inteligência de roteamento. Outras ferramentas como essa dependem de failover
00:04:31ou regras. Depois temos as assinaturas. Sim. Então, embora você não pague pelo Manifest, você ainda
00:04:38obviamente precisa de coisas como uma chave de API da OpenAI ou Claude, certo? Agora, foco no agente é algo onde
00:04:46o Manifest realmente se destaca. Ele é construído para fluxos de trabalho multi-agente. Então a diferença é simples.
00:04:51Se você quer acesso, use o OpenRouter, certo? Se você quer controle, existe o LiteLLM. Mas se o seu
00:04:57problema é, na verdade, o custo dos agentes, porque estamos fazendo todas essas chamadas de API, o Manifest é construído para
00:05:03isso. Existem inúmeras ferramentas para reduzir seus custos. Você só precisa encontrá-las, e esta é uma
00:05:08das maneiras. Agora, sendo honesto aqui, porque é ótimo, mas com uma ferramenta de IA, você vai ter algumas
00:05:14coisas que podem fazer você ficar coçando a cabeça. Primeiro, o lado bom. A primeira seria a economia,
00:05:19especialmente com o roteamento de assinatura. Você está usando planos que já paga, em vez de
00:05:26pagar por token novamente. Depois, os fallbacks, certo? Se algo falha, seu agente continua funcionando, o que é
00:05:33uma grande vitória. Depois temos o painel. O painel é ótimo porque você pode realmente ver para onde seu dinheiro
00:05:38está indo entre diferentes modelos, por agente, por tarefa, tudo em tempo real. E funciona com clientes
00:05:45existentes sem grandes reescritas. Mas, como eu disse, há coisas que esperaríamos que uma ferramenta como
00:05:50esta tivesse. E, você sabe, há coisas como a pontuação ser opinativa, certo?
00:05:56IA. Ok. Então, às vezes, ele roteia de forma mais barata do que você esperaria. Você pode substituir isso, mas precisa saber
00:06:02que isso está acontecendo em segundo plano. A configuração também não é zero, porque você ainda está gerenciando chaves e configurando
00:06:07provedores, mas foi muito simples. E os desenvolvedores ainda querem mais SDKs, mais opções de armazenamento e mais
00:06:13funcionalidades. Então, sim, é muito legal, mas ainda é infraestrutura. Não é perfeito. Algumas coisas precisam
00:06:19ser ajustadas. Definitivamente vale a pena se você executa agentes todos os dias, ou se seus agentes fazem muitas
00:06:25pequenas chamadas. Heck, mesmo se você se preocupa em manter os prompts locais, isso é ótimo, mas talvez não se você
00:06:32quiser configuração zero. Nesse caso, algo como o OpenRouter é mais simples, mas para a maioria de nós desenvolvedores criando
00:06:38agentes, esta é uma das maneiras mais rápidas de reduzir seu custo, porque você não altera seu agente. Mantemos
00:06:44tudo. Você apenas altera como ele se conecta. As mesmas entradas, as mesmas saídas, a conta menor. E esse é o
00:06:50ponto principal aqui. Se você gosta de ferramentas de codificação e dicas como esta, não deixe de se inscrever no canal BetterStack.
00:06:54Vejo você em outro vídeo.

Key Takeaway

O Manifest reduz os custos de execução de agentes de IA em 70% ao substituir o uso indiscriminado de modelos premium por um roteamento automático baseado em pontuação determinística de tarefas.

Highlights

  • A adoção do Manifest reduz os custos operacionais de agentes de IA em até 70% ao otimizar o roteamento de requisições.

  • O Manifest utiliza pontuação determinística em 23 dimensões para rotear cada tarefa ao modelo mais barato disponível em menos de dois milissegundos.

  • A ferramenta suporta centenas de modelos em múltiplos provedores e pode ser totalmente auto-hospedada via Docker.

  • A implementação exige apenas a alteração do endpoint de conexão, mantendo a lógica interna do agente intacta.

  • O sistema inclui observabilidade integrada, rastreamento multi-agente e um painel de controle que exibe o uso de tokens e custos em tempo real.

Timeline

O problema dos custos elevados em agentes de IA

  • Agentes de IA frequentemente acessam modelos caros, como GPT-4-o ou Claude Opus, para tarefas simples como classificação e resumo.
  • A lógica de roteamento manual baseada em if-else torna o código frágil diante de mudanças nos prompts.
  • O custo de manutenção de agentes pode ser de três a cinco vezes superior ao necessário devido à escolha ineficiente do modelo.

A maioria das requisições de um agente não exige o poder computacional de modelos de ponta, mas a falta de um sistema de despacho inteligente resulta em faturas desnecessariamente altas. Alternativas como OpenRouter ou LiteLLM oferecem acesso a modelos, mas não resolvem o desafio de gerenciar o roteamento de forma automática e eficiente entre diferentes provedores.

Funcionamento e integração do Manifest

  • O Manifest atua como um controlador posicionado entre o agente e os modelos, avaliando a complexidade da tarefa antes do envio.
  • A implementação ocorre via Docker e requer apenas o apontamento do endpoint da API para o serviço local.
  • O sistema opera com uma única chave de API mestre, gerenciando as chaves dos modelos vinculados internamente.

O Manifest pontua cada requisição em 23 dimensões distintas para selecionar o modelo mais econômico capaz de processar a tarefa. O painel de controle atualiza em tempo real o uso de tokens e o orçamento, mantendo os dados dos prompts dentro do ambiente local do usuário.

Diferenciais técnicos e observabilidade

  • A decisão de roteamento ocorre via lógica determinística em menos de dois milissegundos, sem adicionar latência perceptível.
  • Diferente de outras ferramentas, o Manifest automatiza o roteamento em vez de exigir regras manuais ou failover simples.
  • A ferramenta é estruturada especificamente para fluxos de trabalho multi-agente com observabilidade nativa.

O Manifest se distingue por não utilizar um LLM para decidir qual modelo usar, evitando custos adicionais de processamento. Ele permite a unificação de provedores como Anthropic, OpenAI e Ollama, garantindo que o tráfego possa permanecer inteiramente dentro da infraestrutura do desenvolvedor se desejado.

Limitações e considerações práticas

  • A configuração inicial exige a gestão de chaves de API e provedores, não sendo um sistema de 'configuração zero'.
  • A pontuação de roteamento é opinativa, podendo ocasionalmente selecionar modelos mais baratos do que a preferência do usuário, embora ajustável.
  • A ferramenta ainda está em fase de expansão de funcionalidades, como SDKs adicionais e opções variadas de armazenamento.

Embora o Manifest traga economias significativas e resiliência através de fallbacks, a automação do roteamento exige monitoramento constante. É uma solução voltada para desenvolvedores que operam agentes diariamente e buscam reduzir custos sem reescrever seus fluxos de trabalho existentes.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video