J'ai réduit les coûts de mes agents IA de 70 % avec un seul changement (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Voici Manifest. Je l'ai utilisé pendant un week-end et mes coûts en jetons ont chuté de 70 %.
00:00:05Le même agent, les mêmes tâches, mais un meilleur routage. Si vous créez des agents IA, il y a de fortes chances
00:00:11que vous payiez bien plus que nécessaire. La plupart des requêtes n'ont pas besoin de GPT-4o ou Claude Opus,
00:00:17mais c'est pourtant ce qu'elles utilisent. Donc notre agent finit par utiliser des modèles coûteux pour
00:00:22des tâches de base comme la classification, le routage, les résumés, et c'est ainsi que votre facture
00:00:27devient trois à cinq fois plus élevée qu'elle ne devrait l'être. Comment fonctionne Manifest ? Découvrons-le.
00:00:37Voici où les choses se compliquent. Les agents ne font pas juste quelques appels, ils en font des milliers.
00:00:44Et la plupart de ces appels sont très simples. Choisir un outil, résumer un passage, classifier une entrée. Mais si
00:00:50tout passe par le meilleur modèle, vous payez le prix fort pour un travail assez basique. Alors vous pourriez
00:00:57essayer de corriger cela en écrivant une logique de routage, et voilà votre code rempli d'instructions
00:01:02if-else qui cassent dès que vos prompts changent. D'accord, nous pourrions simplement utiliser OpenRouter,
00:01:08bien sûr, mais il y a des frais. Et puis, vos prompts quittent réellement votre machine. Je suppose qu'il y a
00:01:13aussi quelque chose appelé LiteLLM que vous pourriez essayer, qui est solide, mais vous devez toujours gérer le routage
00:01:18manuellement. Le vrai problème n'est donc pas l'accès aux modèles, c'est de choisir le bon à chaque fois.
00:01:25Et c'est, mesdames et messieurs, ce que fait Manifest. Il s'interpose entre votre agent et vos modèles.
00:01:31Vous envoyez une requête, il la score selon 23 dimensions et l'achemine vers le modèle le moins cher
00:01:36capable de la traiter. Il n'y a pas de réécriture, juste un point de terminaison. Si vous aimez les outils et astuces de codage
00:01:41comme celui-ci, assurez-vous de vous abonner. Nous publions des vidéos tout le temps. Très bien, maintenant laissez-moi vous montrer.
00:01:47Même agent, même tâche. Je lance Manifest avec Docker ici, une commande curl simple, Docker Compose up,
00:01:55et maintenant je pointe mon point de terminaison OpenAI vers lui. C'est le seul changement. Maintenant je peux lier différents
00:02:01modèles ici, comme vous pouvez le voir, Anthropic, OpenAI, Ollama. J'ai choisi OpenAI, inséré ma clé, et j'ai ajouté
00:02:08Ollama pour qu'il puisse passer de l'un à l'autre. Et maintenant nous allons exécuter ce script Python. Vous pouvez voir que j'utilise
00:02:12la clé API de Manifest ici. C'est la seule clé nécessaire car Manifest possède les autres, okay ?
00:02:18Donc, quand on exécute ceci, l'agent commence à travailler. Et au lieu d'envoyer tout vers un modèle
00:02:24coûteux, Manifest prend une décision. Celui-ci est simple, route vers moins cher. Revenons ici. Notre tableau de bord
00:02:31se met à jour en temps réel, nous montrant l'utilisation des jetons, le coût par agent et le suivi budgétaire. Ce chiffre
00:02:38peut varier, mais il peut atteindre jusqu'à 70 % d'économie. Le même résultat, un coût moindre, et comme
00:02:44cela tourne localement, vos prompts ne quittent pas votre machine juste pour être routés. Cela n'a pas pris beaucoup
00:02:50de temps ou de ressources, donc cela vaut la peine de l'intégrer à votre flux, surtout si vous
00:02:55créez et utilisez de l'IA. D'accord, que se passe-t-il vraiment ici ? Vous pouvez voir Manifest comme un
00:03:00contrôleur, n'est-ce pas ? Votre agent envoie une requête, Manifest décide où elle doit aller,
00:03:07que ce soit vers un modèle API, un abonnement, un modèle local, Ollama ou llama.cpp.
00:03:14Il supporte des centaines de modèles auprès de nombreux fournisseurs, mais voici la partie importante
00:03:19de tout cela. Il n'appelle pas un autre LLM pour décider. Ce serait contre-intuitif, ce serait
00:03:25lent et coûteux. Au lieu de cela, il utilise un scoring déterministe, donc le routage se fait en moins de deux millisecondes.
00:03:32Aucune latence supplémentaire. Manifest se place au milieu, il prend de meilleures décisions,
00:03:38et il est clairement conçu pour les agents. Plugin d'appel ouvert, suivi multi-agents, nous avons tout ça, et nous avons même
00:03:44l'observabilité intégrée. Les plus grosses économies ne viennent pas des prompts complexes. Elles viennent de tous les
00:03:50petits appels que nos agents font constamment. D'accord, très rapidement, en quoi est-ce
00:03:56différent des outils que nous connaissons déjà, je vais comparer rapidement ? J'ai mentionné
00:04:01OpenRouter plus tôt. OpenRouter vous donne un point de terminaison cloud, mais votre trafic quitte toujours votre
00:04:06système. Manifest peut être entièrement auto-hébergé. Ensuite, nous avons l'outil que j'ai mentionné, LiteLLM. Cela vous donne
00:04:13une interface unifiée, mais le routage reste quelque chose que vous devez contrôler manuellement. Manifest gère le routage
00:04:19automatiquement. Il y a aussi l'intelligence de routage. Manifest score les requêtes selon 23
00:04:25dimensions, c'est leur version de l'intelligence de routage. D'autres outils similaires reposent sur le basculement
00:04:31ou des règles. Ensuite, nous avons les abonnements. Oui. Donc, bien que vous ne payiez pas pour Manifest, vous devez
00:04:38évidemment avoir des clés API comme OpenAI ou Claude, n'est-ce pas ? L'orientation agent est là où
00:04:46Manifest se démarque vraiment. Il est conçu pour les flux multi-agents. Donc la différence est simple.
00:04:51Si vous voulez juste un accès, utilisez OpenRouter. Si vous voulez le contrôle, il y a LiteLLM. Mais si votre
00:04:57problème est le coût lié aux agents, car nous faisons tous ces appels API, Manifest est fait pour
00:05:03cela. Il existe d'innombrables outils pour réduire vos coûts. Vous devez juste les trouver, et c'est l'un
00:05:08des moyens. Pour être honnête, c'est génial, mais avec un outil d'IA, vous aurez parfois des choses
00:05:14qui vous laisseront perplexe. D'abord, le bon. Les économies, surtout avec le routage par abonnement.
00:05:19Vous utilisez des forfaits que vous payez déjà au lieu de payer à nouveau par jeton.
00:05:26Ensuite, les replis (fallbacks). Si quelque chose échoue, votre agent continue, ce qui est une grande victoire.
00:05:33Ensuite le tableau de bord. Il est génial car vous pouvez voir où va votre argent sur les différents modèles,
00:05:38par agent, par tâche, tout en temps réel. Et cela fonctionne avec les clients existants
00:05:45sans grosses réécritures. Mais comme je l'ai dit, il y a des choses qu'on attendrait d'un tel outil.
00:05:50Et, vous savez, le scoring sera subjectif. Il s'agit d'IA.
00:05:56Parfois, il route vers moins cher que prévu. Vous pouvez le remplacer, mais vous devez savoir
00:06:02que cela se produit en arrière-plan. La configuration n'est pas nulle car vous gérez toujours des clés et connectez
00:06:07des fournisseurs, mais c'était très simple. Les développeurs veulent encore plus de SDK, plus d'options de stockage et plus
00:06:13de fonctionnalités. Donc oui, c'est vraiment cool, mais c'est encore de l'infrastructure. Ce n'est pas parfait. Des choses
00:06:19doivent être peaufinées. Cela vaut vraiment la peine si vous exécutez des agents chaque jour, ou si vos agents font beaucoup
00:06:25de petits appels. Même si vous vous souciez de garder vos prompts locaux, c'est génial, mais peut-être pas si vous
00:06:32voulez une configuration zéro. Dans ce cas, OpenRouter est plus simple. Mais pour la plupart des développeurs créant
00:06:38des agents, c'est l'un des moyens les plus rapides de réduire vos coûts car vous ne changez pas votre agent. On garde
00:06:44tout. Vous changez juste la façon dont il route. Mêmes entrées, mêmes sorties, facture réduite. Et c'est la
00:06:50clé ici. Si vous appréciez les outils et astuces de codage comme celui-ci, abonnez-vous à la chaîne BetterStack.
00:06:54On se retrouve dans une autre vidéo.

Key Takeaway

L'utilisation de Manifest comme contrôleur intermédiaire permet de réduire les coûts opérationnels des agents IA de 70 % grâce à un routage déterministe automatisé vers les modèles les plus économiques adaptés à chaque tâche.

Highlights

  • Manifest réduit les coûts liés aux agents IA de 70 % en optimisant le routage des requêtes vers les modèles les moins coûteux.

  • Le routage déterministe de Manifest s'exécute en moins de deux millisecondes, évitant toute latence supplémentaire lors des appels.

  • L'outil évalue les requêtes selon 23 dimensions pour sélectionner automatiquement le modèle optimal, qu'il soit local ou via API.

  • Manifest permet un déploiement auto-hébergé avec Docker, garantissant que les prompts ne quittent pas la machine de l'utilisateur.

  • Le tableau de bord intégré fournit un suivi en temps réel des jetons consommés et des coûts par agent ou par tâche.

  • L'intégration ne nécessite aucune réécriture de code, car Manifest s'interpose simplement entre l'agent et les modèles existants via un point de terminaison unique.

Timeline

Problématique des coûts liés aux agents IA

  • L'utilisation systématique de modèles coûteux comme GPT-4o ou Claude Opus pour des tâches simples multiplie la facture par trois à cinq.
  • Le routage manuel via des instructions if-else rend le code fragile et difficile à maintenir face à l'évolution des prompts.
  • Les solutions existantes comme OpenRouter ou LiteLLM imposent soit l'envoi des données vers le cloud, soit une gestion manuelle du routage.

Les agents IA effectuent souvent des milliers d'appels simples, comme la classification ou le résumé, qui ne justifient pas l'utilisation de modèles de pointe. L'absence d'automatisation intelligente force les développeurs à choisir entre des coûts exorbitants ou une complexité technique accrue pour gérer eux-mêmes le routage des requêtes.

Fonctionnement et déploiement de Manifest

  • Manifest s'interpose comme une couche de routage entre l'agent et les différents fournisseurs de modèles.
  • Le scoring des requêtes repose sur une analyse déterministe de 23 dimensions, garantissant une exécution en moins de deux millisecondes.
  • L'installation via Docker permet un contrôle total et le maintien des prompts en local pour la confidentialité des données.
  • La configuration nécessite uniquement de pointer le point de terminaison de l'agent vers Manifest.

Manifest agit comme un contrôleur intelligent qui prend des décisions basées sur la complexité de la tâche, et non sur un autre LLM, ce qui préserve la vitesse de traitement. Il supporte une large gamme de fournisseurs (Anthropic, OpenAI, modèles locaux via Ollama) et fournit une observabilité complète des coûts en temps réel directement dans son tableau de bord.

Analyse comparative et limites

  • Contrairement à OpenRouter, Manifest permet un hébergement entièrement local sans fuite de trafic.
  • Contrairement à LiteLLM, le routage est géré automatiquement par un moteur de scoring et non par des règles manuelles.
  • Le scoring peut parfois être subjectif, nécessitant parfois une intervention pour ajuster le choix du modèle.
  • L'infrastructure est conçue pour les flux multi-agents, bien que des fonctionnalités comme les SDK additionnels soient encore en développement.

Manifest se distingue par son orientation dédiée aux agents et son automatisation poussée des économies de jetons. Bien qu'il nécessite une configuration initiale des clés API et une gestion des fournisseurs, il représente l'une des voies les plus rapides pour réduire les coûts opérationnels sans modifier la logique métier de l'agent existant.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video