J'ai réduit les coûts de mes agents IA de 70 % avec un seul changement (Manifest)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Voici Manifest. Je l'ai utilisé pendant un week-end et mes coûts en jetons ont chuté de 70 %.
00:00:05Le même agent, les mêmes tâches, mais un meilleur routage. Si vous créez des agents IA, il y a de fortes chances
00:00:11que vous payiez bien plus que nécessaire. La plupart des requêtes n'ont pas besoin de GPT-4o ou Claude Opus,
00:00:17mais c'est pourtant ce qu'elles utilisent. Donc notre agent finit par utiliser des modèles coûteux pour
00:00:22des tâches de base comme la classification, le routage, les résumés, et c'est ainsi que votre facture
00:00:27devient trois à cinq fois plus élevée qu'elle ne devrait l'être. Comment fonctionne Manifest ? Découvrons-le.
00:00:37Voici où les choses se compliquent. Les agents ne font pas juste quelques appels, ils en font des milliers.
00:00:44Et la plupart de ces appels sont très simples. Choisir un outil, résumer un passage, classifier une entrée. Mais si
00:00:50tout passe par le meilleur modèle, vous payez le prix fort pour un travail assez basique. Alors vous pourriez
00:00:57essayer de corriger cela en écrivant une logique de routage, et voilà votre code rempli d'instructions
00:01:02if-else qui cassent dès que vos prompts changent. D'accord, nous pourrions simplement utiliser OpenRouter,
00:01:08bien sûr, mais il y a des frais. Et puis, vos prompts quittent réellement votre machine. Je suppose qu'il y a
00:01:13aussi quelque chose appelé LiteLLM que vous pourriez essayer, qui est solide, mais vous devez toujours gérer le routage
00:01:18manuellement. Le vrai problème n'est donc pas l'accès aux modèles, c'est de choisir le bon à chaque fois.
00:01:25Et c'est, mesdames et messieurs, ce que fait Manifest. Il s'interpose entre votre agent et vos modèles.
00:01:31Vous envoyez une requête, il la score selon 23 dimensions et l'achemine vers le modèle le moins cher
00:01:36capable de la traiter. Il n'y a pas de réécriture, juste un point de terminaison. Si vous aimez les outils et astuces de codage
00:01:41comme celui-ci, assurez-vous de vous abonner. Nous publions des vidéos tout le temps. Très bien, maintenant laissez-moi vous montrer.
00:01:47Même agent, même tâche. Je lance Manifest avec Docker ici, une commande curl simple, Docker Compose up,
00:01:55et maintenant je pointe mon point de terminaison OpenAI vers lui. C'est le seul changement. Maintenant je peux lier différents
00:02:01modèles ici, comme vous pouvez le voir, Anthropic, OpenAI, Ollama. J'ai choisi OpenAI, inséré ma clé, et j'ai ajouté
00:02:08Ollama pour qu'il puisse passer de l'un à l'autre. Et maintenant nous allons exécuter ce script Python. Vous pouvez voir que j'utilise
00:02:12la clé API de Manifest ici. C'est la seule clé nécessaire car Manifest possède les autres, okay ?
00:02:18Donc, quand on exécute ceci, l'agent commence à travailler. Et au lieu d'envoyer tout vers un modèle
00:02:24coûteux, Manifest prend une décision. Celui-ci est simple, route vers moins cher. Revenons ici. Notre tableau de bord
00:02:31se met à jour en temps réel, nous montrant l'utilisation des jetons, le coût par agent et le suivi budgétaire. Ce chiffre
00:02:38peut varier, mais il peut atteindre jusqu'à 70 % d'économie. Le même résultat, un coût moindre, et comme
00:02:44cela tourne localement, vos prompts ne quittent pas votre machine juste pour être routés. Cela n'a pas pris beaucoup
00:02:50de temps ou de ressources, donc cela vaut la peine de l'intégrer à votre flux, surtout si vous
00:02:55créez et utilisez de l'IA. D'accord, que se passe-t-il vraiment ici ? Vous pouvez voir Manifest comme un
00:03:00contrôleur, n'est-ce pas ? Votre agent envoie une requête, Manifest décide où elle doit aller,
00:03:07que ce soit vers un modèle API, un abonnement, un modèle local, Ollama ou llama.cpp.
00:03:14Il supporte des centaines de modèles auprès de nombreux fournisseurs, mais voici la partie importante
00:03:19de tout cela. Il n'appelle pas un autre LLM pour décider. Ce serait contre-intuitif, ce serait
00:03:25lent et coûteux. Au lieu de cela, il utilise un scoring déterministe, donc le routage se fait en moins de deux millisecondes.
00:03:32Aucune latence supplémentaire. Manifest se place au milieu, il prend de meilleures décisions,
00:03:38et il est clairement conçu pour les agents. Plugin d'appel ouvert, suivi multi-agents, nous avons tout ça, et nous avons même
00:03:44l'observabilité intégrée. Les plus grosses économies ne viennent pas des prompts complexes. Elles viennent de tous les
00:03:50petits appels que nos agents font constamment. D'accord, très rapidement, en quoi est-ce
00:03:56différent des outils que nous connaissons déjà, je vais comparer rapidement ? J'ai mentionné
00:04:01OpenRouter plus tôt. OpenRouter vous donne un point de terminaison cloud, mais votre trafic quitte toujours votre
00:04:06système. Manifest peut être entièrement auto-hébergé. Ensuite, nous avons l'outil que j'ai mentionné, LiteLLM. Cela vous donne
00:04:13une interface unifiée, mais le routage reste quelque chose que vous devez contrôler manuellement. Manifest gère le routage
00:04:19automatiquement. Il y a aussi l'intelligence de routage. Manifest score les requêtes selon 23
00:04:25dimensions, c'est leur version de l'intelligence de routage. D'autres outils similaires reposent sur le basculement
00:04:31ou des règles. Ensuite, nous avons les abonnements. Oui. Donc, bien que vous ne payiez pas pour Manifest, vous devez
00:04:38évidemment avoir des clés API comme OpenAI ou Claude, n'est-ce pas ? L'orientation agent est là où
00:04:46Manifest se démarque vraiment. Il est conçu pour les flux multi-agents. Donc la différence est simple.
00:04:51Si vous voulez juste un accès, utilisez OpenRouter. Si vous voulez le contrôle, il y a LiteLLM. Mais si votre
00:04:57problème est le coût lié aux agents, car nous faisons tous ces appels API, Manifest est fait pour
00:05:03cela. Il existe d'innombrables outils pour réduire vos coûts. Vous devez juste les trouver, et c'est l'un
00:05:08des moyens. Pour être honnête, c'est génial, mais avec un outil d'IA, vous aurez parfois des choses
00:05:14qui vous laisseront perplexe. D'abord, le bon. Les économies, surtout avec le routage par abonnement.
00:05:19Vous utilisez des forfaits que vous payez déjà au lieu de payer à nouveau par jeton.
00:05:26Ensuite, les replis (fallbacks). Si quelque chose échoue, votre agent continue, ce qui est une grande victoire.
00:05:33Ensuite le tableau de bord. Il est génial car vous pouvez voir où va votre argent sur les différents modèles,
00:05:38par agent, par tâche, tout en temps réel. Et cela fonctionne avec les clients existants
00:05:45sans grosses réécritures. Mais comme je l'ai dit, il y a des choses qu'on attendrait d'un tel outil.
00:05:50Et, vous savez, le scoring sera subjectif. Il s'agit d'IA.
00:05:56Parfois, il route vers moins cher que prévu. Vous pouvez le remplacer, mais vous devez savoir
00:06:02que cela se produit en arrière-plan. La configuration n'est pas nulle car vous gérez toujours des clés et connectez
00:06:07des fournisseurs, mais c'était très simple. Les développeurs veulent encore plus de SDK, plus d'options de stockage et plus
00:06:13de fonctionnalités. Donc oui, c'est vraiment cool, mais c'est encore de l'infrastructure. Ce n'est pas parfait. Des choses
00:06:19doivent être peaufinées. Cela vaut vraiment la peine si vous exécutez des agents chaque jour, ou si vos agents font beaucoup
00:06:25de petits appels. Même si vous vous souciez de garder vos prompts locaux, c'est génial, mais peut-être pas si vous
00:06:32voulez une configuration zéro. Dans ce cas, OpenRouter est plus simple. Mais pour la plupart des développeurs créant
00:06:38des agents, c'est l'un des moyens les plus rapides de réduire vos coûts car vous ne changez pas votre agent. On garde
00:06:44tout. Vous changez juste la façon dont il route. Mêmes entrées, mêmes sorties, facture réduite. Et c'est la
00:06:50clé ici. Si vous appréciez les outils et astuces de codage comme celui-ci, abonnez-vous à la chaîne BetterStack.
00:06:54On se retrouve dans une autre vidéo.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video