Méthodes concrètes pour garantir les limites de TPM lors de la construction d'agents Claude
7 Mei 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Anthropic s'est associé au centre de données Colossus 1 de SpaceX pour commencer à exploiter une infrastructure de 220 000 GPU. L'augmentation de la taille de l'infrastructure ne signifie pas seulement que les modèles sont devenus plus intelligents. Pour nous, développeurs, c'est le signal que la limite de jetons par minute (TPM), qui était le goulot d'étranglement de l'exploitation des services, est en train de changer fondamentalement. Lors du déploiement d'agents à grande échelle, le premier mur auquel on se heurte n'est pas la performance du modèle, mais l'erreur 429 Too Many Requests.
Pour qu'un agent puisse analyser des bases de code complexes ou traiter simultanément les requêtes de milliers d'utilisateurs, un privilège de niveau Tier 4 minimum est requis. En 2026, passer au Tier 4 permet d'augmenter la limite de jetons d'entrée par minute (ITPM) jusqu'à 4 000 000. Comme il s'agit d'un système déterminé automatiquement en fonction du montant cumulé des paiements, il faut agir de manière stratégique.
service_tier à auto dans les en-têtes de requête API. Cela permet de naviguer avec souplesse entre la capacité réservée et les quotas standard pour supporter les pics de trafic.Une fois la préparation terminée, le nombre de requêtes par minute (RPM) s'ouvre jusqu'à 4 000. Désormais, même en cas d'afflux de trafic, le service ne s'arrêtera plus à cause d'un blocage de l'API.
L'extension de la fenêtre de contexte est une arme à double tranchant. Pouvoir utiliser 1 million de jetons ne signifie pas qu'il faille tout envoyer à chaque fois, au risque de vider votre compte bancaire. Le Context Caching d'Anthropic fixe les prompts système récurrents ou les documents de référence dans la mémoire du serveur. Avec Claude Sonnet 4.6, le coût de lecture du cache est de 0,30 $ pour 1 million de jetons. Comparé au coût d'entrée standard de 3,00 $, c'est dix fois moins cher.
En augmentant le taux de réussite du cache (cache hit rate) à seulement 80 %, la capacité de traitement réelle est multipliée par plus de 5. Votre portefeuille reste intact pendant que l'agent travaille davantage.
Toutes les requêtes n'ont pas besoin d'être traitées en moins d'une seconde. Pour des tâches telles que l'étiquetage de données ou l'indexation de bases de code, la réponse en temps réel n'est pas cruciale. En basculant ces tâches vers l'API Batch, les coûts sont réduits de moitié. La clé de la conception réside dans l'identification des tâches dont on peut attendre le résultat dans les 24 heures.
Dans un environnement utilisant 100 millions de jetons par mois, l'adoption de cette structure fait chuter les coûts d'exploitation de 660 $ à environ 320 $. Il est bien plus rentable d'utiliser l'argent économisé pour augmenter le nombre d'inférences de l'agent.
L'infrastructure étant dispersée dans toute l'Amérique du Nord, le temps de génération du premier jeton (TTFT) peut varier de plusieurs centaines de millisecondes selon le point de terminaison (endpoint) sollicité. En utilisant la fonction d'inférence inter-régions d'AWS Bedrock, vous pouvez regrouper et gérer les ressources de plusieurs régions comme une seule. Les requêtes sont automatiquement redirigées vers les zones disposant de ressources suffisantes, évitant ainsi les régions saturées.
Le simple fait d'ajuster les paramètres réseau peut réduire le temps de réponse de plus de 35 %. À mesure que l'échelle de l'infrastructure grandit, la technologie permettant d'optimiser ces chemins détermine l'expérience utilisateur.