Log in to leave a comment
No posts yet
L'habitude de demander poliment à l'IA vide votre portefeuille. Les expressions telles que « S'il vous plaît » ou « Je vous saurais gré de bien vouloir » ne sont pour le modèle que du bruit inutile, qui se traduit directement en coûts de calcul. Selon les recherches sur le framework KERNEL, en supprimant ces fioritures et en utilisant une structure impérative ferme, le taux de réussite dès la première tentative bondit de 72 % à 94 %. Les tokens d'entrée sont réduits d'environ 70 %. Il n'est pas nécessaire de créer un lien émotionnel avec le modèle. Une instruction claire d'une ligne accélère la vitesse de réponse de 3 fois par rapport à une explication contextuelle de 500 caractères.
En procédant ainsi, le coût pour 1 000 appels chute de 0,267 . Vous économisez de l'argent tout en réduisant la probabilité que le modèle divague : il n'y a aucune raison de s'en priver.
Lors de l'extraction de données à partir de textes non structurés, il ne faut pas laisser de liberté au modèle. Dès que le modèle ajoute des explications, les coûts des tokens de sortie s'envolent. Rappelez-vous que les tokens de sortie coûtent 5 fois plus cher que ceux d'entrée. ProjectDiscovery a réduit le volume de sortie de plus de 80 % en simplifiant son système de classification. Inutile d'entendre le mot « Positif » en entier ; une seule lettre « P » suffit.
Avec cette méthode, les tokens de sortie par appel sont fixés à 1 ou 2. Les erreurs de parsing disparaissent et les coûts sont facilement réduits de plus de 40 %.
Le caching des prompts de l'API Claude peut réduire les coûts d'entrée jusqu'à 90 % s'il est bien utilisé. Cependant, comme le caching fonctionne par comparaison depuis le début, le cache est rompu si ne serait-ce qu'un seul octet change en amont. Il existe des cas où le simple fait de déplacer les données dynamiques à la toute fin du prompt a fait passer le taux de réussite du cache de 7 % à 84 %. Un simple changement de position transforme le montant de la facture.
cache_control: {"type": "ephemeral"} juste après la section immuable pour déclarer le point de mise en cache.Un coût qui était de 0,06 avec le cache, soit une division par 10. Pour un service traitant des documents volumineux, c'est le point où la structure de rentabilité elle-même change.
Lorsqu'on demande au modèle de « réfléchir étape par étape » (CoT) pour résoudre des problèmes complexes, il déverse un processus fastidieux comme s'il écrivait dans son journal. Tout cela a un coût. L'alternative est la CoD (Chain of Draft). Ordonnez au modèle de noter ses raisonnements de manière concise, comme des mémos, en moins de 5 mots.
Dans les tests de raisonnement arithmétique, alors que la CoT utilisait 172,5 tokens, la CoD a trouvé la même réponse avec seulement 31,3 tokens.
Vous conservez la précision tout en éliminant jusqu'à 92 % des tokens de sortie. Le temps de latence est également réduit de plus de moitié.
Toute cette optimisation n'a de sens que si elle est visible. Un service de commerce électronique effectuant 300 000 appels par mois peut voir ses coûts s'effondrer de 4 500 en combinant le caching de prompt et la CoD. C'est comme si quelques lignes de modification de prompt généraient environ 5 millions de wons de bénéfice d'exploitation par mois.
.claudeignore pour empêcher l'inclusion de fichiers inutiles dans le contexte.$Cost = N \times (T_{in} \times P_{in} + T_{out} \times P_{out})$ dans un tableur et vérifiez les performances chaque semaine.Dès aujourd'hui, supprimez les « Merci » de vos prompts système et changez l'ordre des données. Ce petit effort transformera vos factures mensuelles en bénéfices.