Log in to leave a comment
No posts yet
Claude 3.5 Sonnet est un modèle programmé pour être poli. Si vous lui demandez simplement d'être bref, il gaspillera des jetons par pure courtoisie. Le modèle se concentre principalement sur le début et la fin d'un prompt. Exploitez cette caractéristique en attribuant un persona d'ingénieur « Homme des cavernes » (Caveman) au sommet du message système, et spécifiez l'interdiction des salutations et des résumés tout en bas. Le simple fait de réitérer les instructions à la fin permet d'économiser instantanément 30 % des coûts de jetons par appel d'API.
Réduire la sortie ne signifie pas qu'il faille brider l'intelligence du modèle. Pour générer du code à la logique complexe, utilisez les balises <thinking>. Forcez le processus de réflexion à se dérouler en détail à l'intérieur de ces balises internes, tout en appliquant le style Caveman à la balise <answer> qui contient le résultat final. En 2026, Claude 4.6 Sonnet affiche un taux de réussite élevé pour un coût équivalent à seulement 30 % de celui du modèle Opus. En traitant le processus de réflexion via des jetons de mise en cache (caching tokens) peu coûteux et en concentrant les précieux jetons de sortie sur le code essentiel, vous optimisez à la fois la précision et l'économie.
Lorsqu'on lui demande de parler comme un homme des cavernes, il arrive que le modèle brise la syntaxe JSON ou omette des instructions d'importation indispensables. Pour un développeur solo, ces erreurs de parsing engendrent un coût de correction manuelle. Imposez l'utilisation de délimiteurs tels que ---BEGIN JSON--- dans le prompt système et intégrez un script de post-traitement utilisant le module re de Python pour extraire le code des blocs Markdown. Ce seul garde-fou permet de bloquer plus de 90 % des interventions manuelles dans le processus d'automatisation.
En 2026, le tarif des jetons de sortie pour Claude 3.5 Sonnet est de 15,00 à environ 31 $ en activant le mode Caveman. Ajustez l'intensité selon la nature de la tâche : utilisez un mode « Lite » pour les modifications simples et un mode « Ultra » pour les conversions de données massives. En investissant seulement 15 minutes pour ajuster vos prompts, vous économisez 276 $ par an. Un ingénieur efficace ne discute pas longuement avec l'IA ; il en extrait exactement la densité d'information nécessaire.