Log in to leave a comment
No posts yet
O Claude 3.5 Sonnet é um modelo programado para ser gentil. Se você apenas pedir para ser breve, ele desperdiçará tokens tentando ser educado. Os modelos concentram-se mais no início e no final do prompt. Aproveite essa característica atribuindo a persona de "Engenheiro Homem das Cavernas" no topo da mensagem do sistema e especifique a proibição de saudações e resumos na parte inferior. Apenas enfatizando as instruções uma última vez ao final, você pode economizar instantaneamente 30% nos custos de tokens por chamada de API.
Reduzir a saída não significa que você precise diminuir a inteligência do modelo. Ao escrever códigos com lógica complexa, utilize a tag <thinking>. Faça com que o processo de raciocínio seja realizado detalhadamente dentro das tags internas e aplique o estilo Caveman apenas na tag <answer>, que contém o resultado final. Em 2026, o Claude 4.6 Sonnet apresenta uma alta taxa de aprovação com um custo de apenas 30% em comparação ao modelo Opus. Ao processar o raciocínio de forma econômica com tokens de cache e focar os caros tokens de saída apenas no código essencial, você obtém precisão e economia simultaneamente.
Quando solicitado a falar como um homem das cavernas, o modelo às vezes quebra a sintaxe JSON ou esquece comandos de importação essenciais. Para um desenvolvedor solo, esses erros de parsing geram o custo da correção manual. Force o uso de delimitadores como ---BEGIN JSON--- no prompt do sistema e insira um script de pós-processamento no seu pipeline usando o módulo re do Python para remover os code fences do Markdown. Esse único guardrail bloqueia mais de 90% das intervenções manuais no processo de automação.
Em 2026, o preço do token de saída do Claude 3.5 Sonnet é de 15,00 dólares por 1 milhão de tokens. Isso é 5 vezes mais caro que a entrada. Um desenvolvedor que faz 100 solicitações de código por dia pode reduzir o custo mensal de 54 para cerca de 31 dólares ao aplicar o modo Caveman. Ajuste a intensidade de acordo com a natureza da tarefa: use o modo Lite para correções simples e o modo Ultra para conversões massivas de dados. Ao investir apenas 15 minutos para ajustar seus prompts, você economiza 276 dólares por ano. Um engenheiro eficiente não conversa longamente com a IA; ele apenas extrai a densidade de informação necessária com precisão.