Métodos específicos para garantir limites de TPM ao construir agentes Claude
7 мая 2026 г.
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
A Anthropic uniu forças com o data center Colossus 1 da SpaceX para operar uma infraestrutura de 220.000 GPUs. O aumento na escala da infraestrutura não significa apenas que os modelos ficaram mais inteligentes. Para desenvolvedores como nós, é um sinal de que os limites de tokens por minuto (TPM), que costumavam ser o gargalo na operação de serviços, estão mudando fundamentalmente. Ao implantar agentes em larga escala, a primeira barreira que encontramos não é o desempenho do modelo, mas o erro 429 Too Many Requests.
Para que um agente analise bases de código complexas ou processe solicitações de milhares de usuários simultaneamente, é necessário, no mínimo, o privilégio de Tier 4. Em 2026, ao subir para o Tier 4, o limite de tokens de entrada por minuto (ITPM) aumenta para até 4.000.000. Como este é um sistema determinado automaticamente com base no valor acumulado de pagamentos, é preciso agir estrategicamente.
service_tier no cabeçalho da solicitação da API como auto. Isso permite alternar de forma flexível entre capacidade reservada e cotas padrão para suportar picos de tráfego.Assim que os preparativos estiverem concluídos, o número de solicitações por minuto (RPM) abrirá para até 4.000. Agora, mesmo que o tráfego se concentre, o serviço não será interrompido por bloqueio da API.
A janela de contexto ampliada é uma faca de dois gumes. Só porque você pode usar 1 milhão de tokens, não significa que deve enviar tudo todas as vezes, ou sua conta bancária não aguentará. O Context Caching da Anthropic fixa prompts de sistema recorrentes ou documentos de referência na memória do servidor. Com base no Claude Sonnet 4.6, o custo de leitura do cache é de 0,30 dólar por 1 milhão de tokens. Comparado ao custo de entrada normal de 3,00 dólares, é apenas um décimo do valor.
Se você aumentar a taxa de acerto do cache (cache hit rate) para apenas 80%, o rendimento real (throughput) aumentará mais de 5 vezes. Sua carteira não ficará vazia enquanto o agente faz muito mais trabalho.
Nem toda solicitação precisa ser concluída em um segundo. Tarefas como rotulagem de dados ou indexação de base de código não exigem uma resposta em tempo real. Se você transferir essas tarefas para a Batch API, o custo cai pela metade. A chave do design é selecionar tarefas que só precisam de resultados entregues dentro de 24 horas.
Em um ambiente que consome 100 milhões de tokens por mês, a adoção dessa estrutura reduz o custo operacional de 660 dólares para cerca de 320 dólares. É muito mais vantajoso usar o dinheiro economizado para aumentar o número de inferências do agente.
Com a infraestrutura espalhada por toda a América do Norte, o tempo para gerar o primeiro token (TTFT) varia em centenas de milissegundos dependendo de qual endpoint você atinge. Usando o recurso de inferência entre regiões do AWS Bedrock, você pode gerenciar recursos de várias regiões como um só. Ele encaminha automaticamente as solicitações para locais com recursos disponíveis abundantes, evitando regiões com tráfego congestionado.
Apenas ajustando as configurações de rede, é possível reduzir o tempo de resposta em mais de 35%. À medida que a escala da infraestrutura cresce, a tecnologia para otimizar esse caminho é o que determina a experiência do usuário.