Log in to leave a comment
No posts yet
Você já pode parar de gerenciar o histórico de conversas por usuário rodando seu próprio Redis ou acumulando logs de texto no banco de dados. Para desenvolvedores de startups sobrecarregados com a gestão de infraestrutura, enviar todo o contexto para o modelo a cada interação é apenas um desperdício de tokens e uma dívida operacional. O Anthropic Managed Agents armazena os logs de eventos no lado do servidor com apenas um session_id.
É simples. Basta criar uma coluna anthropic_session_id na sua tabela users existente. Se este ID estiver vazio quando um usuário se conectar, chame a API para criar uma nova sessão e salve-a no banco de dados. Se o ID já existir, basta passá-lo para retomar a sessão.
Refatorar dessa forma reduz os custos de recursos do servidor em mais de 40%. A diminuição no número de entradas e saídas (I/O) do banco de dados é óbvia, mas, acima de tudo, a eficiência do cache de prompt é maximizada, fazendo com que os custos de tokens de entrada repetidos desapareçam visivelmente. Comparado ao custo de manter o contexto rodando seu próprio servidor, a carga operacional é praticamente zero.
Ao conceder permissões de Notion ou GitHub a um agente, o pior cenário possível é o vazamento de chaves de API. Se você mantiver as chaves em variáveis de ambiente do servidor, todas as permissões podem ser expostas com uma única injeção de prompt. O Managed Agents utiliza um modelo de proxy chamado Credential Vault, garantindo que nem mesmo o agente consiga visualizar os valores reais das chaves.
Se você preza pela segurança, crie instâncias de Vault independentes para cada projeto. Ao registrar chaves de API de serviços externos no Vault, configure-o para que dados sensíveis não sejam incluídos nas respostas. Ao iniciar uma sessão, basta especificar os vault_ids e a infraestrutura da Anthropic injetará automaticamente as chaves nos cabeçalhos das requisições.
Isso elimina a necessidade de armazenar chaves no servidor local, removendo o risco de segurança. Além disso, tarefas tediosas como a renovação de tokens OAuth são tratadas automaticamente pelo Managed Agent, eliminando a necessidade de o desenvolvedor escrever lógicas complexas. A probabilidade de incidentes de segurança cai em mais de 90%, enquanto a integração se torna muito mais fácil.
Toda conveniência tem um preço. O Managed Agents cobra um custo de tempo de execução de $0,08 por hora enquanto a sessão está ativa. Isso significa que, se você deixá-la ociosa, o dinheiro será desperdiçado. No entanto, como não há cobrança durante o tempo de inatividade (Idle Time), é necessário um middleware que gerencie o ciclo de vida da sessão com precisão.
Para economizar custos, aplique três estratégias de automação. Primeiro, se não houver entrada do usuário por 15 minutos, mude a sessão para o estado ocioso imediatamente e configure o arquivamento automático após 1 hora. Segundo, tarefas em segundo plano devem encerrar e excluir a sessão assim que entregarem o resultado. Terceiro, defina limites de gastos mensais no console da Anthropic para bloquear na fonte qualquer explosão inesperada de sessões.
O ponto chave é reduzir o tempo ativo . Na prática, implementar corretamente a lógica de gerenciamento de tempo de inatividade pode economizar 25% adicionais nos custos operacionais totais.
Se a resposta do agente for lenta, o usuário sairá imediatamente. Embora o Managed Agents reduza o tempo de processamento em até 85% com o cache de prompt, o tempo de Cold Start que ocorre ao iniciar uma sessão pela primeira vez deve ser resolvido manualmente.
Para acelerar o tempo de resposta em mais de 2 segundos, consulte a sessão existente assim que receber o user_id e inicie a conexão SSE (Server-Sent Events) imediatamente. Outra estratégia é projetar prompts de sistema com mais de 1.024 tokens. Isso ativa o cache de prompt, fazendo com que o tempo para o primeiro token (TTFT) caia de 2,2 segundos para o nível de 0,8 segundos.
Se o agente sinalizar uma interrupção durante uma chamada de ferramenta (tool call), o handler do backend deve interceptar isso e retomar a conversa instantaneamente. Ao adicionar esse tratamento de exceções e lógica de autocorreção, a taxa de sucesso de tarefas complexas aumenta em mais de 10 pontos percentuais. É assim que se cria um ambiente onde você pode focar apenas na lógica de negócios, sem se preocupar com a infraestrutura.