Log in to leave a comment
No posts yet
Ya puede dejar de intentar gestionar el historial de conversaciones por usuario ejecutando Redis usted mismo o acumulando registros de texto en su base de datos. Para los desarrolladores de startups agobiados por la gestión de infraestructura, enviar todo el contexto al modelo en cada ocasión no es solo un desperdicio de tokens, sino también una deuda operativa. Los Managed Agents de Anthropic conservan los registros de eventos en el lado del servidor mediante un único session_id.
Es sencillo. Solo tiene que añadir una columna anthropic_session_id a su tabla de users existente. Si este ID está vacío cuando el usuario se conecta, llame a la API para crear una nueva sesión y guárdela en la DB. Si ya tiene un ID, simplemente páselo para reanudar la sesión.
Refactorizar de esta manera reduce los costes de recursos del servidor en más de un 40%. La disminución de las operaciones de lectura/escritura en la DB es obvia y, sobre todo, al maximizar la eficiencia del caché de prompts, los costes de los tokens de entrada que antes se enviaban de forma redundante desaparecen notablemente. Comparado con el coste de mantener el contexto levantando su propio servidor, la carga operativa es prácticamente nula.
Al otorgar permisos de Notion o GitHub a un agente, el peor escenario posible es la filtración de las claves API. Si guarda las claves en las variables de entorno del servidor, todos los permisos podrían verse comprometidos con una sola inyección de prompt. Los Managed Agents utilizan un modelo proxy llamado Credential Vault para que ni siquiera el propio agente pueda ver los valores reales de las claves.
Si le preocupa la seguridad, cree instancias de Vault independientes para cada proyecto. Al registrar claves API de servicios externos en el Vault, debe configurarlo de modo que los datos sensibles ni siquiera se incluyan en los valores de respuesta. Al iniciar la sesión, solo necesita especificar los vault_ids y la infraestructura de Anthropic se encargará de inyectar automáticamente las claves en las cabeceras de las solicitudes.
De esta forma, desaparece el riesgo de seguridad al no tener que almacenar las claves en el servidor local. En particular, dado que el Managed Agent gestiona automáticamente tareas tediosas como la renovación de tokens OAuth, el desarrollador no necesita escribir una lógica compleja. La probabilidad de incidentes de seguridad se reduce en más de un 90%, mientras que la integración se vuelve mucho más cómoda.
Toda comodidad tiene un precio. Los Managed Agents cobran una tarifa de tiempo de ejecución de 0.08 dólares por hora mientras la sesión esté activa. Esto significa que si la deja tal cual, el dinero se escapará. Sin embargo, como no se aplican cargos durante el tiempo de inactividad (Idle Time), se requiere un middleware que gestione estrictamente el ciclo de vida de la sesión.
Para ahorrar costes, aplique tres estrategias de automatización. Primero, si no hay entrada del usuario durante 15 minutos, cambie la sesión inmediatamente al estado de inactividad y configúrela para que se archive automáticamente tras una hora. Segundo, las tareas en segundo plano deben finalizar y eliminar la sesión tan pronto como entreguen el resultado. Tercero, establezca un límite de gasto mensual en la consola de Anthropic para bloquear de raíz cualquier explosión inesperada de sesiones.
La clave es reducir el tiempo activo . De hecho, si implementa correctamente la lógica de gestión del tiempo de inactividad, puede ahorrar un 25% adicional en los costes operativos totales.
Si la respuesta del agente es lenta, el usuario se marchará de inmediato. Aunque los Managed Agents reducen el tiempo de procesamiento hasta en un 85% gracias al caché de prompts, usted debe resolver el tiempo de Cold Start que ocurre al iniciar la sesión por primera vez.
Para acelerar la respuesta en más de 2 segundos, consulte la sesión existente tan pronto como reciba el user_id e inicie inmediatamente la conexión SSE (Server-Sent Events). Diseñar el prompt del sistema con más de 1,024 tokens también es una técnica útil. Solo así se activará el caché de prompts, reduciendo el tiempo hasta el primer token (TTFT) de unos 2.2 segundos a niveles de 0.8 segundos.
Si el agente envía una señal de parada durante una llamada a herramientas (tool call), el manejador del backend debe interceptarla y reanudar la conversación de inmediato. Al añadir este manejo de excepciones y lógica de autocorrección, la tasa de éxito en tareas complejas aumenta en más de 10 puntos porcentuales. Así es como se crea un entorno donde puede concentrarse únicamente en la lógica de negocio sin preocuparse por la infraestructura.