Cómo reducir los costos de la API de Claude 3.5 Sonnet en un 40% mediante la optimización de prompts

makedream

12 अप्रैल 2026

0

Computing/Software

Español한국어 中文 English العربية हिन्दी Deutsch Français Português Bahasa Indonesia Русский 日本語

Related Video

Esta habilidad de Claude reduce tus costos de tokens a la MITAD

Better Stack

Comments (0)

Log in to leave a comment

No posts yet

Cómo reducir los costos de la API de Claude 3.5 Sonnet en un 40% mediante la optimización de prompts\n\n## Aligera el lenguaje: abandona la cortesía y usa comandos\n\nEl hábito de pedir cosas educadamente a la IA adelgaza tu billetera. Expresiones como “por favor” o “le agradecería que hiciera” son solo ruido sin sentido para el modelo, y se traducen directamente en costos de computación. Según estudios del framework KERNEL, al eliminar estos adornos y utilizar una estructura imperativa firme, la tasa de éxito al primer intento salta del 72% al 94%. Los tokens de entrada se reducen aproximadamente en un 70%. No es necesario establecer una conexión emocional con el modelo. Una línea de instrucción clara acelera la respuesta 3 veces más que una explicación de contexto de 500 caracteres.\n\n### Métodos de compresión de instrucciones\n\n * Eliminación de predicados: Elimina todos los saludos iniciales y finales del prompt.\n * Conversión centrada en verbos: En lugar de “Por favor, resuma la siguiente frase”, usa “Resumen de frase:”. Para “Muestre el resultado en formato JSON”, basta con “Format: JSON”.\n * Uso de símbolos: Separa los elementos con guiones (-) o dos puntos (:), y encierra las restricciones importantes entre corchetes ([ ]) para que el modelo las reconozca de inmediato.\n\nAl aplicar estos cambios, el costo por cada 1,000 llamadas cae de 0.267 USD a 0.081 USD. Ahorras dinero y reduces la probabilidad de que el modelo alucine; no hay razón para no hacerlo.\n\n-----\n\n## Mapeo de palabras clave para restringir tokens de salida\n\nNo debes dar libertad al modelo cuando extraigas datos de textos no estructurados. En el momento en que el modelo añade explicaciones, el costo de los tokens de salida se dispara. Recuerda que los tokens de salida son 5 veces más caros que los de entrada. ProjectDiscovery redujo la producción de salida en más de un 80% simplificando los sistemas de clasificación. No necesitas escuchar la palabra completa “Positivo”; una sola letra “P” es suficiente.\n\n### Optimización de extracción de datos\n\n * Mapeo de códigos: Define al principio del prompt “C1: Pago, C2: Error, C3: Consulta” y ordena que solo se emita el valor del código.\n * Acortamiento de claves JSON: Usa nombres cortos como “s” en lugar de nombres largos como “sentiment_analysis_result”. Añade la frase “Just output the JSON, no preamble” para bloquear de raíz cualquier introducción.\n * Implementación de mapeo inverso: Deja que el código Python o Node.js de tu servidor se encargue de mostrar “C1” como “Pago” al usuario final.\n\nCon este método, los tokens de salida por llamada se fijan en 1 o 2. Los errores de análisis (parsing) desaparecen y los costos se reducen fácilmente en más del 40%.\n\n-----\n\n## Priorización de datos estáticos para aumentar la tasa de acierto de caché\n\nEl almacenamiento en caché de prompts (Prompt Caching) de la API de Claude puede reducir los costos de entrada hasta en un 90% si se usa bien. Sin embargo, como el almacenamiento en caché compara desde el principio, si cambia un solo byte al inicio, la caché se rompe. Hay casos en los que la tasa de acierto de caché subió del 7% al 84% simplemente moviendo los datos dinámicos al final del prompt. Cambiar la ubicación cambia las cifras de la factura.\n\n### Principios de disposición\n\n * Valores fijos arriba: Coloca el contenido que no cambia, como la persona del sistema y las definiciones de herramientas, en la parte superior. Debajo de eso, sitúa los documentos de referencia de gran volumen.\n * Configuración de marcadores de caché: Declara el punto de caché insertando el marcador `cache_control: {"type": "ephemeral"}` justo después de la sección estática.\n * Datos dinámicos abajo: Las variables que cambian en cada ocasión, como el contenido de la pregunta, el ID de usuario o la hora actual, deben ir sin falta después del marcador de caché, es decir, en la parte inferior del prompt.\n\nUn costo que era de 0.06 USD para 20k tokens se convierte en 0.006 USD (una décima parte) si pasa por la caché. Para servicios que manejan documentos voluminosos, este es el punto donde cambia la estructura de beneficios.\n\n-----\n\n## Chain of Draft (CoD) para evitar razonamientos prolijos\n\nAl pedirle a un modelo que “piense paso a paso (CoT)” para resolver problemas complejos, este suele soltar procesos extensos como si escribiera en un diario. Todo eso es costo. La alternativa es CoD (Chain of Draft). Instruye al modelo para que razone de forma breve, como si tomara notas, usando menos de 5 palabras por paso. En pruebas de razonamiento aritmético, mientras CoT usó 172.5 tokens, CoD obtuvo la misma respuesta correcta con solo 31.3 tokens.\n\n### Aplicación de CoD\n\n * Activación del modo borrador: Especifica en el prompt del sistema: “Registra el razonamiento de cada paso en forma de borrador de menos de 5 palabras”.\n * Especificación de fuentes: Si te preocupa la alucinación, añade una condición mínima de verificación como “Indica la frase de sustento con la etiqueta ”.\n * Cláusulas de excepción: Evita la caída de calidad dejando una vía de escape que permita descripciones detalladas solo en casos realmente complejos.\n\nPuedes mantener la precisión mientras reduces los tokens de salida hasta en un 92%. El tiempo de latencia de respuesta también se reduce a menos de la mitad.\n\n-----\n\n## Monitoreo de costos en tiempo real y análisis de beneficios\n\nToda esta optimización solo tiene sentido si es visible. Un servicio de tienda online con 300,000 llamadas mensuales que combine el almacenamiento en caché de prompts y CoD puede ver sus costos desplomarse de 4,500 USD a 660 USD. Básicamente, se generan unos 5 millones de wones (aprox. 3,800 USD) de beneficio operativo mensual con solo unas pocas líneas de modificación en los prompts.\n\n### Gestión posterior\n\n * Integración de herramientas: Conecta Helicone o Langfuse para visualizar cuántas veces se activa realmente la caché y por dónde se escapa el dinero.\n * Bloqueo automático: En entornos de desarrollo, crea un archivo `.claudeignore` para evitar que se incluyan archivos innecesarios en el contexto.\n * Conversión a beneficios: Mantén una hoja de cálculo con la fórmula `$Cost = N \times (T_{in} \times P_{in} + T_{out} \times P_{out})` y verifica el rendimiento semanalmente.\n\nBorra hoy mismo el “Gracias” de tus prompts del sistema y cambia el orden de los datos. Esa pequeña molestia convertirá tus facturas mensuales en beneficios.