El problema de los límites de Claude Code finalmente ha sido resuelto

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Claude Code no ha estado muy bien últimamente.
00:00:02Nuestro equipo lo usa a diario y, en las últimas semanas, hemos agotado los límites
00:00:06mucho más rápido de lo que deberíamos.
00:00:07Se suponía que la ventana de contexto de 1 millón de tokens mejoraría las cosas, pero
00:00:12en realidad las ha empeorado.
00:00:13Por eso investigamos qué optimizaciones podíamos encontrar para que Claude Code dure más.
00:00:18Antes de pasar a cómo aprovechar al máximo los límites, primero
00:00:22analicemos cómo funciona realmente el sistema de planes y límites de Claude.
00:00:26Esta sección es solo para explicarlo a quienes no están familiarizados con cómo
00:00:30funcionan realmente los límites.
00:00:31Claude tiene 2 planes de pago, que incluyen el plan Pro y el Max.
00:00:34El Max es el más caro y el Pro es un plan más económico de solo 20 dólares al mes.
00:00:38Ambos planes tienen acceso a diferentes funciones que no estaban en el plan gratuito,” “incluyendo
00:00:43Claude Code, Co-work y otras.
00:00:45Pero todos siguen la misma regla.
00:00:46Sin importar el plan, cada uno te da un número limitado de mensajes que puedes enviar en
00:00:51una ventana de 5 horas; una vez que termina esa ventana, tu contador se reinicia.
00:00:55El número de mensajes que recibes varía según el plan.
00:00:57La ventana de 5 horas comienza al enviar tu primer mensaje, ya sea en Claude de escritorio,
00:01:01web o cualquier interfaz de Claude.
00:01:03Tras iniciar la ventana, cada mensaje enviado se descuenta del límite establecido de tu plan.
00:01:08Podrías esperar que la ventana solo cuente cuando la estás usando activamente.
00:01:11Pero incluso si te quedas inactivo y luego lo usas mucho en la quinta hora, la ventana
00:01:15sigue corriendo y tendrías que esperar a que pasen las 5 horas completas para que tu límite
00:01:20se reinicie.
00:01:21La ventana de 5 horas tampoco depende de tu dispositivo.
00:01:23Así que si usas más de un dispositivo con la misma cuenta, todo el uso se contará
00:01:27dentro del mismo límite.
00:01:28En el plan Pro, obtienes alrededor de 45 mensajes por cada ventana de 5 horas.
00:01:32El plan Max te da 225, y el plan Max 20 veces, que es más caro que el
00:01:37plan de 100 dólares, te da 900 mensajes en la misma ventana.
00:01:41Estas cifras pueden variar según el modelo que uses, ya que obtienes más mensajes con Sonnet
00:01:46y menos con Opus.
00:01:47Quizás pienses que este número de mensajes suena a más que suficiente para tu caso.
00:01:51Pero esto es solo un conteo aproximado y hay otros factores que influyen.
00:01:54El primero es el modelo que estés utilizando.
00:01:56Los modelos Opus consumen unos 3 veces más tokens para la misma solicitud que Sonnet porque
00:02:01son mucho más potentes y requieren más cómputo.
00:02:03Si usas Opus todo el tiempo, no obtendrás 45 mensajes en tu ventana de 5 horas
00:02:08y tu límite se agotará mucho más rápido.
00:02:10El plan Pro tiene un límite general más bajo.
00:02:12En cuanto al plan Max, aunque una sola persona podría apañarse, el Max suele ser comprado
00:02:16por organizaciones y distribuido entre miembros del equipo, así que no aguantará con
00:02:20varias personas a bordo.
00:02:21Hacemos lo mismo en AI Labs: compramos un plan Max y lo distribuimos en nuestro equipo.
00:02:26Aun así, agotamos el límite con frecuencia, lo que nos llevó a investigar formas de
00:02:30hacer que dure más.
00:02:31El segundo factor es el tipo de tarea que estés realizando.
00:02:34Las tareas intensivas en cómputo o que requieren múltiples herramientas consumen muchos tokens.
00:02:38Así, la ventana se agotará mucho más rápido de lo habitual y podrías ni llegar a los 45
00:02:43mensajes en el plan Pro.
00:02:44Y además, Anthropic ha reducido recientemente el límite de sesión más rápido en horas pico
00:02:48de trabajo, cuando mucha gente usa el servicio intensamente a la vez.
00:02:52Por tanto, tu plan de Claude se agotará aún más rápido antes de que puedas terminar el trabajo.
00:02:56Por eso ahora es el momento de aprender a aprovechar al máximo tu ventana y
00:03:00usar Claude de forma efectiva todo el día.
00:03:02Pero antes de avanzar, unas palabras de nuestro patrocinador, Twin.
00:03:05Si has intentado automatizar con herramientas como Zapier o N8N, ya conoces el problema.
00:03:09Flujos de trabajo rígidos, fallos constantes y horas perdidas conectando aplicaciones.
00:03:13Y los agentes locales como Claudebot son pesadillas de seguridad y demasiado caros.
00:03:17Twin cambia eso.
00:03:18Es un agente de IA sin código que realmente hace el trabajo por ti mientras duermes.
00:03:21Se conecta a herramientas mediante APIs si existen y, si no, construye integraciones
00:03:26sobre la marcha, dándote una biblioteca de integración infinita.
00:03:29Y si no hay API, Twin puede simplemente navegar e interactuar como un humano.
00:03:33Además, tienes acceso integrado a herramientas como Perplexity, Gamma, VO3 y Nanobanana.
00:03:38Acaban de lanzar la API de Twin.
00:03:40Así que puedes activar agentes desde cualquier lugar e integrarlos en tus flujos de trabajo.
00:03:44¿Y la mejor parte?
00:03:45Estos agentes aprenden.
00:03:46Se arreglan solos cuando algo falla, mejoran con el tiempo y funcionan 24/7.
00:03:50Deja de vigilar automatizaciones rotas.
00:03:52Haz clic en el enlace del comentario fijado y echa un vistazo a Twin.
00:03:55Ahora, quizás ya sepas que el código fuente de Claude Code se filtró.
00:03:58Y mucha gente identificó que tiene muchos problemas internos que hacen que los límites
00:04:02se agoten más rápido de lo previsto.
00:04:04Uno de ellos son las respuestas truncadas que permanecen en el contexto.
00:04:07Si recibes un mensaje de error, como si se alcanzara un límite de velocidad, puede crear una
00:04:12respuesta parcial.
00:04:13Y al respecto, reintenta manteniendo el contexto anterior junto con el mensaje parcial
00:04:17lleno de errores.
00:04:18Esto infla el contexto con información innecesaria y desperdicia tokens.
00:04:22Los listados de habilidades también se inyectan sobre todo para un acceso más rápido, aunque
00:04:27no aportan mucho valor porque ya existe un manejo rápido mediante la herramienta de habilidades.
00:04:31De forma similar a eso, también existen algunos otros problemas.
00:04:33Debido a todo esto, mucha gente se queja de alcanzar los límites de Claude antes de lo esperado.
00:04:38Para contrarrestar tanto los límites oficiales como estos drenajes ocultos de tokens, debes
00:04:43tomar ciertas medidas para que Claude Code dure más al construir tus productos.
00:04:47Compartimos todo lo que encontramos sobre la creación de productos con IA en este canal.
00:04:51Si quieres más vídeos sobre esto, suscríbete y estate atento a futuros vídeos.
00:04:55Empezaremos con los consejos que quizás ya nos hayas oído si has visto nuestros vídeos
00:04:59anteriores.
00:05:00El primero es el comando clear.
00:05:01Úsalo siempre que hayas completado una tarea y ya no necesites el contexto anterior.
00:05:05Por ejemplo, cuando hayas terminado de implementar la app y quieras pasar a la fase de pruebas,
00:05:09no necesitas el contexto anterior.
00:05:11Así que es mejor resetearlo y empezar la siguiente tarea con una ventana de contexto limpia.
00:05:15Pero a veces sí quieres conservar parte de ese contexto.
00:05:18En ese caso, puedes ejecutar el comando compact en su lugar.
00:05:21Resume toda la interacción y libera espacio con un resumen en el contexto.
00:05:25Queremos que los uses porque cada vez que Claude envía un mensaje, incluye
00:05:29toda la conversación hasta ahora, junto con prompts de sistema, herramientas e historial
00:05:34previo de la conversación.
00:05:35Con cada nuevo mensaje, esto sigue creciendo, resultando en una ventana inflada y un mayor
00:05:40uso de tokens por mensaje.
00:05:41Ahora, incluso compactando, si haces preguntas secundarias en la ventana principal, sigues
00:05:46inflándola con contenido no relacionado.
00:05:47Así que puedes usar el comando by the way para hacer una pregunta secundaria rápida.
00:05:50Responde en una ventana de contexto de sesión separada.
00:05:53Esta pregunta secundaria no iría con el siguiente mensaje que envíes, lo que reduce los tokens
00:05:57por solicitud.
00:05:58Aunque planificar pueda parecer una tarea intensiva en tokens, necesitas empezar tus
00:06:02proyectos con ello.
00:06:03Esto es porque si no dedicas tiempo a planificar, tendrás que corregir a Claude después
00:06:07cuando su implementación no se alinee con lo que necesitas.
00:06:10Gastar tokens al principio en planificar te ahorra desperdiciar muchos más tokens en
00:06:14correcciones más adelante.
00:06:15A veces Claude no sigue tus instrucciones como deseas.
00:06:18En esos momentos, a menudo le damos un nuevo prompt con la forma correcta de implementarlo.
00:06:22Pero en lugar de eso, puedes ejecutar el comando rewind para restaurar la conversación
00:06:26y el código a un punto anterior al mensaje donde Claude no se alineó y hacer los cambios
00:06:31directamente en el prompt.
00:06:32También puedes pulsar dos veces la tecla escape para hacer lo mismo.
00:06:35Esto elimina la implementación incorrecta de la ventana de contexto y los resultados erróneos
00:06:39no se envían al modelo.
00:06:41Todos estos comandos te ayudan a ahorrar tokens durante una sesión.
00:06:44Pero el mayor impacto viene de cómo esté estructurado tu proyecto en primer lugar.
00:06:47Quizás ya hayas estructurado tus proyectos usando diferentes marcos de trabajo como Beemad,
00:06:52SpecKit u otros.
00:06:53Pero la mayoría de estos marcos son en realidad intensivos en tokens.
00:06:56Si los usas en tu propia app, espera que tu límite de tokens se alcance más rápido.
00:07:00Aunque estos marcos puedan sostenerse en planes Max, definitivamente no lo harán en Pro.
00:07:04Incluso si no usas marcos, puede que hayas configurado el tuyo propio.
00:07:07Para crear el archivo Claude.md debes haber usado el comando init que recorre tu código
00:07:12y crea un archivo Claude.md por ti.
00:07:14Sí lo crea, pero contiene muchos problemas.
00:07:17Este archivo debería orientar al agente de IA, pero enumera cosas que
00:07:20la IA ya sabe por sí misma.
00:07:22Por ejemplo, los comandos que muestra sirven para ejecutar cualquier servidor de desarrollo y
00:07:27Claude ya sabe cómo hacerlo.
00:07:28A menos que tengas un flag distinto para ejecutar el servidor, no hay necesidad de
00:07:31añadir eso.
00:07:32En cuanto a la arquitectura, Claude puede leer nombres de archivos y deducir de qué trata cada
00:07:37archivo por su nombre porque entiende sistemas de archivos y los usa para navegar.
00:07:41Así que no hay necesidad real de ese tipo de instrucciones a menos que haya casos específicos
00:07:45donde se requiera orientación adicional.
00:07:47Si vas a escribir tu propio Claude.md, idealmente debería tener menos de 300 líneas.
00:07:52Cuanto más corto sea el archivo, mejor funcionará y más se centrará Claude en lo que
00:07:56realmente importa.
00:07:57Debe actuar como una guía, no como un manual detallado explicando cómo hacer todo.
00:08:01Lo que incluyas debe ser aplicable de forma genérica a todo el proyecto, no detalles
00:08:05específicos de cada parte empaquetados en un solo archivo.
00:08:08Incluye lo que Claude no debe hacer, tus prácticas de desarrollo y otras instrucciones similares
00:08:13que Claude no sepa por defecto solo en el Claude.md.
00:08:16Debes configurar este archivo correctamente porque se carga en el contexto una vez
00:08:20por cada sesión y permanece ahí.
00:08:22Tener información innecesaria en la ventana de contexto significa desperdiciar tokens en cada
00:08:27turno que ni siquiera se necesitaban al principio.
00:08:28Para aspectos específicos como bases de datos, esquemas u otras áreas con reglas distintas,
00:08:33divídelos en documentos separados y enlúzalos en el archivo Claude.md.
00:08:37Esto permite a Claude traer progresivamente solo los documentos que realmente necesita.
00:08:41También mencionamos esto anteriormente: crear reglas de proyecto específicas para
00:08:45ciertas rutas ayuda a Claude a mantenerse enfocado.
00:08:48Así, Claude solo tiene información relevante en contexto y evita el uso innecesario de tokens.
00:08:53Por lo tanto, también deberías separar archivos de reglas para lógica de áreas específicas para
00:08:57que Claude pueda cargar solo lo necesario.
00:08:58También debes usar habilidades para flujos repetitivos y añadir scripts y referencias para
00:09:03que pueda realizar tareas con mayor precisión.
00:09:05Las habilidades ayudan cargando progresivamente solo la parte requerida y esto hace que
00:09:10Claude se concentre en el aspecto relevante de la tarea.
00:09:12Agrupar con scripts ayuda al no desperdiciar tokens en tareas deterministas que pueden
00:09:16manejarse mediante programación.
00:09:17La razón para separar archivos es sencilla.
00:09:19Si Claude trabaja en una parte, no necesita información de áreas no relacionadas.
00:09:24Pero si todo se pone en el mismo archivo Claude.md, todo se cargará cada vez,
00:09:29llevando a un uso innecesario de tokens.
00:09:30También puedes usar el flag append system prompt para añadir instrucciones específicas
00:09:35directamente al prompt del sistema.
00:09:36La sesión comienza con esas instrucciones en lugar de ponerlo todo en el archivo
00:09:40Claude.md.
00:09:41Estas instrucciones son temporales y se eliminarán una vez que termine la sesión.
00:09:44Esto podría sonar a que añade al contexto, pero es más eficiente que
00:09:48poner una instrucción de un solo uso en Claude.md.
00:09:51Si la añades ahí, Claude la mantiene en el contexto permanentemente, gastando tokens sin necesidad.
00:09:56Al añadirla al final, proporcionas las instrucciones exactamente cuando las necesitas.
00:09:59Además, si disfrutas de nuestro contenido, considera pulsar el botón de hype porque nos ayuda
00:10:03a crear más contenido como este y llegar a más personas.
00:10:06También necesitas establecer el nivel de esfuerzo del modelo que estés usando.
00:10:10Si no trabajas en una tarea que requiera mucho pensamiento, ajústalo a bajo ya que
00:10:14el ajuste bajo ahorra tokens.
00:10:15Por defecto está en effort auto, lo que significa que el modelo decide cuánto esfuerzo
00:10:20usar, pero puedes cambiarlo manualmente.
00:10:21Si tu tarea no es muy compleja, no hay necesidad de usar un ajuste de esfuerzo alto.
00:10:25Como mencionamos antes, Opus es el modelo que más tokens consume.
00:10:28Si trabajas en tareas sencillas, cambia a Haiku.
00:10:31Si tu tarea requiere un nivel razonable de razonamiento, usa Sonnet.
00:10:34Quizás no sea tan potente como Opus, pero sigue siendo eficiente y ahorra más tokens.
00:10:39Si has configurado varios MCP para un proyecto y no necesitas uno en concreto, desactívalo
00:10:43para que no gaste tokens inyectando información innecesaria en la ventana de contexto.
00:10:48Otro paso importante es crear hooks que filtren contenido que no debería estar
00:10:52en la ventana de contexto de Claude.
00:10:54Por ejemplo, he configurado casos de prueba para mi proyecto.
00:10:57Al ejecutarlos, informan de las pruebas superadas y fallidas, y todo eso se carga
00:11:01en el contexto.
00:11:02Pero la principal preocupación de Claude son las pruebas fallidas, ya que son las que hay que arreglar.
00:11:05Puedes crear un hook que use un script para evitar que las pruebas superadas entren
00:11:10en la ventana de contexto y solo se incluyan las fallidas.
00:11:13Esto ahorra una cantidad significativa de tokens comparado con inyectar todos los informes.
00:11:17Puedes configurar hooks para muchas otras tareas de la misma forma para optimizar el uso de tokens.
00:11:21Aparte de todo eso, hay ciertas configuraciones que debes hacer en tu carpeta .claud
00:11:25para mejorar el rendimiento.
00:11:27La primera es establecer disable prompt caching a false.
00:11:30Esto hace que Claude guarde en caché tus prefijos más usados, lo que reduce el uso de tokens.
00:11:34Anthropic no te cobra por las partes que se envían repetidamente, solo pagas por el
00:11:38contenido nuevo.
00:11:39También puedes desactivar auto memory para evitar que añada contenido a tu contexto
00:11:43e incremente el uso de tokens.
00:11:44Auto memory es un proceso en segundo plano que analiza tus conversaciones y consolida
00:11:49información útil en archivos de memoria para tu proyecto específico.
00:11:52Desactivarlo significa que no rastreará tus hábitos, pero ahorrará tokens al no ejecutarse
00:11:56en segundo plano.
00:11:57Hay otro flag llamado disable background task que detiene procesos en segundo plano para que no
00:12:00consuman tokens continuamente.
00:12:02Estos incluyen dream, refactorización y limpieza de memoria e indexación en segundo plano.
00:12:06Apagar esto ayuda a ahorrar tokens porque, aunque no estés chateando activamente, estos
00:12:10procesos seguirían trabajando en tu conversación.
00:12:13También deberías desactivar el pensamiento (thinking) cuando no sea necesario porque el pensamiento
00:12:16consume mucho contexto y desperdicia tokens extensamente en tareas que ni lo requieren.
00:12:20Esto es diferente del ajuste de esfuerzo que comentamos antes.
00:12:23El ajuste de esfuerzo controla cuánto razona Claude en una respuesta; un esfuerzo menor
00:12:28significa menos pensamiento, pero sigue pensando.
00:12:30Desactivar el pensamiento por completo apaga el paso de razonamiento interno y Claude
00:12:34genera la respuesta directamente.
00:12:35Si tu tarea no requiere un razonamiento profundo, desactiva el pensamiento por completo.
00:12:39Si necesita algo de razonamiento pero no mucho, baja el nivel de esfuerzo en su lugar.
00:12:43Finalmente, configura max output tokens a un número determinado.
00:12:46No hay un valor por defecto, pero limitar esto controla cuánto genera el modelo.
00:12:50Bájalo si quieres ahorrar tokens agresivamente o súbelo si tu tarea requiere respuestas
00:12:55más largas.
00:12:56La plantilla de Claude.md y otros recursos están disponibles en AI Labs Pro para este vídeo
00:13:00y para todos nuestros vídeos anteriores, desde donde puedes descargarlos y usarlos en tus proyectos.
00:13:05Si has encontrado valor en lo que hacemos y quieres apoyar al canal, esta es la mejor forma
00:13:09de hacerlo.
00:13:10El enlace está en la descripción.
00:13:11Con esto llegamos al final de este vídeo.
00:13:13Si quieres apoyar al canal y ayudarnos a seguir haciendo vídeos como este, puedes
00:13:17hacerlo usando el botón de súper gracias de abajo.
00:13:19Como siempre, gracias por vernos y nos vemos en el próximo.

Key Takeaway

La optimización del límite de mensajes en Claude Code se logra mediante la segmentación de reglas en archivos externos, el uso de comandos de limpieza de contexto como 'compact' y la desactivación de procesos automáticos en segundo plano.

Highlights

El plan Pro de Claude ofrece 45 mensajes cada 5 horas, mientras que el plan Max otorga 225 mensajes en el mismo periodo.

Los modelos Opus consumen aproximadamente 3 veces más tokens que Sonnet para procesar la misma solicitud de usuario.

El comando 'rewind' o pulsar dos veces la tecla escape restaura la conversación a un punto previo para eliminar errores del contexto.

Un archivo Claude.md optimizado debe tener menos de 300 líneas para evitar el desperdicio de tokens en cada turno de la sesión.

Configurar 'disable prompt caching' en falso reduce los costos al no cobrar por prefijos de sistema enviados repetidamente.

Desactivar las tareas en segundo plano mediante 'disable background task' detiene procesos de indexación y refactorización que agotan el límite.

Timeline

Estructura de planes y funcionamiento de los límites

  • La ventana de uso de Claude dura 5 horas y comienza a contar desde el primer mensaje enviado.
  • El plan Pro otorga 45 mensajes, el Max 225 y el plan Max de nivel superior llega a 900 mensajes por ventana.
  • El contador de la ventana de 5 horas es global y se comparte entre todos los dispositivos vinculados a una misma cuenta.

El sistema opera con límites de mensajes fijos que se reinician estrictamente cada cinco horas. No importa si el usuario permanece inactivo durante parte de ese tiempo, la ventana sigue corriendo desde la activación. La cantidad real de mensajes disponibles fluctúa según el modelo elegido, siendo Sonnet más económico que Opus.

Factores que aceleran el consumo de tokens

  • El uso del modelo Opus requiere un nivel de cómputo superior que triplica el gasto de tokens respecto a Sonnet.
  • Las tareas que involucran múltiples herramientas o procesamiento intensivo agotan el límite antes de alcanzar el número máximo de mensajes.
  • Anthropic reduce los límites de sesión de forma dinámica durante las horas pico de demanda del servicio.

La complejidad de la tarea y la potencia del modelo seleccionado determinan la duración real de la sesión. Durante periodos de alta congestión en los servidores, la capacidad de respuesta se ajusta a la baja. Estas restricciones obligan a adoptar estrategias de eficiencia para mantener la productividad durante toda la jornada laboral.

Problemas internos y fugas de contexto en Claude Code

  • Las respuestas truncadas por errores de velocidad permanecen en el contexto e inflan el uso de tokens innecesariamente.
  • Claude Code inyecta listados de habilidades de forma redundante a pesar de contar con herramientas de manejo rápido.
  • El sistema mantiene mensajes parciales con errores en el historial durante los reintentos automáticos.

Análisis del código fuente filtrado revelan ineficiencias en la gestión del contexto que provocan un drenaje oculto de recursos. Estos fallos técnicos significan que el usuario paga con sus límites por información que no aporta valor a la tarea actual. Es necesario intervenir manualmente para mitigar estos efectos mediante comandos específicos.

Comandos esenciales para la gestión de sesiones

  • El comando 'clear' elimina todo el contexto previo para iniciar una nueva tarea sin carga de tokens antigua.
  • La función 'compact' genera un resumen de la interacción actual para liberar espacio manteniendo la esencia del trabajo.
  • El comando 'by the way' abre una ventana de sesión separada para consultas rápidas que no afectan el flujo principal.
  • El comando 'rewind' permite borrar implementaciones incorrectas antes de que se envíen de nuevo al modelo.

El control manual de la memoria de la sesión es la herramienta más directa para extender la duración de la cuenta. Resetear el contexto al finalizar fases del proyecto evita que cada mensaje nuevo sea progresivamente más costoso. Planificar las solicitudes al inicio reduce la necesidad de correcciones posteriores que consumen el doble de recursos.

Optimización de archivos de configuración y reglas de proyecto

  • El archivo Claude.md debe evitar instrucciones genéricas que la IA ya conoce, como comandos de servidores estándar.
  • Las reglas específicas deben dividirse en documentos independientes enlazados para que Claude solo cargue lo necesario por ruta.
  • Un archivo de configuración extenso perjudica el enfoque del modelo y desperdicia tokens en cada turno de respuesta.

La estructura del proyecto influye directamente en la eficiencia del agente. En lugar de un manual masivo, se recomienda una guía minimalista que actúe de forma progresiva. Al separar la lógica de bases de datos o esquemas en archivos distintos, el modelo solo consume los tokens de esos documentos cuando trabaja específicamente en esas áreas.

Configuraciones técnicas avanzadas para el ahorro máximo

  • Ajustar el nivel de esfuerzo a 'bajo' y usar Haiku para tareas sencillas optimiza el presupuesto de tokens.
  • Desactivar 'auto memory' y 'background tasks' impide que procesos automáticos analicen conversaciones en segundo plano.
  • Apagar la función de 'thinking' (razonamiento interno) ahorra contexto masivo en tareas que no requieren lógica profunda.
  • Establecer un límite en 'max output tokens' controla la longitud de las respuestas generadas por el modelo.

Existen parámetros específicos en la carpeta de configuración para limitar el comportamiento autónomo del sistema. El almacenamiento en caché de prefijos es fundamental para no pagar por el mismo prompt de sistema repetidamente. El control sobre el razonamiento interno permite elegir entre una respuesta rápida y barata o una compleja y costosa según la necesidad real.

Community Posts

View all posts