00:00:00Claude Code no ha estado muy bien últimamente.
00:00:02Nuestro equipo lo usa a diario y, en las últimas semanas, hemos agotado los límites
00:00:06mucho más rápido de lo que deberíamos.
00:00:07Se suponía que la ventana de contexto de 1 millón de tokens mejoraría las cosas, pero
00:00:12en realidad las ha empeorado.
00:00:13Por eso investigamos qué optimizaciones podíamos encontrar para que Claude Code dure más.
00:00:18Antes de pasar a cómo aprovechar al máximo los límites, primero
00:00:22analicemos cómo funciona realmente el sistema de planes y límites de Claude.
00:00:26Esta sección es solo para explicarlo a quienes no están familiarizados con cómo
00:00:30funcionan realmente los límites.
00:00:31Claude tiene 2 planes de pago, que incluyen el plan Pro y el Max.
00:00:34El Max es el más caro y el Pro es un plan más económico de solo 20 dólares al mes.
00:00:38Ambos planes tienen acceso a diferentes funciones que no estaban en el plan gratuito,” “incluyendo
00:00:43Claude Code, Co-work y otras.
00:00:45Pero todos siguen la misma regla.
00:00:46Sin importar el plan, cada uno te da un número limitado de mensajes que puedes enviar en
00:00:51una ventana de 5 horas; una vez que termina esa ventana, tu contador se reinicia.
00:00:55El número de mensajes que recibes varía según el plan.
00:00:57La ventana de 5 horas comienza al enviar tu primer mensaje, ya sea en Claude de escritorio,
00:01:01web o cualquier interfaz de Claude.
00:01:03Tras iniciar la ventana, cada mensaje enviado se descuenta del límite establecido de tu plan.
00:01:08Podrías esperar que la ventana solo cuente cuando la estás usando activamente.
00:01:11Pero incluso si te quedas inactivo y luego lo usas mucho en la quinta hora, la ventana
00:01:15sigue corriendo y tendrías que esperar a que pasen las 5 horas completas para que tu límite
00:01:20se reinicie.
00:01:21La ventana de 5 horas tampoco depende de tu dispositivo.
00:01:23Así que si usas más de un dispositivo con la misma cuenta, todo el uso se contará
00:01:27dentro del mismo límite.
00:01:28En el plan Pro, obtienes alrededor de 45 mensajes por cada ventana de 5 horas.
00:01:32El plan Max te da 225, y el plan Max 20 veces, que es más caro que el
00:01:37plan de 100 dólares, te da 900 mensajes en la misma ventana.
00:01:41Estas cifras pueden variar según el modelo que uses, ya que obtienes más mensajes con Sonnet
00:01:46y menos con Opus.
00:01:47Quizás pienses que este número de mensajes suena a más que suficiente para tu caso.
00:01:51Pero esto es solo un conteo aproximado y hay otros factores que influyen.
00:01:54El primero es el modelo que estés utilizando.
00:01:56Los modelos Opus consumen unos 3 veces más tokens para la misma solicitud que Sonnet porque
00:02:01son mucho más potentes y requieren más cómputo.
00:02:03Si usas Opus todo el tiempo, no obtendrás 45 mensajes en tu ventana de 5 horas
00:02:08y tu límite se agotará mucho más rápido.
00:02:10El plan Pro tiene un límite general más bajo.
00:02:12En cuanto al plan Max, aunque una sola persona podría apañarse, el Max suele ser comprado
00:02:16por organizaciones y distribuido entre miembros del equipo, así que no aguantará con
00:02:20varias personas a bordo.
00:02:21Hacemos lo mismo en AI Labs: compramos un plan Max y lo distribuimos en nuestro equipo.
00:02:26Aun así, agotamos el límite con frecuencia, lo que nos llevó a investigar formas de
00:02:30hacer que dure más.
00:02:31El segundo factor es el tipo de tarea que estés realizando.
00:02:34Las tareas intensivas en cómputo o que requieren múltiples herramientas consumen muchos tokens.
00:02:38Así, la ventana se agotará mucho más rápido de lo habitual y podrías ni llegar a los 45
00:02:43mensajes en el plan Pro.
00:02:44Y además, Anthropic ha reducido recientemente el límite de sesión más rápido en horas pico
00:02:48de trabajo, cuando mucha gente usa el servicio intensamente a la vez.
00:02:52Por tanto, tu plan de Claude se agotará aún más rápido antes de que puedas terminar el trabajo.
00:02:56Por eso ahora es el momento de aprender a aprovechar al máximo tu ventana y
00:03:00usar Claude de forma efectiva todo el día.
00:03:02Pero antes de avanzar, unas palabras de nuestro patrocinador, Twin.
00:03:05Si has intentado automatizar con herramientas como Zapier o N8N, ya conoces el problema.
00:03:09Flujos de trabajo rígidos, fallos constantes y horas perdidas conectando aplicaciones.
00:03:13Y los agentes locales como Claudebot son pesadillas de seguridad y demasiado caros.
00:03:17Twin cambia eso.
00:03:18Es un agente de IA sin código que realmente hace el trabajo por ti mientras duermes.
00:03:21Se conecta a herramientas mediante APIs si existen y, si no, construye integraciones
00:03:26sobre la marcha, dándote una biblioteca de integración infinita.
00:03:29Y si no hay API, Twin puede simplemente navegar e interactuar como un humano.
00:03:33Además, tienes acceso integrado a herramientas como Perplexity, Gamma, VO3 y Nanobanana.
00:03:38Acaban de lanzar la API de Twin.
00:03:40Así que puedes activar agentes desde cualquier lugar e integrarlos en tus flujos de trabajo.
00:03:44¿Y la mejor parte?
00:03:45Estos agentes aprenden.
00:03:46Se arreglan solos cuando algo falla, mejoran con el tiempo y funcionan 24/7.
00:03:50Deja de vigilar automatizaciones rotas.
00:03:52Haz clic en el enlace del comentario fijado y echa un vistazo a Twin.
00:03:55Ahora, quizás ya sepas que el código fuente de Claude Code se filtró.
00:03:58Y mucha gente identificó que tiene muchos problemas internos que hacen que los límites
00:04:02se agoten más rápido de lo previsto.
00:04:04Uno de ellos son las respuestas truncadas que permanecen en el contexto.
00:04:07Si recibes un mensaje de error, como si se alcanzara un límite de velocidad, puede crear una
00:04:12respuesta parcial.
00:04:13Y al respecto, reintenta manteniendo el contexto anterior junto con el mensaje parcial
00:04:17lleno de errores.
00:04:18Esto infla el contexto con información innecesaria y desperdicia tokens.
00:04:22Los listados de habilidades también se inyectan sobre todo para un acceso más rápido, aunque
00:04:27no aportan mucho valor porque ya existe un manejo rápido mediante la herramienta de habilidades.
00:04:31De forma similar a eso, también existen algunos otros problemas.
00:04:33Debido a todo esto, mucha gente se queja de alcanzar los límites de Claude antes de lo esperado.
00:04:38Para contrarrestar tanto los límites oficiales como estos drenajes ocultos de tokens, debes
00:04:43tomar ciertas medidas para que Claude Code dure más al construir tus productos.
00:04:47Compartimos todo lo que encontramos sobre la creación de productos con IA en este canal.
00:04:51Si quieres más vídeos sobre esto, suscríbete y estate atento a futuros vídeos.
00:04:55Empezaremos con los consejos que quizás ya nos hayas oído si has visto nuestros vídeos
00:04:59anteriores.
00:05:00El primero es el comando clear.
00:05:01Úsalo siempre que hayas completado una tarea y ya no necesites el contexto anterior.
00:05:05Por ejemplo, cuando hayas terminado de implementar la app y quieras pasar a la fase de pruebas,
00:05:09no necesitas el contexto anterior.
00:05:11Así que es mejor resetearlo y empezar la siguiente tarea con una ventana de contexto limpia.
00:05:15Pero a veces sí quieres conservar parte de ese contexto.
00:05:18En ese caso, puedes ejecutar el comando compact en su lugar.
00:05:21Resume toda la interacción y libera espacio con un resumen en el contexto.
00:05:25Queremos que los uses porque cada vez que Claude envía un mensaje, incluye
00:05:29toda la conversación hasta ahora, junto con prompts de sistema, herramientas e historial
00:05:34previo de la conversación.
00:05:35Con cada nuevo mensaje, esto sigue creciendo, resultando en una ventana inflada y un mayor
00:05:40uso de tokens por mensaje.
00:05:41Ahora, incluso compactando, si haces preguntas secundarias en la ventana principal, sigues
00:05:46inflándola con contenido no relacionado.
00:05:47Así que puedes usar el comando by the way para hacer una pregunta secundaria rápida.
00:05:50Responde en una ventana de contexto de sesión separada.
00:05:53Esta pregunta secundaria no iría con el siguiente mensaje que envíes, lo que reduce los tokens
00:05:57por solicitud.
00:05:58Aunque planificar pueda parecer una tarea intensiva en tokens, necesitas empezar tus
00:06:02proyectos con ello.
00:06:03Esto es porque si no dedicas tiempo a planificar, tendrás que corregir a Claude después
00:06:07cuando su implementación no se alinee con lo que necesitas.
00:06:10Gastar tokens al principio en planificar te ahorra desperdiciar muchos más tokens en
00:06:14correcciones más adelante.
00:06:15A veces Claude no sigue tus instrucciones como deseas.
00:06:18En esos momentos, a menudo le damos un nuevo prompt con la forma correcta de implementarlo.
00:06:22Pero en lugar de eso, puedes ejecutar el comando rewind para restaurar la conversación
00:06:26y el código a un punto anterior al mensaje donde Claude no se alineó y hacer los cambios
00:06:31directamente en el prompt.
00:06:32También puedes pulsar dos veces la tecla escape para hacer lo mismo.
00:06:35Esto elimina la implementación incorrecta de la ventana de contexto y los resultados erróneos
00:06:39no se envían al modelo.
00:06:41Todos estos comandos te ayudan a ahorrar tokens durante una sesión.
00:06:44Pero el mayor impacto viene de cómo esté estructurado tu proyecto en primer lugar.
00:06:47Quizás ya hayas estructurado tus proyectos usando diferentes marcos de trabajo como Beemad,
00:06:52SpecKit u otros.
00:06:53Pero la mayoría de estos marcos son en realidad intensivos en tokens.
00:06:56Si los usas en tu propia app, espera que tu límite de tokens se alcance más rápido.
00:07:00Aunque estos marcos puedan sostenerse en planes Max, definitivamente no lo harán en Pro.
00:07:04Incluso si no usas marcos, puede que hayas configurado el tuyo propio.
00:07:07Para crear el archivo Claude.md debes haber usado el comando init que recorre tu código
00:07:12y crea un archivo Claude.md por ti.
00:07:14Sí lo crea, pero contiene muchos problemas.
00:07:17Este archivo debería orientar al agente de IA, pero enumera cosas que
00:07:20la IA ya sabe por sí misma.
00:07:22Por ejemplo, los comandos que muestra sirven para ejecutar cualquier servidor de desarrollo y
00:07:27Claude ya sabe cómo hacerlo.
00:07:28A menos que tengas un flag distinto para ejecutar el servidor, no hay necesidad de
00:07:31añadir eso.
00:07:32En cuanto a la arquitectura, Claude puede leer nombres de archivos y deducir de qué trata cada
00:07:37archivo por su nombre porque entiende sistemas de archivos y los usa para navegar.
00:07:41Así que no hay necesidad real de ese tipo de instrucciones a menos que haya casos específicos
00:07:45donde se requiera orientación adicional.
00:07:47Si vas a escribir tu propio Claude.md, idealmente debería tener menos de 300 líneas.
00:07:52Cuanto más corto sea el archivo, mejor funcionará y más se centrará Claude en lo que
00:07:56realmente importa.
00:07:57Debe actuar como una guía, no como un manual detallado explicando cómo hacer todo.
00:08:01Lo que incluyas debe ser aplicable de forma genérica a todo el proyecto, no detalles
00:08:05específicos de cada parte empaquetados en un solo archivo.
00:08:08Incluye lo que Claude no debe hacer, tus prácticas de desarrollo y otras instrucciones similares
00:08:13que Claude no sepa por defecto solo en el Claude.md.
00:08:16Debes configurar este archivo correctamente porque se carga en el contexto una vez
00:08:20por cada sesión y permanece ahí.
00:08:22Tener información innecesaria en la ventana de contexto significa desperdiciar tokens en cada
00:08:27turno que ni siquiera se necesitaban al principio.
00:08:28Para aspectos específicos como bases de datos, esquemas u otras áreas con reglas distintas,
00:08:33divídelos en documentos separados y enlúzalos en el archivo Claude.md.
00:08:37Esto permite a Claude traer progresivamente solo los documentos que realmente necesita.
00:08:41También mencionamos esto anteriormente: crear reglas de proyecto específicas para
00:08:45ciertas rutas ayuda a Claude a mantenerse enfocado.
00:08:48Así, Claude solo tiene información relevante en contexto y evita el uso innecesario de tokens.
00:08:53Por lo tanto, también deberías separar archivos de reglas para lógica de áreas específicas para
00:08:57que Claude pueda cargar solo lo necesario.
00:08:58También debes usar habilidades para flujos repetitivos y añadir scripts y referencias para
00:09:03que pueda realizar tareas con mayor precisión.
00:09:05Las habilidades ayudan cargando progresivamente solo la parte requerida y esto hace que
00:09:10Claude se concentre en el aspecto relevante de la tarea.
00:09:12Agrupar con scripts ayuda al no desperdiciar tokens en tareas deterministas que pueden
00:09:16manejarse mediante programación.
00:09:17La razón para separar archivos es sencilla.
00:09:19Si Claude trabaja en una parte, no necesita información de áreas no relacionadas.
00:09:24Pero si todo se pone en el mismo archivo Claude.md, todo se cargará cada vez,
00:09:29llevando a un uso innecesario de tokens.
00:09:30También puedes usar el flag append system prompt para añadir instrucciones específicas
00:09:35directamente al prompt del sistema.
00:09:36La sesión comienza con esas instrucciones en lugar de ponerlo todo en el archivo
00:09:40Claude.md.
00:09:41Estas instrucciones son temporales y se eliminarán una vez que termine la sesión.
00:09:44Esto podría sonar a que añade al contexto, pero es más eficiente que
00:09:48poner una instrucción de un solo uso en Claude.md.
00:09:51Si la añades ahí, Claude la mantiene en el contexto permanentemente, gastando tokens sin necesidad.
00:09:56Al añadirla al final, proporcionas las instrucciones exactamente cuando las necesitas.
00:09:59Además, si disfrutas de nuestro contenido, considera pulsar el botón de hype porque nos ayuda
00:10:03a crear más contenido como este y llegar a más personas.
00:10:06También necesitas establecer el nivel de esfuerzo del modelo que estés usando.
00:10:10Si no trabajas en una tarea que requiera mucho pensamiento, ajústalo a bajo ya que
00:10:14el ajuste bajo ahorra tokens.
00:10:15Por defecto está en effort auto, lo que significa que el modelo decide cuánto esfuerzo
00:10:20usar, pero puedes cambiarlo manualmente.
00:10:21Si tu tarea no es muy compleja, no hay necesidad de usar un ajuste de esfuerzo alto.
00:10:25Como mencionamos antes, Opus es el modelo que más tokens consume.
00:10:28Si trabajas en tareas sencillas, cambia a Haiku.
00:10:31Si tu tarea requiere un nivel razonable de razonamiento, usa Sonnet.
00:10:34Quizás no sea tan potente como Opus, pero sigue siendo eficiente y ahorra más tokens.
00:10:39Si has configurado varios MCP para un proyecto y no necesitas uno en concreto, desactívalo
00:10:43para que no gaste tokens inyectando información innecesaria en la ventana de contexto.
00:10:48Otro paso importante es crear hooks que filtren contenido que no debería estar
00:10:52en la ventana de contexto de Claude.
00:10:54Por ejemplo, he configurado casos de prueba para mi proyecto.
00:10:57Al ejecutarlos, informan de las pruebas superadas y fallidas, y todo eso se carga
00:11:01en el contexto.
00:11:02Pero la principal preocupación de Claude son las pruebas fallidas, ya que son las que hay que arreglar.
00:11:05Puedes crear un hook que use un script para evitar que las pruebas superadas entren
00:11:10en la ventana de contexto y solo se incluyan las fallidas.
00:11:13Esto ahorra una cantidad significativa de tokens comparado con inyectar todos los informes.
00:11:17Puedes configurar hooks para muchas otras tareas de la misma forma para optimizar el uso de tokens.
00:11:21Aparte de todo eso, hay ciertas configuraciones que debes hacer en tu carpeta .claud
00:11:25para mejorar el rendimiento.
00:11:27La primera es establecer disable prompt caching a false.
00:11:30Esto hace que Claude guarde en caché tus prefijos más usados, lo que reduce el uso de tokens.
00:11:34Anthropic no te cobra por las partes que se envían repetidamente, solo pagas por el
00:11:38contenido nuevo.
00:11:39También puedes desactivar auto memory para evitar que añada contenido a tu contexto
00:11:43e incremente el uso de tokens.
00:11:44Auto memory es un proceso en segundo plano que analiza tus conversaciones y consolida
00:11:49información útil en archivos de memoria para tu proyecto específico.
00:11:52Desactivarlo significa que no rastreará tus hábitos, pero ahorrará tokens al no ejecutarse
00:11:56en segundo plano.
00:11:57Hay otro flag llamado disable background task que detiene procesos en segundo plano para que no
00:12:00consuman tokens continuamente.
00:12:02Estos incluyen dream, refactorización y limpieza de memoria e indexación en segundo plano.
00:12:06Apagar esto ayuda a ahorrar tokens porque, aunque no estés chateando activamente, estos
00:12:10procesos seguirían trabajando en tu conversación.
00:12:13También deberías desactivar el pensamiento (thinking) cuando no sea necesario porque el pensamiento
00:12:16consume mucho contexto y desperdicia tokens extensamente en tareas que ni lo requieren.
00:12:20Esto es diferente del ajuste de esfuerzo que comentamos antes.
00:12:23El ajuste de esfuerzo controla cuánto razona Claude en una respuesta; un esfuerzo menor
00:12:28significa menos pensamiento, pero sigue pensando.
00:12:30Desactivar el pensamiento por completo apaga el paso de razonamiento interno y Claude
00:12:34genera la respuesta directamente.
00:12:35Si tu tarea no requiere un razonamiento profundo, desactiva el pensamiento por completo.
00:12:39Si necesita algo de razonamiento pero no mucho, baja el nivel de esfuerzo en su lugar.
00:12:43Finalmente, configura max output tokens a un número determinado.
00:12:46No hay un valor por defecto, pero limitar esto controla cuánto genera el modelo.
00:12:50Bájalo si quieres ahorrar tokens agresivamente o súbelo si tu tarea requiere respuestas
00:12:55más largas.
00:12:56La plantilla de Claude.md y otros recursos están disponibles en AI Labs Pro para este vídeo
00:13:00y para todos nuestros vídeos anteriores, desde donde puedes descargarlos y usarlos en tus proyectos.
00:13:05Si has encontrado valor en lo que hacemos y quieres apoyar al canal, esta es la mejor forma
00:13:09de hacerlo.
00:13:10El enlace está en la descripción.
00:13:11Con esto llegamos al final de este vídeo.
00:13:13Si quieres apoyar al canal y ayudarnos a seguir haciendo vídeos como este, puedes
00:13:17hacerlo usando el botón de súper gracias de abajo.
00:13:19Como siempre, gracias por vernos y nos vemos en el próximo.