Log in to leave a comment
No posts yet
Los archivos Markdown extraídos de la web son un cúmulo de ruido, como anuncios y barras de menú. Si este tipo de texto se mezcla, el rendimiento de RAG (Generación Aumentada por Recuperación) disminuye notablemente. En realidad, los datos no depurados distraen la atención del modelo, mientras que un Markdown bien organizado mejora la precisión de la búsqueda. Al eliminar el texto innecesario, los tokens consumidos por el LLM local se reducen en más de un 30%, por lo que no desperdiciará dinero.
Debe eliminar este ruido utilizando la librería BeautifulSoup de Python.
pip install beautifulsoup4 lxml..ad-container o .nav-menu por completo con el método decompose().lxml, guárdelo como Markdown e insértelo en su bóveda de Obsidian.Cuando los archivos aumentan a cientos, incluso el modelo más inteligente pierde el contexto. No se limite a apilar archivos; divida las áreas según el estado de la información. Yo utilizo una estructura de 3 etapas (01_Raw_Inbox, 02_Processed_Wiki, 03_Project_Action) adaptando el framework PARA. Se trata de dar una guía física a Claude Code sobre qué información debe confiar y consultar.
Aproveche los nombres de los archivos y las opciones de la terminal para que el agente no se pierda.
YYYY-MM-DD al principio de todos los nombres de archivos para indicarle qué tan fresca es la información.--newer-than para que lea solo los archivos modificados en las últimas 24 horas.03_Project_Action, coloque solo los archivos que contengan el estado de las tareas.Una simple búsqueda de texto no puede distinguir si este documento es "importante" o si es una "tarea terminada". Por eso, debe insertar YAML Frontmatter en la parte superior del documento. Con los metadatos, puede dar instrucciones mucho más precisas a Claude Code.
Tres campos son suficientes para el motor de trabajo de un emprendedor del conocimiento.
topic para dividir temas, source_importance para ponderar la importancia y status para el estado de la tarea en la parte superior de la nota.Claude Code basado en terminal muestra su verdadero poder cuando se encuentra con scripts de shell. Al llegar al trabajo, con solo ejecutar un comando, se completa un motor que analiza lo estudiado ayer y extrae hasta el borrador del correo que enviará hoy. No hay necesidad de desperdiciar energía pensando qué hacer primero cada mañana.
La rutina de automatización se construye de la siguiente manera:
.sh o .bat) con el comando claude --bare para aumentar la velocidad de arranque inicial.find -mtime -1 en el script para pasarle a Claude solo las notas creadas en el último día.Cuando los archivos superan los mil, la ventana de contexto de 200,000 tokens se llena rápidamente. A partir de este punto, no debe hacer que lea todos los archivos, sino utilizar un método de dos etapas donde primero consulte master_index.md, que actúa como un mapa general. Este método reduce el número de llamadas a la API en casi un 60%.
Para mantener el rendimiento, la gestión del contexto debe ser inteligente.
/compact.