Log in to leave a comment
No posts yet
Файлы Markdown, скопированные из веба, представляют собой нагромождение шума: рекламы, навигационных меню и прочего. Наличие такого текста заметно снижает производительность RAG (генерации с дополнением поиска). На практике неочищенные данные рассеивают внимание модели, в то время как аккуратно структурированный Markdown повышает точность поиска. Удаление лишнего текста также сокращает потребление токенов локальными LLM более чем на 30%, что избавляет от лишних трат.
Для устранения этого шума стоит использовать библиотеку Python BeautifulSoup.
pip install beautifulsoup4 lxml, чтобы подготовить окружение.decompose(), чтобы целиком удалить ненужные CSS-классы, такие как .ad-container или .nav-menu.lxml, сохраните его в Markdown и поместите в хранилище Obsidian.Когда количество файлов вырастает до сотен, даже самая умная модель теряет контекст. Не копите файлы в одной куче, а разделите их на зоны в зависимости от статуса информации. Я использую адаптацию фреймворка PARA — трехступенчатую структуру (01_Raw_Inbox, 02_Processed_Wiki, 03_Project_Action). Это дает Claude Code физические ориентиры: какой информации доверять и на что ссылаться.
Используйте имена файлов и опции терминала, чтобы агент не блуждал:
YYYY-MM-DD в начало всех имен файлов, чтобы модель знала, насколько свежа информация.--newer-than, чтобы он читал только файлы, измененные за последние 24 часа.03_Project_Action оставляйте только файлы с описанием статуса задач.Простой текстовый поиск не может отличить, является ли документ «важным» или «завершенным». Поэтому в начало документа нужно добавить YAML Frontmatter. Наличие метаданных позволяет давать Claude Code гораздо более точные команды.
Для рабочего движка создателя контента достаточно трех полей:
topic для разделения тем, source_importance для приоритетности и status для состояния задачи в верхней части заметки.Терминальный Claude Code проявляет свою истинную мощь в сочетании с шелл-скриптами. Придя на работу и введя одну команду, вы получаете готовый движок, который анализирует изученное вчера и даже готовит черновики писем на сегодня. Больше не нужно тратить энергию каждое утро, раздумывая, с чего начать.
Автоматизация настраивается следующим образом:
.sh или .bat) с командой claude --bare, чтобы ускорить первоначальный запуск.find -mtime -1, чтобы передавать Claude только заметки, созданные за последние сутки.Когда количество файлов превышает тысячу, контекстное окно в 200 тысяч токенов быстро заполняется. В этом случае вместо чтения всех файлов следует использовать двухэтапный подход: сначала заставить модель изучить master_index.md, который играет роль общей карты. Этот метод сокращает количество вызовов API почти на 60%.
Для поддержания производительности нужно грамотно управлять контекстом:
/compact для резюмирования истории.