Log in to leave a comment
No posts yet
从网上抓取的 Markdown 文件通常充斥着广告和菜单栏等噪声。如果混入这些文本,RAG(检索增强生成)的性能会显著下降。实际上,未经整理的数据会分散模型的注意力,而整洁的 Markdown 则能提高检索准确度。剔除冗余文本后,本地 LLM 消耗的 Token 也能减少 30% 以上,省下不少开支。
我们需要使用 Python 的 BeautifulSoup 库来剔除这些噪声:
pip install beautifulsoup4 lxml 来搭建环境。decompose() 方法将 .ad-container 或 .nav-menu 等不必要的 CSS 类整体删除。lxml 解析器仅提取正文并保存为 Markdown,存入 Obsidian 库中。当文件增加到数百个时,再聪明的模型也会丢失上下文。不要只是堆积文件,请根据信息状态划分区域。我参考 PARA 框架并将其微调为三阶段结构(01_Raw_Inbox, 02_Processed_Wiki, 03_Project_Action)。这是在给 Claude Code 提供一个物理指南,告诉它该信任并引用哪些信息。
为了让智能体不迷路,可以利用文件名和终端选项:
YYYY-MM-DD,让模型了解信息的新鲜度。--newer-than 选项,使其仅读取最近 24 小时内更改的文件。03_Project_Action 文件夹中只存放记录工作状态的文件。单纯的文本搜索无法区分该文档是“重要的”还是“已完成的”。因此,必须在文档顶部添加 YAML Frontmatter。有了元数据,你就可以给 Claude Code 下达更精细的指令。
对于知识创业者的工作引擎来说,有三个字段就足够了:
topic、衡量重要程度的 source_importance 以及工作状态 status。基于终端的 Claude Code 在与 Shell 脚本结合时才能发挥真正的威力。每天上班只需输入一个命令,就能完成对昨日学习内容的分析,并生成今日待发邮件的草稿。你无需再为每天早上先做哪件事而浪费精力。
自动化流程可以这样构建:
claude --bare 命令的 Shell 脚本(.sh 或 .bat),以提高初始启动速度。find -mtime -1 命令,将最近一天内创建的笔记交给 Claude。当文件超过一千个时,20 万 Token 的上下文窗口也会很快填满。此时,不能让模型读取所有文件,而应采用先读取起到“全图”作用的 master_index.md 的两阶段方式。这种方式可以将 API 调用次数减少近 60%。
为了保持性能,必须精明地管理上下文:
/compact 命令压缩历史记录。