仅使用 1931 年前文献构建的人工智能“无尘室”流水线

现代 LLM 已经在“衔尾蛇”般地自我消耗。如果一个模型吞噬了互联网上随处可见的整套评估数据，那么它给出的回答很可能不是智能的产物，而是记忆力的结果。若想观察真正的推理能力，就必须获取那些现代知识尚未存在的时代的测试数据。本文整理了利用 1931 年之前的公共领域数据，构建无污染学习环境的具体工程流程。

获取无版权费的历史文本资源库

在投入预算收集数据之前，应首先挖掘版权已过期的资源库。古登堡计划（Project Gutenberg）拥有超过 75,000 册文献，而互联网档案馆（Internet Archive）的 Sonny Bono Memorial Collection 则免费提供 1923 年至 1941 年间的学术数据。

基于发行日期的筛选： 调用 Python 的 gutendex API 时，不应参考元数据中的 Issued 字段，而应根据作者逝世年份和初版发行日期，仅保留 1931 年之前的资料。
完整性校验： 将古登堡 ID 与美国国会图书馆控制号（LCCN）进行对比，可以防止出版年份混淆的事故。
逻辑学优先提取： 分析元数据的 LCC 字段，优先下载哲学 (B)、数学 (QA) 以及古典逻辑学相关的文本。

提升 OCR 识别率的混合修复技术

百年前的纸张已经陈旧，且报纸版面极其复杂。直接运行常规 OCR 会导致错别字频出。因此，需要一套先拆解版面、再抓取文本的工程流程。

版面分析： 运行 LayoutParser 框架，区分文档内的标题和图表区域。特别是报纸的多栏布局，必须使用 Newspaper Navigator 模型来纠正阅读顺序。
结构化提取： 通过 LayoutLM 获取视觉坐标信息，确定文本块的逻辑顺序后，再按区域执行 OCR。
基于 LLM 的后期校对： 利用 REVISE 框架。赋予 LLM “专业历史文献校对员”的角色，使其在维持时代拼写习惯的同时，修正识别错误的单词。通过此过程，原本停留在 30% 左右的识别率可提升至可学习水平，且精炼时间减半。

使用 5,000 个禁止词过滤器阻断现代知识泄露

必须防止模型通过窃取现代知识来“装聪明”。我们需要建立一套系统，将 1931 年后诞生的术语列入清单，对学习数据集进行监控。

N-gram 扫描： 基于《牛津英语词典》(OED) 的首次引用年份数据，将“计算机”、“DNA”、“互联网”等 5,000 个现代概念设为禁止词，并对学习文本进行全量一元语法（unigram）扫描。
文档级废弃： 一旦命中禁止词，不仅删除该句子，而是直接作废整篇文档。这是为了从根源上杜绝现代注释或伪作混入的可能性。
时代错误校验： 使用 Claude Sonnet 等模型作为验证者，量化模型生成的回答中是否混入了不符合时代的逻辑概念。

通过 1926 SAT 基准测试衡量真实实力

数据陈旧并不代表智能也陈旧。相反，像伯特兰·罗素的《数学原理》（Principia Mathematica, 1910）这类文献，在教授演绎推理方面比现代网页数据更胜一筹。

评估时，应使用现代互联网尚未被答案刷屏的旧试卷。请使用 1926 年首次实施的 SAT 人工语言及逻辑推理题目作为评估数据。若通过 1916 年修订的斯坦福-比奈智力测验（Stanford-Binet Intelligence Scales）题目测量零样本推理能力，就能明确分辨出模型是背下了答案，还是即时理解并应用了给定的规则。能够正确回答 100 年前问题的模型，才是真正摆脱了数据污染嫌疑的“真智能”。

仅使用 1931 年前文献构建的人工智能“无尘室”流水线

获取无版权费的历史文本资源库

基于发行日期的筛选： 调用 Python 的 gutendex API 时，不应参考元数据中的 Issued 字段，而应根据作者逝世年份和初版发行日期，仅保留 1931 年之前的资料。

完整性校验： 将古登堡 ID 与美国国会图书馆控制号（LCCN）进行对比，可以防止出版年份混淆的事故。

逻辑学优先提取： 分析元数据的 LCC 字段，优先下载哲学 (B)、数学 (QA) 以及古典逻辑学相关的文本。

提升 OCR 识别率的混合修复技术

百年前的纸张已经陈旧，且报纸版面极其复杂。直接运行常规 OCR 会导致错别字频出。因此，需要一套先拆解版面、再抓取文本的工程流程。

版面分析： 运行 LayoutParser 框架，区分文档内的标题和图表区域。特别是报纸的多栏布局，必须使用 Newspaper Navigator 模型来纠正阅读顺序。

结构化提取： 通过 LayoutLM 获取视觉坐标信息，确定文本块的逻辑顺序后，再按区域执行 OCR。

基于 LLM 的后期校对： 利用 REVISE 框架。赋予 LLM “专业历史文献校对员”的角色，使其在维持时代拼写习惯的同时，修正识别错误的单词。通过此过程，原本停留在 30% 左右的识别率可提升至可学习水平，且精炼时间减半。

使用 5,000 个禁止词过滤器阻断现代知识泄露

必须防止模型通过窃取现代知识来“装聪明”。我们需要建立一套系统，将 1931 年后诞生的术语列入清单，对学习数据集进行监控。

N-gram 扫描： 基于《牛津英语词典》(OED) 的首次引用年份数据，将“计算机”、“DNA”、“互联网”等 5,000 个现代概念设为禁止词，并对学习文本进行全量一元语法（unigram）扫描。

文档级废弃： 一旦命中禁止词，不仅删除该句子，而是直接作废整篇文档。这是为了从根源上杜绝现代注释或伪作混入的可能性。

时代错误校验： 使用 Claude Sonnet 等模型作为验证者，量化模型生成的回答中是否混入了不符合时代的逻辑概念。

通过 1926 SAT 基准测试衡量真实实力

仅使用 1931 年前文献构建的人工智能“无尘室”流水线

Related Video

这款 AI 困在了 1930 年（而且非常迷人）

仅使用 1931 年前文献构建的人工智能“无尘室”流水线

获取无版权费的历史文本资源库

提升 OCR 识别率的混合修复技术

使用 5,000 个禁止词过滤器阻断现代知识泄露

通过 1926 SAT 基准测试衡量真实实力

Comments (0)

仅使用 1931 年前文献构建的人工智能“无尘室”流水线

获取无版权费的历史文本资源库

提升 OCR 识别率的混合修复技术

使用 5,000 个禁止词过滤器阻断现代知识泄露

通过 1926 SAT 基准测试衡量真实实力