仅使用 1931 年前文献构建的人工智能“无尘室”流水线
2026년 5월 8일
0
Computing/SoftwareRelated Video
6:55这款 AI 困在了 1930 年(而且非常迷人)
Better Stack
Comments (0)
Log in to leave a comment
No posts yet
6:55Better Stack
Log in to leave a comment
No posts yet
现代 LLM 已经在“衔尾蛇”般地自我消耗。如果一个模型吞噬了互联网上随处可见的整套评估数据,那么它给出的回答很可能不是智能的产物,而是记忆力的结果。若想观察真正的推理能力,就必须获取那些现代知识尚未存在的时代的测试数据。本文整理了利用 1931 年之前的公共领域数据,构建无污染学习环境的具体工程流程。
在投入预算收集数据之前,应首先挖掘版权已过期的资源库。古登堡计划(Project Gutenberg)拥有超过 75,000 册文献,而互联网档案馆(Internet Archive)的 Sonny Bono Memorial Collection 则免费提供 1923 年至 1941 年间的学术数据。
gutendex API 时,不应参考元数据中的 Issued 字段,而应根据作者逝世年份和初版发行日期,仅保留 1931 年之前的资料。LCC 字段,优先下载哲学 (B)、数学 (QA) 以及古典逻辑学相关的文本。百年前的纸张已经陈旧,且报纸版面极其复杂。直接运行常规 OCR 会导致错别字频出。因此,需要一套先拆解版面、再抓取文本的工程流程。
LayoutParser 框架,区分文档内的标题和图表区域。特别是报纸的多栏布局,必须使用 Newspaper Navigator 模型来纠正阅读顺序。LayoutLM 获取视觉坐标信息,确定文本块的逻辑顺序后,再按区域执行 OCR。REVISE 框架。赋予 LLM “专业历史文献校对员”的角色,使其在维持时代拼写习惯的同时,修正识别错误的单词。通过此过程,原本停留在 30% 左右的识别率可提升至可学习水平,且精炼时间减半。必须防止模型通过窃取现代知识来“装聪明”。我们需要建立一套系统,将 1931 年后诞生的术语列入清单,对学习数据集进行监控。
数据陈旧并不代表智能也陈旧。相反,像伯特兰·罗素的《数学原理》(Principia Mathematica, 1910)这类文献,在教授演绎推理方面比现代网页数据更胜一筹。
评估时,应使用现代互联网尚未被答案刷屏的旧试卷。请使用 1926 年首次实施的 SAT 人工语言及逻辑推理题目作为评估数据。若通过 1916 年修订的斯坦福-比奈智力测验(Stanford-Binet Intelligence Scales)题目测量零样本推理能力,就能明确分辨出模型是背下了答案,还是即时理解并应用了给定的规则。能够正确回答 100 年前问题的模型,才是真正摆脱了数据污染嫌疑的“真智能”。