Transcript
00:00:00如果你能和20世纪30年代的人交谈会怎样?穿越时空吗?我确实做到了,
00:00:05而且我请他们预测了2026年的生活会是什么样子。
00:00:08我认为,到2026年,生活将变得愉快而轻松。首先,
00:00:13全世界都将有人居住。因为到那个时候,人们将已经掌握了
00:00:17飞行的艺术。其次,所有的战争都将停止,因为各国将已经学会
00:00:21彼此和睦友好地相处。我们将在各种
00:00:25科学领域获得知识,并精通医术。我们将成为诚实、
00:00:29友好的邻居,强盗将不复存在。简而言之,我认为世界在
00:00:342026年将会是一个非常宜居的地方。
00:00:36我觉得这些预测真的很美好,遗憾的是只有少数几个
00:00:40实现了。说到实话,我可能撒了一点小谎。抱歉,但我
00:00:45并没有发明时间旅行。相反,这实际上是 Torquay,一个拥有130亿
00:00:49参数的语言模型,它是在1931年以前的文本上训练的,所以它甚至不知道
00:00:54还有第二次世界大战,它给出了一些真正引人入胜、狂野且冒犯性的答案,
00:00:59甚至还能被教会编程。
00:01:02所以这里的 Torquay 就是所谓的“复古模型”,而 Torquay 似乎是
00:01:10同类中最大的。参与这项研究的其中一位研究员实际上是 OpenAI 在
00:01:142018年 GPT 研究的首席作者,那是 ChatGPT 的根基。他还参与过
00:01:19DALL-E 和 Whisper 的工作,所以这份简历相当亮眼。他们所做的是构建了一个130亿
00:01:24参数的网络,专门在2600亿个历史英语文本标记上进行训练,
00:01:30包括旧报纸、专利、科学期刊和书籍。顺便说一下,截止日期是1931年,
00:01:36因为美国版权法的截止期是1930年底,所以他们这样做不会被“大老鼠”起诉。
00:01:40除了有趣之外,这些复古模型还具有研究用途。如今,
00:01:44每一个大型模型,如 ChatGPT、Claude 和 Gemini,都是在现代网络上训练的,
00:01:49这使得人们几乎无法分辨 AI 是在真正思考和推理,
00:01:53还是仅仅记住了某个随机 Reddit 帖子里的答案,而那个帖子可能也是 AI 生成的。
00:01:57所以,如果我们使用一个只了解1931年以前文本的模型,它就不会受到
00:02:02那种数据污染。让我们来试一下,问它像“什么是互联网?”这样的问题。
00:02:07我们可以看到,它似乎把互联网 (internet) 误认为是
00:02:11对消费品征收的国内税收 (internal revenue tax),所以它对现代互联网一无所知。
00:02:16另一个有趣的事情是问它流行的俚语是什么。显然在1930年,
00:02:20它们是 bosh, rot, bosh(又来了), stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla, 和 ribaldry。希望我没说出什么粗鲁的话。而
00:02:30没有污染之所以有用,是因为它可以让研究人员了解
00:02:33AI 是否真的能学习新事物,比如学习编程。这个模型甚至不知道
00:02:38什么是计算机,在它看来,那是一个进行计算的人。这就是为什么
00:02:43当给它几个 Python 程序示例时,它居然能学会
00:02:47编写新程序,这非常令人印象深刻,即使大多只是简单的单行程序。
00:02:52当使用一些基础的 HumanEval Python 测试,并在其上下文提供随机 Python 函数时,
00:02:56在给它100次机会的情况下,它居然成功通过了这些测试几次。在这个例子中,
00:03:01Torquay 正确地理解了要制作解码函数,只需将
00:03:05加法换成减法。虽然很简单,但这展示了对反函数的理解,
00:03:09而这是新知识。它以前从未见过这些。如果你在
00:03:13类似规模的现代大模型上尝试同样的事情,它的表现会远超 Torquay,但这显而易见。
00:03:18研究人员可以用这些复古模型测试的另一件事是预测未来的能力。
00:03:22现在这可能会变得有点失控,但让我们问问它,“还会发生战争吗?”
00:03:26它说它认为欧洲不会再发生战争,而我
00:03:31不忍心告诉它它错得有多离谱。我现在也很好奇它对
00:03:35某位奥地利男人的看法。是的,这个回答非常糟糕。它说他将是一个
00:03:39非凡的人物,而且这里还说当他领导德国时,
00:03:44德国将成为一个高效得多的行政机构。真的,无话可说,完全无法认同。
00:03:50当然,研究人员做这些事的方式比我刚才做的要科学得多。
00:03:54他们实际上计算了对《纽约时报》“历史上的今天”专栏中历史事件简短描述的“惊讶度”。
00:03:59在这个过程中,你可以看到在1931年知识截止日期后,惊讶度有所上升,并在五六十年代达到峰值。
00:04:04所以它发现那些事件是相当令人难以置信的。
00:04:09像这样的研究让他们能够看到预测性能如何随模型规模而提高,以及如何随预测跨度衰减。
00:04:13你还可以用它来测试模型是否能产生新想法,
00:04:17因为你可以询问它在1931年之后产生的专利或论文,看看它是否能自己发现它们。
00:04:22总的来说,这些复古模型可能让研究人员辨别出
00:04:26模型的行为在多大程度上取决于它所训练的数据集。谈到训练,
00:04:30制作一个纯净的1931年模型绝非易事。其中最难的
00:04:36问题之一是“时间泄漏”,即你不希望包含1931年之后的信息。
00:04:41例如,Torquay 似乎确实有一些这样的案例,它知道1936年的
00:04:45总统是谁,也知道他制定的一些政策。这可能有
00:04:50几种发生方式。例如,在处理现代文档时,即
00:04:54旧文档的扫描件可能带有错误的元数据,也就是
00:04:58日期标错了。还可能存在后期添加的内容,如编者按和脚注。
00:05:03这种数据过滤实际上仍在研究和完善中,以试图消除这个问题。
00:05:07他们遇到的另一个问题是1931年的文档看起来像这样,
00:05:11虽然现在的 OCR 已经非常出色了,但它们只达到了在
00:05:16人工转录的相同文本版本上训练的模型性能的30%。所以这将是
00:05:21大量的体力活。虽然他们确实使用了一些正则表达式来清理一些常见的错误,
00:05:25但这只将其性能提高到了70%。所以他们实际上正在开发一种新的复古 OCR 系统。
00:05:30最后,对复古模型进行后期训练也是一个巨大的挑战,因为
00:05:35没有现成的后期训练数据供其使用。如果他们使用现代数据,最终会
00:05:39灌输进一些现代聊天助手的知识、风格和表达方式。
00:05:43所以研究人员实际上不得不从旧的礼仪手册、
00:05:48书信手册、食谱、词典、百科全书甚至是诗歌和寓言中自己制作。一旦
00:05:53你完成了这些,你还需要训练模型遵循指令
00:05:56以及进行对话。所以你需要使用一些强化学习。但其
00:06:00问题在于,模型会开始根据评判者的喜好来调整输出,而我们
00:06:04没有来自1930年代的评判者。所以他们实际上使用了 Claude Sonnet 3.5。然而问题是,
00:06:10现代模型喜欢像2026年聊天机器人那样的回答格式。所以风格显然
00:06:15开始泄露到1931年的模型中,比如条列式清单。这几乎是不可避免的,但他们
00:06:21希望未来可以使用基于复古模型作为评判者来解决这个问题。他们
00:06:25实际上已经在训练一个 GPT-3 级别的复古模型,他们说一万亿个标记的
00:06:29历史文本实际上是可以实现的,这将使他们具备原始 ChatGPT 的能力,
00:06:35只是带有1930年代的知识。所以去试试 Torquay 吧,如果你得到
00:06:39任何奇怪或离谱的回答,请在评论区告诉我,同时别忘了订阅,
00:06:43一如既往,我们下期再见。
00:06:45[音乐]