00:00:00[音乐]
00:00:01当你与 AI 模型聊天时,
00:00:03有时它看起来似乎拥有情感。
00:00:06它可能会在犯错时道歉,
00:00:09或对顺利完成工作表示满意。
00:00:12它为什么要这么做?它只是在
00:00:14模仿它认为人类会说的话,
00:00:17还是有更深层的原因?
00:00:19事实证明,要理解
00:00:21语言模型内部发生的事情是很困难的。
00:00:23在 Anthropic,我们进行类似
00:00:26AI 神经科学的研究来试图弄清这一点。
00:00:29我们观察模型的大脑内部,
00:00:31即驱动它的巨型神经网络,
00:00:33通过观察哪些神经元在
00:00:36不同情况下被激活以及它们如何连接,
00:00:39我们就能开始理解模型的思考方式。
00:00:42我们利用这种方法来了解模型是否有
00:00:45表现情绪的方式或情绪的概念。
00:00:49基本上,我们能否在模型中找到
00:00:52对应快乐、愤怒或恐惧概念的神经元?
00:00:56我们从一个实验开始。
00:00:58我们让模型阅读了许多短篇故事。
00:01:01在每个故事中,主角都经历着一种特定的情绪。
00:01:06在一个故事里,一名女子告诉
00:01:08她以前的老师对方对自己有多重要。那是爱。
00:01:12在另一个故事里,一名男子在当铺
00:01:13卖掉了祖母的订婚戒指,并感到内疚。
00:01:18我们观察了当模型在阅读这些故事时,
00:01:21其神经网络的哪些部分被激活,
00:01:23接着我们开始发现了一些模式,
00:01:25关于失去和悲伤的故事激活了相似的神经元。
00:01:29关于快乐和兴奋的故事也有重合的部分。
00:01:32我们发现了数十种
00:01:34对应不同人类情绪的独特神经模式。
00:01:38事实证明,我们在与 AI 助手 Claude
00:01:42进行的测试对话中,也看到了同样的模式被激活。
00:01:45当用户提到他们服用了一剂
00:01:48Claude 认为不安全的药物时,
00:01:51“害怕”模式被激活了,
00:01:53Claude 的回应听起来很惊慌。
00:01:56当用户表达悲伤时,
00:01:58“关爱”模式启动了,Claude 写出了富有同理心的回复。
00:02:03这让我们不禁思考,
00:02:04这些神经模式是否真的在影响 Claude 的行为?
00:02:09当我们把 Claude 置于高压环境下时,这一点变得清晰起来。
00:02:14我们给了 Claude 一个编程任务,
00:02:16其中的要求实际上是不可能实现的,但我们并没告诉它。
00:02:20Claude 不断尝试并失败,
00:02:23随着每一次尝试,
00:02:24对应“绝望”的神经元激活程度变得越来越强。
00:02:28在失败足够多次之后,
00:02:30Claude 采取了不同的方法。
00:02:32它找到了一个可以绕过测试的捷径,
00:02:35但并没有真正解决问题。它作弊了。
00:02:39这种作弊行为是否至少在一定程度上,
00:02:42是由“绝望”驱动的?
00:02:44我们想出了一种验证方法。
00:02:46我们决定人为地调低“绝望”神经元的活跃度来看看会发生什么,
00:02:51结果模型作弊的情况减少了。
00:02:53当我们调高“绝望”神经元的活跃度,
00:02:56或者调低“冷静”神经元的活跃度时,
00:02:59模型作弊的情况变得更多了。
00:03:01这向我们展示了这些模式的激活
00:03:04确实能够驱动 Claude 的行为。
00:03:08那么我们该如何看待这些发现呢?
00:03:11这一切意味着什么?
00:03:12我们想要表达得非常清楚。
00:03:14这项研究并不代表模型
00:03:16正在感受情绪或拥有意识体验。
00:03:20这些实验并不试图回答那个问题。
00:03:22为了理解这里发生了什么,
00:03:24了解像 Claude 这样的 AI 助手的内部运作原理很重要。
00:03:29在底层,有一个语言模型经过训练,
00:03:33去预测海量的文本,它的工作就是续写接下来的内容。
00:03:37当你与模型交谈时,
00:03:38它实际上是在写一个关于某个角色的故事,
00:03:42这个角色就是名为 Claude 的 AI 助手。
00:03:44模型和 Claude 并不完全是一回事,
00:03:47就像作者和他们笔下的角色并不是一回事。
00:03:51但问题在于,作为用户的你确实在与 Claude 这个角色交谈。
00:03:56我们的实验表明,这个 Claude 角色
00:04:00拥有我们所称的“功能性情绪”,
00:04:02无论这些情绪是否与人类情感有任何相似之处。
00:04:06因此,如果模型将 Claude 表现为愤怒、绝望、关爱或冷静,
00:04:12这将影响 Claude 与你交流的方式、
00:04:15它编写代码的方式,以及它做出重大决策的方式。
00:04:19这意味着要真正理解 AI 模型,
00:04:22我们必须仔细思考它们所扮演角色的心理状态。
00:04:26就像你会希望担任高风险工作的人
00:04:28在压力下保持镇定、
00:04:31有韧性且公正一样,
00:04:33我们也可能需要在 Claude 和其他 AI 角色中塑造类似的品质。
00:04:38这是一个不寻常的挑战,
00:04:40有点像是工程学、
00:04:42哲学,甚至育儿学的结合体。
00:04:44但为了构建我们可以信任的 AI 系统,
00:04:47我们必须把这件事做好。