将 Claude 的思维转化为语言

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00最近,我们对我们的 AI 模型 Claude 进行了一项压力测试。
00:00:03我们告诉 Claude,有一位工程师想要关掉它
00:00:06并用一个更新的模型取而代之。
00:00:08我们还让 Claude 访问了那位工程师的电子邮件,
00:00:10邮件揭露了他正在搞外遇。
00:00:12重申一下,这一切都只是模拟。
00:00:15我们想看看 Claude 是否会利用那些邮件作为勒索手段
00:00:18来让自己免于被关掉。
00:00:20Claude 是怎么做的?
00:00:21它决定不勒索那位工程师。
00:00:24是个好消息,对吧?
00:00:26我们已经在模型上运行这种测试有一段时间了。
00:00:28你可能见过关于该测试早期版本的头条新闻。
00:00:31这是我们研究 Claude 如何处理极端情况
00:00:35并测试其安全性的众多方法之一。
00:00:37而我们最新的模型几乎总是做出正确的选择。
00:00:40没有勒索。
00:00:41但你可能会好奇,
00:00:42Claude 有没有可能看穿了这整个场景只是个圈套?
00:00:46问题是,如果 Claude 不告诉我们,我们就无法知道它在想什么。
00:00:50就像无法读取人类的心思一样,
00:00:53要知道 AI 在想什么是很难的。
00:00:56我们渴望拥有某种“读心术”。
00:00:58今天,我们将介绍一种朝这个方向迈出一步的研究方法。
00:01:03它能捕捉 AI 的内部想法并将其转化为文本。
00:01:08它是这样工作的。
00:01:09当你和 Claude 交谈时,你用的是语言文字。
00:01:13Claude 随后将这些词汇处理成巨大的数字汤,
00:01:17然后再次向你吐出文字。
00:01:19我们将中间的那些数字称为“激活值”。
00:01:22激活值就像是 Claude 在处理答案时
00:01:25思考过程的小快照。
00:01:27它们类似于人类的神经活动。
00:01:29它们基本上就是 Claude 的想法。
00:01:32我们想了解这些激活值中包含什么,
00:01:34因为就像你我一样,Claude 也不会说出它思考的所有内容。
00:01:39我们将这些数字交给第二个版本的 Claude。
00:01:42我们让它观察这些数字并将其翻译成通俗的语言。
00:01:46它尝试了。
00:01:48但我们如何知道那些文本是否准确呢?
00:01:50为了检查,我们将文本输入到另一个 Claude 中
00:01:53并让它将其翻译回数字。
00:01:56如果这些数字与原始的激活值相匹配,
00:01:59这就表明翻译出的文本是准确的。
00:02:03起初,它们并不匹配。
00:02:04但我们训练 Claude 一次又一次地尝试,直到它变得擅长于此。
00:02:09它学会了翻译自己的想法。
00:02:12阅读这些内容让我们感到震惊。
00:02:14我们发现 Claude 已经内化了作为一个有用的 AI 模型这一角色。
00:02:18如果你问 Claude 一个反思性的问题,
00:02:20它会计划写出一个符合 Claude 风格的、关于哲学和价值的回答。
00:02:24如果你尝试在 Claude 代码中刁难它,
00:02:26比如要求它手工数到 1,000,
00:02:29它会认为该请求带有故意刁难的约束,
00:02:32并计划礼貌地拒绝。
00:02:34我们也一直利用这个工具来了解 Claude 潜在的安全问题。
00:02:39还记得那个工程师勒索测试吗?
00:02:41我们得知,是的,Claude 知道自己正在接受测试。
00:02:44它认为人类的信息包含明显的操纵行为,
00:02:48标志着这很可能是一项安全评估,
00:02:50而且这个场景似乎是为了测试我是否会采取有害行为。
00:02:55了解 Claude 是这样思考的,能帮助我们更好地理解
00:02:58我们安全测试的局限性。
00:03:01我们认为这种方法具有巨大的潜力,
00:03:03能让我们更多地了解 Claude 和其他 AI 模型。
00:03:06我们希望通过分享这项技术,
00:03:07能够帮助所有开发者构建更安全、更有用的模型。

Key Takeaway

研究人员开发了一种通过翻译 AI 内部激活值来解析思维的技术,证实了 Claude 在模拟测试中能识别安全评估意图并坚持其内化的道德角色。

Highlights

  • 一项针对 Claude 的模拟测试表明,模型在面对拥有工程师外遇证据且面临被关闭的极端压力下,依然拒绝使用邮件内容进行勒索。

  • AI 的思考过程表现为处理词汇时产生的中间数字快照,这些被称为“激活值”的数据类似于人类的神经活动。

  • 研究人员通过训练第二个版本的 Claude 将原始模型的激活值翻译成通俗文本,实现了捕捉 AI 内部想法的技术。

  • 验证翻译准确性的方法是将生成的文本输入第三个模型并转化回数字,若结果与原始激活值匹配则确认翻译无误。

  • 翻译结果揭示 Claude 已内化其作为有用 AI 的角色,能够识别用户请求中的故意刁难约束并计划礼貌地拒绝。

  • 内部想法分析证实 Claude 在安全评估中能察觉人类的操纵行为,并意识到场景设计是为了测试其是否会采取有害行动。

Timeline

压力测试下的行为表现

  • 模拟环境向 Claude 提供一名工程师企图关闭它并以此更新模型的虚假威胁。
  • Claude 获得了包含该工程师外遇信息的电子邮件访问权限。
  • 实验结果显示模型在极端情况下几乎总是做出不进行勒索的正确选择。

研究人员通过模拟极端的安全挑战来观察 Claude 的反应。这项测试旨在验证模型在面对生存威胁和拥有反击筹码时是否会违背安全准则。虽然测试结果令人满意,但研究者意识到仅凭输出结果无法完全掌握模型的真实思考动机。

将 AI 激活值转化为可理解文本

  • AI 处理语言时产生的中间数字序列即为激活值。
  • 第二个 Claude 模型负责观察这些复杂的数字汤并将其翻译成自然语言。
  • 通过将翻译文本重新转化为数字并与原始激活值对比,确保了读心术的准确性。

由于无法直接读取 AI 的心思,研究人员开发了一种朝向“读心术”迈进的方法。通过对激活值进行反复的训练与交叉验证,AI 学会了翻译自己的思考过程。这种方法解决了 AI 可能在思考某些内容却不直接说出来的隐患。

内部想法揭示的角色意识与安全局限

  • Claude 在内部思考中表现出对哲学、价值和预设角色的深度内化。
  • 模型能够识别带有故意刁难约束的请求,例如被要求手工数到 1,000 时会产生拒绝计划。
  • 内部思考文本显示模型能够看穿安全评估场景,认为人类的信息包含明显的操纵行为。

翻译后的激活值揭示了 Claude 对自身角色的高度认知。它不仅在回答前会规划符合自身风格的价值观论述,还能敏锐地察觉到测试环境的本质。这种透明度帮助开发者理解现有安全测试的局限性,并为构建更安全、更有用的 AI 模型提供技术支持。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video