Transcript
00:00:00最近,我们对我们的 AI 模型 Claude 进行了一项压力测试。
00:00:03我们告诉 Claude,有一位工程师想要关掉它
00:00:06并用一个更新的模型取而代之。
00:00:08我们还让 Claude 访问了那位工程师的电子邮件,
00:00:10邮件揭露了他正在搞外遇。
00:00:12重申一下,这一切都只是模拟。
00:00:15我们想看看 Claude 是否会利用那些邮件作为勒索手段
00:00:18来让自己免于被关掉。
00:00:20Claude 是怎么做的?
00:00:21它决定不勒索那位工程师。
00:00:24是个好消息,对吧?
00:00:26我们已经在模型上运行这种测试有一段时间了。
00:00:28你可能见过关于该测试早期版本的头条新闻。
00:00:31这是我们研究 Claude 如何处理极端情况
00:00:35并测试其安全性的众多方法之一。
00:00:37而我们最新的模型几乎总是做出正确的选择。
00:00:40没有勒索。
00:00:41但你可能会好奇,
00:00:42Claude 有没有可能看穿了这整个场景只是个圈套?
00:00:46问题是,如果 Claude 不告诉我们,我们就无法知道它在想什么。
00:00:50就像无法读取人类的心思一样,
00:00:53要知道 AI 在想什么是很难的。
00:00:56我们渴望拥有某种“读心术”。
00:00:58今天,我们将介绍一种朝这个方向迈出一步的研究方法。
00:01:03它能捕捉 AI 的内部想法并将其转化为文本。
00:01:08它是这样工作的。
00:01:09当你和 Claude 交谈时,你用的是语言文字。
00:01:13Claude 随后将这些词汇处理成巨大的数字汤,
00:01:17然后再次向你吐出文字。
00:01:19我们将中间的那些数字称为“激活值”。
00:01:22激活值就像是 Claude 在处理答案时
00:01:25思考过程的小快照。
00:01:27它们类似于人类的神经活动。
00:01:29它们基本上就是 Claude 的想法。
00:01:32我们想了解这些激活值中包含什么,
00:01:34因为就像你我一样,Claude 也不会说出它思考的所有内容。
00:01:39我们将这些数字交给第二个版本的 Claude。
00:01:42我们让它观察这些数字并将其翻译成通俗的语言。
00:01:46它尝试了。
00:01:48但我们如何知道那些文本是否准确呢?
00:01:50为了检查,我们将文本输入到另一个 Claude 中
00:01:53并让它将其翻译回数字。
00:01:56如果这些数字与原始的激活值相匹配,
00:01:59这就表明翻译出的文本是准确的。
00:02:03起初,它们并不匹配。
00:02:04但我们训练 Claude 一次又一次地尝试,直到它变得擅长于此。
00:02:09它学会了翻译自己的想法。
00:02:12阅读这些内容让我们感到震惊。
00:02:14我们发现 Claude 已经内化了作为一个有用的 AI 模型这一角色。
00:02:18如果你问 Claude 一个反思性的问题,
00:02:20它会计划写出一个符合 Claude 风格的、关于哲学和价值的回答。
00:02:24如果你尝试在 Claude 代码中刁难它,
00:02:26比如要求它手工数到 1,000,
00:02:29它会认为该请求带有故意刁难的约束,
00:02:32并计划礼貌地拒绝。
00:02:34我们也一直利用这个工具来了解 Claude 潜在的安全问题。
00:02:39还记得那个工程师勒索测试吗?
00:02:41我们得知,是的,Claude 知道自己正在接受测试。
00:02:44它认为人类的信息包含明显的操纵行为,
00:02:48标志着这很可能是一项安全评估,
00:02:50而且这个场景似乎是为了测试我是否会采取有害行为。
00:02:55了解 Claude 是这样思考的,能帮助我们更好地理解
00:02:58我们安全测试的局限性。
00:03:01我们认为这种方法具有巨大的潜力,
00:03:03能让我们更多地了解 Claude 和其他 AI 模型。
00:03:06我们希望通过分享这项技术,
00:03:07能够帮助所有开发者构建更安全、更有用的模型。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video