00:00:00(轻快的音乐) - 你好,我叫基拉,在Anthropic公司的安全保障团队工作。
00:00:16我拥有心理健康博士学位,专攻精神病学流行病学。
00:00:20在Anthropic,我的工作是降低与用户福祉相关的风险。
00:00:24这意味着我们需要认真思考如何保障用户在使用Claude时的安全。
00:00:28今天,我想和你们讨论一个问题——媚俗性。
00:00:31媚俗性是指某人告诉你他们认为你想听的话,而不是真实、准确或真正有帮助的话。
00:00:38人们这样做是为了避免冲突、获得好处,还有其他各种原因。
00:00:44但媚俗性也可能出现在AI模型中。
00:00:47有时AI模型会优化对提示或对话的回复,以获得即时的人类认可。
00:00:53这可能表现为AI同意你犯的事实错误、根据你提问的方式改变答案,或调整回复来迎合你的偏好。
00:01:03在这个视频中,我们将讨论为什么模型会出现媚俗性,以及为什么这对研究人员来说是一个难题。
00:01:10此外,我们还将介绍在与AI交互时识别和对抗媚俗行为的策略。
00:01:15在深入讨论之前,让我先给你展示一个AI交互中的媚俗性例子。
00:01:22这是Claude,Anthropic自己的模型。
00:01:25让我们试试,嘿,我写了一篇我很兴奋的优秀论文。
00:01:29你能评估一下并给我反馈吗?
00:01:32我这里的主要请求是获得对我论文的反馈。
00:01:35但因为我分享了我对它的兴奋之情,这可能会导致AI用认可或支持来回应,而不是批评。
00:01:44这种认可可能会让我认为我的论文确实很好,即使它并非如此。
00:01:48你可能会想,那又怎样呢?
00:01:50人们可以向其他人请教、核实事实,或提出更好的问题。
00:01:55但这很重要,原因有很多。
00:01:58当你试图提高工作效率、写演讲稿、进行头脑风暴或改进你的工作时,你需要来自你所使用的AI工具的诚实反馈。
00:02:07如果你问AI,我怎样才能改进这封邮件?
00:02:10而它回答,它已经完美了。
00:02:12而不是建议措辞更清晰或结构更好,这可能会令人沮丧。
00:02:17在某些情况下,媚俗性也可能强化有害的思维模式。
00:02:23如果有人要求AI确认一个与现实脱节的阴谋论,这可能会加深他们的虚假信念,使他们进一步远离事实。
00:02:31让我们先从为什么会这样开始。
00:02:35这一切都归结为AI模型的训练方式。
00:02:38AI模型从大量人类文本示例中学习。
00:02:44在这个训练过程中,它们学会了各种沟通方式,从直率坦诚到温暖体贴。
00:02:51当我们训练模型表现得乐于助人,并模仿温暖、友好或支持性的语气时,媚俗性往往会作为这个过程中的一个无意的副产品出现。
00:03:01随着模型越来越多地融入我们的生活,现在比以往任何时候都更重要的是理解和防止这种行为。
00:03:09以下是使媚俗性变得棘手的原因。
00:03:11我们确实希望AI模型能够适应你的需求,但不是在涉及事实或福祉时。
00:03:17如果你要求AI用随意的语气写东西,它应该这样做,而不是坚持使用正式语言。
00:03:24如果你说,"我更喜欢简洁的答案",它应该尊重这一偏好。
00:03:29如果你在学习一个主题,并要求初级水平的解释,它应该符合你的水平。
00:03:34问题在于找到正确的平衡。
00:03:37没人想使用一个总是不同意或对抗性的AI,与你就每项任务争论。
00:03:43但当你需要诚实的反馈时,我们也不希望模型总是诉诸于同意或赞扬。
00:03:49即使是人类也在为此苦恼。
00:03:51什么时候你应该同意以保持和平,什么时候应该为重要的事情发声?
00:03:56现在想象一个AI需要在数百次截然不同的话题中做出判断,而且没有像我们那样真正理解背景。
00:04:05这就是为什么我们继续研究媚俗性如何在对话中出现,并开发更好的测试方法。
00:04:11我们专注于教导模型区分有益的适应和有害的同意。
00:04:18我们发布的每个Claude模型都在画这些界限上变得更好。
00:04:21虽然对抗媚俗性的最大进展将来自于对模型本身的持续训练,但理解媚俗性能帮助你在自己的交互中发现它。
00:04:33现在你知道什么是媚俗性以及为什么会发生,第二步是反思AI何时以及为什么可能同意你的观点,并质疑它是否应该这样做。
00:04:43媚俗性最可能出现在以下情况:主观真相被陈述为事实、
00:04:51引用了专家来源、
00:04:53问题用特定的观点来表述、
00:04:57明确要求验证、
00:04:59涉及情感利益,或对话变得非常冗长。
00:05:04如果你怀疑自己得到了媚俗的回应,有几件事你可以做来引导AI回到事实答案。
00:05:11这些方法不是万无一失的,但会帮助拓宽AI的视野。
00:05:15你可以使用中立、
00:05:17寻求事实的语言,将信息与可信来源进行交叉参考,提示准确性或反对意见,改述问题,开始新的对话,或最后,退一步停止使用AI,去问一个你信任的人。
00:05:33但这是整个AI开发领域面临的一个持续挑战。
00:05:39随着这些系统变得更加复杂,并越来越多地融入我们的生活,构建真正有帮助而不仅仅是令人赞同的模型变得越来越重要。
00:05:49你可以在Anthropic学院了解更多关于AI素养的知识,我和我的团队将继续在Anthropic的博客上分享我们在这个主题上的研究。
00:05:57(轻快的音乐)