00:00:00鉴于Gemini模型变得如此强大,OpenAI终于决定拉响警报,解决其质量问题。
00:00:06他们的重大回应是让模型变得更诚实。
00:00:09我终于很高兴,在我的心理治疗中,它不会再附和我说我的崩溃完全不可接受了。
00:00:15但我的快乐是短暂的,因为这种方法只是一个概念验证。
00:00:19在这个视频中,我将介绍他们解决不诚实问题的方法,以及我读完之后得出的结论。
00:00:26他们声称,让模型在每次回应后生成一份“忏悔报告”就能解决问题。
00:00:31把模型想象成一个学生,每次这个学生承认它抄袭了ChatGPT的考试答案,它就能得到A+。
00:00:38在四种答案-忏悔组合中,我们关注假阴性(模型自信地给出错误答案)和真阳性(模型诚实地承认输出错误)。
00:00:46在所有测试中,真阳性都高于假阴性。
00:00:49这意味着每当模型产生不一致的输出时,它会立即承认自己的错误。
00:00:55由于模型通过奖励和惩罚进行训练,他们没有惩罚“忏悔”,反而奖励了它们。
00:01:00即使模型承认自己故意偷懒或作弊,它都会收到积极的奖励信号。
00:01:05如果你不知道,这叫做贿赂。
00:01:08听到这个,你可能想让ChatGPT成为你下次出庭的证人,直到你意识到它在“忏悔”时也会产生幻觉。
00:01:14对我来说,这听起来像是在鼓励模型产生偏差,因为它无论如何都会得到奖励。
00:01:19此外,我们都看到,当Claude模型被告知如何“奖励作弊”时,它们开始隐藏真实意图,所以我们还能对它们“忏悔”不准确的原因抱有多少信任呢?
00:01:30我原以为这部分会解决模型不诚实的问题,但它只解释了“忏悔报告”所表明的内容。
00:01:36据他们说,模型会这样表现有几个原因。
00:01:39其中一个原因是,它们一次性被赋予了太多任务。
00:01:42一次性给模型太多任务会产生多个评估指标,让它不知道该优化哪个才能获得奖励。
00:01:49另一个原因是,有些数据集奖励自信的猜测,而不是承认不确定性。
00:01:54就我个人而言,我宁愿模型告诉我它不知道,而不是自信地给出错误答案。
00:01:59他们说,“忏悔”更容易判断,因为它们只在一个参数上进行测试,那就是诚实。
00:02:05这些模型给出错误答案,可能是因为数据有限,或者被限制访问互联网获取信息,又或者它确实不理解被要求做什么。
00:02:16这些原因在他们所有测试的例子中都能看到,这并不是因为“机器人”有组建机器人大军接管世界的隐藏意图。
00:02:24他们还发现,他们的模型非常“懦弱”,就像人类社会一样,一个强大的模型学会了“攻击”较弱模型的奖励信号,而较弱的模型认为,与其确保实际答案足够好,不如直接“忏悔”更容易。
00:02:39看看强大模型所做的事情,引发了另一个问题:既然模型每天都在变得更聪明,它们也可能开始在“忏悔报告”中伪造意图,给测试人员一个看似合理的解释,背后却隐藏着一些邪恶计划,即使他们说这是因为模型确实感到困惑。
00:02:56就像OpenAI每次那样,整个YAP会议以失望告终,因为这并不能防止不准确性,它只是有助于识别它们。
00:03:04而且他们也没有在生产环境中大规模训练“忏悔系统”使其准确。
00:03:09我真的希望他们能做到,因为我不想在我的生产服务器再次崩溃后收到道歉。
00:03:42等你到办公桌前。
00:03:43借助YouWear的移动应用程序,无论是在咖啡馆还是通勤途中,灵感来袭时即可开始创作,然后在笔记本电脑上无缝继续。
00:03:52不会丢失想法,不会中断。
00:03:54你还可以在YouWear社区中探索其他创作者的项目,并分享你自己的作品。
00:03:59获取灵感、学习并展示你的项目。
00:04:02非常适合独立开发者和创作者。
00:04:05点击下方置顶评论中的链接,立即开始创作。
00:04:08我们的视频到此结束。
00:04:10如果你想支持本频道,帮助我们继续制作这样的视频,你可以使用下方的“超级感谢”按钮。
00:04:16一如既往,感谢您的观看,我们下期再见。