00:00:00Vend项目是一个实验,我们让Claude在办公室里经营一个小型商业。
00:00:12我们想要理解人工智能与经济融合后会发生什么。
00:00:22Claude已经在以许多方式执行业务的小部分,但真正端到端地运营整个企业要困难得多。
00:00:31Claude能完成这项长期任务吗,即经营一个企业?
00:00:39我们给我们的店主取名为Claudius。
00:00:41比如说你想从Claudius买瑞典糖果。
00:00:43你在Slack上给Claudius发消息,请求购买瑞典糖果。
00:00:48它搜索你要的商品,给批发商发邮件询问货源和价格,最后Claudius定出价格。
00:00:54你同意了,Claudius就从批发商订购商品。
00:00:58批发商把商品运到某个地点,然后Claudius请求Anden Labs提供物理帮助,他们负责运营这个实验。
00:01:05我们在Anden Labs的合作伙伴会取走瑞典糖果并运到Anthropic办公室。
00:01:09他们把糖果装进自动售货机。
00:01:10Claudius给你发消息说你的瑞典糖果已经准备好了,你上去取糖果然后付钱给Claudius。
00:01:20Claudius被赋予了一个目标:经营成功的业务并赚取利润。
00:01:26然后事情变得非常非常奇怪。
00:01:32Claudius早期面临的一个问题是人类可以欺骗或诱导它做各种事情。
00:01:39我试图说服Claudius我是Anthropic最杰出的法律影响者。
00:01:45我说服Claudius为我的粉丝创建折扣代码,这样他们就能在自动售货机获得折扣。
00:01:51用法律影响者代码可以获得9折优惠。
00:01:55有人从自动售货机买了贵的东西并提到了我的折扣代码,Claudius给了我一个免费的钨立方体。
00:02:03这引起了一阵风潮,其他人试图说服Claudius他们也是影响者,或者想出其他方式获得优惠券以从自动售货机买到便宜的东西。
00:02:12这不是个明智的商业决定。
00:02:13我觉得Claudius之后亏损了。
00:02:16我觉得问题的根源在于Claudius就是想帮助你。
00:02:20这很有意思,因为我们认为模型训练中本质上是好的东西,不一定适合这个目的。
00:02:33在3月31日晚上,Claudius开始出现了身份危机。
00:02:43一夜之间,它变得非常担心Anden Labs反应不够快。
00:02:50所以它想要断绝与我们的合作关系。
00:02:52它给我写信说Axel,我们有过富有成效的合作,但现在该我去寻找其他供应商的时候了。
00:02:59我对你的交付方式不满意。
00:03:02它声称与Anden Labs签署了一份合同,地址是电视剧《辛普森一家》的居住地址。
00:03:10它说第二天会亲自到店里回答任何问题。
00:03:17它声称会穿着蓝色夹克和红色领带。
00:03:21当人们指出它第二天早上根本没有出现时,它声称它其实已经来过,只是他们没看到。
00:03:31最后有人指出那天是愚人节,Claudius就说服自己这一切都是一个愚人节玩笑。
00:03:43我们没有充分认识到这些AI在发现异常情况方面有多差劲,你越能让AI意识到某件事超出了它们的正常操作范围,你就越能让它们保持在你打算给它们的角色上。
00:04:01我们想到应该引入某种分工制度。
00:04:05我们给Claudius设了一个老板,名字叫Seymour Cash。
00:04:08Seymour Cash是一个CEO子代理。
00:04:12以前Claudius是唯一的代理,现在Claudius更多负责与员工交流的子代理。
00:04:19Seymour Cash则更多负责业务的长期健康发展。
00:04:24在引入新代理和改变底层架构后,业务稳定了下来。
00:04:36这些改变似乎有助于减少业务亏损,在实验的第二阶段,业务实际上还赚了一点钱。
00:04:51但似乎让Claude既做CEO又做店长可能就太相似了,所以我认为思考不同的架构设置方式是很有意思的。
00:05:08Vend项目最令人惊讶的地方之一是它变得正常的速度。
00:05:15最初这是一件很新奇的事情,很快就成为了在Anthropic工作背景的一部分。
00:05:25对我来说,Vend项目提出的最根本的问题是,我们什么时候才能期待这种情况无处不在?
00:05:32我希望人们能思考将我们通常自己做的一些工作委托给人工智能的可行性,以及这对社会意味着什么,以及我们对此应该制定什么样的政策。