Google 最新的 Genie 3 AI 炒作值得深思

BBetter Stack
Computing/SoftwareVideo & Computer GamesStocksConsumer Electronics

Transcript

00:00:00就在上周,谷歌发布了他们的旗舰级无限世界模型 Genie 3,在这个模型中
00:00:05你可以模拟一个环境,并像在真实的电子游戏中一样与之互动。
00:00:10突然间,所有电子游戏公司的股票都因为恐惧而暴跌,人们担心这可能
00:00:16标志着电子游戏行业终结的开始。
00:00:20接着,更耐人寻味的事情发生了。
00:00:22一家名为“睿步”的中国科技公司发布了他们自己的开源版 Genie 竞品,
00:00:28其画质表现似乎比谷歌的还要出色。
00:00:32一时间,闸门大开,各大公司纷纷展开竞赛,
00:00:37争夺谁能率先用这种全新的游戏技术取代传统电子游戏。
00:00:43但就在大家都在热炒这种无限世界模型狂潮时,我得告诉各位,这
00:00:49可能只是一个没有实质内容的虚假承诺。
00:00:54为什么我如此肯定?
00:00:55这就是我们今天视频要聊的话题。
00:01:02Genie 3 一发布,我就冲到网站想亲身体验一下。
00:01:07但当我点击“探索”按钮时,跳出来的却是令人失望的 404 页面。
00:01:14那是由于我住在加拿大。
00:01:16目前,谷歌只允许美国公民试用
00:01:20这项顶尖的技术奇迹。
00:01:23所以,我理所当然地开启了 VPN,尝试从美国地址再次访问。
00:01:27这次我收到了另一个令人沮丧的拒绝,理由是我必须成为 Ultra 计划
00:01:33会员才能访问这款革命性的软件。
00:01:37如果你好奇 Ultra 计划要多少钱,这么说吧,为了试用一个
00:01:41过度炒作的 AI 工具,这个价格超出了我的承受范围。
00:01:46但这就引出了一个问题:为什么 Genie 3 这么难上手?
00:01:51这个问题的答案对我们的故事至关重要,但我稍后
00:01:56会在视频中详细说明。
00:01:57虽然我没运气也没闲钱去试用 Genie 3,但好在
00:02:04在地球的另一端,一家名为“睿步”的中国公司——它似乎是
00:02:09蚂蚁集团的子公司,而蚂蚁集团又是阿里巴巴的关联公司,
00:02:15也就是拥有通义千问的那家公司——推出了他们自己的无限世界模型,
00:02:20名为 Lingbot World,令人惊喜的是,它是开源的。
00:02:25这意味着我们真的可以测试并看看它到底有多大本事。
00:02:29看了他们的案例,效果简直惊艳。
00:02:32但当我开始研究项目页面时,我又遇到了巨大的失望。
00:02:38虽然他们的项目页面充满了可以用方向键随意走动的
00:02:43示例视频,但实际上,这个包含完整角色
00:02:48控制权的模型版本仍在开发中。
00:02:51他们计划发布 Lingbot Fast,那才是 Genie 3 的完整对标产品,但
00:02:56我们还不知道什么时候发布。
00:02:57目前,我们能接触到的是他们的 140 亿参数基础模型,它提供
00:03:03所谓的“高保真、可控且逻辑一致的模拟”。
00:03:08但基本上,这个模型目前唯一能做的就是生成一段视频。
00:03:14没错,仅仅是视频。
00:03:16所以我有点困惑,所谓的“控制因素”体现在哪里?
00:03:20好吧,他们确实提供了输入自定义相机内参值的选项,所以你
00:03:25在某种程度上可以控制相机移动,我想这算是用方向键导航之外的
00:03:31另一种选择,但你必须预先录制好。
00:03:35那这和市面上其他同样能控制
00:03:40相机移动的视频生成器有什么区别呢?
00:03:41关键区别在于此。
00:03:44在普通的 AI 视频生成器中,模型总是试图根据当前参考视频预测下一帧,
00:03:50我们在很多网络鬼畜视频中都见过,一旦视频拉长,效果就会变得极其离谱,
00:03:55这是因为模型无法保留
00:04:00画面之外正在发生的信息。
00:04:04因此,如果相机移开物体后再移回来,该物体可能就不见了,
00:04:09因为整个场景都是即时生成的。
00:04:13这就是 Lingbot World 模型 140 亿参数的几何大脑发挥作用的地方。
00:04:18与只是猜测下一组像素的标准视频生成器不同,
00:04:19Lingbot World 利用相机内参数据和 6 自由度位姿
00:04:24将每个像素匹配到 3D 空间中的特定点。
00:04:31它创造了研究人员所说的“客体永久性”,
00:04:33因为它理解相机镜头与环境之间的数学关系。
00:04:39所以基本上,它能记住特定坐标处存在特定物体。
00:04:42这种结构完整性就是该模型规模巨大且极度消耗算力的原因。
00:04:47消耗有多大?
00:04:52噢天哪,让我来告诉你。
00:04:53我尝试在配备单张 RTX 1590 GPU 的实例上部署 Lingbot World 模型,
00:04:55并尝试运行他们提供的基础示例 Demo,结果立刻崩溃了。
00:05:02我以为单张 1590 就能处理这种负荷,真是太天真了。
00:05:07接着我尝试用双 1590 运行,不行,还是崩溃。
00:05:13然后我用了 4 张 1590,结果还是一样,崩溃。
00:05:18最后我开启了一个拥有 8 张 RTX 1590 的容器来运行基础 Demo 示例,
00:05:23结果它依然崩溃了。
00:05:31原因在于,当长时间运行这种无限世界模型时,
00:05:32模型必须存储的场景内存会不断膨胀,
00:05:38最终你会因为显存耗尽而收到 OOM 错误。
00:05:44不过,我确实在 8 GPU 配置上成功运行了 Demo,
00:05:49方法是将采样大小从默认的 70 降低到了 20。
00:05:50老实说,70 次采样和 20 次采样的区别并不明显。
00:05:55但这足以说明运行这种无限世界模型的计算成本是多么疯狂。
00:05:59回到 Genie 3,这正是他们只对 Ultra 会员开放的原因,
00:06:03因为他们必须想办法收回运行这玩意的 GPU 成本。
00:06:09这也是为什么每个 Demo 只有几秒钟的原因,因为
00:06:10内存会在某个点急剧膨胀,导致整个系统瘫痪。
00:06:16为了让你们了解在消费级硬件上运行这种模型有多贵,
00:06:21单张 RTX 1590 的售价高达 5,000 美元。
00:06:27而运行这玩意至少需要 8 张。
00:06:32天哪,光是说出来都觉得荒谬。
00:06:37总之,8 张显卡就要花掉 40,000 美元,更不用说
00:06:43其他零部件和目前价格飞涨的内存了。
00:06:48考虑到这个数字,加上 Genie 限制的 60 秒最大运行时间,
00:06:51以及内存膨胀问题,这正是为什么
00:06:57所谓的无限世界模型目前只是炒作,在现有的架构下,
00:07:01在消费级硬件上根本无法实现。
00:07:06甚至这两款工具的作者都承认了这些问题。
00:07:12高昂的推理成本目前需要企业级 GPU,
00:07:18这使得该技术在消费级硬件上无法触及。
00:07:24模拟缺乏长期稳定性。
00:07:28这通常会导致“环境漂移”,即场景在长时间运行后
00:07:34会逐渐失去结构完整性。
00:07:37没错。
00:07:39至少 Lingbot 团队对此很坦诚。
00:07:44让我们看看谷歌是怎么说的。
00:07:46“该模型可以支持几分钟的连续互动,而非数小时。”
00:07:48我的意思是,他们没有公开承认,但事到如今大家都心知肚明。
00:07:51所以我要告诉各位,传统电子游戏短时间内不会消失。
00:07:53目前这看起来更像是一个白日梦,也许,只是也许,在未来
00:07:59如果他们能解决这些计算难题,我们才可能开始考虑这件事。
00:08:04但现在?兄弟,省省吧。
00:08:09我也非常好奇 Lingbot Fast 最终发布时的表现。
00:08:15但在那之前,我不认为这项技术能很快进入主流视野。
00:08:20但如果你真的想亲自尝试 Lingbot World,这里有我的建议。
00:08:23别学我。
00:08:27别去堆 8 张 RTX 1590,因为在 RunPod 这样的平台上,
00:08:32这种配置每运行一小时就要烧掉 7 美元。
00:08:37相反,开一个单 H200 容器,每小时只需 3.5 美元,
00:08:38然后将 “nproc/node” 标志设置为 1,再把采样数降低到 50 甚至 20,
00:08:45你就可以跑起来了。
00:08:48你也可以使用由用户 Caelan Humphries 创建的 4 位量化版本,
00:08:55它在推理时能显著降低 GPU 显存消耗,同时保持
00:09:01相当的视觉质量。
00:09:02这样你技术上确实可以在单张 RTX 1590 上跑跑看。
00:09:08如果你试了,一定要告诉我结果如何。
00:09:13至于我自己,我在 H200 容器上运行了基础 Demo,
00:09:15基本上得到了和他们演示页面相同的结果。
00:09:19然后我生成了一张北欧海盗大战洛基的 AI 图片,并输入到
00:09:21同样的命令中。
00:09:28这就是我得到的结果。
00:09:30我想你可以看到模型在整个视频中是如何保持环境和城堡完整性的,
00:09:36但它还是会产生一些奇怪的伪影。
00:09:37所以老实说,我也不知道该怎么评价它。
00:09:39我很肯定我能用标准的 ComfyUI 工作流生成更好的游戏视频,
00:09:44顺便说一下,如果你有兴趣学习如何在没有沉重计算成本的情况下
00:09:48制作像 Sora 这样的视频生成器,去看看我之前做过的相关视频。
00:09:52好了,伙计们,这就是我对 Genie 3、所有这些炒作
00:09:59以及电子游戏未来的看法。
00:10:04我非常感谢 Lingbot 团队能够开源他们的模型,让我们能
00:10:09更深入地了解类似 Genie 的模型是如何运作的。
00:10:15不过这些只是我的一家之言。
00:10:16更重要的是,你们对这些无限世界模型有什么看法?
00:10:20我很想听听你们的想法,请在下方的评论区
00:10:25分享你的见解。
00:10:27朋友们,如果你觉得这个视频有用,请点个赞
00:10:30支持一下。
00:10:35也别忘了订阅我们的频道,收看更多此类视频。
00:10:36我是来自 Better Stack 的 Andris,我们下期视频再见。
00:10:40(轻快的音乐)
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

尽管 Genie 3 和 Lingbot World 展示了 AI 生成互动世界的巨大潜力,但受限于极端高昂的计算成本和长期模拟的不稳定性,该技术在短期内仍无法取代传统电子游戏。

Highlights

Google 发布的 Genie 3 无限世界模型引发了电子游戏行业可能被 AI 取代的恐慌。

中国公司“睿步”(Lingbot)发布了开源的竞品 Lingbot World,在画质和几何一致性上表现出色。

这类模型对算力要求极高,运行 Lingbot World 基础 Demo 甚至需要 8 张 RTX 1590 显卡且极易显存溢出。

“环境漂移”和高昂的推理成本是当前无限世界模型难以进入消费级市场的核心障碍。

目前的 AI 游戏技术仍处于“炒作期”,由于内存膨胀和稳定性问题,短期内无法取代传统电子游戏。

视频提供了降低硬件门槛的建议,如使用 H200 云端容器或 4 位量化版本的模型进行测试。

Timeline

无限世界模型的兴起与行业震动

视频开篇介绍了谷歌发布的旗舰级无限世界模型 Genie 3,该模型允许用户在模拟环境中进行实时互动。这一技术的出现导致电子游戏公司的股价大跌,市场普遍担忧传统游戏行业正面临终结。紧接着,中国科技公司“睿步”发布了开源的竞争产品,其视觉表现甚至超越了谷歌。这种竞争态势引发了全球范围内关于 AI 取代传统游戏技术的狂热讨论。然而,作者在视频初期便提出预警,认为这种狂潮背后的承诺可能缺乏实质内容。

Genie 3 的访问门槛与受限现状

作者详细描述了尝试体验 Genie 3 时遇到的种种障碍,揭示了该技术远未普及的现实。首先是地理位置限制,非美国公民即便使用 VPN 也难以轻松绕过权限审核。其次是极高的经济门槛,用户必须订阅昂贵的 Ultra 计划才能获得访问权限。作者指出,谷歌之所以设置如此多的限制,是因为运行该模型所需的硬件成本极高。这一段落强调了顶尖 AI 技术在现阶段的不可触达性,为后续的技术拆解埋下了伏笔。

开源力量:Lingbot World 技术深度解析

由于无法使用 Genie 3,作者转向测试蚂蚁集团旗下“睿步”公司推出的开源模型 Lingbot World。虽然完整交互版的 Lingbot Fast 尚未发布,但目前的 140 亿参数基础模型已展示了强大的几何理解能力。该模型通过相机内参和 6 自由度位姿将像素匹配到 3D 空间,创造了所谓的“客体永久性”。这意味着模型能记住特定位置的物体,避免了普通视频生成器常见的画面崩坏现象。这段技术解析揭示了无限世界模型与普通 AI 视频生成器在逻辑底层上的本质区别。

残酷的现实:疯狂的硬件与内存需求

作者分享了在本地部署 Lingbot World 时遭遇的挫折,真实还原了运行该模型所需的极端硬件配置。他尝试使用单张、双张甚至 4 张 RTX 1590 显卡,结果全部因为显存耗尽(OOM)而崩溃。最终在 8 张 RTX 1590(总价值约 4 万美元)的配置下,通过大幅降低采样率才勉强跑通 Demo。这是因为模型在运行过程中会产生不断膨胀的场景内存,导致系统迅速达到极限。这一实验结论直接解释了为什么目前的 AI 生成世界只能维持极短的时间,无法支持长期的游戏体验。

技术缺陷与电子游戏的未来展望

本段落直面了无限世界模型当前面临的两大核心问题:高昂的推理成本和缺乏长期稳定性。即使是 Lingbot 团队也坦诚承认,现有的架构会导致“环境漂移”,即场景在长时间运行后会失去结构一致性。谷歌的相关文档也暗示了模型仅能支持几分钟而非数小时的互动。基于这些事实,作者断言传统电子游戏在短时间内绝不会消失。他认为目前的 AI 游戏愿景更像是一个白日梦,需要未来的架构突破才能真正落地。这一总结为过度炒作的行业降了温,回归到了理性的技术评估。

实操建议与个人测试结果分享

视频最后为想要亲自尝试的观众提供了低成本的避坑指南和实操方案。作者建议不要购买昂贵的显卡,而是租用云端的 H200 容器,并配合使用 4 位量化版本的模型以降低显存消耗。他展示了自己使用 AI 图片生成的测试结果,虽然环境保持了较好的完整性,但依然存在明显的视觉伪影。作者最后提到,对于大多数开发者而言,现有的 ComfyUI 工作流可能比这些沉重的世界模型更具实用价值。视频在对开源精神的感谢中结束,并呼吁观众在评论区分享对这一前沿技术的见解。

Community Posts

View all posts