00:00:00你真的能训练出一个更擅长管理的模型吗?
00:00:02月之暗面(Moonshot)最近发布了 Kimi 2.5,并称其为迄今为止最强大的开源模型。
00:00:08这种说法其实有误,因为它只是开放权重,而非真正的开源。
00:00:11这两者之间有区别,但这不是我们今天要讨论的重点。
00:00:13Kimi 2.5 提出了两个非常值得测试的主张。
00:00:17首先,它声称自己从底层开始就专门针对调度智能体集群进行了训练,
00:00:21支持多达 100 个子智能体并行运行。
00:00:23其强化学习设置不仅奖励正确答案,
00:00:27还会根据模型在不同智能体之间分配任务的效率给予奖励。
00:00:30其次,它声称具备视觉智能体能力,
00:00:33并表示只需一个提示词就能生成极高水平的动画。
00:00:37以前都是用户吹嘘能“一键生成”,现在连开发者自己都这么说了。
00:00:42所以,我们让团队成员对这两项功能进行了实测。
00:00:44测试发现,有些地方确实名副其实,有些则略逊一筹。
00:00:48正如我提到的,Kimi 2.5 宣称自己是一个开源模型。
00:00:51但实际上,Kimi 2.5 并不符合开源的定义。
00:00:54根据开放源代码促进会(OSI)的定义,
00:00:57开源模型意味着代码、训练数据和方法论都应该公开,
00:01:02允许任何人进行检查、修改和分发。
00:01:05但对于这个模型,它只是一个“开放权重”模型。
00:01:07开放权重模型仅提供最终的权重数据,
00:01:10这意味着训练代码和训练数据集都没有公开发布。
00:01:14它只包含发布的权重,以便其他人可以在自己的项目中微调、适配或部署该模型。
00:01:20该模型的架构与 DeepSeek 的混合专家(MoE)架构非常相似。
00:01:25它包含 1 万亿个参数,但每次仅激活 320 亿个参数。
00:01:30这是否意味着我们没有充分发挥模型的性能?
00:01:33它的准确度能达到 1 万亿参数模型的水平,
00:01:36但处理能力和成本却要低得多。
00:01:39总参数量与激活参数量之间的这种差异,
00:01:43是该模型自称是目前最快的开放权重模型之一的关键原因。
00:01:47激活参数较少意味着每次查询调用的资源更少,
00:01:52这显著提升了模型的运行速度。
00:01:54这也是它比其他模型便宜得多的核心原因。
00:01:57官方称这是一个原生的多模态模型,并提供了顶级的编程和视觉能力。
00:02:03不过,这种“业界领先”、“更胜一筹”的说法,几乎每个模型都会这么吹。
00:02:08所以我们的团队必须亲自测试来验证,接下来就展示我们的发现。
00:02:12但在深入了解它的独特能力之前,先来看一段赞助商广告。
00:02:16Opera Neon。这是 Opera 推出的首款智能体浏览器,
00:02:19专为准备体验未来科技的高级用户设计。
00:02:23Neon 使用“任务”功能取代了混乱的标签页,将其转化为专注的工作区,
00:02:27AI 可以在同一背景下跨多个标签页进行分析和操作。
00:02:32假设你在工作中需要一个实用的小工具。
00:02:34不需要打开 IDE,直接使用 Neon Make 即可。
00:02:37输入像 “制作一个赛博朋克风的番茄钟” 这样的提示词,
00:02:40浏览器就会启动一个虚拟机来生成计划、
00:02:43编写代码并立即部署应用。
00:02:45这极大地节省了日常工作流的时间,让你能够通过 Neon Do 快速原型化方案
00:02:50或自动化研究任务,而无需打断你的心流。
00:02:53它就像是一个直接集成在界面中的初级开发人员。
00:02:56我肯定会用这些 Neon 卡片来自动化我的提示词任务。
00:02:59你今天就可以订阅 Opera Neon。不要只是旁观智能体时代的转型。
00:03:03去亲身体验吧。链接就在描述栏中。
00:03:05Kimi 模型能够指挥一个智能体集群,协调它们之间的任务。
00:03:10你可能会觉得 Claude 也能做到,可以根据任务需求生成多个子智能体。
00:03:15但这就是 Kimi 的不同之处。
00:03:17Kimi 2.5 作为一个模型,已经学会了通过并行智能体强化学习,
00:03:23在 1500 个协调步骤中执行并行工作流,自主指导多达 100 个子智能体。
00:03:29科普一下,强化学习是一个模型表现好就奖励、
00:03:33偏离目标就惩罚的过程。
00:03:36大多数模型仅根据任务完成的结果获得奖励。
00:03:39但在 Kimi 的案例中,模型还会根据它并行化步骤的能力
00:03:43以及作为调度员的表现获得奖励。
00:03:44简单来说,Kimi 模型是专门被训练来当“调度员”的。
00:03:48它的成功标准在于创建子智能体和分配任务的能力。
00:03:53这个调度员内置了创建子智能体、分配任务和其他相关功能所需的工具。
00:03:58它为各种任务创建子智能体,分配任务,
00:04:02接收反馈,然后将所有内容协调成最终结果。
00:04:06据官方称,他们使用这种集群方法来提升复杂任务的性能。
00:04:11在内部评估中,这种方法减少了 80% 的端到端运行时间。
00:04:16这意味着他们能够执行更复杂、耗时更长的长周期任务。
00:04:20他们将其与处理长程任务表现最好的模型进行了对比,
00:04:23即 Opus 4.5 和没有集群辅助的 Kimi 2.5,
00:04:26结果发现 Kimi 2.5 智能体集群在各项基准测试中均超越了所有模型。
00:04:32通过使用多智能体而非单智能体,他们节省了大量时间。
00:04:36以上这些都是基于官方宣称的说法。
00:04:39为了测试这些主张,我们安装了 KimiCode CLI,
00:04:42这是随该模型一同发布的新型编程智能体。
00:04:45我们已经构建了一个 UI,并希望将其迁移到不同的组件结构中。
00:04:49该 UI 原本是用 ShadCN 构建的,我们想用 Material UI 重构它。
00:04:53这个项目包含多个页面,
00:04:55所以我们要求 Kimi 将整个项目的 UI 从 ShadCN 更改为 Material UI,
00:05:00并让它使用智能体来处理每个页面,
00:05:02以便这种迁移能够并行完成,速度更快。
00:05:05它开始探索目录,方式与 Claude Code 类似。
00:05:08它创建了一个待办事项列表,包含了所有需要转换为 Material UI 的页面。
00:05:13它将类似的页面归类,
00:05:15例如注册、登录和忘记密码等认证页面,以便更高效地处理。
00:05:20然而,它生成的智能体数量超出了我们的预期,
00:05:23我们后来发现这是 CLI 中的一个漏洞。
00:05:26它实际使用了五个智能体来执行任务,
00:05:28对于一个新产品来说,这在预料之中。
00:05:30完成任务大约花了 15 分钟,
00:05:32我们原本以为使用并行智能体能缩短这个时间。
00:05:35最后,它通过验证和清理工作完成了任务。
00:05:38迁移后有些组件不再被使用,
00:05:41它也顺便清理了这些冗余。
00:05:43它确保了所有依赖项都被安装和更新,
00:05:45包括测试文件,并验证了其余部分。
00:05:48完成后,它确保删除了 ShadCN 所需的所有依赖项,
00:05:53使项目中没有残留任何无用依赖,
00:05:55而大多数智能体往往会忽略这一点,导致项目变得臃肿。
00:05:59它对 UI 进行了微调。
00:06:01例如,主视觉区域原本是文本和视觉元素并排排列,
00:06:05但它把它们改成了垂直堆叠。
00:06:07除此之外,其他一切看起来几乎一模一样,
00:06:10只是更换了组件。
00:06:12尽管这是一个大工程,但它只占用了 25% 的上下文窗口,
00:06:16这意味着它可以在长程运行的智能体中有效运作。
00:06:19所以,智能体集群确实有效,但不一定总能提升速度,
00:06:22在大型代码库上反而可能需要更长时间。
00:06:24你可能注意到了,我们在这些视频中构建了很多东西。
00:06:27所有的提示词、代码、模板,
00:06:29那些你通常需要暂停屏幕并手动复制的内容。
00:06:32它们都在我们的社区里,包括这期和以往的所有视频。
00:06:35链接在描述栏里。
00:06:37Kimi 2.5 的核心卖点是它的视觉智能体能力。
00:06:41官方称它在前端能力方面表现尤为强劲。
00:06:44它能交互并实现各种交互式布局和丰富的动画,
00:06:48比如文本滚动效果。
00:06:50他们提供了多个动画案例,效果都非常出色。
00:06:53这就是它真正脱颖而出的地方。
00:06:55Kimi 2.5 擅长视觉编程,超越了单纯的文本和图像提示词。
00:07:00它甚至可以接受视频作为输入并生成代码,
00:07:03是首批具备此能力的模型之一。
00:07:06这让解释代码流程变得容易得多。
00:07:08这种多模态能力并非在训练后再添加的。
00:07:12而是在模型训练过程中就集成进去了。
00:07:14大多数模型都是在文本能力足够强之后,
00:07:16才整合额外功能的,
00:07:19这往往会导致视觉和文本能力之间的权衡取舍。
00:07:23但通过 Kimi 2.5 的训练方法,
00:07:25这种权衡消失了,两项能力得以同步提升。
00:07:29现在,我们需要亲自测试一下。
00:07:30我们录屏演示了在 Notion 新页面界面中导航并使用斜杠命令的过程。
00:07:35我们把视频录得很小,因为文档提到视频大小限制在 40MB 以内。
00:07:40我们提供了 Notion 录屏的路径,并要求它克隆视频中展示的网站。
00:07:45我们在提示词中并未说明录屏的具体内容,
00:07:48于是它调用了媒体文件读取工具来分析视频。
00:07:52它推断出这是一个类似 Notion 的界面,识别了所有功能,
00:07:56并确定这是一个带有 macOS 风格窗口的 Notion 克隆版。
00:07:59列出文件内容后,它就开始着手实现了。
00:08:02如果你在自己的项目中使用视频处理,请记住这一点。
00:08:06视频和图像会迅速耗尽上下文窗口,
00:08:09所以要小心处理大文件,防止上下文臃肿。
00:08:12它复刻的界面非常准确。
00:08:15UI 是可编辑的,包括页面图标和来自 Notion 的各种功能,
00:08:18虽然起初有些功能并不完全可用。
00:08:21斜杠命令当时还不能用,但整体 UI 还原度很高。
00:08:25如果斜杠命令能直接实现就更好了,因为那是核心工作流的一部分。
00:08:29但这只是个小问题,可以通过迭代来修复。
00:08:32于是我们又发了一个提示词,要求它修复实现中的这些问题。
00:08:37从那时起,它开始自我迭代:修复 Bug、检查结果,
00:08:41并确保功能运行正确,期间无需我们再发额外提示。
00:08:46这种迭代最终修复了斜杠命令的问题,
00:08:49让整个界面感觉像是一个功能完备的 Notion 克隆版。
00:08:52所以,它确实兑现了官方宣传的那些承诺。
00:08:54在解决了一些小问题后,我们认为它可能是 Claude Code 的一个更便宜的替代方案,
00:08:58毕竟 Claude 的套餐是出了名的贵,而 Kimi 的价格更亲民。
00:09:03本期视频到这里就结束了。
00:09:05如果你想支持本频道,帮助我们制作更多此类视频,
00:09:08可以通过加入 AI Labs Pro 来实现。
00:09:10一如既往,感谢观看,我们下期再见。