闻所未闻:这绝对是我见过最震撼的 AI 突破

AAI LABS
Computing/SoftwareSmall Business/StartupsManagementInternet Technology

Transcript

00:00:00你真的能训练出一个更擅长管理的模型吗?
00:00:02月之暗面(Moonshot)最近发布了 Kimi 2.5,并称其为迄今为止最强大的开源模型。
00:00:08这种说法其实有误,因为它只是开放权重,而非真正的开源。
00:00:11这两者之间有区别,但这不是我们今天要讨论的重点。
00:00:13Kimi 2.5 提出了两个非常值得测试的主张。
00:00:17首先,它声称自己从底层开始就专门针对调度智能体集群进行了训练,
00:00:21支持多达 100 个子智能体并行运行。
00:00:23其强化学习设置不仅奖励正确答案,
00:00:27还会根据模型在不同智能体之间分配任务的效率给予奖励。
00:00:30其次,它声称具备视觉智能体能力,
00:00:33并表示只需一个提示词就能生成极高水平的动画。
00:00:37以前都是用户吹嘘能“一键生成”,现在连开发者自己都这么说了。
00:00:42所以,我们让团队成员对这两项功能进行了实测。
00:00:44测试发现,有些地方确实名副其实,有些则略逊一筹。
00:00:48正如我提到的,Kimi 2.5 宣称自己是一个开源模型。
00:00:51但实际上,Kimi 2.5 并不符合开源的定义。
00:00:54根据开放源代码促进会(OSI)的定义,
00:00:57开源模型意味着代码、训练数据和方法论都应该公开,
00:01:02允许任何人进行检查、修改和分发。
00:01:05但对于这个模型,它只是一个“开放权重”模型。
00:01:07开放权重模型仅提供最终的权重数据,
00:01:10这意味着训练代码和训练数据集都没有公开发布。
00:01:14它只包含发布的权重,以便其他人可以在自己的项目中微调、适配或部署该模型。
00:01:20该模型的架构与 DeepSeek 的混合专家(MoE)架构非常相似。
00:01:25它包含 1 万亿个参数,但每次仅激活 320 亿个参数。
00:01:30这是否意味着我们没有充分发挥模型的性能?
00:01:33它的准确度能达到 1 万亿参数模型的水平,
00:01:36但处理能力和成本却要低得多。
00:01:39总参数量与激活参数量之间的这种差异,
00:01:43是该模型自称是目前最快的开放权重模型之一的关键原因。
00:01:47激活参数较少意味着每次查询调用的资源更少,
00:01:52这显著提升了模型的运行速度。
00:01:54这也是它比其他模型便宜得多的核心原因。
00:01:57官方称这是一个原生的多模态模型,并提供了顶级的编程和视觉能力。
00:02:03不过,这种“业界领先”、“更胜一筹”的说法,几乎每个模型都会这么吹。
00:02:08所以我们的团队必须亲自测试来验证,接下来就展示我们的发现。
00:02:12但在深入了解它的独特能力之前,先来看一段赞助商广告。
00:02:16Opera Neon。这是 Opera 推出的首款智能体浏览器,
00:02:19专为准备体验未来科技的高级用户设计。
00:02:23Neon 使用“任务”功能取代了混乱的标签页,将其转化为专注的工作区,
00:02:27AI 可以在同一背景下跨多个标签页进行分析和操作。
00:02:32假设你在工作中需要一个实用的小工具。
00:02:34不需要打开 IDE,直接使用 Neon Make 即可。
00:02:37输入像 “制作一个赛博朋克风的番茄钟” 这样的提示词,
00:02:40浏览器就会启动一个虚拟机来生成计划、
00:02:43编写代码并立即部署应用。
00:02:45这极大地节省了日常工作流的时间,让你能够通过 Neon Do 快速原型化方案
00:02:50或自动化研究任务,而无需打断你的心流。
00:02:53它就像是一个直接集成在界面中的初级开发人员。
00:02:56我肯定会用这些 Neon 卡片来自动化我的提示词任务。
00:02:59你今天就可以订阅 Opera Neon。不要只是旁观智能体时代的转型。
00:03:03去亲身体验吧。链接就在描述栏中。
00:03:05Kimi 模型能够指挥一个智能体集群,协调它们之间的任务。
00:03:10你可能会觉得 Claude 也能做到,可以根据任务需求生成多个子智能体。
00:03:15但这就是 Kimi 的不同之处。
00:03:17Kimi 2.5 作为一个模型,已经学会了通过并行智能体强化学习,
00:03:23在 1500 个协调步骤中执行并行工作流,自主指导多达 100 个子智能体。
00:03:29科普一下,强化学习是一个模型表现好就奖励、
00:03:33偏离目标就惩罚的过程。
00:03:36大多数模型仅根据任务完成的结果获得奖励。
00:03:39但在 Kimi 的案例中,模型还会根据它并行化步骤的能力
00:03:43以及作为调度员的表现获得奖励。
00:03:44简单来说,Kimi 模型是专门被训练来当“调度员”的。
00:03:48它的成功标准在于创建子智能体和分配任务的能力。
00:03:53这个调度员内置了创建子智能体、分配任务和其他相关功能所需的工具。
00:03:58它为各种任务创建子智能体,分配任务,
00:04:02接收反馈,然后将所有内容协调成最终结果。
00:04:06据官方称,他们使用这种集群方法来提升复杂任务的性能。
00:04:11在内部评估中,这种方法减少了 80% 的端到端运行时间。
00:04:16这意味着他们能够执行更复杂、耗时更长的长周期任务。
00:04:20他们将其与处理长程任务表现最好的模型进行了对比,
00:04:23即 Opus 4.5 和没有集群辅助的 Kimi 2.5,
00:04:26结果发现 Kimi 2.5 智能体集群在各项基准测试中均超越了所有模型。
00:04:32通过使用多智能体而非单智能体,他们节省了大量时间。
00:04:36以上这些都是基于官方宣称的说法。
00:04:39为了测试这些主张,我们安装了 KimiCode CLI,
00:04:42这是随该模型一同发布的新型编程智能体。
00:04:45我们已经构建了一个 UI,并希望将其迁移到不同的组件结构中。
00:04:49该 UI 原本是用 ShadCN 构建的,我们想用 Material UI 重构它。
00:04:53这个项目包含多个页面,
00:04:55所以我们要求 Kimi 将整个项目的 UI 从 ShadCN 更改为 Material UI,
00:05:00并让它使用智能体来处理每个页面,
00:05:02以便这种迁移能够并行完成,速度更快。
00:05:05它开始探索目录,方式与 Claude Code 类似。
00:05:08它创建了一个待办事项列表,包含了所有需要转换为 Material UI 的页面。
00:05:13它将类似的页面归类,
00:05:15例如注册、登录和忘记密码等认证页面,以便更高效地处理。
00:05:20然而,它生成的智能体数量超出了我们的预期,
00:05:23我们后来发现这是 CLI 中的一个漏洞。
00:05:26它实际使用了五个智能体来执行任务,
00:05:28对于一个新产品来说,这在预料之中。
00:05:30完成任务大约花了 15 分钟,
00:05:32我们原本以为使用并行智能体能缩短这个时间。
00:05:35最后,它通过验证和清理工作完成了任务。
00:05:38迁移后有些组件不再被使用,
00:05:41它也顺便清理了这些冗余。
00:05:43它确保了所有依赖项都被安装和更新,
00:05:45包括测试文件,并验证了其余部分。
00:05:48完成后,它确保删除了 ShadCN 所需的所有依赖项,
00:05:53使项目中没有残留任何无用依赖,
00:05:55而大多数智能体往往会忽略这一点,导致项目变得臃肿。
00:05:59它对 UI 进行了微调。
00:06:01例如,主视觉区域原本是文本和视觉元素并排排列,
00:06:05但它把它们改成了垂直堆叠。
00:06:07除此之外,其他一切看起来几乎一模一样,
00:06:10只是更换了组件。
00:06:12尽管这是一个大工程,但它只占用了 25% 的上下文窗口,
00:06:16这意味着它可以在长程运行的智能体中有效运作。
00:06:19所以,智能体集群确实有效,但不一定总能提升速度,
00:06:22在大型代码库上反而可能需要更长时间。
00:06:24你可能注意到了,我们在这些视频中构建了很多东西。
00:06:27所有的提示词、代码、模板,
00:06:29那些你通常需要暂停屏幕并手动复制的内容。
00:06:32它们都在我们的社区里,包括这期和以往的所有视频。
00:06:35链接在描述栏里。
00:06:37Kimi 2.5 的核心卖点是它的视觉智能体能力。
00:06:41官方称它在前端能力方面表现尤为强劲。
00:06:44它能交互并实现各种交互式布局和丰富的动画,
00:06:48比如文本滚动效果。
00:06:50他们提供了多个动画案例,效果都非常出色。
00:06:53这就是它真正脱颖而出的地方。
00:06:55Kimi 2.5 擅长视觉编程,超越了单纯的文本和图像提示词。
00:07:00它甚至可以接受视频作为输入并生成代码,
00:07:03是首批具备此能力的模型之一。
00:07:06这让解释代码流程变得容易得多。
00:07:08这种多模态能力并非在训练后再添加的。
00:07:12而是在模型训练过程中就集成进去了。
00:07:14大多数模型都是在文本能力足够强之后,
00:07:16才整合额外功能的,
00:07:19这往往会导致视觉和文本能力之间的权衡取舍。
00:07:23但通过 Kimi 2.5 的训练方法,
00:07:25这种权衡消失了,两项能力得以同步提升。
00:07:29现在,我们需要亲自测试一下。
00:07:30我们录屏演示了在 Notion 新页面界面中导航并使用斜杠命令的过程。
00:07:35我们把视频录得很小,因为文档提到视频大小限制在 40MB 以内。
00:07:40我们提供了 Notion 录屏的路径,并要求它克隆视频中展示的网站。
00:07:45我们在提示词中并未说明录屏的具体内容,
00:07:48于是它调用了媒体文件读取工具来分析视频。
00:07:52它推断出这是一个类似 Notion 的界面,识别了所有功能,
00:07:56并确定这是一个带有 macOS 风格窗口的 Notion 克隆版。
00:07:59列出文件内容后,它就开始着手实现了。
00:08:02如果你在自己的项目中使用视频处理,请记住这一点。
00:08:06视频和图像会迅速耗尽上下文窗口,
00:08:09所以要小心处理大文件,防止上下文臃肿。
00:08:12它复刻的界面非常准确。
00:08:15UI 是可编辑的,包括页面图标和来自 Notion 的各种功能,
00:08:18虽然起初有些功能并不完全可用。
00:08:21斜杠命令当时还不能用,但整体 UI 还原度很高。
00:08:25如果斜杠命令能直接实现就更好了,因为那是核心工作流的一部分。
00:08:29但这只是个小问题,可以通过迭代来修复。
00:08:32于是我们又发了一个提示词,要求它修复实现中的这些问题。
00:08:37从那时起,它开始自我迭代:修复 Bug、检查结果,
00:08:41并确保功能运行正确,期间无需我们再发额外提示。
00:08:46这种迭代最终修复了斜杠命令的问题,
00:08:49让整个界面感觉像是一个功能完备的 Notion 克隆版。
00:08:52所以,它确实兑现了官方宣传的那些承诺。
00:08:54在解决了一些小问题后,我们认为它可能是 Claude Code 的一个更便宜的替代方案,
00:08:58毕竟 Claude 的套餐是出了名的贵,而 Kimi 的价格更亲民。
00:09:03本期视频到这里就结束了。
00:09:05如果你想支持本频道,帮助我们制作更多此类视频,
00:09:08可以通过加入 AI Labs Pro 来实现。
00:09:10一如既往,感谢观看,我们下期再见。

Key Takeaway

Kimi 2.5 是一款通过强化学习专门优化了多智能体调度与原生多模态能力的开放权重模型,在复杂任务效率和视觉编程方面实现了重大突破。

Highlights

Kimi 2.5 采用了“开放权重”模式,具备 1 万亿参数的混合专家(MoE)架构,但单次仅激活 320 亿参数。

该模型是全球首个专门针对“调度员”角色训练的 AI,支持多达 100 个子智能体并行协作。

在多智能体集群模式下,Kimi 2.5 能够将复杂长程任务的端到端运行时间缩短 80%。

具备原生多模态视觉能力,支持通过视频输入直接生成代码,特别擅长处理复杂的网页动画和交互布局。

实测显示 KimiCode CLI 在代码迁移和 UI 克隆方面表现出色,具备极高的还原度和自我迭代修复能力。

Kimi 2.5 相比 Claude 等同类模型具有更显著的价格优势,且对上下文窗口的利用效率极高。

Timeline

Kimi 2.5 模型概述与架构解析

视频开篇介绍了月之暗面发布的 Kimi 2.5 模型,并澄清了其“开放权重”而非完全“开源”的性质。该模型采用了类似 DeepSeek 的混合专家架构,总参数量达 1 万亿,但实际运行时仅激活 320 亿参数。这种设计使其在保持高准确度的同时,显著提升了运行速度并降低了成本。官方宣称其具备顶级的编程与视觉能力,挑战了目前市面上的主流模型。这一章节强调了架构优势是 Kimi 2.5 能够成为最快开放权重模型之一的核心原因。

智能体浏览器赞助与功能展示

本段插入了赞助商 Opera Neon 智能体浏览器的介绍,展示了未来办公的新方式。Neon 浏览器通过“任务”功能取代了传统的标签页,为用户提供专注的 AI 协作空间。其内置的 Neon Make 功能允许用户通过简单的提示词直接在浏览器内生成、编写并部署应用。视频展示了快速原型化方案和自动化研究任务的便捷性,强调了 AI 集成对工作心流的保护。这为接下来讨论 Kimi 的多智能体能力提供了关于智能体应用场景的背景补充。

多智能体集群与调度员训练机制

视频详细解释了 Kimi 2.5 的核心竞争力:并行智能体强化学习。不同于仅奖励结果的传统模型,Kimi 在训练中因其出色的任务分配和调度效率而获得额外奖励。它被专门训练成一个“调度员”,能够自主指挥多达 100 个子智能体并行执行长周期任务。内部评估显示,这种方法在复杂任务中比 Opus 4.5 等顶尖模型表现更优,效率提升了 80%。这种集群辅助方式极大地扩展了模型处理超大规模工程的能力。

实测:KimiCode CLI 进行 UI 代码迁移

团队通过 KimiCode CLI 对模型进行了实测,任务是将一个复杂的 UI 项目从 ShadCN 迁移到 Material UI。Kimi 展示了类似于 Claude Code 的目录探索能力,并创建了待办列表对页面进行归类处理。虽然在测试中遇到了一些小的漏洞,但它成功利用并行智能体完成了迁移、测试及多余依赖的清理工作。最终结果显示,Kimi 不仅还原了 UI 风格,还对组件布局进行了合理的微调优化。这次实测证明了即使在大型代码库中,Kimi 也能高效运作且仅占用少量的上下文窗口。

视觉智能体能力与 Notion 界面复刻

最后一部分展示了 Kimi 2.5 令人震撼的视觉多模态能力,它支持直接读取视频并将其转化为功能性代码。测试者通过一段 Notion 的录屏要求 Kimi 克隆网站,模型准确识别了 macOS 风格窗口和所有交互功能。在初步生成的组件中,Kimi 通过自我迭代修复了斜杠命令等功能漏洞,展现了极强的闭环解决问题能力。视频总结认为,Kimi 2.5 凭借其强大的前端动画实现能力和亲民的价格,已成为开发者手中 Claude 的强力替代方案。全片以对 Kimi 2.5 兑现官方承诺的肯定作为结尾,并引导观众加入社区获取相关资源。

Community Posts

View all posts