Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

BBetter Stack
컴퓨터/소프트웨어마케팅/광고창업/스타트업AI/미래기술

Transcript

00:00:00等等,我刚注意到。
00:00:01这份报告是基于截至 2025 年 1 月的公开信息。
00:00:06噢不,2025 年,不,这不符合我的要求。
00:00:15月之暗面(Moonshot AI)发布了他们最新的 AI 模型 Kimi k 2.5,
00:00:22这周它在网上简直火爆了。
00:00:24有些人甚至说这可能是他们目前最喜欢的模型。
00:00:29所以我自然得测试一下,看看它到底有什么特别之处,
00:00:34看看它到底是真有真本事,还是又一个靠花哨营销炒作出来的模型。
00:00:39这就是我们今天要找出的答案。
00:00:42这会很有趣,让我们开始吧。
00:00:49Kimi k 2.5 是由一家名为月之暗面的中国公司
00:00:55开发的最新开源模型。
00:00:56就在六个月前,Richard 已经详细介绍过 K2 了,而今天我们来看看
00:01:01K2.5 有哪些新变化。
00:01:05那么,这个模型到底有什么了不起的?
00:01:06它与现在几乎每天都在推出的成千上万个新模型有什么不同?
00:01:12主要有两点。
00:01:13首先,它自称在视觉和编程方面非常出色。
00:01:17它甚至给自己贴上了“开源 SOTA”的标签。
00:01:21SOTA。
00:01:22你知道这意味着什么吗?
00:01:24其实我自己也得查一下才知道它是什么意思,我之前真不知道。
00:01:27噢好吧,它的意思是“州内领先”或“世界领先”,也就是最尖端的技术。
00:01:30好吧,今天又长见识了。
00:01:32总之,它在智能体基准测试以及视觉和编程方面都是顶尖水平。
00:01:37其次,这个模型最突出的地方在于它有一个名为
00:01:42“智能体集群”(Agent Swarm)的新功能。
00:01:44它能够同时启动多达 100 个子智能体和 1500 个工具调用,
00:01:51并并发运行,从而使性能提升了 4.5 倍。
00:01:55对于这个模型,他们使用了一种名为“并行智能体强化学习”
00:02:00或 PARL 的新训练方法。
00:02:01这意味着模型可以通过创建一个可训练的编排智能体来引导整个智能体集群,
00:02:06这个智能体基本上是全场的调度员,将任务分解为可并行的子任务,
00:02:12并盯着所有这些智能体,以确保整个操作
00:02:18不会陷入这类多智能体工作流中常见的串行崩溃。
00:02:23他们解决这个问题的方法是在每个子智能体的各个关键步骤阶段给予奖励,
00:02:28这套完整的系统让 k 2.5 实现了显著的性能提升。
00:02:34所以我们肯定要测试一下。
00:02:35现在,我不想过多深入探讨各种不同的基准测试,
00:02:40因为说实话,现在我看到的每个视频都在吹捧这些数字,
00:02:44老实说,我觉得我们甚至不能再相信这些数字了。
00:02:47他们甚至连基准测试的图表都对不齐,拜托。
00:02:51所以我打算把重点放在他们声称这个模型擅长的
00:02:55两件事上。
00:02:56即视觉与编程,以及新的智能体集群功能。
00:03:00那我们就来测试一下吧。
00:03:02他们还提供了自己的命令行工具,叫 Kimi CLI。
00:03:06所以我今天就用这个工具来进行测试。
00:03:09他们宣称最令人印象深刻的功能之一,是能够根据某个网站
00:03:13UX(用户体验)的录像,并用代码复刻出来。
00:03:19这听起来相当厉害。
00:03:20为了测试,我录制了一段苹果 iPad Air 产品页面的视频,包含了所有那些
00:03:25华丽的动画和过渡效果。
00:03:28我创建了一个文件夹,里面只放了这个录像文件。
00:03:32现在我要提示 k 2.5 根据这个视频
00:03:38制作一个 iPad Air 的宣传网站。
00:03:39在执行 Shell 命令之前,它会询问是否允许,所以这次我会
00:03:44允许它在本次会话中运行。
00:03:46现在它开始运行了。
00:03:48这很有意思。
00:03:49它检测到文件太大,
00:03:51于是它自动使用 FFmpeg 对其进行了压缩。
00:03:56我非常好奇这个模型是如何处理并理解视频文件的。
00:04:01结果发现,它获取视频文件后,再次
00:04:06使用 FFmpeg 提取视频的关键帧,作为构建网站的视觉辅助。
00:04:11模型大约花了五分半钟才完成任务。
00:04:15所以它肯定不是市面上最快的模型。
00:04:18提醒一下,我使用的是他们自己的 API 调用,而不是本地版本。
00:04:23但不管怎样,完成后,我们可以看到它给出了
00:04:28一份详细的操作概述。
00:04:29现在让我们看看网站本身。
00:04:30噢,哇。
00:04:31看这里。
00:04:32它完全拿捏了苹果的设计美学,甚至在中间
00:04:38创建了这个 3D 悬浮的 iPad。
00:04:39而且它似乎还会根据鼠标移动做出反应。
00:04:42这太酷了。
00:04:43然后是这个带有不同窗口的轮播部分,但遗憾的是
00:04:48点击那些小圆点时没有反应,但看起来还是很优雅。
00:04:52接着是另一个带有动画的部分。
00:04:55噢,这里实际上有一个可以导航切换不同设计的轮播图。
00:05:00非常酷。
00:05:01然后还有几个部分,感觉都非常有苹果的风格。
00:05:06老实说,这真的很不错。
00:05:07仅仅通过一段参考视频和简短的提示词,就能生成这样一个带有动画且漂亮的网站,
00:05:12确实很厉害。
00:05:16好。
00:05:17但苹果是个知名品牌。
00:05:18我敢肯定,这种设计风格绝对是模型训练数据的一部分。
00:05:23所以这对模型来说可能是一个简单的任务。
00:05:26现在让我们试一些更有趣、甚至有点古怪的东西。
00:05:29我创建了另一个文件夹,里面只有一张《辛普森一家》里伯恩斯先生的照片。
00:05:34让我们看看 Kimi k 2.5 的创意有多强。
00:05:37我加了这段提示词:伯恩斯先生正在竞选总统。
00:05:40我希望你为伯恩斯先生创建一个总统竞选网站,根据这个角色的
00:05:45性格特点和动机,包含他的政策和政治纲领。
00:05:49看看效果如何。
00:05:51一旦它开始推理过程,我们就能看到它是如何思考设计的。
00:05:55素材很清晰。
00:05:56蒙哥马利·伯恩斯穿着他标志性的深绿色西装,系着桃红色领带。
00:06:01这是竞选美学的关键视觉参考。
00:06:05挺酷的。
00:06:06这个部分实际上花了更长的时间才完成。
00:06:08总共大约花了六分钟。
00:06:11现在完成了,同样,我们看到了生成内容的详细概述,可以看到
00:06:16它添加了愿景部分、政策部分、宣传材料等等。
00:06:22看这里。
00:06:23它甚至为了好玩添加了一个隐藏的彩蛋。
00:06:26这简直太酷了。
00:06:27现在让我们看看网站长什么样。
00:06:29哇。
00:06:30看这个。
00:06:31“卓越的治理”。
00:06:33“为了我,让这个国家再次伟大”。
00:06:36噢,那边还有一个核能按钮。
00:06:40我点一下会发生什么?
00:06:41“史密瑟斯,给我杯咖啡”。
00:06:43很有意思。
00:06:44甚至还有一个详细的关于页面。
00:06:46然后是“繁荣”部分。
00:06:49动画效果非常流畅。
00:06:50哇。
00:06:51看来 Kimi k 2.5 真的很懂怎么设计抢眼的图形。
00:06:55比起我们在其他模型上看到的那些千篇一律的紫色“垃圾设计”,
00:07:01这显然要好得多。
00:07:02看这里。
00:07:04“精英政策”。
00:07:05天呐。
00:07:06这里有很多很棒的冷笑话。
00:07:08太赞了。
00:07:10“医疗券仅限在伯恩斯医疗中心兑换”。
00:07:14“器官移植等待名单按净资产排序”。
00:07:18“用黄金建造的边境墙”。
00:07:21人们都在说什么?
00:07:22好,这里有一些《辛普森一家》角色的语录,还有联系表单和竞选捐款
00:07:29页面。
00:07:30它甚至加了一个周边商店。
00:07:31好吧,那个部分显示“即将推出”。
00:07:33是的,因为这是一个静态 HTML 页面。
00:07:35好。
00:07:36现在我想触发那个彩蛋。
00:07:38该怎么做呢?
00:07:39它提示说我必须输入柯纳米指令(Konami code)。
00:07:43柯纳米指令是什么?
00:07:45噢,好的。
00:07:46柯纳米指令是一个著名的电子游戏作弊码。
00:07:49哇。
00:07:50我之前都不知道这个。
00:07:51今天再次长见识了。
00:07:52所以是上上下下左右左右 AB。噢,好的。
00:07:58成功了。
00:07:59页面上出现了一个巨大的“哈哈哈”文本,口号也变成了“Excellent”。
00:08:06这非常可爱。
00:08:07老实说,这里面有很多有趣的细节,我会把这个首页的链接
00:08:10留在说明栏中,这样你们稍后可以自己去看看。
00:08:14《辛普森一家》的粉丝可能会非常喜欢这个。
00:08:17说实话,这真的让人印象深刻。
00:08:19我没想过它仅凭一张照片和简短的文字提示就能创建一个这么有趣的网站。
00:08:24好。
00:08:25但现在我想试试大家一直在夸的智能体集群功能。
00:08:29看看他们自己的例子,这个集群功能似乎非常适合
00:08:33收集特定主题的研究资料,或者任何需要
00:08:39多线程处理的任务。
00:08:40但为了全方位测试这个功能,最好使用 Kimi 的官方页面
00:08:46在他们的聊天机器人里运行,因为他们还添加了一系列酷炫的视觉元素
00:08:50和动画,让集群处理的过程看起来非常酷。
00:08:54你马上就能看到了。
00:08:56在这次测试中,我打算让智能体集群尽可能多地收集关于
00:09:00不同模型的信息,比如哪些模型用得最多,并要求 k 2.5 汇总
00:09:06所有这些信息,整理成一份格式精美的 PDF 文档。
00:09:10另外,如果你确实想让模型使用集群功能,最好明确要求它这么做,
00:09:16因为在我之前的一次测试中,我布置了一个任务,但 k 2.5 自己判定
00:09:23不需要动用集群,还退还了我一些 Token 额度。
00:09:27所以如果你真的想激活集群,一定要告诉它。
00:09:31好。
00:09:32那我们开始任务吧。
00:09:33任务一启动,我们就能在 Kimi 的机器人界面看到这些酷炫的动画。
00:09:39这确实是我注意到月之暗面非常擅长的一点。
00:09:43他们真的非常擅长打造俏皮、游戏化的用户体验,这让
00:09:49使用其工具的整个过程变得更有趣。
00:09:52同样,在模型分配智能体时,Kimi 也会显得很俏皮。
00:09:57它甚至给每个智能体都发了 ID 工牌。
00:09:58我们还可以实时跟踪它们的任务完成状态。
00:10:01随着智能体完成任务,我们也可以在主窗口
00:10:05关注它们的进度。
00:10:10我们可以看到它们访问的网页和正在编写的代码。
00:10:11在这期间,你甚至可以打赌哪个智能体
00:10:15会最快完成任务。
00:10:20当智能体完成任务后,你可以看到它的头像上方弹出一个小气泡。
00:10:21大约十分半钟后,我的集群完成了指定的任务,
00:10:26我们得到了这份 PDF 文档作为结果。
00:10:31这里似乎有一段文字,但我好像看不清。
00:10:33好吧,我得把它复制粘贴到别处才能看明白。
00:10:39好,上面写着“编程模型对比分析”。
00:10:43好吧。
00:10:46一开始这个设计选择就很糟糕。
00:10:47但行吧,先别急着下结论。
00:10:50让我们看看报告的其他部分。
00:10:53好,这里有一个执行摘要。
00:10:55主要发现。
00:10:5881% 的开发者使用或计划使用 AI。
00:10:5959% 的开发者并列运行三个 AI 工具。
00:11:03好,有点意思。
00:11:06我们在这里看到 Claude Code Opus 4.5 占据了榜首。
00:11:08然后我们在这里看到市场趋势。
00:11:1346% 的开发者对 AI 生成的内容持不信任态度。
00:11:16哇,这挺让人惊讶的。
00:11:20GitHub Copilot 是市场领导者,占有 42% 的市场份额。
00:11:22哇。
00:11:26Llama 4 Scout 似乎拥有最大的上下文窗口,达到 1000 万个 Token。
00:11:27这非常令人印象深刻。
00:11:31好,重点来了。
00:11:32核心要点。
00:11:33看看这里。
00:11:34没有唯一的赢家。
00:11:35噢,拜托。
00:11:36真没劲。
00:11:3745% 的 AI 生成代码存在漏洞。
00:11:39是的,这确实是个值得担心的问题。
00:11:41等等,我刚注意到这份报告是基于截至 2025 年
00:11:431 月的公开信息。
00:11:46噢,不。
00:11:52噢,不。
00:11:542025 年。
00:11:56不,这不符合我的要求。
00:11:57我特别要求它提供当前最常用模型的信息。
00:11:59你为什么不用 2026 年 1 月的数据?
00:12:02你是对的。
00:12:09我本该调研 2025 年和 2026 年 1 月的数据。
00:12:14典型的大模型(LLM)行为。
00:12:15Kimi,我对你非常失望。
00:12:21我为了这些过时的信息浪费了一堆 Token 和 10 分钟的时间。
00:12:23唉,算了。
00:12:25总之就是这样。
00:12:30这就是 Kimi k 2.5。
00:12:31尽管我对它在上一次测试中听不懂指令感到非常失望,
00:12:32但我仍然觉得它是个相当不错的模型。
00:12:35我不会说它是革命性的或顶尖的(SOTA),但它确实有其优点。
00:12:40如果你想做一个真正漂亮的网站,就是那种
00:12:42可以拿去参加 awwwards 颁奖的网站,
00:12:47那么比起 Claude Code 模型,我会更推荐使用 k 2.5。
00:12:51而且说实话,集群功能看起来非常酷,用起来也很有趣。
00:12:55但你知道吗,使用 Claude Code 也能实现相同的功能?
00:13:01Richard 最近刚拍了一个视频探讨这个话题,所以一定要记得去看看。
00:13:06各位,如果你觉得这个视频有用或者至少挺有趣的,
00:13:07请在视频下方狠狠地按个赞告诉我。
00:13:10也请一定要订阅我们的频道,这样你就不会错过
00:13:14我们未来的技术分析视频。
00:13:15我是来自 Better Stack 的 Andris,我们下个视频再见。
00:13:19smashing that like button underneath the video.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

Kimi k2.5 凭借卓越的视觉编程能力和创新的智能体集群技术,在国产开源模型中展现出强劲竞争力,但在处理实时指令的精准度上仍有提升空间。

Highlights

月之暗面发布最新 AI 模型 Kimi k2.5,主打视觉、编程及“智能体集群”功能

该模型被标签为“开源 SOTA”,在智能体基准测试中表现顶尖水平

创新的 PARL 训练方法通过奖励机制解决了多智能体工作流中的串行崩溃问题

视觉编程能力出色,仅凭视频录像或单张照片即可复刻出高水平的动态网页

智能体集群功能支持同时启动 100 个子智能体和 1500 个工具调用,性能提升 4.5 倍

用户体验设计具有游戏化风格,提供实时进度追踪和有趣的互动反馈

实测中暴露了信息时效性问题,模型未能按照要求调取 2026 年的最新数据

Timeline

Kimi k2.5 模型发布与核心优势概览

视频开篇介绍了月之暗面(Moonshot AI)发布的最新开源模型 Kimi k2.5。主讲人 Andris 提到该模型在社交媒体上引发了巨大轰动,并决定对其“开源 SOTA”的标签进行实测。模型的核心优势集中在视觉理解和编程能力,并在智能体基准测试中名列前茅。通过对比六个月前的 K2 版本,本节重点强调了 K2.5 在技术尖端性上的定位。 Andris 解释了 SOTA 意味着世界领先的技术水平,为后续的深度测试奠定了基础。

智能体集群与 PARL 训练技术解析

本段深入探讨了 Kimi k2.5 最具突破性的“智能体集群”(Agent Swarm)功能。该功能允许模型并发运行多达 100 个子智能体,通过多线程处理使任务效率提升了 4.5 倍。技术层面上,月之暗面采用了名为“并行智能体强化学习”(PARL)的新训练方法。这种方法通过一个编排智能体来调度全局任务,有效避免了多智能体协作中常见的系统性崩溃。主讲人指出,这种在关键步骤阶段给予奖励的系统是 k2.5 性能飞跃的关键所在。

视觉编程实测:复刻苹果 iPad 宣传网页

Andris 使用官方命令行工具 Kimi CLI 测试了该模型复刻用户体验(UX)录像的能力。他提供了一段苹果 iPad Air 的产品宣传视频,要求模型根据视频内容生成一个包含动画和过渡效果的网站。在五分半钟的处理过程中,模型自动使用 FFmpeg 进行压缩和关键帧提取,展现了极高的自动化水平。最终生成的网站不仅完美拿捏了苹果的设计美学,甚至包含了一个可随鼠标移动的 3D 悬浮 iPad。这一实测结果证明了 k2.5 在处理复杂前端代码和视觉转化方面的强大实力。

创意设计测试:伯恩斯先生竞选网站与彩蛋

为了测试模型的创意极限,主讲人仅凭一张《辛普森一家》角色伯恩斯先生的照片,要求模型为其创建总统竞选网站。模型精准地识别了角色的视觉特征和性格动机,生成了充满讽刺幽默和政治梗的动态网页。报告中提到的“精英政策”和“黄金边境墙”等细节展示了模型对流行文化背景的理解。最令人惊喜的是,模型在代码中埋藏了一个“柯纳米指令”彩蛋,通过输入特定按键可触发彩蛋动画。这一环节凸显了 Kimi k2.5 在逻辑生成之外,还具备优秀的审美和互动设计能力。

智能体集群实战演练与用户界面体验

此章节重点展示了 Kimi 官方页面中游戏化的智能体协作界面。主讲人布置了一项搜集最新 AI 模型市场趋势并生成 PDF 报告的任务,并明确指令激活集群功能。用户可以看到每个子智能体都有专属的 ID 工牌,并能实时观测它们访问网页、编写代码的进度。月之暗面在 UX 设计上表现卓越,将原本枯燥的数据处理过程变得像游戏般有趣且透明。这种可视化反馈极大地提升了用户对复杂多任务处理过程的感知度和信任感。

结果分析:时效性缺失与最终总结

在任务完成后,虽然生成的 PDF 报告格式精美且包含图表,但却暴露出严重的实时性缺陷。模型未能获取 2026 年的最新数据,而是提供了 2025 年的过时信息,导致主讲人对此表示极度失望并称其为典型的 LLM 幻觉行为。尽管如此,Andris 在总结中仍肯定了 k2.5 在网页设计和视觉创意上的优势,认为其在美学表现上优于 Claude 等模型。他建议用户在追求高品质视觉输出时使用 Kimi,但也提醒大家注意其在处理特定时效性指令时的不稳定性。视频最后鼓励观众订阅频道以获取更多前沿的技术拆解。

Community Posts

View all posts