炒作还是变革者? | 深度解析

MMaximilian Schwarzmüller
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00就在几个小时前,出现了一个相当重大的声明。
00:00:06或者说是一个相当大的噱头。我们目前还不得而知,
00:00:13我绝对不会排除噱头、也就是无意义炒作的可能性。但如果是
00:00:20真的,那确实是个重大消息。因为 Alexander Wedin,我之前不认识他,估计你
00:00:28大概也不认识,他宣布了 sub-q,代表亚二次方(sub-quadratic),
00:00:36这是大语言模型智能领域的一项重大突破。他在这里宣布的是
00:00:45一种全新类型的大语言模型,它极擅长处理长上下文任务,
00:00:52而且据他声称,完全不会失去——至少他是这么说的——
00:00:59不会失去大家所习惯的“智能”(打个引号,因为模型
00:01:04终究只是在生成 Token,但这也正是它们智能的来源)——
00:01:08也就是说,不会失去像 Opus 4.7、GPT 5.5 等当前前沿模型所具备的智能。
00:01:16现在,他在 X 上的发布声明中提到——
00:01:26同时还有一篇包含更多技术细节的官方博客,我们等一下会看,
00:01:35因为在这期视频里,我们将进行深度探讨——他在声明中介绍的
00:01:42是一个在处理 100 万 Token 上下文任务时速度极快,
00:01:49且成本极低的模型。成本仅为 Opus 的 5%。
00:01:57他还承诺,他们的初始模型将拥有 1200 万 Token 的上下文窗口。
00:02:02为了让大家对这个数字有个概念,这意味着你可以把整个代码库,
00:02:08甚至是庞大的代码库,直接塞进这个上下文窗口中。
00:02:15你也可以塞进多份大型法律文件。当然,这就是为什么
00:02:22这样的模型一旦存在并切实可行,将会非常有用,
00:02:28而且完全是颠覆性的。毫无疑问。如果它们能行的话——
00:02:33虽然目前细节有限,我稍后会再谈到——但如果真的可行,
00:02:40这就意味着我们目前正在使用的所有折中方案,
00:02:45比如子智能体(sub-agents)、RAG 等等,都将失去意义。
00:02:52这些方案都只是为了绕过模型只能看到其应看内容的冰山一角这一局限性。
00:02:59因此,如果你在处理一个代码库,由于你代码库的规模,
00:03:06现有的前沿模型可能无法看清整个代码库。它们无法加载完整的代码。
00:03:13所以当你要求它修改某些内容时,你只能祈祷
00:03:19模型能在你的代码库中找到正确的部分来完成你的修改要求。
00:03:24显然,代码库越庞大,或者你想让模型处理的文件量越多,
00:03:31这个问题就会变得越发严重。因此,如果你拥有一个
00:03:36能稳定使用 1200 万 Token 上下文窗口且质量极高的模型,这自然会是游戏规则的颠覆者。
00:03:43说到颠覆规则,我不仅在这期视频中深入探讨,也会在我的所有课程里进行深挖。
00:03:49所以,如果你有兴趣学习如何实际应用 Claude Code、
00:03:56Codex 等工具来处理其他 AI 任务或进行编程,
00:04:01又或者是将所有这些结合起来,那么我的课程绝对值得一看。
00:04:06这些课程既实用又注重实操,而且非常深入。你可以购买单门课程
00:04:15或订阅会员,只需支付月费或年费即可学习所有课程。链接就在下方。
00:04:22那么,现在让我们再深入地聊聊。正如前面提到的,
00:04:28虽然有一篇包含技术细节的发布博客,但坦白说,内容并不多。
00:04:36里面缺失了大量的信息,我们也没有看到太多基准测试结果。
00:04:45具体来说,他们只公布了三项基准测试。首先是 RULER 基准测试,
00:04:53它测试的是超越简单“大海捞针”定位的检索与推理行为,
00:05:00包括多跳检索、聚合、变量跟踪以及选择性过滤。
00:05:07所以这个基准测试归根结底是在测试模型从相对庞大的上下文窗口中
00:05:15找出多条相关信息并拼凑在一起的能力。测试窗口为 128,000 Token。
00:05:22这并不算特别庞大的上下文窗口,跟他们承诺的 1200 万相去甚远,
00:05:29但也不是只有 5K 左右。所以这个基准测试
00:05:35检验的是模型在相对较大的上下文窗口或文档库中,
00:05:43寻找并整合不同部分信息的能力。在这项测试中,
00:05:49他们的模型与 OPUS 4.6 处于同一水平。
00:05:56在帖子中,他们还提到了另一项基准测试,即 MRCRv2 基准测试,
00:06:05这同样是关于长上下文检索的任务。他们声称他们的模型
00:06:12表现处于 OPUS 4.6 的区间。不过,如果你仔细看
00:06:20这里的所有其他结果,虽然算是在那个区间,但它显然要更差一些。
00:06:27这当然很有意思,毕竟长上下文检索正是他们主打的卖点。
00:06:36但话又说回来,你也可以认为,对于超长上下文的场景,
00:06:42其他模型根本无法使用,而他们的模型至少还能给你不错的结果,
00:06:50这总比没有要好。而且,他们的模型也完全可以在未来继续优化。
00:06:54所以我不会把这当成初代模型的糟糕信号。这只是一个值得留意的点。
00:07:00当然,同样值得注意的是,在这个表格中,它依然远远好于
00:07:09Gemini 3.1 Pro 或 OPUS 4.7。此外,他们还发布了一项
00:07:16让我觉得很有意思的基准测试,是关于编程相关任务的。
00:07:22不过,我想说的是,我对所有这些基准测试都不是特别感冒。
00:07:29大家都知道,它们在某种程度上是可以被“刷榜”的,至少很多是这样,
00:07:37模型可以被有意或无意地针对某些基准测试进行微调或优化以取得好成绩。
00:07:45我们过去见过太多这样的案例。尽管如此,它们还是提供了一些参考。
00:07:52而我觉得这个软件工程基准测试很有意思,因为
00:07:58在这里我们可以看到,他们的模型表现几乎与 OPUS 模型不相上下。
00:08:08这当然表明,它不仅能够在长上下文窗口、
00:08:13海量文档以及庞大的代码库中检索信息,同时它还能够利用这些信息
00:08:20做一些有用的事情。也就是说,它能凭借自身的智能以及
00:08:28在这些长上下文窗口中所检索到的数据,来生成有意义、高质量的代码。
00:08:35所以,这不仅仅是关于检索,更是关于做出有用的成果。在这方面它似乎表现不错。
00:08:42但正如我提到的,目前的信息也就这么多了。我们没有得到
00:08:48其他深入的剖析或技术细节。目前还没有模型卡(Model Card)。
00:08:57因此,我们能看到的只有一段描述,大意是说他们的模型
00:09:03是如何通过使用稀疏注意力(sparse attention)而非密集注意力(dense attention)
00:09:10来使这些长上下文任务得以运转,或在长上下文场景下
00:09:16高效率地运行。并且,这也就是该模型能够大幅提升速度
00:09:23并降低成本的原因,因为它确实更快、更便宜,对吧?
00:09:30这就是他们宣布的内容。那么,让我们来看看密集注意力与稀疏注意力,
00:09:38以便理解这里面到底发生了什么。目前,密集注意力
00:09:46正是现有前沿模型所采用的技术。比如你的 GPT 5.5、
00:09:51Opus 4.7 以及其他所有主流模型,这些全都是密集模型,
00:09:58这本质上意味着,对于每一个新生成的 Token(假设为 Token D),
00:10:05为了生成这个 Token,模型必须对所有其他已有的 Token 进行评估,
00:10:11并且必须计算这些 Token 之间的所有关联。因为大语言模型
00:10:17的核心理念,就是基于某个 Token 之前出现的所有内容,
00:10:22来推导这个未来的 Token(它可以是一个完整的词,也可以是词的一部分)。
00:10:29比如,如果你有一句像 “a contract can be terminated at any...” 这样的句子,
00:10:36那么你想要预测的就是接下来的那个词。你可能会问模型:
00:10:44“嘿,我什么时候可以终止合同?”然后你可能已经把这份合同
00:10:49作为 PDF 文件或纯文本输入到了你的 Prompt(提示词)中。
00:10:56因此,在模型作为输出生成的这个句子之前,
00:11:01你的 Prompt 里包含了你的提问以及其他相关的上下文,
00:11:08比如合同内容,对吧?这就是我们目前使用模型的方式。
00:11:16而为了生成当下的这个 Token,以及生成之前出现的每一个 Token,
00:11:24模型基本上都必须通读整场对话、以及其中所有的 Token。
00:11:31也就是你的问题加上你放进去的所有额外上下文。
00:11:38它会将这些内容切分为多个 Token,然后结合这些 Token,
00:11:46或者根据先前所有 Token 的组合最终计算出权重。
00:11:54举个例子,如果这就是我们整场对话的全部内容(这显然是特意缩短的简短示例),
00:12:00那么在 GPT-5 等模型中,它就会被这样拆分成 Token。
00:12:06有些 Token 只是一个词,或者是前面带空格的词,
00:12:14而有些 Token 则可能只是特殊字符。
00:12:20而为了生成下一个 Token,所有先前的 Token 最终都会
00:12:28相互结合以理解其背后的深层含义。因为显然,一个问号
00:12:33对后续 Token 的含义和暗示会有很大的不同,这完全取决于
00:12:40在这个问号之前出现了什么。所以,问号需要与之前的所有 Token 进行结合。
00:12:46而正是这些所有组合的最终叠加,才被用来推导出最后一个 Token。
00:12:52在高层概念上,你可以这样去理解密集注意力及其工作原理。
00:12:59显而易见,这种方式非常低效,但这已经是我们目前所能使用的、
00:13:06在保证输出智能与质量方面的最佳方案了。但它是二次方复杂度的,
00:13:13因为它的计算量是 n 乘以 n。这意味着,为了推导出一个新 Token,
00:13:22我们必须将所有先前的 Token 结合计算。虽然现在有像 KV 缓存(KV caching)
00:13:27这样的优化机制,它能缓存过去已经计算过的权重结果,
00:13:33这样在生成新 Token 时,你不需要重新计算所有先前的组合,
00:13:39但你仍然需要通过将新 Token 与所有先前缓存的权重进行对比
00:13:45来计算它。所以你最终依然处于这种二次方复杂度的局限中。
00:13:50这自然导致了低效和缓慢,这也是为什么我们目前的这些前沿模型
00:13:55非常消耗算力且运行缓慢,尤其是在进入超长上下文窗口区域时,
00:14:01以及为什么它们会有相当严格的上下文窗口大小限制。因为既然是二次方复杂度,
00:14:09计算 1200 万的上下文窗口大小几乎是不可能完成的任务。
00:14:16它需要花费无尽的时间,而计算时间还只是一个维度,
00:14:20必须保留的内存大小则是另一个瓶颈。简而言之,
00:14:27这就是密集模型的工作方式及其局限性。现在,另一种
00:14:34或者说替代的方法,也就是昨天宣布的那个全新 sub-q 模型所采用的方法,
00:14:40就是使用稀疏注意力。那么,稀疏注意力又是如何工作的呢?
00:14:46稀疏注意力的核心思想是,为了计算一个新 Token,
00:14:53你不需要去看所有先前的 Token,你也不需要结合所有先前 Token 的组合,
00:15:00而只需要关注其中少数被选中的 Token。例如,如果你想推导 Token D,
00:15:04你可能只需要关注 B 和 C,而完全不需要看 A。当然,随之而来的关键问题是,
00:15:12你该如何决定应该看哪些先前的 Token,或者哪些先前的 Token
00:15:16对于生成新 Token 是有价值的。过去曾使用过几种不同的方法,
00:15:22因为这个新模型并不是第一个稀疏注意力模型。但它们此前之所以
00:15:29没能真正流行起来,是因为它们存在严重的局限性。例如,
00:15:37其中一种方法是使用局部窗口(local window)机制。那是什么意思呢?
00:15:43这意味着为了生成一个新 Token(假设是序列中的第五个 Token),
00:15:51我们只看它前面的两个 Token,例如第三和第四个。所以你拥有一个
00:15:59滑动 Token 窗口,并且始终只看即将生成的那个 Token 前面的内容。
00:16:04你可以想象,这存在严重的局限性,因为如果我只看最后
00:16:10几个 Token,而我又想知道合同何时可以终止,
00:16:17虽然该信息确实存在于我传入 Prompt 的额外上下文中,
00:16:23但如果局部窗口仅仅是最后的几个 Token,它就无法包含在内。
00:16:30因此,即将被预测的下一个 Token 根本无法得知之前上下文里写了什么。
00:16:37所以这毫无用处。用这种方法你可以拥有无限的上下文窗口,
00:16:46但所有的上下文都变得毫无意义。这是一个显而易见的局限性。
00:16:54另一种方法是所谓的全局 Token(global token)机制。这里的思路是,
00:17:00你拥有一个全局摘要 Token。在概念上,你可以把它想象成
00:17:07一个插入在 Token 序列开头的特殊 Token(由模型自行插入),
00:17:14它对后面的所有 Token 进行摘要。你可以这样去理解它。
00:17:22接着,在预测下一个 Token 时,模型就会把这个全局 Token 考虑在内。
00:17:28如果回到我们刚才那个将法律文本传给模型的例子,
00:17:35如果为你的对话生成的这个摘要包含了诸如
00:17:43合同终止条款之类的细节,那么这种方式确实行得通。
00:17:49基于该摘要,下一个 Token 确实可以被非常好地预测出来。但如果你运气不好,
00:17:55而摘要中没有包含这些细节,那你就倒霉了,
00:18:01又会回到信息完全缺失的状态。因此,全局 Token 机制可能有用,
00:18:08但显而易见,你的上下文窗口越长,生成的摘要就会变得越笼统。
00:18:14这很容易理解。如果你有一份 100 页的 PDF 文档,
00:18:21而你必须用一两句话来概括它,它肯定会非常模糊,对吧?
00:18:30因此,基于这样的摘要来预测下一个 Token 往往很难奏效。
00:18:36另外还有一种方法是使用路由器(router),也就是引入一个额外的神经网络。
00:18:42所以你本质上拥有两个模型:你的大语言模型,加上一个
00:18:49额外的路由模型。该路由模型会读取用户的 Prompt,
00:18:57或者查看即将生成的下一个 Token 的上下文,然后将该 Token
00:19:04路由到它认为相关的其他 Token 上。但这就意味着,
00:19:10你现在多出了一个路由模型,而它必须以某种方式跟踪其后的所有其他 Token。
00:19:16这很可能又回到了二次方注意力的老路,或者变得非常模糊,
00:19:26并且你得完全依赖它。所以,你要么又退回到了二次方复杂度,
00:19:35与密集模型相比并没有获得多少性能提升;要么就放弃它,
00:19:42但由于路由器不够优秀而承受严重的精度损失。因此,就像摘要一样,
00:19:49你只能寄希望于路由器能做好工作,并在预测下一个 Token 时
00:19:56能激活正确的 Token。而这也正是为什么稀疏注意力虽然令人兴奋,
00:20:05但至今仍未真正爆发的原因,因为所有这些不同的方法都有各自巨大的权衡。
00:20:13而且据我所知,在此之前,还没有任何一个稀疏注意力模型
00:20:19能够产出与当前主流的前沿密集模型相媲美的质量,
00:20:25并且能在庞大的上下文窗口中自如运作。而他们承诺将通过这个新模型改变这一现状。
00:20:33在发布的博客文章中,他们提到其模型采用的是“内容依赖型选择”(content-dependent selection)。
00:20:40对于每个查询,模型会选择序列中哪些部分值得关注,并精确计算这些位置的注意力。
00:20:45所以归根结底,这依然是路由方法,但他们在这里承诺并提到,
00:20:52他们的机制在激活正确 Token 以预测下一个 Token 方面表现得极为高效。
00:21:00他们提到,密集注意力假设每一对 Token 都可能有关联,因此会评估所有组合。
00:21:07但在实践中,几乎没有哪对是真正相关的。而他们的 SSA(亚二次方选择性注意力,

Key Takeaway

名为sub-q的全新大语言模型通过稀疏注意力机制,在大幅降低至Opus 5%成本的同时,实现了支持1200万Token的超长上下文处理能力。

Highlights

  • 新型亚二次方(sub-q)模型在处理100万Token上下文任务时,处理成本仅为Opus模型的5%。

  • 该模型支持高达1200万Token的上下文窗口,能完整容纳庞大代码库或多份长篇法律文件。

  • 在RULER与MRCRv2长上下文检索基准测试中,该模型表现与Opus 4.6处于同一区间。

  • 该模型通过稀疏注意力机制而非传统的密集注意力,减少了对每个Token进行全量评估的计算需求。

  • 模型采用内容依赖型选择机制,通过自动识别并激活相关Token来预测下一个输出,从而绕过二次方复杂度瓶颈。

Timeline

Sub-q模型的发布与核心优势

  • Alexander Wedin宣布了基于亚二次方(sub-quadratic)技术的新型大语言模型。
  • 该模型在长上下文任务中具备极高的处理速度与极低的经济成本。
  • 1200万Token的上下文容量使模型能直接读取整个代码库或海量法律档案。

该模型声称在不损失前沿智能水平的前提下,显著优化了长文本处理效率。其5%的成本优势与超大窗口容量,使现有的RAG与子智能体等补救性技术方案面临被取代的可能。该模型的实际落地将改变开发者处理庞大代码库及文档的既有模式。

性能表现与基准测试分析

  • RULER测试显示模型在12.8万Token窗口下与Opus 4.6表现相当。
  • 模型在编程相关任务中展现出与Opus相当的逻辑生成能力。
  • 基准测试反映了模型不仅能检索信息,还能利用检索内容进行高质量输出。

尽管官方公布的基准测试数据有限且存在刷榜可能性,但该模型在多跳检索、聚合及变量跟踪等复杂任务中依然具有竞争力。在软件工程基准中,该模型证明了其在利用长上下文检索数据后,仍能生成有效代码的能力,这印证了其并非仅仅是一个简单的检索工具。

稀疏注意力机制的运作原理

  • 密集注意力模型因计算所有Token组合导致二次方复杂度,难以支持极长窗口。
  • 稀疏注意力通过只关注特定相关Token,避免了全量评估的低效。
  • 该模型采用内容依赖型选择机制精确激活必要的Token,而非依赖单一的路由模型或简单窗口。

传统模型必须评估所有先前的Token来生成新Token,这带来了巨大的计算瓶颈。虽然以往的稀疏注意力尝试(如局部窗口或全局摘要)因信息损失严重而失败,但该模型声称通过内容依赖型选择实现了高效的Token关联激活,在保持精度的同时大幅提升了算力效率。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video