Transcript
00:00:00谷歌刚刚发布了 Gemini 3.5 Flash,他们做出了一些相当大胆的声明。
00:00:04以四倍的速度实现前沿性能,而且成本通常不到原来的一半。
00:00:09这一切听起来不可思议,但现实情况比谷歌宣传的要糟糕得多。
00:00:12而这只是他们发布内容的一半。他们还发布了 Anti-Gravity 2,
00:00:16这是他们新的独立智能体应用,基本上是他们对 Codex 的回应,以及 Anti-Gravity
00:00:20CLI,它实际上取代了 Gemini CLI,所以这是“被谷歌扼杀”名单上的又一个受害者。
00:00:30让我们先从头条数据开始。它拥有百万级 token 的上下文窗口,64,000
00:00:34输出 token,并接受文本、图像、视频、音频和 PDF 作为输入。谷歌
00:00:39在这些多模态模型方面一直做得相当不错。
00:00:42至于实际性能,根据谷歌自己的基准测试,该模型在编码方面与 GPT 5.5
00:00:46相当,在 SWBench Pro 和 Terminal
00:00:50Bench 上仅落后几个百分点;事实上,它在 Terminal Bench 上实际上比 Opus 4.7 领先约 10%,但 Claude
00:00:56Opus 在 SWBench Pro 上也以大约 10% 的优势扳回一局,击败了 Gemini。
00:01:01对于智能体工作流,该模型实际上在 MCP 和 Toolathon 基准测试中均胜出,
00:01:06总的来说,这些基准测试的结果并不差,但这一切都是谷歌自己说的。
00:01:11如果我们转而查看第三方基准测试,比如 Artificial Analysis,它的表现
00:01:15并不太好。在编码指数上,Gemini 3.5 Flash 得分为 45,实际上低于像
00:01:21Kimi K2.6 这样的模型,甚至没有超过 Gemini 3.1 Pro,尽管在他们自己的所有基准测试中,
00:01:27它在各项指标上都领先。实际上它只比 Gemini 3 Flash
00:01:31高出几分而已。
00:01:32当我们观察智能体性能时,情况确实好了一些。它比
00:01:35Gemini 3.1 Pro 有了不错的飞跃,是的,从技术上讲,它确实处于与那些前沿模型竞争的水平。
00:01:41模型。
00:01:42看看我们的数据,显示 75% 的观众还没有订阅,
00:01:45所以我请求大家订阅一下。请订阅吧。
00:01:48该模型的一个关键亮点绝对是它的速度。他们实际上从这个模型中获得了每秒 278 个 token,
00:01:53这极大地超过了 Opus 4.7、GPT 5.5,甚至是像
00:01:59Haiku 和开源的 OpenAI 模型。所以,在智力与速度的较量中,
00:02:04这个模型绝对是表现最好的。
00:02:06总的来说,结果好坏参半。它不是最好的模型,也不是最差的,
00:02:10但它真的非常快。如果它的价格真的是其他模型的一半,我也不会介意这些结果,
00:02:14但这就是问题开始出现的地方。
00:02:18该模型的价格是每百万输入 token 1.50 美元,每百万输出 token 9 美元,
00:02:23这实际上比 Gemini 3 Flash 贵了 3 倍,但仍然比
00:02:27Opus 4.7 和 GPT 5.5 等模型便宜得多,至少在纸面上是这样。
00:02:32然而在实际运行他们的基准测试时,Artificial Analysis 发现 Gemini 3.5 Flash
00:02:36运行智力指数的成本为 1,552 美元,实际上比
00:02:42Gemini 3 Flash 贵了 5.5 倍,比 Gemini 3.1 Pro 贵了 75%。更糟糕的是,
00:02:48在高性能推理下,这甚至比 GPT 5.5 更昂贵,而 GPT 5.5 在编码性能上
00:02:54远胜于 Flash。事实上,我将突出显示此图表中所有比 Flash
00:02:57便宜且编码性能优于 Flash 的模型。这看起来一点也不好,
00:03:02而且肯定不像他们市场宣传的那样成本减半。
00:03:06深入挖掘后发现,该模型的问题似乎在于虽然速度快,
00:03:10但它非常消耗 token。在智能体评估中,它平均每个任务需要 49 轮对话,
00:03:15这是他们测试过的所有模型中最高的之一。它真的很喜欢消耗你的
00:03:19输入 token。所以总的来说,我不确定这把我们带向了何方。这个模型
00:03:23感觉很一般。它的速度非常酷,所以如果你把速度看得比什么都重要,也许
00:03:28这是值得使用的模型。如果你需要出色的多模态功能也一样,但
00:03:33其编码性能不足以让我考虑在比本视频中测试更长的时间内使用它。
00:03:37所以让我们继续讨论另一个大公告,即 Anti-Gravity 2 和新的 CLI。
00:03:41这是 Anti-Gravity 2 吗?等等,不好意思,那是 t3 code。也许是这个?
00:03:44等等,不对,那是 Codecs。那这个呢?
00:03:50不对,那是 Cursor。这个才是 Anti-Gravity 2,我想
00:03:55你们明白我的意思了。基本上所有这些应用看起来都一样。我们演示中一个有趣的部分
00:03:59是当开发者尝试创建一个新项目时,你一眼就能看到里面的 Codecs 文件夹。
00:04:03老实说,我不会花太多时间来深入介绍这个应用。
00:04:07它和其他所有应用完全一样。左侧是对话,
00:04:11项目、预定任务,在这里你可以点击任何一个
00:04:15文件查看差异视图。唯一需要注意的是,这不再是
00:04:18Anti-Gravity IDE 了。这完全是一个独立的应用程序。你看到的
00:04:22就是你得到的。我确实在里面试了几个测试提示词。其中一个
00:04:26是创建一个全栈个人财务仪表板,另一个要简单得多,
00:04:30只是测试一下它如何在一个 index.html 中为我构建一个咖啡馆网站。
00:04:35这是那个简单咖啡馆提示词的结果,我必须说我确实很喜欢
00:04:39它构建的网站,所以看起来 3.5 Flash 在 UI 设计方面确实不错。
00:04:44总的来说,这是一个非常不错的网站。它仍然带有一点人工智能设计的
00:04:48感觉。我想主要是那种目前人工智能似乎非常喜欢的卡片和渐变风格,但
00:04:53网站相当实用,看起来也符合我的预期。作为对比,这是
00:04:58Opus 4.7 在我给出完全相同的提示词时给我的结果,我认为 Gemini 3.5
00:05:03Flash 在这一点上胜出,但这显然只是一个单一测试。至于更复杂的
00:05:07财务仪表板提示词,那是一个全栈应用程序,它做得很好,确实让
00:05:11应用程序运行起来了,但我绝对不喜欢它的 UI 设计。不算坏,但它
00:05:16就是有一种“人工智能设计”的外观和感觉,另外给它起名叫
00:05:20Aura Wealth 扣分。当你把它与 Opus 4.7 给我的结果相比时,那真是天差地别。
00:05:25Opus 4.7 这里的 UI 看起来真的很棒,老实说,我没什么需要修改的。
00:05:29Opus 实际上在那个提示词上花了 20 分钟,而 Gemini 只花了
00:05:33五分钟,所以是的,它确实更快,但也本可以用剩下的 15 分钟
00:05:38来让它看起来更好。言归正传,我们还收到了 Anti-Gravity CLI,这个可能
00:05:42会惹恼一些人,因为他们实际上要关闭 Gemini CLI,在今年 6 月 18 日之后
00:05:46你将无法使用它,而新的 CLI 目前基本上是一样的,
00:05:51只是用 Go 语言重写了,而且现在是闭源的,这确实很糟糕。
00:05:56我并没有安装这个,因为它同样只是 Gemini 版的 Claude Code,
00:06:00没什么新东西可以给你们看。总而言之,目前 3.5
00:06:05Flash 对智能体来说很好,但它很昂贵,在编码方面太弱,无法成为全能选手,
00:06:10所以我希望看到更多来自 Gemini 3.5 Pro 的表现,它显然下个月就要来了,
00:06:15但就目前而言,谷歌似乎不会成为编码领域的领导者,老实说
00:06:19我也不认为他们需要成为领导者。谷歌的市场似乎更多是针对
00:06:23普通大众,将其构建到你们所有的体验中,比如 Gmail、搜索、Workspace、
00:06:28Android 和其他一切,所以也许开发者根本不是他们的重心。在下方的评论区
00:06:33告诉我你的想法,顺便订阅一下。像往常一样,
00:06:36我们在下一期视频再见。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video