Gemini 3.5 Flash 表现平平

中文العربية Deutsch English Español Français हिन्दी 한국어 Português

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00谷歌刚刚发布了 Gemini 3.5 Flash，他们做出了一些相当大胆的声明。

00:00:04以四倍的速度实现前沿性能，而且成本通常不到原来的一半。

00:00:09这一切听起来不可思议，但现实情况比谷歌宣传的要糟糕得多。

00:00:12而这只是他们发布内容的一半。他们还发布了 Anti-Gravity 2，

00:00:16这是他们新的独立智能体应用，基本上是他们对 Codex 的回应，以及 Anti-Gravity

00:00:20CLI，它实际上取代了 Gemini CLI，所以这是“被谷歌扼杀”名单上的又一个受害者。

00:00:30让我们先从头条数据开始。它拥有百万级 token 的上下文窗口，64,000

00:00:34输出 token，并接受文本、图像、视频、音频和 PDF 作为输入。谷歌

00:00:39在这些多模态模型方面一直做得相当不错。

00:00:42至于实际性能，根据谷歌自己的基准测试，该模型在编码方面与 GPT 5.5

00:00:46相当，在 SWBench Pro 和 Terminal

00:00:50Bench 上仅落后几个百分点；事实上，它在 Terminal Bench 上实际上比 Opus 4.7 领先约 10%，但 Claude

00:00:56Opus 在 SWBench Pro 上也以大约 10% 的优势扳回一局，击败了 Gemini。

00:01:01对于智能体工作流，该模型实际上在 MCP 和 Toolathon 基准测试中均胜出，

00:01:06总的来说，这些基准测试的结果并不差，但这一切都是谷歌自己说的。

00:01:11如果我们转而查看第三方基准测试，比如 Artificial Analysis，它的表现

00:01:15并不太好。在编码指数上，Gemini 3.5 Flash 得分为 45，实际上低于像

00:01:21Kimi K2.6 这样的模型，甚至没有超过 Gemini 3.1 Pro，尽管在他们自己的所有基准测试中，

00:01:27它在各项指标上都领先。实际上它只比 Gemini 3 Flash

00:01:31高出几分而已。

00:01:32当我们观察智能体性能时，情况确实好了一些。它比

00:01:35Gemini 3.1 Pro 有了不错的飞跃，是的，从技术上讲，它确实处于与那些前沿模型竞争的水平。

00:01:41模型。

00:01:42看看我们的数据，显示 75% 的观众还没有订阅，

00:01:45所以我请求大家订阅一下。请订阅吧。

00:01:48该模型的一个关键亮点绝对是它的速度。他们实际上从这个模型中获得了每秒 278 个 token，

00:01:53这极大地超过了 Opus 4.7、GPT 5.5，甚至是像

00:01:59Haiku 和开源的 OpenAI 模型。所以，在智力与速度的较量中，

00:02:04这个模型绝对是表现最好的。

00:02:06总的来说，结果好坏参半。它不是最好的模型，也不是最差的，

00:02:10但它真的非常快。如果它的价格真的是其他模型的一半，我也不会介意这些结果，

00:02:14但这就是问题开始出现的地方。

00:02:18该模型的价格是每百万输入 token 1.50 美元，每百万输出 token 9 美元，

00:02:23这实际上比 Gemini 3 Flash 贵了 3 倍，但仍然比

00:02:27Opus 4.7 和 GPT 5.5 等模型便宜得多，至少在纸面上是这样。

00:02:32然而在实际运行他们的基准测试时，Artificial Analysis 发现 Gemini 3.5 Flash

00:02:36运行智力指数的成本为 1,552 美元，实际上比

00:02:42Gemini 3 Flash 贵了 5.5 倍，比 Gemini 3.1 Pro 贵了 75%。更糟糕的是，

00:02:48在高性能推理下，这甚至比 GPT 5.5 更昂贵，而 GPT 5.5 在编码性能上

00:02:54远胜于 Flash。事实上，我将突出显示此图表中所有比 Flash

00:02:57便宜且编码性能优于 Flash 的模型。这看起来一点也不好，

00:03:02而且肯定不像他们市场宣传的那样成本减半。

00:03:06深入挖掘后发现，该模型的问题似乎在于虽然速度快，

00:03:10但它非常消耗 token。在智能体评估中，它平均每个任务需要 49 轮对话，

00:03:15这是他们测试过的所有模型中最高的之一。它真的很喜欢消耗你的

00:03:19输入 token。所以总的来说，我不确定这把我们带向了何方。这个模型

00:03:23感觉很一般。它的速度非常酷，所以如果你把速度看得比什么都重要，也许

00:03:28这是值得使用的模型。如果你需要出色的多模态功能也一样，但

00:03:33其编码性能不足以让我考虑在比本视频中测试更长的时间内使用它。

00:03:37所以让我们继续讨论另一个大公告，即 Anti-Gravity 2 和新的 CLI。

00:03:41这是 Anti-Gravity 2 吗？等等，不好意思，那是 t3 code。也许是这个？

00:03:44等等，不对，那是 Codecs。那这个呢？

00:03:50不对，那是 Cursor。这个才是 Anti-Gravity 2，我想

00:03:55你们明白我的意思了。基本上所有这些应用看起来都一样。我们演示中一个有趣的部分

00:03:59是当开发者尝试创建一个新项目时，你一眼就能看到里面的 Codecs 文件夹。

00:04:03老实说，我不会花太多时间来深入介绍这个应用。

00:04:07它和其他所有应用完全一样。左侧是对话，

00:04:11项目、预定任务，在这里你可以点击任何一个

00:04:15文件查看差异视图。唯一需要注意的是，这不再是

00:04:18Anti-Gravity IDE 了。这完全是一个独立的应用程序。你看到的

00:04:22就是你得到的。我确实在里面试了几个测试提示词。其中一个

00:04:26是创建一个全栈个人财务仪表板，另一个要简单得多，

00:04:30只是测试一下它如何在一个 index.html 中为我构建一个咖啡馆网站。

00:04:35这是那个简单咖啡馆提示词的结果，我必须说我确实很喜欢

00:04:39它构建的网站，所以看起来 3.5 Flash 在 UI 设计方面确实不错。

00:04:44总的来说，这是一个非常不错的网站。它仍然带有一点人工智能设计的

00:04:48感觉。我想主要是那种目前人工智能似乎非常喜欢的卡片和渐变风格，但

00:04:53网站相当实用，看起来也符合我的预期。作为对比，这是

00:04:58Opus 4.7 在我给出完全相同的提示词时给我的结果，我认为 Gemini 3.5

00:05:03Flash 在这一点上胜出，但这显然只是一个单一测试。至于更复杂的

00:05:07财务仪表板提示词，那是一个全栈应用程序，它做得很好，确实让

00:05:11应用程序运行起来了，但我绝对不喜欢它的 UI 设计。不算坏，但它

00:05:16就是有一种“人工智能设计”的外观和感觉，另外给它起名叫

00:05:20Aura Wealth 扣分。当你把它与 Opus 4.7 给我的结果相比时，那真是天差地别。

00:05:25Opus 4.7 这里的 UI 看起来真的很棒，老实说，我没什么需要修改的。

00:05:29Opus 实际上在那个提示词上花了 20 分钟，而 Gemini 只花了

00:05:33五分钟，所以是的，它确实更快，但也本可以用剩下的 15 分钟

00:05:38来让它看起来更好。言归正传，我们还收到了 Anti-Gravity CLI，这个可能

00:05:42会惹恼一些人，因为他们实际上要关闭 Gemini CLI，在今年 6 月 18 日之后

00:05:46你将无法使用它，而新的 CLI 目前基本上是一样的，

00:05:51只是用 Go 语言重写了，而且现在是闭源的，这确实很糟糕。

00:05:56我并没有安装这个，因为它同样只是 Gemini 版的 Claude Code，

00:06:00没什么新东西可以给你们看。总而言之，目前 3.5

00:06:05Flash 对智能体来说很好，但它很昂贵，在编码方面太弱，无法成为全能选手，

00:06:10所以我希望看到更多来自 Gemini 3.5 Pro 的表现，它显然下个月就要来了，

00:06:15但就目前而言，谷歌似乎不会成为编码领域的领导者，老实说

00:06:19我也不认为他们需要成为领导者。谷歌的市场似乎更多是针对

00:06:23普通大众，将其构建到你们所有的体验中，比如 Gmail、搜索、Workspace、

00:06:28Android 和其他一切，所以也许开发者根本不是他们的重心。在下方的评论区

00:06:33告诉我你的想法，顺便订阅一下。像往常一样，

00:06:36我们在下一期视频再见。

Key Takeaway

尽管 Gemini 3.5 Flash 展现了极快的推理速度，但其高昂的实际运行成本和较低的编码基准表现，使其难以成为开发者首选的通用编码模型。

Highlights

Gemini 3.5 Flash 实现了每秒 278 个 token 的生成速度，超越了 Claude Opus 4.7 和 GPT 5.5。
Gemini 3.5 Flash 在编码性能基准测试中的得分仅为 45，低于 Kimi K2.6。
该模型的实际运行成本比广告宣传的高出显著，在高性能推理任务中甚至高于 GPT 5.5。
Gemini 3.5 Flash 在智能体任务中表现出极高的 token 消耗率，平均每个任务需 49 轮对话。
新推出的 Anti-Gravity CLI 采用闭源设计，并将取代原有的 Gemini CLI。
Gemini 3.5 Flash 在简单的 UI 设计任务中表现优异，但在复杂全栈应用构建上的视觉审美尚显不足。

Timeline

Gemini 3.5 Flash 的技术基准与性能表现

模型具备百万级 token 上下文窗口和 64,000 输出 token 限制。
谷歌自有基准显示该模型编码能力与 GPT 5.5 相当。
第三方 Artificial Analysis 测试显示其编码表现逊于 Kimi K2.6。

谷歌宣称 Gemini 3.5 Flash 具备高性价比的前沿性能。然而，第三方测评显示在编码指数上，该模型得分仅为 45，甚至不及前代模型。虽然在智能体基准测试中展现出与前沿模型竞争的潜力，但实际数据与谷歌官方宣传存在出入。

速度优势与实际成本悖论

每秒 278 token 的吞吐量使其在速度上领先于 Opus 4.7 和 GPT 5.5。
该模型在智能体任务中消耗大量输入 token，导致实际推理成本极高。
高性能推理下的实际成本比 Gemini 3 Flash 高出 5.5 倍。

虽然速度是 Gemini 3.5 Flash 的显著优势，但其高频的对话轮次（平均 49 轮）导致输入 token 消耗巨大。计算得出，该模型在实际使用中的编码推理成本不仅未减半，反而超过了性能更强的 GPT 5.5。

应用工具与开发者生态变化

新发布的 Anti-Gravity 2 是一个独立的智能体应用程序。
旧版 Gemini CLI 将于 6 月 18 日停止服务，由闭源的 Go 语言版本取代。
模型 UI 生成能力在简单页面设计上优于 Opus 4.7，但在复杂应用中设计感较弱。

谷歌通过发布 Anti-Gravity 2 及配套的 CLI 工具来回应市场需求。新的 CLI 转向闭源开发引起了关注。在实际测试中，虽然 Gemini 3.5 Flash 能迅速生成功能可用的 UI 界面，但其设计美学仍显生硬，缺乏竞争力。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video