我测试了 DeepSeek V4 vs Claude Code vs Codex

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00在过去24小时内，我们迎来了巨大的更新，

00:00:02针对全球两个最大的AI模型。

00:00:04首先，GPT 5.5发布了，

00:00:07它声称在某些基准测试分数上

00:00:10超越了Claude的Mythos。

00:00:12其次，DeepSeek V4也发布了，

00:00:15这是一个开源、开放权重的模型，

00:00:18其基准测试足以与这些前沿大厂竞争。

00:00:22那么，面对这么多可选的新模型，

00:00:24作为普通用户，你应该怎么办呢？

00:00:27好吧，今天我将帮你回答这个问题，

00:00:29因为我将把Opus 4.7、GPT 5.5，

00:00:33以及DeepSeek V4放在一起进行对比，

00:00:36这样你就能看出哪一个才真正适合你。

00:00:39现在，在我们开始这项头对头的测试之前，

00:00:41即在Codecs内部对比GPT 5.5，

00:00:45在Open Code内部对比DeepSeek V4，

00:00:47以及在Claude Code内部对比Opus 4.7，

00:00:51让我们先快速查看一下基准测试，

00:00:53尤其是过去24小时内发布的这两个最新模型。

00:00:54现在，我们先来谈谈成本。

00:00:56如你所知，DeepSeek V4，

00:00:58是一个开源、开放权重的模型，

00:01:00但这并不意味着你可以在自己的电脑上运行它，

00:01:01因为它太庞大了。

00:01:04我指的是1.6万亿参数。

00:01:05你需要非常强大的硬件才能运行它。

00:01:08所以我们仍然必须为它付费。

00:01:10我们还是得使用API，

00:01:11但它比竞争对手便宜得多，

00:01:13大约便宜了八倍。

00:01:15而在三个模型中，

00:01:18全新的GPT 5.5实际上是最昂贵的，

00:01:19这有点令人惊讶，因为总的来说，

00:01:22OpenAI的价格一直比其Anthropic的竞争对手便宜。

00:01:24在每输出100万token的成本方面，

00:01:28GPT 5.5需要30美元。

00:01:30对于Anthropic，需要25美元。

00:01:32而对于DeepSeek，只需要3.48美元。

00:01:35现在，如果我们谈论输入token，

00:01:38这在整体中所占比例较小，

00:01:41GPT 5.5和Opus 5.7的价格是一样的。

00:01:44每100万输入token需要5美元。

00:01:46而对于DeepSeek，大约是1.70美元。

00:01:49所以无论是输入还是输出，它都便宜得多。

00:01:53话虽如此，对于5.5版本来说，

00:01:57它的价格大约是5.4版本的两倍。

00:02:01然而，OpenAI声称它实际上使用了更少的token，

00:02:03得益于它的强大性能。

00:02:06所以虽然价格是5.4的两倍，

00:02:10他们表示，在实际的token消耗和实际成本方面，

00:02:11完成同一个任务，最终只会贵出20%左右。

00:02:14所以请记住这一点。

00:02:17我们已经讨论了成本。

00:02:20现在让我们来谈谈基准测试。

00:02:21这些模型在纸面上表现如何？

00:02:24我知道我们对基准测试通常已经麻木了。

00:02:25我们确实需要持保留态度，

00:02:26但仍然值得一看，

00:02:27特别是当我们查看每个参与者

00:02:31在同一基准测试中报告的数据时。

00:02:32在编码类别中有三个基准测试，

00:02:33这三个模型都报告了数字。

00:02:36分别是SWE-bench Verified、SWE-bench Pro

00:02:39和Terminal-bench 2.0。

00:02:42对于SWE-bench Verified和SWE-bench Pro，

00:02:43Opus是那里的赢家。

00:02:46在Terminal-bench 2.0上，GPT以87.2分遥遥领先，

00:02:48顺便说一下，这个分数

00:02:50高于Anthropic为Mythos报告的分数。

00:02:52哦，不好意思，是Mythos。

00:02:56这真是太疯狂了。

00:02:59你知道，他们无法发布的那个绝密模型，

00:03:02在Terminal-bench 2上表现竟然比GPT 5.5还要差。

00:03:03现在Terminal-bench 2.0是这里最大的异常值。

00:03:05Opus 4.7和V4 Pro落后了很多，

00:03:07但看看Opus 4.7与V4 Pro的对比。

00:03:10差距不到两分，而价格却便宜了八倍。

00:03:13你在SWE-bench Verified和SWE-bench Pro上也能看到类似的情况。

00:03:16是的，Opus赢了。

00:03:20但当我们比较第二名和第三名时，

00:03:23而V4总是第三名，

00:03:24并没有我们预想的那么大差距。

00:03:26我的意思是，五分并不是什么都没有，你知道，

00:03:28在SWE-bench Verified上，从85分到86分。

00:03:31但再说一遍，便宜了八倍，而且是开源的。

00:03:33你知道，如果我们不需要最强的性能，

00:03:36这里确实有一些实际的权衡。

00:03:38另一个值得谈论的话题是长上下文，

00:03:41Opus 4.7在那里的数字表现非常糟糕，

00:03:45甚至比4.6还要差得多，

00:03:46这简直让我大吃一惊。

00:03:49当我们谈论长上下文时，

00:03:51特别是试图检索

00:03:5550万到100万token之间的信息时，

00:03:584.7的表现实际上很糟糕。

00:04:00比DeepSeek和GPT 5.5差远了。

00:04:01现在，你可以就

00:04:03为什么你会在50万到100万token的范围进行操作展开讨论。

00:04:06首先，究竟有多少人真正在那里操作，

00:04:08无论你使用什么模型，在那个量级下都会遇到上下文衰减的问题。

00:04:12在那个位置都会遇到上下文腐烂问题。

00:04:14但很有趣的是，无论什么原因，

00:04:17我们确实看到了一些退步，

00:04:20特别是在Anthropic模型上。

00:04:22但总体来说，我认为结论是

00:04:245.5非常强大。

00:04:26它在某些指标上击败了Opus 4.7，

00:04:27在某些指标上输了，

00:04:29但它是一个极其稳健的模型。

00:04:32最重要的是，V4 Pro，你知道，

00:04:33总的来说还是有点落后。

00:04:36它在竞争范围内，同时又便宜得多，

00:04:37这对于普通客户来说再次是一个很好的选择。

00:04:39因为目前看来，你并没有太多选择，

00:04:42在开源方面能真正与之抗衡的很少。

00:04:45现在让我们进入这三个模型的实际头对头测试。

00:04:48我们将为每个模型使用一个工具框架。

00:04:52对于5.5，我们将使用Codecs。

00:04:54对于Opus 4.7，我们将使用Claude Code。

00:04:56对于DeepSeek V4 Pro，我使用的是Open Code。

00:04:59第一个测试，我们将要做的是

00:05:00让他们用3JS创建一个

00:05:02能在浏览器中运行的飞行模拟器。

00:05:04你可以看到这里的提示词。

00:05:07我说，我希望它飞起来的感觉很好。

00:05:10我希望它有一定的重量感。

00:05:11我希望有强烈的视觉效果，并且我希望它使用它认为正确的

00:05:14结构和工具。

00:05:17所以，要求足够直接，让它们知道该做什么，

00:05:18但又有足够的余地，让我们能够看到模型之间的差异。

00:05:20虽然我们要看看它们能

00:05:21单次完成到什么程度，但我们将进行多次

00:05:25迭代，并使用后续提示。

00:05:27因为尽管看看它单次表现有多好很酷，

00:05:30但那不是我们现实生活中工作的方式，不是吗？

00:05:33我想看看当我给出后续提示时它的表现，

00:05:34以及它需要多久才能达到我喜欢的程度。

00:05:36当我们比较这三个模型时，

00:05:38我主要看四个方面。

00:05:40首先是时间。

00:05:44构建它需要多长时间？

00:05:46成本，我们使用了多少token？

00:05:49质量，它有多好？

00:05:52第四是感觉。

00:05:54这与质量有关。

00:05:55这是非常主观的。

00:05:57我实际上更喜欢哪一个？

00:05:58另外需要注意的是，这三个模型、这三个工具框架

00:06:01使用的也是完全相同的技能。

00:06:02所以让我们从DeepSeek开始，看看它问我们的问题。

00:06:04它在问我们想要什么样的飞行模型。

00:06:06我们选择完全模拟。

00:06:06它推荐海洋和岛屿作为地形。

00:06:09我们就选那个。

00:06:11接下来它在问摄像机偏好。

00:06:13我们两者都要。

00:06:16看看它是否能为我们提供一个切换按钮，

00:06:18支持第一人称和第三人称。

00:06:20我们接受它的推荐工具偏好。

00:06:22对于飞机和视觉本身，我们只选一个低多边形模型。

00:06:23现在切换到Codecs，类似的问题。

00:06:25尽管它只问了我们三个问题。

00:06:26问这种飞机应该为哪种飞行进行优化？

00:06:27我们选硬模拟。

00:06:29哪种可玩体验对浏览器最重要？

00:06:32我们做岛屿起飞循环。

00:06:33它们都有同一个方案确实挺有趣的。

00:06:35以及摄像机和飞机演示？

00:06:38我也打算为这个做切换功能。

00:06:40对于Claude Code，我们将为

00:06:42感觉、海洋和岛屿输入做研究模拟学习。

00:06:44我们将使用键盘和鼠标。

00:06:48它不会让它开始工作。

00:06:50所以计划模式大体上，在三者之间非常相似。

00:06:52几乎都是相同的问题，比如，

00:06:54你想要什么样的物理效果？

00:06:56你想要什么样的地形？

00:06:58你想要什么样的摄像机角度？

00:07:02所以没有太大的差异。

00:07:04让我们看看它们在计划方面拿出了什么。

00:07:05好了，三个计划都完成了。

00:07:09所以让我们很快地过一遍每一个，

00:07:11看看它们之间的一些差异。

00:07:12我们在这里看的第一个是DeepSeek。

00:07:13就它制定的计划而言，它非常简单。

00:07:15它给了我们项目结构，

00:07:17然后很快地讨论了飞行物理、

00:07:19环境、摄像机和HUD叠加，

00:07:20实际上只有几个要点。

00:07:22另一方面，当我们看Codecs内部的5.5时，

00:07:24真的只有寥寥几个要点。

00:07:26深入探讨了实施细节、测试计划，

00:07:29以及它为我们拼凑出的假设。

00:07:31然后我们有Claude Code的计划，这是耗时最长的。

00:07:33花了大约五分钟，但绝对是最详尽的，

00:07:35因为它包含了上下文、技术栈、

00:07:37布局，讨论了飞行模型。

00:07:40它甚至深入到了实际的不同时刻，

00:07:43讨论失速，比如失速警报器。

00:07:46以及我们所做的假设

00:07:47它为我们详细阐述了这一切。

00:07:49接着是 Claude Code 的方案，它耗时最长。

00:07:50花了大约五分钟，但绝对是最详尽的

00:07:53因为它涵盖了上下文和技术栈。

00:07:55方案里谈到了飞行模型。

00:07:57它深入到了具体的各个飞行瞬间，

00:08:00谈到了失速，比如失速蜂鸣器。

00:08:02它做得非常、非常细致。

00:08:03深入到了控制、场景、模组、

00:08:06我们要使用的实际飞机、性能，

00:08:08内容还在不断展开。

00:08:10所以非常详尽。

00:08:11现在我们要让这三者执行各自的方案，

00:08:14看看最终结果会是什么样。

00:08:15Codecs 里的 GPT 5.5 是第一个完成的。

00:08:19让我们来看看它做出来的效果。

00:08:20这就是它为我们制作的飞行模拟器。

00:08:22天空中有一些云彩。

00:08:26上方看起来像是一个迎角指示器。

00:08:31下方有我们的速度显示，

00:08:34让我们看看能不能真的让这架飞机

00:08:35起飞。

00:08:36我注意到这里根本没有类似跑道的东西。

00:08:38只是一片草地。

00:08:39本来以为会是个岛屿之类的东西。

00:08:42虽然当镜头有点发疯的时候，

00:08:45你能看到下面那一瞬间的跑道。

00:08:48好了，我们要失速了，而且我们……

00:08:50我们连地都离不开，对吧？

00:08:51所以这个实际操作起来

00:08:54有点困难。

00:08:55所以我打算做的是，给它

00:09:00第二个提示，要求它让操作变得简单一点，

00:09:03因为这里的设置太复杂了，

00:09:05非常难。

00:09:06所以我写道，它真的很难驾驶。

00:09:08能不能让它更容易使用？

00:09:10也就是稍微街机化一点。

00:09:12而且图形方面也可以再提升一下。

00:09:15来看看效果如何。

00:09:16值得一提的是，5.5 大约花了七分钟

00:09:21才为我们完成了第一次生成。

00:09:23而且消耗了 63,000 个 token。

00:09:26好了，它说它让飞行变得容易了一点，

00:09:28并更新了图形。

00:09:29让我们看看第二次优化的效果。

00:09:32这就是我们得到的。

00:09:32图形看起来确实好多了，

00:09:34但让我们看看这次能不能真的

00:09:36从跑道上起飞。

00:09:37好了，油门 100%，

00:09:4150，60，70。

00:09:43塞斯纳飞机的抬轮速度是多少？

00:09:46好了，70，80，90。

00:09:49我们现在应该能离地了。

00:09:51好吧，方向反了。

00:09:53走啊，起飞，快起飞。

00:09:56不，这大概又要让我失速了，是吧？

00:09:58没错，失速了。

00:09:59好吧，这还需要改进。

00:10:02那么让我们再给 Codex 一次机会。

00:10:05再给 5.5 一次机会

00:10:07让它真正变得可玩。

00:10:08所以我告诉它，我甚至无法让飞机

00:10:10离开地面进入飞行状态。

00:10:11我们绝对需要让起飞和真正驾驶它

00:10:12变得简单。

00:10:14好的，它说它修复了起飞问题。

00:10:16看来之前是刹车锁死了。

00:10:19我不知道是不是因为这个我们才无法起飞。

00:10:21噢，它没有自动设置好起飞状态。

00:10:24襟翼也是，这简直是，

00:10:25我们之前处于超级模拟模式。

00:10:29但这是我们飞行模拟器的第三次尝试。

00:10:32看看表现如何。

00:10:34能起飞了吗？

00:10:36哦，这次我们在跑道上弹跳着，

00:10:37有点什么东西。

00:10:38好了，酷，我们离地了。

00:10:41我们真的在移动了。

00:10:44看看能不能穿过其中一个圆环。

00:10:45我是说，图形不算太差，你知道，

00:10:49对于一个在不到十分钟内生成的东西来说。

00:10:52它似乎相当准确，因为它，你知道，

00:10:56它给了我垂直，你知道，

00:10:59底部每分钟的英尺数，

00:11:00我的实际高度、节数、航向、离地高度。

00:11:04所以它在追踪一切方面

00:11:06相对复杂。

00:11:08我是说，前面这个小指示器，

00:11:10看起来像是个迎角

00:11:13指示器，这挺酷的。

00:11:14所以它有一些不错的功能。

00:11:18实际的控制还是有点怪异。

00:11:21如你所见，我根本无法控制它，

00:11:23但总体来说，还不错。

00:11:25你知道，我们甚至可以像神风特攻队一样

00:11:27以每分钟 18,000 英尺的速度坠毁看看会发生什么。

00:11:31但总的来说，你知道，对于 66,000 个 token，

00:11:36大约 10 到 15 分钟左右，

00:11:40考虑到来回的调整，

00:11:41我觉得这相当不错。

00:11:42现在让我们来看看 DeepSeek。

00:11:44它花了大约十分钟来做这件事。

00:11:46在 token 方面，63,000 个，花费 44 美分。

00:11:51所以 44 美分，十分钟。

00:11:53这就是 DeepSeek 为我们做出来的东西。

00:11:56我完全不知道。

00:12:00我在看什么。

00:12:03这应该是第三人称。

00:12:06这应该是驾驶舱。

00:12:07显然我们 DeepSeek 的第一次生成

00:12:11是另一场灾难。

00:12:13所以我告诉 DeepSeek 模拟器是一团糟。

00:12:16图形完全是乱码的，

00:12:17我根本无法驾驶任何东西。

00:12:20请修复。

00:12:21这是我们第二次尝试的结果。

00:12:24我还是完全不知道。

00:12:26完全没有头绪。

00:12:28DeepSeek 这到底是什么。

00:12:30噢，嘿，有一架飞机。

00:12:32噢，有东西在那里。

00:12:33我，是的，这，这太惨了。

00:12:38老实说，我觉得即使给它另一个提示

00:12:42来做这件事，我需要变得非常、非常具体

00:12:44关于我们想做什么，这再次，

00:12:47比我们在 Codex 上做的要逊色不少。

00:12:49像那时虽然是非常平淡的提示，

00:12:51我至少能得到一些接近的东西，

00:12:53即使是在第一次生成时。

00:12:54很明显它在图形处理上

00:12:57完全陷入了挣扎。

00:12:58我们简直是，我甚至不知道该怎么形容这个，

00:13:01但嘿，它非常便宜。

00:13:03所以现在让我们看看 Claude Code

00:13:07能够为我们提供什么参考。

00:13:09它花了 13 分钟才真正执行完方案。

00:13:12方案本身花了五分钟。

00:13:13所以我们算它花了 20 分钟才做出第一次版本。

00:13:17至于 token 总量，

00:13:19这次运行消耗了大约 15% 加上方案前的 5%。

00:13:22所以我们看着，抱歉，

00:13:24我们看着的是 11% 的上下文加上之前的 5%。

00:13:28所以算 20 分钟，150,000 个 token 给 Claude Code，

00:13:33这绝对是最昂贵

00:13:34也是最慢的一个。

00:13:36这就是 Claude Code 的尝试。

00:13:39不知何故，我们瞬间就在空中了。

00:13:43我们正在失速。

00:13:44我们在仪表飞行状态（IFR）。

00:13:45我不知道发生了什么。

00:13:48我们快要撞上什么东西了。

00:13:50能挽救吗？

00:13:51能从俯冲中拉起来吗？

00:13:53不行，我们在失速，不，我们要完了。

00:13:54好的，这很有趣。

00:13:56它再次瞬间把我们弹射到了空中。

00:14:00我们在云层里。

00:14:02我们在失速。

00:14:03我不知道发生了什么。

00:14:05我们需要，我们需要第二次版本。

00:14:08所以我写道，加载时我瞬间被抛入空中。

00:14:11太难控制了。

00:14:12我想要在跑道上开始，我想要它更容易驾驶。

00:14:15哦，对了，改进一下那些图形。

00:14:17它大约花了四分钟，但做了一些更改。

00:14:20我们将从跑道上出生。

00:14:22它更改了起落架。

00:14:23所以现在是前三点式起落架和其他一些东西。

00:14:24让我们看看它看起来是什么样。

00:14:26好吧，这就是它。

00:14:27我们再次立即被抛入浓雾中。

00:14:29我正试图控制这东西。

00:14:31我只是，是的，完全没法控制。

00:14:33好吧，我们要给，

00:14:34我们要给 Claude Code 再一次机会。

00:14:37所以我告诉它，它还是瞬间把我弹射

00:14:39到空中。

00:14:40我说，让我们采用更街机感的

00:14:42操控方式。

00:14:43我想我们可能应该在

00:14:44最初对这三者进行提示时就这样做。

00:14:46我认为追求更真实的模拟类型，

00:14:50它真的很难，

00:14:53以一种用户友好的方式来做到这一点。

00:14:57我认为它在底层逻辑上可能做得不错，

00:14:59比如，好的，比如迎角。

00:15:01好的，你在这一，你知道，

00:15:02角度相对于速度失速了等等。

00:15:04但实际在电脑上进行操作

00:15:07基本上是不可能的。

00:15:09虽然我觉得雾气效果真的很奇怪。

00:15:12让我们看看经过第二轮提示后

00:15:15它是否能做得好一点，

00:15:16因为现在 GPT 5.5 做得好得多。

00:15:20所以 Claude Code 做了一些更改，

00:15:22让它变得更加用户友好。

00:15:23让我们看看这次我是否

00:15:24这次我还是在考仪表等级。

00:15:26没错，我们继续。

00:15:28我们还在考仪表等级。

00:15:30我们在跑道这里，但我能看清。

00:15:33你知道，我可以检查我的仪表盘。

00:15:35好了，我们要离开跑道了。

00:15:37好的，没问题。

00:15:42等等，为什么跑道上有一棵树？

00:15:44我正试着起飞。

00:15:46我能拉升吗？

00:15:47我能抬机头吗？

00:15:49点击画布锁定鼠标，什么鬼？

00:15:53哦，我们已经在空中了。

00:15:54不，不，我们坠机了。

00:15:57所以，我觉得结果很明显了。

00:16:02GPT 5.5 绝对是赢家，我觉得。

00:16:06Claude Code 排在第二。

00:16:08我会给它第二名。

00:16:10你知道，它确实很吃力，

00:16:13即使用了我们给的提示词。

00:16:14老实说，我们给的提示词不算好。

00:16:16我觉得如果有更多时间、更好的提示词，

00:16:19多来回几次，

00:16:20我们本可以达到想要的效果。

00:16:21至少它有飞机，也有跑道。

00:16:25虽然跑道上有树，

00:16:26但它有我们需要的东西，

00:16:29而用 OpenCODE 的 DeepSeek，

00:16:32我完全不知道发生了什么。

00:16:34那简直是一团糟。

00:16:35我觉得我得从头开始，

00:16:36给它一个非常具体的提示词。

00:16:38它甚至都无法进行调试，

00:16:39但 GPT 5.5 一上来，你知道，

00:16:42即便是在提示词很模糊的情况下，

00:16:44我觉得它表现得非常好。

00:16:455.5 总共用了 6.6 万个 token。

00:16:48我们看看 Opus 这里加起来，

00:16:52大约是 20 万个 token。

00:16:53所以基本是四分之一的 token，四分之一的成本。

00:16:56而且速度更快。

00:16:58我是说，到这一步，我甚至不在乎

00:16:59OpenCODE 实际上比 GPT 5.5 花的时间还长。

00:17:03而且它就是烂，实话实说，就是很烂。

00:17:07现在进入第二个测试。

00:17:10这次我们要请它们

00:17:12创建一个展示 WebGPU 着色器效果的落地页，

00:17:16使用 Three.js。

00:17:18WebGPU 着色器效果是你会在

00:17:21获奖网站上看到的那种。

00:17:23我是指像 Igloo 之类的网站，这一类，

00:17:26拥有非常高端的图形效果。

00:17:28看起来像个电子游戏。

00:17:29它本质上是利用你电脑的显卡

00:17:32来渲染这一切。

00:17:34我不指望它们中的任何一个能达到

00:17:37这里所看到的水平，但我很想看看它们

00:17:40能用着色器技术做到什么程度。

00:17:42这绝对比你那种基础的

00:17:45SaaS 模板落地页高出一个档次。

00:17:46我想看看它们能做什么，并推动它们

00:17:48挑战网页设计的极限。

00:17:50我已经给了它们一个技能，它实际上分解了

00:17:53如何做到这一点。

00:17:55所以并不是它们完全摸不着头脑，

00:17:57而且大家都没有明显的优势。

00:18:00我唯一告诉它们的是，我想要现代感

00:18:02和视觉冲击力，那种在获奖作品里会看到的，

00:18:05并且要充分利用 GPU 计算。

00:18:08所以它们可以选择任何喜欢的技术栈和项目结构，

00:18:10并在首屏概念、UI 和交互上做出明智的判断。

00:18:13和第一个测试一样，它们都在计划模式下。

00:18:15那么开始吧。

00:18:17好的，它们都完成了计划，有趣的是，

00:18:18它们都没有问我任何问题，

00:18:21即便我们把它们设在了计划模式。

00:18:22那么我们先来看看 GPT 5.5。

00:18:24它告诉我们它要做一个全屏的

00:18:28交互式 GPU 驱动的首屏。

00:18:30概念将是一个动态信号场，

00:18:32带有一些密集的粒子效果。

00:18:34我们来看看最后效果如何。

00:18:36总体来说是一个极简获奖风格的落地页文案。

00:18:38完全交互式的 WebGPU 场景，

00:18:41带有指针响应式计算模拟。

00:18:43好了，DeepSeek 的计划很简短，

00:18:46就像我们在飞行模拟器里看到的那样。

00:18:50希望这次我们能得到更好的输出，

00:18:53它提出了一个带有 7.5 万个 GPU 计算粒子的首屏部分。

00:18:54我猜它们可能都会选择

00:18:58某种粒子主题的首屏。

00:19:01它将会有鼠标交互集成。

00:19:04它会有一个初始化步骤。

00:19:08然后我们应该会看到像辉光、

00:19:10色差、自定义晕影和胶片颗粒之类的效果。

00:19:13看看最后实际效果如何。

00:19:16然后是 Opus 4.7 的计划，又是

00:19:19搞这种带辉光的粒子效果，

00:19:21而且会与鼠标交互。

00:19:23所以看看这些东西看起来有没有区别，

00:19:25因为从表面看，它们的计划听起来都很像。

00:19:27完成第一个的是 5.5。

00:19:29花了大约 6 分钟。

00:19:32在 token 方面，我们用了 10.7 万个。

00:19:34那么看看它为我们构建了什么。

00:19:37这是它为我们创建的内容。

00:19:40嗯，这太亮了。

00:19:42所以甚至很难看清实际的粒子，

00:19:45但你知道，当我们上下滚动时，

00:19:47背景确实有一个动画，

00:19:50以及一些细微的颜色变化。

00:19:52看起来现在我们的鼠标应该

00:19:56能吸引粒子。

00:20:00我们有，我把它移到这边。

00:20:01它提供了一些选项，比如排斥和漂移。

00:20:03但这真的很难看清，

00:20:08因为它太亮了。

00:20:11所以我告诉它，因为太亮了，很难看清粒子。

00:20:12它还占用了太多的首屏技术资源。

00:20:14能不能把亮度调低一点，

00:20:14并且把它往右边推一点？

00:20:16因为它现在有点太显眼了。

00:20:18你甚至无法阅读左侧的文字，

00:20:20就因为这些粒子实在是太亮了。

00:20:23这是第二次运行后的更新。

00:20:25稍微好了一点。

00:20:27它没那么刺眼了，给文字留出了一些空间。

00:20:30虽然我想说它几乎有点模糊，

00:20:31但这并不坏。

00:20:35它完成了我们要它做的事情，

00:20:39考虑到这个有些模糊的问题。

00:20:41所以我并没有被它的设计惊艳到，

00:20:44但也并不反感。

00:20:46现在来看看 Claude Code，

00:20:49因为在我们做这一切的时候，

00:20:51DeepSeek 还在那里苦战，

00:20:52试图弄明白这一切。

00:20:55这是 Claude Code 给我们的。

00:20:57有点空。

00:20:58我不确定它是不是说背景，

00:21:01我想整个背景应该就是 WebGL 吧。

00:21:06它非常低调，

00:21:10我想这确实是一个可选方向。

00:21:14我是说，看起来还可以，但说实话，

00:21:19我原本想要稍微炫目一点的效果。

00:21:21所以第二次运行时，

00:21:24我告诉它让它更炫一点，

00:21:25并没有太大区别。

00:21:28尽管它真的很微妙。

00:21:31有一种像胶片颗粒的东西，

00:21:31几乎是从底部到顶部的模糊感。

00:21:34所以这是一个相当微妙的处理。

00:21:35你可以在底部看到，

00:21:38它跟踪了帧率。

00:21:40它使用了 25 万个粒子。

00:21:43所以，老实说它看起来很酷。

00:21:45只是不够炫。

00:21:47所以这绝对是审美问题。

00:21:49现在 Claude Code 端的 token 总数约为 17.5 万，

00:21:51而且所花时间比 Codex 里的 5.5 稍微长了一点。

00:21:54现在来看看 DeepSeek，

00:21:56此时它已经用了 11.6 万个 token。

00:21:58它用的时间最长，

00:22:01但总成本我们再说一次，不到一美元。

00:22:05大概就是这种粒子场之类的东西

00:22:07这是一个粒子场效果，

00:22:10多少能跟随我的鼠标。

00:22:12有意思。

00:22:15我想它可能会让人引发癫痫。

00:22:17老实说，除此之外，它很平庸。

00:22:21这个通量，X 射线这里颜色会变，

00:22:25但确实，基本就是创建了这个东西。

00:22:27在告诉 DeepSeek 进行下一次运行后，

00:22:29它给出了这个，

00:22:35现在它有一种奇怪的视差效果。

00:22:39背景里有一些蓝色的东西。

00:22:43还有一个像 UFO 的东西，

00:22:45它会响应鼠标，

00:22:46但确实，就这样了。

00:22:49总的来说，DeepSeek 的 token 数为 13 万，

00:22:53花费了 1.43 美元。

00:22:55经过这些测试，我们得到了什么结论？

00:22:58那么来谈谈最终结果。

00:23:02至于第一个测试，也就是飞行模拟器，获胜者很明确。

00:23:05那就是在Codex里运行的GPT 5.5。

00:23:08它比在Claude Code里运行的Opus 4.7更快。

00:23:13它不仅速度更快，而且最终结果也是最好的。

00:23:15DeepSeek在飞行模拟器测试中表现得很糟糕。

00:23:16它完全没能达到我们预期的效果。

00:23:18我得不停地给它提示，

00:23:21一遍又一遍地提示，才能让它稍微

00:23:25接近GPT 5.5的第一版效果，而Opus 4.7和Claude Code

00:23:29的表现则还算过得去。

00:23:32虽然刚开始确实没运行成功，

00:23:34但在经过几次提示后，你可以看出，

00:23:35我们能让它达到与

00:23:38GPT 5.5相当的水平。

00:23:43但那需要更多提示词。

00:23:46需要更多时间，

00:23:48而且最终成本更高。

00:23:50我们能把它调整到一种

00:23:52与 GPT 5.5 相当的水平。

00:23:54那需要更多的提示词。

00:23:55那需要花费更多的时间，

00:23:57最终成本也会更高。

00:23:59所以 5.5 完胜。

00:24:01关于 Web GPU 落地页，

00:24:03DeepSeek 在这里又陷入了挣扎。

00:24:04我不太喜欢这个结果。

00:24:06我实在看不出这到底想表达什么。

00:24:08当然，我给出的提示词不算太好，

00:24:10但如果这就是我们能得到的

00:24:13基准中等水平的结果，

00:24:16那我如果不亲自把控 DeepSeek，

00:24:19强制它做点什么，估计也就只能这样了。

00:24:22现在，当我们将 Opus 和 5.5 进行对比时，

00:24:24我会选择 Opus 4.7 和 Claude Code，

00:24:27看它是如何处理 Web GPU 这件事的。

00:24:29我觉得这更多是审美偏好的问题。

00:24:31没错，你可能会说 5.5 看起来更炫酷，

00:24:35但我认为它有点丑。

00:24:37再说一次，在所有这些测试中，我们的提示词都比较模糊，

00:24:41就是为了看看它们会走向什么样的方向。

00:24:43所以我绝对会把这一票投给 Opus，

00:24:46尽管它更贵一些，

00:24:48而且所花的时间也略长。

00:24:50如果给它们更具体的提示词，

00:24:55明确说明你想要实现什么，

00:24:575.5 确实完成了我们想要的效果。

00:24:59比如，它的确做出了一个 Web GPU 落地页。

00:25:02我只是觉得它太丑了。

00:25:04所以它仍然完成了任务。

00:25:06只是我认为它完成得不如 Opus 那般出色。

00:25:08现在，从大局来看，这一切说明了什么呢？

00:25:09好吧，我认为这对任何使用智能体编码器的人来说都是好消息。

00:25:11我们现在有了选择，对吧？

00:25:13你可以使用 Opus 和 Claude Code，

00:25:16或者使用 GPT 5.5 和 Codecs。

00:25:18选择哪一个都不会出错。

00:25:20我觉得目前这完全是个人的喜好问题。

00:25:23最棒的部分是，如果你选择了 Claude Code 的路线，

00:25:25它基本上同样适用于 Codecs。

00:25:28如果你选择了 Codecs 路线，

00:25:31它也基本上适用于 Claude Code。

00:25:33所以我并不认为存在厂商锁定的问题，

00:25:34好像说“我只学会了 Claude Code，

00:25:37我就不能用 Codecs，或者反过来”。

00:25:40事实完全不是这样。

00:25:42如果你用正确的方式去做，

00:25:44你真正学到的是 AI 的基础知识

00:25:45以及如何去构建产品。

00:25:46这适用于这两者。

00:25:48竞争越激烈，

00:25:49对我们消费者来说就越好。

00:25:51至于 DeepSeek，呃，我不知道。

00:25:53我并没有留下很深的印象。

00:25:54这可能是一种情况，比如说，好吧，

00:25:59如果是在执行一些更简单的任务，

00:26:00我们不需要像 Opus 那么强大的能力，

00:26:02或者不需要 GPT 5.5 的强大能力，

00:26:04那么 DeepSeek 还是有意义的。

00:26:06因为请记住，我们谈论的是一种

00:26:10成本低八倍的产品。

00:26:11当然，我不喜欢它做出来的 Web GPU 落地页，

00:26:13但显然，这是我们需要考虑的问题。

00:26:16也许是，也许不是。

00:26:19这很难真正地

00:26:21表达清楚并量化出来。

00:26:23但显然这是我们需要考虑的事情。

00:26:24所以，你知道，我不认为它真的能

00:26:27与 4.7 或 5.5 构成直接竞争。

00:26:30但我认为，如果你处理的是更简单的任务，

00:26:33而且你对 token 或成本非常敏感，

00:26:35那么嘿，也许 DeepSeek 对你来说是有意义的。

00:26:38这就是我今天想分享的内容。

00:26:41希望这能让大家对这三个模型

00:26:42以及它们如何相互比较有更清晰的认识。

00:26:45我认为这是一个身处这个领域的好时代。

00:26:47竞争越多，对每个人都越好。

00:26:49所以一如既往，如果你想亲自体验

00:26:51Claude Code 大师课，

00:26:53请务必查看 Chase AI Plus。

00:26:55描述栏里有相关链接。

00:26:56我们下次见。

00:26:58拜拜。

Key Takeaway

GPT 5.5目前是编码任务中性能最强且最稳健的模型，而DeepSeek V4凭借其极高的性价比，成为处理简单任务时的可行替代方案。

Highlights

GPT 5.5在每百万输出token的成本为30美元，相比Anthropic的25美元更昂贵，而DeepSeek V4仅需3.48美元。
在Terminal-bench 2.0测试中，GPT 5.5以87.2分领先，表现优于Mythos和DeepSeek V4。
DeepSeek V4的参数量高达1.6万亿，虽然API成本比竞争对手低八倍，但对硬件要求极高。
GPT 5.5在飞行模拟器构建任务中表现最稳健，能在首轮生成中提供基本可玩的功能，而DeepSeek V4在复杂任务中频繁失败。
Claude Code在复杂计划制定方面耗时最长但最详尽，适合对项目架构有极高要求的开发任务。
在WebGPU落地页构建测试中，Claude Code的表现审美更符合预期，尽管提示词较为模糊。

Timeline

模型成本与基准测试概览

GPT 5.5的输出成本为每百万token 30美元，比Anthropic版本贵20%。
DeepSeek V4的成本仅为GPT 5.5的八分之一左右。
Opus 4.7在长上下文检索任务中出现性能倒退，表现逊色于GPT 5.5和DeepSeek。

模型价格体系存在显著差异，DeepSeek V4在成本端具有压倒性优势。尽管GPT 5.5单价较高，但OpenAI声称其更高的性能可以减少整体token消耗。基准测试显示，GPT 5.5在Terminal-bench 2.0中占据主导地位，而Opus在SWE-bench等编码任务中依然保持竞争力。

飞行模拟器构建对比测试

GPT 5.5通过Codecs在十分钟内生成了具备基础物理交互的飞行模拟器。
Claude Code生成的方案最为详尽，涵盖了失速警告等复杂逻辑，但落地执行时控制难度较大。
DeepSeek V4在该任务中表现极差，多次生成内容无法运行，且无法处理基本逻辑。

通过构建3JS飞行模拟器评估模型的单次生成能力和迭代修复能力。GPT 5.5展现了优秀的执行力，即便提示词模糊也能产出可操作的结果。Claude Code虽然方案设计极其细致，但实际操控体验欠佳。DeepSeek V4无法在未经极度精确指导的情况下完成开发任务。

WebGPU落地页渲染测试

GPT 5.5生成的着色器效果虽具有交互性，但视觉亮度过高导致可用性受限。
Claude Code构建的WebGPU落地页审美较为细腻，更符合高端获奖网页的设计预期。
DeepSeek V4在此类高算力需求任务中产出的代码质量较低，无法实现流畅的交互效果。

测试重点转向WebGPU着色器渲染，旨在评估模型处理复杂视觉逻辑的能力。Claude Code胜在审美把控，提供了更为稳重和具备艺术感的视觉输出。GPT 5.5虽能快速实现要求，但设计细节有待优化。DeepSeek V4再次因无法平衡复杂逻辑与设计美感而表现平庸。

综合结论与模型选择建议

GPT 5.5在生产力任务中提供最稳健的表现，是当前编码任务的首选。
Claude Code与Opus 4.7组合适合对审美和架构设计要求较高的专业开发人员。
DeepSeek V4适合成本极度敏感且任务复杂度较低的场景。

综合对比显示，GPT 5.5在执行速度和结果稳健性上完胜。开发者无需担心厂商锁定，因为Claude Code与Codecs工具链的基础逻辑是通用的。DeepSeek虽性能欠佳，但在预算受限的简单任务中仍有其特定价值。

Community Posts

Write about this video