我测试了 DeepSeek V4 vs Claude Code vs Codex

CChase AI
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00在过去24小时内,我们迎来了巨大的更新,
00:00:02针对全球两个最大的AI模型。
00:00:04首先,GPT 5.5发布了,
00:00:07它声称在某些基准测试分数上
00:00:10超越了Claude的Mythos。
00:00:12其次,DeepSeek V4也发布了,
00:00:15这是一个开源、开放权重的模型,
00:00:18其基准测试足以与这些前沿大厂竞争。
00:00:22那么,面对这么多可选的新模型,
00:00:24作为普通用户,你应该怎么办呢?
00:00:27好吧,今天我将帮你回答这个问题,
00:00:29因为我将把Opus 4.7、GPT 5.5,
00:00:33以及DeepSeek V4放在一起进行对比,
00:00:36这样你就能看出哪一个才真正适合你。
00:00:39现在,在我们开始这项头对头的测试之前,
00:00:41即在Codecs内部对比GPT 5.5,
00:00:45在Open Code内部对比DeepSeek V4,
00:00:47以及在Claude Code内部对比Opus 4.7,
00:00:51让我们先快速查看一下基准测试,
00:00:53尤其是过去24小时内发布的这两个最新模型。
00:00:54现在,我们先来谈谈成本。
00:00:56如你所知,DeepSeek V4,
00:00:58是一个开源、开放权重的模型,
00:01:00但这并不意味着你可以在自己的电脑上运行它,
00:01:01因为它太庞大了。
00:01:04我指的是1.6万亿参数。
00:01:05你需要非常强大的硬件才能运行它。
00:01:08所以我们仍然必须为它付费。
00:01:10我们还是得使用API,
00:01:11但它比竞争对手便宜得多,
00:01:13大约便宜了八倍。
00:01:15而在三个模型中,
00:01:18全新的GPT 5.5实际上是最昂贵的,
00:01:19这有点令人惊讶,因为总的来说,
00:01:22OpenAI的价格一直比其Anthropic的竞争对手便宜。
00:01:24在每输出100万token的成本方面,
00:01:28GPT 5.5需要30美元。
00:01:30对于Anthropic,需要25美元。
00:01:32而对于DeepSeek,只需要3.48美元。
00:01:35现在,如果我们谈论输入token,
00:01:38这在整体中所占比例较小,
00:01:41GPT 5.5和Opus 5.7的价格是一样的。
00:01:44每100万输入token需要5美元。
00:01:46而对于DeepSeek,大约是1.70美元。
00:01:49所以无论是输入还是输出,它都便宜得多。
00:01:53话虽如此,对于5.5版本来说,
00:01:57它的价格大约是5.4版本的两倍。
00:02:01然而,OpenAI声称它实际上使用了更少的token,
00:02:03得益于它的强大性能。
00:02:06所以虽然价格是5.4的两倍,
00:02:10他们表示,在实际的token消耗和实际成本方面,
00:02:11完成同一个任务,最终只会贵出20%左右。
00:02:14所以请记住这一点。
00:02:17我们已经讨论了成本。
00:02:20现在让我们来谈谈基准测试。
00:02:21这些模型在纸面上表现如何?
00:02:24我知道我们对基准测试通常已经麻木了。
00:02:25我们确实需要持保留态度,
00:02:26但仍然值得一看,
00:02:27特别是当我们查看每个参与者
00:02:31在同一基准测试中报告的数据时。
00:02:32在编码类别中有三个基准测试,
00:02:33这三个模型都报告了数字。
00:02:36分别是SWE-bench Verified、SWE-bench Pro
00:02:39和Terminal-bench 2.0。
00:02:42对于SWE-bench Verified和SWE-bench Pro,
00:02:43Opus是那里的赢家。
00:02:46在Terminal-bench 2.0上,GPT以87.2分遥遥领先,
00:02:48顺便说一下,这个分数
00:02:50高于Anthropic为Mythos报告的分数。
00:02:52哦,不好意思,是Mythos。
00:02:56这真是太疯狂了。
00:02:59你知道,他们无法发布的那个绝密模型,
00:03:02在Terminal-bench 2上表现竟然比GPT 5.5还要差。
00:03:03现在Terminal-bench 2.0是这里最大的异常值。
00:03:05Opus 4.7和V4 Pro落后了很多,
00:03:07但看看Opus 4.7与V4 Pro的对比。
00:03:10差距不到两分,而价格却便宜了八倍。
00:03:13你在SWE-bench Verified和SWE-bench Pro上也能看到类似的情况。
00:03:16是的,Opus赢了。
00:03:20但当我们比较第二名和第三名时,
00:03:23而V4总是第三名,
00:03:24并没有我们预想的那么大差距。
00:03:26我的意思是,五分并不是什么都没有,你知道,
00:03:28在SWE-bench Verified上,从85分到86分。
00:03:31但再说一遍,便宜了八倍,而且是开源的。
00:03:33你知道,如果我们不需要最强的性能,
00:03:36这里确实有一些实际的权衡。
00:03:38另一个值得谈论的话题是长上下文,
00:03:41Opus 4.7在那里的数字表现非常糟糕,
00:03:45甚至比4.6还要差得多,
00:03:46这简直让我大吃一惊。
00:03:49当我们谈论长上下文时,
00:03:51特别是试图检索
00:03:5550万到100万token之间的信息时,
00:03:584.7的表现实际上很糟糕。
00:04:00比DeepSeek和GPT 5.5差远了。
00:04:01现在,你可以就
00:04:03为什么你会在50万到100万token的范围进行操作展开讨论。
00:04:06首先,究竟有多少人真正在那里操作,
00:04:08无论你使用什么模型,在那个量级下都会遇到上下文衰减的问题。
00:04:12在那个位置都会遇到上下文腐烂问题。
00:04:14但很有趣的是,无论什么原因,
00:04:17我们确实看到了一些退步,
00:04:20特别是在Anthropic模型上。
00:04:22但总体来说,我认为结论是
00:04:245.5非常强大。
00:04:26它在某些指标上击败了Opus 4.7,
00:04:27在某些指标上输了,
00:04:29但它是一个极其稳健的模型。
00:04:32最重要的是,V4 Pro,你知道,
00:04:33总的来说还是有点落后。
00:04:36它在竞争范围内,同时又便宜得多,
00:04:37这对于普通客户来说再次是一个很好的选择。
00:04:39因为目前看来,你并没有太多选择,
00:04:42在开源方面能真正与之抗衡的很少。
00:04:45现在让我们进入这三个模型的实际头对头测试。
00:04:48我们将为每个模型使用一个工具框架。
00:04:52对于5.5,我们将使用Codecs。
00:04:54对于Opus 4.7,我们将使用Claude Code。
00:04:56对于DeepSeek V4 Pro,我使用的是Open Code。
00:04:59第一个测试,我们将要做的是
00:05:00让他们用3JS创建一个
00:05:02能在浏览器中运行的飞行模拟器。
00:05:04你可以看到这里的提示词。
00:05:07我说,我希望它飞起来的感觉很好。
00:05:10我希望它有一定的重量感。
00:05:11我希望有强烈的视觉效果,并且我希望它使用它认为正确的
00:05:14结构和工具。
00:05:17所以,要求足够直接,让它们知道该做什么,
00:05:18但又有足够的余地,让我们能够看到模型之间的差异。
00:05:20虽然我们要看看它们能
00:05:21单次完成到什么程度,但我们将进行多次
00:05:25迭代,并使用后续提示。
00:05:27因为尽管看看它单次表现有多好很酷,
00:05:30但那不是我们现实生活中工作的方式,不是吗?
00:05:33我想看看当我给出后续提示时它的表现,
00:05:34以及它需要多久才能达到我喜欢的程度。
00:05:36当我们比较这三个模型时,
00:05:38我主要看四个方面。
00:05:40首先是时间。
00:05:44构建它需要多长时间?
00:05:46成本,我们使用了多少token?
00:05:49质量,它有多好?
00:05:52第四是感觉。
00:05:54这与质量有关。
00:05:55这是非常主观的。
00:05:57我实际上更喜欢哪一个?
00:05:58另外需要注意的是,这三个模型、这三个工具框架
00:06:01使用的也是完全相同的技能。
00:06:02所以让我们从DeepSeek开始,看看它问我们的问题。
00:06:04它在问我们想要什么样的飞行模型。
00:06:06我们选择完全模拟。
00:06:06它推荐海洋和岛屿作为地形。
00:06:09我们就选那个。
00:06:11接下来它在问摄像机偏好。
00:06:13我们两者都要。
00:06:16看看它是否能为我们提供一个切换按钮,
00:06:18支持第一人称和第三人称。
00:06:20我们接受它的推荐工具偏好。
00:06:22对于飞机和视觉本身,我们只选一个低多边形模型。
00:06:23现在切换到Codecs,类似的问题。
00:06:25尽管它只问了我们三个问题。
00:06:26问这种飞机应该为哪种飞行进行优化?
00:06:27我们选硬模拟。
00:06:29哪种可玩体验对浏览器最重要?
00:06:32我们做岛屿起飞循环。
00:06:33它们都有同一个方案确实挺有趣的。
00:06:35以及摄像机和飞机演示?
00:06:38我也打算为这个做切换功能。
00:06:40对于Claude Code,我们将为
00:06:42感觉、海洋和岛屿输入做研究模拟学习。
00:06:44我们将使用键盘和鼠标。
00:06:48它不会让它开始工作。
00:06:50所以计划模式大体上,在三者之间非常相似。
00:06:52几乎都是相同的问题,比如,
00:06:54你想要什么样的物理效果?
00:06:56你想要什么样的地形?
00:06:58你想要什么样的摄像机角度?
00:07:02所以没有太大的差异。
00:07:04让我们看看它们在计划方面拿出了什么。
00:07:05好了,三个计划都完成了。
00:07:09所以让我们很快地过一遍每一个,
00:07:11看看它们之间的一些差异。
00:07:12我们在这里看的第一个是DeepSeek。
00:07:13就它制定的计划而言,它非常简单。
00:07:15它给了我们项目结构,
00:07:17然后很快地讨论了飞行物理、
00:07:19环境、摄像机和HUD叠加,
00:07:20实际上只有几个要点。
00:07:22另一方面,当我们看Codecs内部的5.5时,
00:07:24真的只有寥寥几个要点。
00:07:26深入探讨了实施细节、测试计划,
00:07:29以及它为我们拼凑出的假设。
00:07:31然后我们有Claude Code的计划,这是耗时最长的。
00:07:33花了大约五分钟,但绝对是最详尽的,
00:07:35因为它包含了上下文、技术栈、
00:07:37布局,讨论了飞行模型。
00:07:40它甚至深入到了实际的不同时刻,
00:07:43讨论失速,比如失速警报器。
00:07:46以及我们所做的假设
00:07:47它为我们详细阐述了这一切。
00:07:49接着是 Claude Code 的方案,它耗时最长。
00:07:50花了大约五分钟,但绝对是最详尽的
00:07:53因为它涵盖了上下文和技术栈。
00:07:55方案里谈到了飞行模型。
00:07:57它深入到了具体的各个飞行瞬间,
00:08:00谈到了失速,比如失速蜂鸣器。
00:08:02它做得非常、非常细致。
00:08:03深入到了控制、场景、模组、
00:08:06我们要使用的实际飞机、性能,
00:08:08内容还在不断展开。
00:08:10所以非常详尽。
00:08:11现在我们要让这三者执行各自的方案,
00:08:14看看最终结果会是什么样。
00:08:15Codecs 里的 GPT 5.5 是第一个完成的。
00:08:19让我们来看看它做出来的效果。
00:08:20这就是它为我们制作的飞行模拟器。
00:08:22天空中有一些云彩。
00:08:26上方看起来像是一个迎角指示器。
00:08:31下方有我们的速度显示,
00:08:34让我们看看能不能真的让这架飞机
00:08:35起飞。
00:08:36我注意到这里根本没有类似跑道的东西。
00:08:38只是一片草地。
00:08:39本来以为会是个岛屿之类的东西。
00:08:42虽然当镜头有点发疯的时候,
00:08:45你能看到下面那一瞬间的跑道。
00:08:48好了,我们要失速了,而且我们……
00:08:50我们连地都离不开,对吧?
00:08:51所以这个实际操作起来
00:08:54有点困难。
00:08:55所以我打算做的是,给它
00:09:00第二个提示,要求它让操作变得简单一点,
00:09:03因为这里的设置太复杂了,
00:09:05非常难。
00:09:06所以我写道,它真的很难驾驶。
00:09:08能不能让它更容易使用?
00:09:10也就是稍微街机化一点。
00:09:12而且图形方面也可以再提升一下。
00:09:15来看看效果如何。
00:09:16值得一提的是,5.5 大约花了七分钟
00:09:21才为我们完成了第一次生成。
00:09:23而且消耗了 63,000 个 token。
00:09:26好了,它说它让飞行变得容易了一点,
00:09:28并更新了图形。
00:09:29让我们看看第二次优化的效果。
00:09:32这就是我们得到的。
00:09:32图形看起来确实好多了,
00:09:34但让我们看看这次能不能真的
00:09:36从跑道上起飞。
00:09:37好了,油门 100%,
00:09:4150,60,70。
00:09:43塞斯纳飞机的抬轮速度是多少?
00:09:46好了,70,80,90。
00:09:49我们现在应该能离地了。
00:09:51好吧,方向反了。
00:09:53走啊,起飞,快起飞。
00:09:56不,这大概又要让我失速了,是吧?
00:09:58没错,失速了。
00:09:59好吧,这还需要改进。
00:10:02那么让我们再给 Codex 一次机会。
00:10:05再给 5.5 一次机会
00:10:07让它真正变得可玩。
00:10:08所以我告诉它,我甚至无法让飞机
00:10:10离开地面进入飞行状态。
00:10:11我们绝对需要让起飞和真正驾驶它
00:10:12变得简单。
00:10:14好的,它说它修复了起飞问题。
00:10:16看来之前是刹车锁死了。
00:10:19我不知道是不是因为这个我们才无法起飞。
00:10:21噢,它没有自动设置好起飞状态。
00:10:24襟翼也是,这简直是,
00:10:25我们之前处于超级模拟模式。
00:10:29但这是我们飞行模拟器的第三次尝试。
00:10:32看看表现如何。
00:10:34能起飞了吗?
00:10:36哦,这次我们在跑道上弹跳着,
00:10:37有点什么东西。
00:10:38好了,酷,我们离地了。
00:10:41我们真的在移动了。
00:10:44看看能不能穿过其中一个圆环。
00:10:45我是说,图形不算太差,你知道,
00:10:49对于一个在不到十分钟内生成的东西来说。
00:10:52它似乎相当准确,因为它,你知道,
00:10:56它给了我垂直,你知道,
00:10:59底部每分钟的英尺数,
00:11:00我的实际高度、节数、航向、离地高度。
00:11:04所以它在追踪一切方面
00:11:06相对复杂。
00:11:08我是说,前面这个小指示器,
00:11:10看起来像是个迎角
00:11:13指示器,这挺酷的。
00:11:14所以它有一些不错的功能。
00:11:18实际的控制还是有点怪异。
00:11:21如你所见,我根本无法控制它,
00:11:23但总体来说,还不错。
00:11:25你知道,我们甚至可以像神风特攻队一样
00:11:27以每分钟 18,000 英尺的速度坠毁看看会发生什么。
00:11:31但总的来说,你知道,对于 66,000 个 token,
00:11:36大约 10 到 15 分钟左右,
00:11:40考虑到来回的调整,
00:11:41我觉得这相当不错。
00:11:42现在让我们来看看 DeepSeek。
00:11:44它花了大约十分钟来做这件事。
00:11:46在 token 方面,63,000 个,花费 44 美分。
00:11:51所以 44 美分,十分钟。
00:11:53这就是 DeepSeek 为我们做出来的东西。
00:11:56我完全不知道。
00:12:00我在看什么。
00:12:03这应该是第三人称。
00:12:06这应该是驾驶舱。
00:12:07显然我们 DeepSeek 的第一次生成
00:12:11是另一场灾难。
00:12:13所以我告诉 DeepSeek 模拟器是一团糟。
00:12:16图形完全是乱码的,
00:12:17我根本无法驾驶任何东西。
00:12:20请修复。
00:12:21这是我们第二次尝试的结果。
00:12:24我还是完全不知道。
00:12:26完全没有头绪。
00:12:28DeepSeek 这到底是什么。
00:12:30噢,嘿,有一架飞机。
00:12:32噢,有东西在那里。
00:12:33我,是的,这,这太惨了。
00:12:38老实说,我觉得即使给它另一个提示
00:12:42来做这件事,我需要变得非常、非常具体
00:12:44关于我们想做什么,这再次,
00:12:47比我们在 Codex 上做的要逊色不少。
00:12:49像那时虽然是非常平淡的提示,
00:12:51我至少能得到一些接近的东西,
00:12:53即使是在第一次生成时。
00:12:54很明显它在图形处理上
00:12:57完全陷入了挣扎。
00:12:58我们简直是,我甚至不知道该怎么形容这个,
00:13:01但嘿,它非常便宜。
00:13:03所以现在让我们看看 Claude Code
00:13:07能够为我们提供什么参考。
00:13:09它花了 13 分钟才真正执行完方案。
00:13:12方案本身花了五分钟。
00:13:13所以我们算它花了 20 分钟才做出第一次版本。
00:13:17至于 token 总量,
00:13:19这次运行消耗了大约 15% 加上方案前的 5%。
00:13:22所以我们看着,抱歉,
00:13:24我们看着的是 11% 的上下文加上之前的 5%。
00:13:28所以算 20 分钟,150,000 个 token 给 Claude Code,
00:13:33这绝对是最昂贵
00:13:34也是最慢的一个。
00:13:36这就是 Claude Code 的尝试。
00:13:39不知何故,我们瞬间就在空中了。
00:13:43我们正在失速。
00:13:44我们在仪表飞行状态(IFR)。
00:13:45我不知道发生了什么。
00:13:48我们快要撞上什么东西了。
00:13:50能挽救吗?
00:13:51能从俯冲中拉起来吗?
00:13:53不行,我们在失速,不,我们要完了。
00:13:54好的,这很有趣。
00:13:56它再次瞬间把我们弹射到了空中。
00:14:00我们在云层里。
00:14:02我们在失速。
00:14:03我不知道发生了什么。
00:14:05我们需要,我们需要第二次版本。
00:14:08所以我写道,加载时我瞬间被抛入空中。
00:14:11太难控制了。
00:14:12我想要在跑道上开始,我想要它更容易驾驶。
00:14:15哦,对了,改进一下那些图形。
00:14:17它大约花了四分钟,但做了一些更改。
00:14:20我们将从跑道上出生。
00:14:22它更改了起落架。
00:14:23所以现在是前三点式起落架和其他一些东西。
00:14:24让我们看看它看起来是什么样。
00:14:26好吧,这就是它。
00:14:27我们再次立即被抛入浓雾中。
00:14:29我正试图控制这东西。
00:14:31我只是,是的,完全没法控制。
00:14:33好吧,我们要给,
00:14:34我们要给 Claude Code 再一次机会。
00:14:37所以我告诉它,它还是瞬间把我弹射
00:14:39到空中。
00:14:40我说,让我们采用更街机感的
00:14:42操控方式。
00:14:43我想我们可能应该在
00:14:44最初对这三者进行提示时就这样做。
00:14:46我认为追求更真实的模拟类型,
00:14:50它真的很难,
00:14:53以一种用户友好的方式来做到这一点。
00:14:57我认为它在底层逻辑上可能做得不错,
00:14:59比如,好的,比如迎角。
00:15:01好的,你在这一,你知道,
00:15:02角度相对于速度失速了等等。
00:15:04但实际在电脑上进行操作
00:15:07基本上是不可能的。
00:15:09虽然我觉得雾气效果真的很奇怪。
00:15:12让我们看看经过第二轮提示后
00:15:15它是否能做得好一点,
00:15:16因为现在 GPT 5.5 做得好得多。
00:15:20所以 Claude Code 做了一些更改,
00:15:22让它变得更加用户友好。
00:15:23让我们看看这次我是否
00:15:24这次我还是在考仪表等级。
00:15:26没错,我们继续。
00:15:28我们还在考仪表等级。
00:15:30我们在跑道这里,但我能看清。
00:15:33你知道,我可以检查我的仪表盘。
00:15:35好了,我们要离开跑道了。
00:15:37好的,没问题。
00:15:42等等,为什么跑道上有一棵树?
00:15:44我正试着起飞。
00:15:46我能拉升吗?
00:15:47我能抬机头吗?
00:15:49点击画布锁定鼠标,什么鬼?
00:15:53哦,我们已经在空中了。
00:15:54不,不,我们坠机了。
00:15:57所以,我觉得结果很明显了。
00:16:02GPT 5.5 绝对是赢家,我觉得。
00:16:06Claude Code 排在第二。
00:16:08我会给它第二名。
00:16:10你知道,它确实很吃力,
00:16:13即使用了我们给的提示词。
00:16:14老实说,我们给的提示词不算好。
00:16:16我觉得如果有更多时间、更好的提示词,
00:16:19多来回几次,
00:16:20我们本可以达到想要的效果。
00:16:21至少它有飞机,也有跑道。
00:16:25虽然跑道上有树,
00:16:26但它有我们需要的东西,
00:16:29而用 OpenCODE 的 DeepSeek,
00:16:32我完全不知道发生了什么。
00:16:34那简直是一团糟。
00:16:35我觉得我得从头开始,
00:16:36给它一个非常具体的提示词。
00:16:38它甚至都无法进行调试,
00:16:39但 GPT 5.5 一上来,你知道,
00:16:42即便是在提示词很模糊的情况下,
00:16:44我觉得它表现得非常好。
00:16:455.5 总共用了 6.6 万个 token。
00:16:48我们看看 Opus 这里加起来,
00:16:52大约是 20 万个 token。
00:16:53所以基本是四分之一的 token,四分之一的成本。
00:16:56而且速度更快。
00:16:58我是说,到这一步,我甚至不在乎
00:16:59OpenCODE 实际上比 GPT 5.5 花的时间还长。
00:17:03而且它就是烂,实话实说,就是很烂。
00:17:07现在进入第二个测试。
00:17:10这次我们要请它们
00:17:12创建一个展示 WebGPU 着色器效果的落地页,
00:17:16使用 Three.js。
00:17:18WebGPU 着色器效果是你会在
00:17:21获奖网站上看到的那种。
00:17:23我是指像 Igloo 之类的网站,这一类,
00:17:26拥有非常高端的图形效果。
00:17:28看起来像个电子游戏。
00:17:29它本质上是利用你电脑的显卡
00:17:32来渲染这一切。
00:17:34我不指望它们中的任何一个能达到
00:17:37这里所看到的水平,但我很想看看它们
00:17:40能用着色器技术做到什么程度。
00:17:42这绝对比你那种基础的
00:17:45SaaS 模板落地页高出一个档次。
00:17:46我想看看它们能做什么,并推动它们
00:17:48挑战网页设计的极限。
00:17:50我已经给了它们一个技能,它实际上分解了
00:17:53如何做到这一点。
00:17:55所以并不是它们完全摸不着头脑,
00:17:57而且大家都没有明显的优势。
00:18:00我唯一告诉它们的是,我想要现代感
00:18:02和视觉冲击力,那种在获奖作品里会看到的,
00:18:05并且要充分利用 GPU 计算。
00:18:08所以它们可以选择任何喜欢的技术栈和项目结构,
00:18:10并在首屏概念、UI 和交互上做出明智的判断。
00:18:13和第一个测试一样,它们都在计划模式下。
00:18:15那么开始吧。
00:18:17好的,它们都完成了计划,有趣的是,
00:18:18它们都没有问我任何问题,
00:18:21即便我们把它们设在了计划模式。
00:18:22那么我们先来看看 GPT 5.5。
00:18:24它告诉我们它要做一个全屏的
00:18:28交互式 GPU 驱动的首屏。
00:18:30概念将是一个动态信号场,
00:18:32带有一些密集的粒子效果。
00:18:34我们来看看最后效果如何。
00:18:36总体来说是一个极简获奖风格的落地页文案。
00:18:38完全交互式的 WebGPU 场景,
00:18:41带有指针响应式计算模拟。
00:18:43好了,DeepSeek 的计划很简短,
00:18:46就像我们在飞行模拟器里看到的那样。
00:18:50希望这次我们能得到更好的输出,
00:18:53它提出了一个带有 7.5 万个 GPU 计算粒子的首屏部分。
00:18:54我猜它们可能都会选择
00:18:58某种粒子主题的首屏。
00:19:01它将会有鼠标交互集成。
00:19:04它会有一个初始化步骤。
00:19:08然后我们应该会看到像辉光、
00:19:10色差、自定义晕影和胶片颗粒之类的效果。
00:19:13看看最后实际效果如何。
00:19:16然后是 Opus 4.7 的计划,又是
00:19:19搞这种带辉光的粒子效果,
00:19:21而且会与鼠标交互。
00:19:23所以看看这些东西看起来有没有区别,
00:19:25因为从表面看,它们的计划听起来都很像。
00:19:27完成第一个的是 5.5。
00:19:29花了大约 6 分钟。
00:19:32在 token 方面,我们用了 10.7 万个。
00:19:34那么看看它为我们构建了什么。
00:19:37这是它为我们创建的内容。
00:19:40嗯,这太亮了。
00:19:42所以甚至很难看清实际的粒子,
00:19:45但你知道,当我们上下滚动时,
00:19:47背景确实有一个动画,
00:19:50以及一些细微的颜色变化。
00:19:52看起来现在我们的鼠标应该
00:19:56能吸引粒子。
00:20:00我们有,我把它移到这边。
00:20:01它提供了一些选项,比如排斥和漂移。
00:20:03但这真的很难看清,
00:20:08因为它太亮了。
00:20:11所以我告诉它,因为太亮了,很难看清粒子。
00:20:12它还占用了太多的首屏技术资源。
00:20:14能不能把亮度调低一点,
00:20:14并且把它往右边推一点?
00:20:16因为它现在有点太显眼了。
00:20:18你甚至无法阅读左侧的文字,
00:20:20就因为这些粒子实在是太亮了。
00:20:23这是第二次运行后的更新。
00:20:25稍微好了一点。
00:20:27它没那么刺眼了,给文字留出了一些空间。
00:20:30虽然我想说它几乎有点模糊,
00:20:31但这并不坏。
00:20:35它完成了我们要它做的事情,
00:20:39考虑到这个有些模糊的问题。
00:20:41所以我并没有被它的设计惊艳到,
00:20:44但也并不反感。
00:20:46现在来看看 Claude Code,
00:20:49因为在我们做这一切的时候,
00:20:51DeepSeek 还在那里苦战,
00:20:52试图弄明白这一切。
00:20:55这是 Claude Code 给我们的。
00:20:57有点空。
00:20:58我不确定它是不是说背景,
00:21:01我想整个背景应该就是 WebGL 吧。
00:21:06它非常低调,
00:21:10我想这确实是一个可选方向。
00:21:14我是说,看起来还可以,但说实话,
00:21:19我原本想要稍微炫目一点的效果。
00:21:21所以第二次运行时,
00:21:24我告诉它让它更炫一点,
00:21:25并没有太大区别。
00:21:28尽管它真的很微妙。
00:21:31有一种像胶片颗粒的东西,
00:21:31几乎是从底部到顶部的模糊感。
00:21:34所以这是一个相当微妙的处理。
00:21:35你可以在底部看到,
00:21:38它跟踪了帧率。
00:21:40它使用了 25 万个粒子。
00:21:43所以,老实说它看起来很酷。
00:21:45只是不够炫。
00:21:47所以这绝对是审美问题。
00:21:49现在 Claude Code 端的 token 总数约为 17.5 万,
00:21:51而且所花时间比 Codex 里的 5.5 稍微长了一点。
00:21:54现在来看看 DeepSeek,
00:21:56此时它已经用了 11.6 万个 token。
00:21:58它用的时间最长,
00:22:01但总成本我们再说一次,不到一美元。
00:22:05大概就是这种粒子场之类的东西
00:22:07这是一个粒子场效果,
00:22:10多少能跟随我的鼠标。
00:22:12有意思。
00:22:15我想它可能会让人引发癫痫。
00:22:17老实说,除此之外,它很平庸。
00:22:21这个通量,X 射线这里颜色会变,
00:22:25但确实,基本就是创建了这个东西。
00:22:27在告诉 DeepSeek 进行下一次运行后,
00:22:29它给出了这个,
00:22:35现在它有一种奇怪的视差效果。
00:22:39背景里有一些蓝色的东西。
00:22:43还有一个像 UFO 的东西,
00:22:45它会响应鼠标,
00:22:46但确实,就这样了。
00:22:49总的来说,DeepSeek 的 token 数为 13 万,
00:22:53花费了 1.43 美元。
00:22:55经过这些测试,我们得到了什么结论?
00:22:58那么来谈谈最终结果。
00:23:02至于第一个测试,也就是飞行模拟器,获胜者很明确。
00:23:05那就是在Codex里运行的GPT 5.5。
00:23:08它比在Claude Code里运行的Opus 4.7更快。
00:23:13它不仅速度更快,而且最终结果也是最好的。
00:23:15DeepSeek在飞行模拟器测试中表现得很糟糕。
00:23:16它完全没能达到我们预期的效果。
00:23:18我得不停地给它提示,
00:23:21一遍又一遍地提示,才能让它稍微
00:23:25接近GPT 5.5的第一版效果,而Opus 4.7和Claude Code
00:23:29的表现则还算过得去。
00:23:32虽然刚开始确实没运行成功,
00:23:34但在经过几次提示后,你可以看出,
00:23:35我们能让它达到与
00:23:38GPT 5.5相当的水平。
00:23:43但那需要更多提示词。
00:23:46需要更多时间,
00:23:48而且最终成本更高。
00:23:50我们能把它调整到一种
00:23:52与 GPT 5.5 相当的水平。
00:23:54那需要更多的提示词。
00:23:55那需要花费更多的时间,
00:23:57最终成本也会更高。
00:23:59所以 5.5 完胜。
00:24:01关于 Web GPU 落地页,
00:24:03DeepSeek 在这里又陷入了挣扎。
00:24:04我不太喜欢这个结果。
00:24:06我实在看不出这到底想表达什么。
00:24:08当然,我给出的提示词不算太好,
00:24:10但如果这就是我们能得到的
00:24:13基准中等水平的结果,
00:24:16那我如果不亲自把控 DeepSeek,
00:24:19强制它做点什么,估计也就只能这样了。
00:24:22现在,当我们将 Opus 和 5.5 进行对比时,
00:24:24我会选择 Opus 4.7 和 Claude Code,
00:24:27看它是如何处理 Web GPU 这件事的。
00:24:29我觉得这更多是审美偏好的问题。
00:24:31没错,你可能会说 5.5 看起来更炫酷,
00:24:35但我认为它有点丑。
00:24:37再说一次,在所有这些测试中,我们的提示词都比较模糊,
00:24:41就是为了看看它们会走向什么样的方向。
00:24:43所以我绝对会把这一票投给 Opus,
00:24:46尽管它更贵一些,
00:24:48而且所花的时间也略长。
00:24:50如果给它们更具体的提示词,
00:24:55明确说明你想要实现什么,
00:24:575.5 确实完成了我们想要的效果。
00:24:59比如,它的确做出了一个 Web GPU 落地页。
00:25:02我只是觉得它太丑了。
00:25:04所以它仍然完成了任务。
00:25:06只是我认为它完成得不如 Opus 那般出色。
00:25:08现在,从大局来看,这一切说明了什么呢?
00:25:09好吧,我认为这对任何使用智能体编码器的人来说都是好消息。
00:25:11我们现在有了选择,对吧?
00:25:13你可以使用 Opus 和 Claude Code,
00:25:16或者使用 GPT 5.5 和 Codecs。
00:25:18选择哪一个都不会出错。
00:25:20我觉得目前这完全是个人的喜好问题。
00:25:23最棒的部分是,如果你选择了 Claude Code 的路线,
00:25:25它基本上同样适用于 Codecs。
00:25:28如果你选择了 Codecs 路线,
00:25:31它也基本上适用于 Claude Code。
00:25:33所以我并不认为存在厂商锁定的问题,
00:25:34好像说“我只学会了 Claude Code,
00:25:37我就不能用 Codecs,或者反过来”。
00:25:40事实完全不是这样。
00:25:42如果你用正确的方式去做,
00:25:44你真正学到的是 AI 的基础知识
00:25:45以及如何去构建产品。
00:25:46这适用于这两者。
00:25:48竞争越激烈,
00:25:49对我们消费者来说就越好。
00:25:51至于 DeepSeek,呃,我不知道。
00:25:53我并没有留下很深的印象。
00:25:54这可能是一种情况,比如说,好吧,
00:25:59如果是在执行一些更简单的任务,
00:26:00我们不需要像 Opus 那么强大的能力,
00:26:02或者不需要 GPT 5.5 的强大能力,
00:26:04那么 DeepSeek 还是有意义的。
00:26:06因为请记住,我们谈论的是一种
00:26:10成本低八倍的产品。
00:26:11当然,我不喜欢它做出来的 Web GPU 落地页,
00:26:13但显然,这是我们需要考虑的问题。
00:26:16也许是,也许不是。
00:26:19这很难真正地
00:26:21表达清楚并量化出来。
00:26:23但显然这是我们需要考虑的事情。
00:26:24所以,你知道,我不认为它真的能
00:26:27与 4.7 或 5.5 构成直接竞争。
00:26:30但我认为,如果你处理的是更简单的任务,
00:26:33而且你对 token 或成本非常敏感,
00:26:35那么嘿,也许 DeepSeek 对你来说是有意义的。
00:26:38这就是我今天想分享的内容。
00:26:41希望这能让大家对这三个模型
00:26:42以及它们如何相互比较有更清晰的认识。
00:26:45我认为这是一个身处这个领域的好时代。
00:26:47竞争越多,对每个人都越好。
00:26:49所以一如既往,如果你想亲自体验
00:26:51Claude Code 大师课,
00:26:53请务必查看 Chase AI Plus。
00:26:55描述栏里有相关链接。
00:26:56我们下次见。
00:26:58拜拜。

Key Takeaway

GPT 5.5目前是编码任务中性能最强且最稳健的模型,而DeepSeek V4凭借其极高的性价比,成为处理简单任务时的可行替代方案。

Highlights

  • GPT 5.5在每百万输出token的成本为30美元,相比Anthropic的25美元更昂贵,而DeepSeek V4仅需3.48美元。

  • 在Terminal-bench 2.0测试中,GPT 5.5以87.2分领先,表现优于Mythos和DeepSeek V4。

  • DeepSeek V4的参数量高达1.6万亿,虽然API成本比竞争对手低八倍,但对硬件要求极高。

  • GPT 5.5在飞行模拟器构建任务中表现最稳健,能在首轮生成中提供基本可玩的功能,而DeepSeek V4在复杂任务中频繁失败。

  • Claude Code在复杂计划制定方面耗时最长但最详尽,适合对项目架构有极高要求的开发任务。

  • 在WebGPU落地页构建测试中,Claude Code的表现审美更符合预期,尽管提示词较为模糊。

Timeline

模型成本与基准测试概览

  • GPT 5.5的输出成本为每百万token 30美元,比Anthropic版本贵20%。
  • DeepSeek V4的成本仅为GPT 5.5的八分之一左右。
  • Opus 4.7在长上下文检索任务中出现性能倒退,表现逊色于GPT 5.5和DeepSeek。

模型价格体系存在显著差异,DeepSeek V4在成本端具有压倒性优势。尽管GPT 5.5单价较高,但OpenAI声称其更高的性能可以减少整体token消耗。基准测试显示,GPT 5.5在Terminal-bench 2.0中占据主导地位,而Opus在SWE-bench等编码任务中依然保持竞争力。

飞行模拟器构建对比测试

  • GPT 5.5通过Codecs在十分钟内生成了具备基础物理交互的飞行模拟器。
  • Claude Code生成的方案最为详尽,涵盖了失速警告等复杂逻辑,但落地执行时控制难度较大。
  • DeepSeek V4在该任务中表现极差,多次生成内容无法运行,且无法处理基本逻辑。

通过构建3JS飞行模拟器评估模型的单次生成能力和迭代修复能力。GPT 5.5展现了优秀的执行力,即便提示词模糊也能产出可操作的结果。Claude Code虽然方案设计极其细致,但实际操控体验欠佳。DeepSeek V4无法在未经极度精确指导的情况下完成开发任务。

WebGPU落地页渲染测试

  • GPT 5.5生成的着色器效果虽具有交互性,但视觉亮度过高导致可用性受限。
  • Claude Code构建的WebGPU落地页审美较为细腻,更符合高端获奖网页的设计预期。
  • DeepSeek V4在此类高算力需求任务中产出的代码质量较低,无法实现流畅的交互效果。

测试重点转向WebGPU着色器渲染,旨在评估模型处理复杂视觉逻辑的能力。Claude Code胜在审美把控,提供了更为稳重和具备艺术感的视觉输出。GPT 5.5虽能快速实现要求,但设计细节有待优化。DeepSeek V4再次因无法平衡复杂逻辑与设计美感而表现平庸。

综合结论与模型选择建议

  • GPT 5.5在生产力任务中提供最稳健的表现,是当前编码任务的首选。
  • Claude Code与Opus 4.7组合适合对审美和架构设计要求较高的专业开发人员。
  • DeepSeek V4适合成本极度敏感且任务复杂度较低的场景。

综合对比显示,GPT 5.5在执行速度和结果稳健性上完胜。开发者无需担心厂商锁定,因为Claude Code与Codecs工具链的基础逻辑是通用的。DeepSeek虽性能欠佳,但在预算受限的简单任务中仍有其特定价值。

Community Posts

View all posts