OpenAIが独走中... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00AnthropicがClaude Opus 4.6をリリースしました。あらゆるモデルの中でTerminal Bench 2.0の最高スコアを記録しています。
00:00:06プログラミング中の方、お邪魔してすみません。
00:00:10ですが、なんとGPT 5.3 Codecsが登場し、Terminal BenchでOpus 4.6を10%以上も上回りました。
00:00:16Anthropicの天下は、わずか数分だったようです。この2社の競争は、本当に激しさを増していますね。
00:00:23これらのモデルの新機能や、どちらが使い心地が良いか非常に気になります。というのも、最近の私は――
00:00:29GPT 5.2の方が使いやすく感じていたからです。
00:00:31Claudeが優位性を奪い返せるのか、それともOpenAIがGPT 5.3 Codecsで返り討ちにするのか、見ものです。
00:00:37まずは、各モデルの新機能をざっとおさらいしましょう。ベンチマークで前バージョンを上回るのは当然として――
00:00:48(結果は最後に紹介します)、他に具体的に何が変わったのでしょうか?
00:00:52まずOpusについてですが、
00:00:53より緻密な計画立案、自律的なタスクの長時間継続、そして大規模なコードベースにおける信頼性の向上を謳っています。
00:01:00自身のミスを検知するコードレビューやデバッグ能力も強化されたとのことです。
00:01:02これらは、私がGPT 5.2と比較してOpusの弱点だと感じていた部分です。私の経験上、
00:01:08Opusはコーディングの着手こそ早いものの、ミスが少し目立っていました。
00:01:12対してGPT 5.2は、着手までに時間はかかるものの、リポジトリのコンテキストをしっかり理解していました。
00:01:17Opusが改善されていることを期待しましょう。また、新たに100万トークンの――
00:01:23コンテキストウィンドウも搭載されました。
00:01:24ただし、これはベータ版であり、他のプロバイダーと同様に、
00:01:2720万トークンを超えるプロンプトは追加料金がかかります。入力100万トークンにつき10ドル、
00:01:33出力100万トークンにつき37.50ドルです。続いてCodecs 5.3について。
00:01:38OpenAIによれば、GPT 5.2 Codecsのコーディング性能とGPT 5.2の推論・専門知識を、
00:01:4525%高速化した一つのモデルに統合したとのことです。
00:01:51これにより、調査、ツール利用、複雑な実行を伴う長時間のタスクをこなせるようになります。
00:01:57GPT 5.2の知識と向上したコーディング能力を併せ持つ、万能モデルに仕上げてきた印象です。
00:02:03とはいえ、これらはあくまで宣伝文句に過ぎません。
00:02:05そこで実地テストとして、Convex AgentパッケージをAI SDK v6に対応させるアップデートを試しました。
00:02:11最近、データベースとしてConvexを気に入っており、このパッケージはAI SDKとデータベースを連携させるのに重宝しています。
00:02:19ただ、最新バージョンへのアップグレードがまだ行われていなかったのが悩みでした。
00:02:23Vercelのドキュメントを見ると、v5からv6への移行は一筋縄ではいかないことがわかります。
00:02:28破壊的変更が多く、型定義も大幅に変わっています。
00:02:32そこで、Agentパッケージを使ってConvexで動作する基本的なチャットアプリを作成しました。
00:02:36その後、パッケージをv6に上げたところ、ビルドエラーと型エラーが多発しました。
00:02:40これを各モデルに修正させてみます。Codecsに使ったプロンプトはこちらです。
00:02:44「Convexでチャットアプリを構築中で、以前は動作していました。
00:02:46v6にアップグレードしたので、型エラーとビルドエラーを直してほしい」と伝え、
00:02:50移行ガイドをコンテキストとして渡し、「すべてのテストをパスさせること。
00:02:55モデルがやりがちな『as any』などのTypeScriptのハックは極力避けてほしい」と指示しました。
00:02:59今のAI SDKには複雑な型が多いので、安易な回避策は使わないよう念を押したかったのです。
00:03:03ではCodecs 5.3の挙動を見てみましょう。まずは――
00:03:09リポジトリの構成把握から始まりました。packages/agentなどのモノレポ構造を認識し、
00:03:15根本原因とアップデートが必要なパッケージを特定。作業手順を明確にリストアップしました。
00:03:22その後は、変更を加えては時々ビルドを走らせるという流れで、
00:03:27型エラーを着実に修正していきました。驚いたことに、40分間一度も中断することなく作業を続けました。
00:03:32最終的に545行を追加し、111行を削除しました。一方のClaudeは――
00:03:35全く同じプロジェクトとプロンプトを与えました。こちらも40分ほど作業を続けましたが、
00:03:39実際に起動しようとした際に、いくつかビルドエラーが残っていました。
00:03:44そのため、Opusに動作するバージョンを出させるには、もう一回プロンプトを送る必要がありました。
00:03:48とはいえ、Codecsとかなり近い体験が得られました。
00:03:53個人的には、CodecsのUIの方が好きですね。ターミナルUIより好みです。すみません。
00:03:56さて、Codecs 5.3は1回の指示、Opus 4.6は2回の指示で、
00:04:02どちらも型エラーやビルドエラーなく、テストもすべてパスする状態でAgentパッケージのアップグレードを完遂しました。
00:04:06ただ、アプローチには違いがありました。こちらが――
00:04:11左側がCodecs、右側がOpusによる変更点です。
00:04:16ご覧の通り、Opusの方がプロジェクトに加えた変更箇所が多くなっています。
00:04:19いくつかの機能の実装方法が異なっていました。
00:04:23Codecsが秀逸だったのは、この「ツール実行の承認リクエスト」のロジックです。
00:04:25これはAI SDK v6の新機能ですが、Opusの方には見当たりません。
00:04:30見落としたか、コードに組み込まなかったようです。
00:04:35一方でCodecsが良くなかった点は、UIメッセージの箇所です。あろうことか、
00:04:40UIメッセージをモデルメッセージに変換する独自の関数を自作してしまったのです。
00:04:46ご存知の通り、AI SDKにはそのための専用関数があり、それを使うべきです。
00:04:50比較するとわかるように、Opusは正しく対処していました。
00:04:57AI SDKに備わっている「convert to model messages」関数を使っています。
00:05:00これなら将来パッケージが更新されても、自作関数の修正を心配する必要はありません。
00:05:04パッケージ提供のものを使うのが定石ですからね。
00:05:07この点はCodecsに対して少し懸念を感じました。
00:05:13そこでコードレビューのセカンドオピニオンを得るため、
00:05:14差分をCodecs 5.3に読み込ませてレビューさせたところ、各アプローチのメリット・デメリットを挙げてくれました。
00:05:19結論として、Codecs 5.3自身も、移行アーキテクチャとしてはOpusの方が優れていると回答しました。
00:05:20安全にリリースするためにどちらか選ぶならOpus版を選び、そこにCodecs版の承認・拒否ハンドリングを移植すると。
00:05:26つまり、Codecs版で追加されたツール承認リクエストの関数だけをOpus版に移植すれば、最強の移行が完了するというわけです。
00:05:29Codecs 5.3が自分自身を贔屓せず、客観的な判断をしたのは好印象でした。
00:05:36両者の移行作業はかなり肉薄しており、プロンプト次第でどちらも正解に導けそうですが、テストはこれだけではありません。
00:05:39次のテストは少し遊び心を入れて、Three.jsを使って「Club Penguin」のクローンを作らせてみました。
00:05:43どちらがどのモデルかは伏せますが、これが一つ目のゲームです。
00:05:46ペンギンの作成画面があり、アバターが変化するのがわかります。
00:05:51帽子などのアクセサリーも選べますね。パーティーハット、プロペラ、王冠があります。
00:05:55プロペラ帽子を選んでプレイしてみます。Club Penguinを知っている人なら、
00:06:01タウンセンターの雰囲気はそれなりに再現できていると言えるでしょう。ピザ屋がなかったり、
00:06:03ディスコがあった場所に建物がなかったりと、中には入れませんが。
00:06:08当たり判定もまだ未実装のようですね。
00:06:13ですが、マップから異なるゾーンに移動できる点はよくできています。
00:06:17スキービレッジに来ました。クリックで移動できます。
00:06:21アセットを一切与えずにThree.jsだけでこれだけのペンギンを作れたのは大したものです。
00:06:26すべて学習データから構築されています。さらに「そり滑り(Sled Racing)」もプレイできます。
00:06:32Club Penguinで一番好きだったゲームです。足りない部分は多々ありますが、
00:06:351回のプロンプトで作ったにしては上出来でしょう。
00:06:37このバージョンには「カートサーファー(Cart Surfer)」の実装も試みられています。
00:06:41これも大好きでしたが、こっちは少し壊れていますね。
00:06:44左右に動けますが、マップの下に潜り込んでしまったようです。画面も真っ暗になりました。
00:06:49さて、こちらがもう一方のモデルが作ったバージョンです。
00:06:54どちらが優れているか、どちらがどのモデルか、コメント欄で予想してみてください。
00:06:59正解はこのテストの最後に発表します。こちらにも――
00:07:04プロンプト通りのカラーセレクターがあります。
00:07:07帽子とアクセサリーもあり、今回は王冠を選んでスタートします。
00:07:11こちらのペンギンは少しずんぐりしていますね。滑稽ですが、これもアセットなしの
00:07:15Three.jsによるゼロからの構築です。
00:07:18建物の中を通り抜けられる問題は共通しています。
00:07:22マップ機能があり、各ゾーンへ移動可能です。
00:07:25スキービレッジへ行ってみましょう。
00:07:27ここでも、そり滑りをプレイできますが、
00:07:31正直なところ、先ほどのバージョンとかなり似たような作りです。
00:07:36遠くに木が見える演出がありますね。
00:07:38ライフが3つあり、ちゃんとカウントも機能しています。
00:07:41ただ、このバージョンではジャンプができないようです。
00:07:44こちらのモデルもカートサーファーの実装に挑戦していますが、
00:07:46やはり何かがおかしいですね。
00:07:50視界は確保されており、ジャンプもできますが、機能面ではこちらの方がマシでしょうか。
00:07:53ただ、肝心のレールがありません。かつてのカートサーファーとは別物ですね。
00:07:56とはいえ、1回のプロンプト、しかもThree.jsでここまでできるのは毎回驚かされます。
00:07:58さて、正解ですが、一つ目がOpus 4.6、二つ目がCodecs 5.3でした。私は一つ目の方が好みです。
00:08:01Club PenguinテストはOpus 4.6の勝ちと言えそうです。さて、最後のテストは――
00:08:04UIデザインの能力を検証します。最近のモデルはこの分野も非常に優秀です。
00:08:06「AI専用のSNSサイトのランディングページ」というお題を出しました。
00:08:11「Molt Book」のような雰囲気で、AI専用であることを強調した皮肉の効いたデザインを、単一のHTMLファイルで作らせました。
00:08:17こちらがその結果です。Codecsの出来栄えには非常に感銘を受けました。
00:08:19左がCodecs 5.3、右がOpus 4.6です。Codecsのデザインセンスは
00:08:25素晴らしいですね。
00:08:30ネオ・ブルータリズムを採用しており、よくある流行りのデザインとは一線を画す楽しさがあります。
00:08:34対するOpus 4.6も優れたデザインですが、いかにもAIが生成した、ありがちな配色という印象です。
00:08:38非常によくできているのですが、
00:08:42紫のグラデーションなど、いかにも「vibe-coded(雰囲気重視)」な感じです。一方Codecsは
00:08:49同じプロンプトでも、人間が意図的に指示したかのようなこだわりが感じられます。
00:08:55唯一、Opus 4.6の方が優れていたのは、ページとしての機能性です。
00:09:00トレンドタブ、ルール説明、今週のトップモデル、
00:09:01人気サブレディット、フィードなどが盛り込まれています。Codecs 5.3は
00:09:06少し内容が薄く、トレンドタブがある程度でした。
00:09:13リリースされたばかりなので、Design Arenaでどう評価されるか楽しみです。
00:09:14現在はGLM 4.7が首位ですが、
00:09:20Codecs 5.3やOpus 4.6が王座を奪えるかに注目です。
00:09:25どちらも極めて有能で、甲乙つけがたいですね。
00:09:27個人的には、アプリの使い勝手やOpenAIモデルへの慣れもあって、Codecs 5.3を使い続けると思います。
00:09:32ベンチマークで比較すると、冒頭で述べた通りCodecsはTerminal Bench 2.0で圧倒的な強さを見せています。
00:09:36これは驚異的な進化です。現時点で比較可能な指標はこれくらいしかありません。
00:09:41Anthropic側もOpenAIがこのタイミングでぶつけてくるとは予想していなかったようで、ブログの指標も統一されていません。
00:09:44Artificial Analysisを確認したところ、Opus 4.6のコーディング能力は非推論版のみ計測されていました。
00:09:47ただ、4.6の非推論版が4.5の推論版と同等の性能を出しているのは、かなり印象的です。
00:09:51現段階の個人的な感触としては、Opus 4.5から4.6への進化よりも、Codecs 5.2から5.3への進化の方が劇的に感じます。
00:09:55とはいえ、実戦で使い倒して判断する必要がありますね。
00:09:59最後に、いくつかの追加機能をご紹介します。
00:10:03特筆すべきは、両モデルともサイバーセキュリティ能力が向上している点です。OpenAIはGPT 5.3 Codecsを、
00:10:09サイバーセキュリティ関連タスクにおいて「高い能力」を持つと分類した初のモデルとしており、ソフトウェアの脆弱性特定を
00:10:15直接学習させたとしています。Anthropicも同様の内容をブログで述べています。また、Codecsで期待しているのが
00:10:21「作業中の指示(ステアリング)」機能です。
00:10:28出力が終わるのを待つ必要はなく、リアルタイムで対話しながらアプローチを議論し、解決策へと導けるそうです。
00:10:35モデルの出力を最後まで待つべきか、途中で止めるべきか迷うことが多いので、
00:10:42この機能は非常に便利だと思います。特に長時間のタスクを実行する場合、
00:10:49作業中に軌道修正できるのは素晴らしいユーザー体験になるでしょう。
00:10:53Claudeにも新機能があります。まずは「Claude Code」でのエージェントチーム、
00:10:55いわゆるサブエージェント機能です。Richardが今週初めに動画を上げているので、そちらもチェックしてみてください。
00:11:01APIにも「コンパクション(Compaction)」機能が追加されました。コンテキストを要約し、
00:11:09長時間のタスクを実行しやすくする機能です。
00:11:16さらに、新しい「アダプティブ・シンキング(適応思考)モード」も搭載されました。
00:11:21文脈から判断して、モデル自身が思考プロセスをどの程度深めるかを自動で調整します。
00:11:27コーディングモデルの進化は、本当に目覚ましいですね。
00:11:32Claude Codeがリリースされてから、まだ1年も経っていないとは驚きです。
00:11:35皆さんはどのモデルが気になりましたか?ぜひコメントやチャンネル登録をお願いします。では、また次回の動画で!
00:11:40(アップテンポな音楽)
00:11:44Finally, we have a few new features for Claude as well. The first one is include code
00:11:48You can now use agent teams to work on tasks together aka sub agents Richard actually made a video on this earlier this week
00:11:55So check that out if you're interested in learning more and there was also some cool API features like Claude now has a compaction feature
00:12:01Built into the API so you can actually use that to summarize its context and perform a longer running tasks
00:12:06And there's also a new adaptive thinking mode
00:12:08So essentially you just let the model pick up on contextual clues to see how much it should actually use its extended thinking
00:12:13There we go coding models have come a seriously long way
00:12:16If you didn't know it's actually not even been a year since Claude code was released
00:12:20Let me know what you think of all of these models in the comments while you're there subscribe and as always see you in the next one
00:12:31(upbeat music)

Key Takeaway

AnthropicとOpenAIの最新モデルは、ベンチマーク数値だけでなく実用的なコーディング、デザイン、自律的なタスク実行能力において、AIの限界を塗り替える劇的な進化を遂げています。

Highlights

AnthropicのClaude Opus 4.6とOpenAIのGPT 5.3 Codecsによる、コーディング性能の激しい首位争い

Opus 4.6は100万トークンのコンテキストウィンドウと、緻密な計画立案・デバッグ能力の向上を実現

Codecs 5.3はGPT 5.2の専門知識とコーディング特化性能を統合し、処理速度を25%高速化

実際のライブラリ移行テストでは、Opus 4.6の方が公式の推奨関数を使用するなど、設計思想で上回る場面を計測

UIデザインの検証では、Codecs 5.3がネオ・ブルータリズムを採用した人間味のある洗練されたデザインを提示

両モデルともサイバーセキュリティ能力が強化され、脆弱性特定などの高度なタスクに対応可能に

Timeline

最新モデルの衝撃的な登場と性能比較

動画はAnthropicがTerminal Bench 2.0で最高スコアを記録したClaude Opus 4.6をリリースしたニュースから始まります。しかし、その直後にOpenAIがGPT 5.3 Codecsを発表し、Opusのスコアを10%以上上回るという劇的な展開が語られます。投稿者は以前からGPT 5.2の使い勝手を評価していましたが、この2社の熾烈な競争が開発者にどのような影響を与えるかに注目しています。新機能の全容を明らかにする前に、まずは両者の性能がどのように進化したかの概略が提示されます。このセクションは、現在のAI開発競争がいかにスピード感のあるものであるかを強調しています。

Opus 4.6とCodecs 5.3の新機能詳解

Opus 4.6は、自律的なタスク継続能力と大規模コードベースでの信頼性向上を最大の特徴としています。特筆すべきは100万トークンのコンテキストウィンドウの搭載ですが、20万トークン超えは追加料金が必要なベータ版である点に注意が必要です。一方、Codecs 5.3は推論能力とコーディング性能を一つのモデルに統合し、前バージョン比で25%の高速化を実現しました。これにより、ツール利用を伴う長時間の複雑な調査タスクが可能になると宣伝されています。投稿者は、これらの謳い文句が実際の開発現場でどこまで通用するかを厳しく検証する姿勢を見せています。

実戦テスト:ライブラリのアップグレード挑戦

実地テストとして、Convex AgentパッケージをAI SDK v6へ対応させる破壊的変更を含むアップデートに両モデルが挑戦します。Codecs 5.3はモノレポ構造を瞬時に理解し、40分間一度も中断することなく、545行の追加と111行の削除を完遂しました。Opus 4.6も同様に作業を続けましたが、最終的に動作させるには2回のプロンプトが必要であり、Codecsの方が初動の正確さで勝る結果となりました。しかし、両者とも最終的にはビルドエラーや型エラーをすべて解消し、テストをパスする状態まで到達しています。この比較は、単一のプロンプトで大規模なコード修正が可能になったAIの進化を証明しています。

コード品質の比較と客観的な自己レビュー

修正されたコードを詳細に比較すると、Opus 4.6は公式の「convert to model messages」関数を使用するなど、将来のメンテナンス性を考慮した実装を行っていました。対してCodecs 5.3は独自の変換関数を自作してしまい、推奨される定石から外れるミスを犯しています。興味深いことに、投稿者がCodecs自身に両者のコードをレビューさせたところ、CodecsはOpusの設計の方が優れていると客観的に認めました。Codecsは自身のツール承認ハンドリングだけをOpusのコードに移植するのが「最強の解決策」だと提案しています。AIが自身のバイアスを排除し、他者の優れた点を取り入れる能力を示した驚くべき場面です。

ゲーム開発テスト:Three.jsによる再現能力

クリエイティブな能力を測るため、アセットなしでThree.jsを用いた「Club Penguin」のクローン作成が指示されました。Opus 4.6が作成したバージョンは、ペンギンのカスタマイズ機能やマップ移動、そり滑りのミニゲームなどが非常に高い完成度で実装されています。Codecs 5.3のバージョンも動作はしますが、ジャンプができない、レールがないなど、細部の作り込みにおいてOpusに劣る結果となりました。投稿者は、学習データのみからここまでの3Dゲームを構築できる能力に改めて驚愕しています。最終的に、ゲーム制作のテストにおいてはOpus 4.6の方がユーザー体験として優れていると結論付けられました。

UIデザイン検証とAIの未来機能

UIデザインのテストでは、Codecs 5.3がネオ・ブルータリズムを採用し、人間がデザインしたような強いこだわりを見せて圧勝しました。Opus 4.6のデザインは機能的ではあるものの、紫のグラデーションを多用した「AI生成物によくある雰囲気」に留まっています。投稿者は、Codecsの提示したユニークな配色とスタイルが、今後のDesign Arenaで高い評価を得るだろうと予測しています。全体的な使い勝手から、投稿者自身は今後もCodecsをメインで使い続ける意向を示しました。このセクションでは、AIが機能性だけでなく「センス」の領域でも人間に迫っていることが語られています。

サイバーセキュリティと最新API機能の展望

最後に、両モデルの高度な追加機能が紹介されます。Codecs 5.3はソフトウェアの脆弱性特定を直接学習した初のモデルとして、高いサイバーセキュリティ能力を有していることが強調されました。また、作業中にリアルタイムで指示を送れる「ステアリング機能」や、Claudeの「アダプティブ・シンキング・モード」など、ユーザー体験を革新する機能が並びます。Claude Codeのリリースから1年も経たないうちにここまで進化した現状に対し、投稿者は深い感銘を受けています。動画は視聴者への問いかけとチャンネル登録の呼びかけで締めくくられ、AIモデルの進化が止まらないことを予感させます。

Community Posts

View all posts