00:00:00AnthropicがClaude Opus 4.6をリリースしました。あらゆるモデルの中でTerminal Bench 2.0の最高スコアを記録しています。
00:00:06プログラミング中の方、お邪魔してすみません。
00:00:10ですが、なんとGPT 5.3 Codecsが登場し、Terminal BenchでOpus 4.6を10%以上も上回りました。
00:00:16Anthropicの天下は、わずか数分だったようです。この2社の競争は、本当に激しさを増していますね。
00:00:23これらのモデルの新機能や、どちらが使い心地が良いか非常に気になります。というのも、最近の私は――
00:00:29GPT 5.2の方が使いやすく感じていたからです。
00:00:31Claudeが優位性を奪い返せるのか、それともOpenAIがGPT 5.3 Codecsで返り討ちにするのか、見ものです。
00:00:37まずは、各モデルの新機能をざっとおさらいしましょう。ベンチマークで前バージョンを上回るのは当然として――
00:00:48(結果は最後に紹介します)、他に具体的に何が変わったのでしょうか?
00:00:52まずOpusについてですが、
00:00:53より緻密な計画立案、自律的なタスクの長時間継続、そして大規模なコードベースにおける信頼性の向上を謳っています。
00:01:00自身のミスを検知するコードレビューやデバッグ能力も強化されたとのことです。
00:01:02これらは、私がGPT 5.2と比較してOpusの弱点だと感じていた部分です。私の経験上、
00:01:08Opusはコーディングの着手こそ早いものの、ミスが少し目立っていました。
00:01:12対してGPT 5.2は、着手までに時間はかかるものの、リポジトリのコンテキストをしっかり理解していました。
00:01:17Opusが改善されていることを期待しましょう。また、新たに100万トークンの――
00:01:23コンテキストウィンドウも搭載されました。
00:01:24ただし、これはベータ版であり、他のプロバイダーと同様に、
00:01:2720万トークンを超えるプロンプトは追加料金がかかります。入力100万トークンにつき10ドル、
00:01:33出力100万トークンにつき37.50ドルです。続いてCodecs 5.3について。
00:01:38OpenAIによれば、GPT 5.2 Codecsのコーディング性能とGPT 5.2の推論・専門知識を、
00:01:4525%高速化した一つのモデルに統合したとのことです。
00:01:51これにより、調査、ツール利用、複雑な実行を伴う長時間のタスクをこなせるようになります。
00:01:57GPT 5.2の知識と向上したコーディング能力を併せ持つ、万能モデルに仕上げてきた印象です。
00:02:03とはいえ、これらはあくまで宣伝文句に過ぎません。
00:02:05そこで実地テストとして、Convex AgentパッケージをAI SDK v6に対応させるアップデートを試しました。
00:02:11最近、データベースとしてConvexを気に入っており、このパッケージはAI SDKとデータベースを連携させるのに重宝しています。
00:02:19ただ、最新バージョンへのアップグレードがまだ行われていなかったのが悩みでした。
00:02:23Vercelのドキュメントを見ると、v5からv6への移行は一筋縄ではいかないことがわかります。
00:02:28破壊的変更が多く、型定義も大幅に変わっています。
00:02:32そこで、Agentパッケージを使ってConvexで動作する基本的なチャットアプリを作成しました。
00:02:36その後、パッケージをv6に上げたところ、ビルドエラーと型エラーが多発しました。
00:02:40これを各モデルに修正させてみます。Codecsに使ったプロンプトはこちらです。
00:02:44「Convexでチャットアプリを構築中で、以前は動作していました。
00:02:46v6にアップグレードしたので、型エラーとビルドエラーを直してほしい」と伝え、
00:02:50移行ガイドをコンテキストとして渡し、「すべてのテストをパスさせること。
00:02:55モデルがやりがちな『as any』などのTypeScriptのハックは極力避けてほしい」と指示しました。
00:02:59今のAI SDKには複雑な型が多いので、安易な回避策は使わないよう念を押したかったのです。
00:03:03ではCodecs 5.3の挙動を見てみましょう。まずは――
00:03:09リポジトリの構成把握から始まりました。packages/agentなどのモノレポ構造を認識し、
00:03:15根本原因とアップデートが必要なパッケージを特定。作業手順を明確にリストアップしました。
00:03:22その後は、変更を加えては時々ビルドを走らせるという流れで、
00:03:27型エラーを着実に修正していきました。驚いたことに、40分間一度も中断することなく作業を続けました。
00:03:32最終的に545行を追加し、111行を削除しました。一方のClaudeは――
00:03:35全く同じプロジェクトとプロンプトを与えました。こちらも40分ほど作業を続けましたが、
00:03:39実際に起動しようとした際に、いくつかビルドエラーが残っていました。
00:03:44そのため、Opusに動作するバージョンを出させるには、もう一回プロンプトを送る必要がありました。
00:03:48とはいえ、Codecsとかなり近い体験が得られました。
00:03:53個人的には、CodecsのUIの方が好きですね。ターミナルUIより好みです。すみません。
00:03:56さて、Codecs 5.3は1回の指示、Opus 4.6は2回の指示で、
00:04:02どちらも型エラーやビルドエラーなく、テストもすべてパスする状態でAgentパッケージのアップグレードを完遂しました。
00:04:06ただ、アプローチには違いがありました。こちらが――
00:04:11左側がCodecs、右側がOpusによる変更点です。
00:04:16ご覧の通り、Opusの方がプロジェクトに加えた変更箇所が多くなっています。
00:04:19いくつかの機能の実装方法が異なっていました。
00:04:23Codecsが秀逸だったのは、この「ツール実行の承認リクエスト」のロジックです。
00:04:25これはAI SDK v6の新機能ですが、Opusの方には見当たりません。
00:04:30見落としたか、コードに組み込まなかったようです。
00:04:35一方でCodecsが良くなかった点は、UIメッセージの箇所です。あろうことか、
00:04:40UIメッセージをモデルメッセージに変換する独自の関数を自作してしまったのです。
00:04:46ご存知の通り、AI SDKにはそのための専用関数があり、それを使うべきです。
00:04:50比較するとわかるように、Opusは正しく対処していました。
00:04:57AI SDKに備わっている「convert to model messages」関数を使っています。
00:05:00これなら将来パッケージが更新されても、自作関数の修正を心配する必要はありません。
00:05:04パッケージ提供のものを使うのが定石ですからね。
00:05:07この点はCodecsに対して少し懸念を感じました。
00:05:13そこでコードレビューのセカンドオピニオンを得るため、
00:05:14差分をCodecs 5.3に読み込ませてレビューさせたところ、各アプローチのメリット・デメリットを挙げてくれました。
00:05:19結論として、Codecs 5.3自身も、移行アーキテクチャとしてはOpusの方が優れていると回答しました。
00:05:20安全にリリースするためにどちらか選ぶならOpus版を選び、そこにCodecs版の承認・拒否ハンドリングを移植すると。
00:05:26つまり、Codecs版で追加されたツール承認リクエストの関数だけをOpus版に移植すれば、最強の移行が完了するというわけです。
00:05:29Codecs 5.3が自分自身を贔屓せず、客観的な判断をしたのは好印象でした。
00:05:36両者の移行作業はかなり肉薄しており、プロンプト次第でどちらも正解に導けそうですが、テストはこれだけではありません。
00:05:39次のテストは少し遊び心を入れて、Three.jsを使って「Club Penguin」のクローンを作らせてみました。
00:05:43どちらがどのモデルかは伏せますが、これが一つ目のゲームです。
00:05:46ペンギンの作成画面があり、アバターが変化するのがわかります。
00:05:51帽子などのアクセサリーも選べますね。パーティーハット、プロペラ、王冠があります。
00:05:55プロペラ帽子を選んでプレイしてみます。Club Penguinを知っている人なら、
00:06:01タウンセンターの雰囲気はそれなりに再現できていると言えるでしょう。ピザ屋がなかったり、
00:06:03ディスコがあった場所に建物がなかったりと、中には入れませんが。
00:06:08当たり判定もまだ未実装のようですね。
00:06:13ですが、マップから異なるゾーンに移動できる点はよくできています。
00:06:17スキービレッジに来ました。クリックで移動できます。
00:06:21アセットを一切与えずにThree.jsだけでこれだけのペンギンを作れたのは大したものです。
00:06:26すべて学習データから構築されています。さらに「そり滑り(Sled Racing)」もプレイできます。
00:06:32Club Penguinで一番好きだったゲームです。足りない部分は多々ありますが、
00:06:351回のプロンプトで作ったにしては上出来でしょう。
00:06:37このバージョンには「カートサーファー(Cart Surfer)」の実装も試みられています。
00:06:41これも大好きでしたが、こっちは少し壊れていますね。
00:06:44左右に動けますが、マップの下に潜り込んでしまったようです。画面も真っ暗になりました。
00:06:49さて、こちらがもう一方のモデルが作ったバージョンです。
00:06:54どちらが優れているか、どちらがどのモデルか、コメント欄で予想してみてください。
00:06:59正解はこのテストの最後に発表します。こちらにも――
00:07:04プロンプト通りのカラーセレクターがあります。
00:07:07帽子とアクセサリーもあり、今回は王冠を選んでスタートします。
00:07:11こちらのペンギンは少しずんぐりしていますね。滑稽ですが、これもアセットなしの
00:07:15Three.jsによるゼロからの構築です。
00:07:18建物の中を通り抜けられる問題は共通しています。
00:07:22マップ機能があり、各ゾーンへ移動可能です。
00:07:25スキービレッジへ行ってみましょう。
00:07:27ここでも、そり滑りをプレイできますが、
00:07:31正直なところ、先ほどのバージョンとかなり似たような作りです。
00:07:36遠くに木が見える演出がありますね。
00:07:38ライフが3つあり、ちゃんとカウントも機能しています。
00:07:41ただ、このバージョンではジャンプができないようです。
00:07:44こちらのモデルもカートサーファーの実装に挑戦していますが、
00:07:46やはり何かがおかしいですね。
00:07:50視界は確保されており、ジャンプもできますが、機能面ではこちらの方がマシでしょうか。
00:07:53ただ、肝心のレールがありません。かつてのカートサーファーとは別物ですね。
00:07:56とはいえ、1回のプロンプト、しかもThree.jsでここまでできるのは毎回驚かされます。
00:07:58さて、正解ですが、一つ目がOpus 4.6、二つ目がCodecs 5.3でした。私は一つ目の方が好みです。
00:08:01Club PenguinテストはOpus 4.6の勝ちと言えそうです。さて、最後のテストは――
00:08:04UIデザインの能力を検証します。最近のモデルはこの分野も非常に優秀です。
00:08:06「AI専用のSNSサイトのランディングページ」というお題を出しました。
00:08:11「Molt Book」のような雰囲気で、AI専用であることを強調した皮肉の効いたデザインを、単一のHTMLファイルで作らせました。
00:08:17こちらがその結果です。Codecsの出来栄えには非常に感銘を受けました。
00:08:19左がCodecs 5.3、右がOpus 4.6です。Codecsのデザインセンスは
00:08:25素晴らしいですね。
00:08:30ネオ・ブルータリズムを採用しており、よくある流行りのデザインとは一線を画す楽しさがあります。
00:08:34対するOpus 4.6も優れたデザインですが、いかにもAIが生成した、ありがちな配色という印象です。
00:08:38非常によくできているのですが、
00:08:42紫のグラデーションなど、いかにも「vibe-coded(雰囲気重視)」な感じです。一方Codecsは
00:08:49同じプロンプトでも、人間が意図的に指示したかのようなこだわりが感じられます。
00:08:55唯一、Opus 4.6の方が優れていたのは、ページとしての機能性です。
00:09:00トレンドタブ、ルール説明、今週のトップモデル、
00:09:01人気サブレディット、フィードなどが盛り込まれています。Codecs 5.3は
00:09:06少し内容が薄く、トレンドタブがある程度でした。
00:09:13リリースされたばかりなので、Design Arenaでどう評価されるか楽しみです。
00:09:14現在はGLM 4.7が首位ですが、
00:09:20Codecs 5.3やOpus 4.6が王座を奪えるかに注目です。
00:09:25どちらも極めて有能で、甲乙つけがたいですね。
00:09:27個人的には、アプリの使い勝手やOpenAIモデルへの慣れもあって、Codecs 5.3を使い続けると思います。
00:09:32ベンチマークで比較すると、冒頭で述べた通りCodecsはTerminal Bench 2.0で圧倒的な強さを見せています。
00:09:36これは驚異的な進化です。現時点で比較可能な指標はこれくらいしかありません。
00:09:41Anthropic側もOpenAIがこのタイミングでぶつけてくるとは予想していなかったようで、ブログの指標も統一されていません。
00:09:44Artificial Analysisを確認したところ、Opus 4.6のコーディング能力は非推論版のみ計測されていました。
00:09:47ただ、4.6の非推論版が4.5の推論版と同等の性能を出しているのは、かなり印象的です。
00:09:51現段階の個人的な感触としては、Opus 4.5から4.6への進化よりも、Codecs 5.2から5.3への進化の方が劇的に感じます。
00:09:55とはいえ、実戦で使い倒して判断する必要がありますね。
00:09:59最後に、いくつかの追加機能をご紹介します。
00:10:03特筆すべきは、両モデルともサイバーセキュリティ能力が向上している点です。OpenAIはGPT 5.3 Codecsを、
00:10:09サイバーセキュリティ関連タスクにおいて「高い能力」を持つと分類した初のモデルとしており、ソフトウェアの脆弱性特定を
00:10:15直接学習させたとしています。Anthropicも同様の内容をブログで述べています。また、Codecsで期待しているのが
00:10:21「作業中の指示(ステアリング)」機能です。
00:10:28出力が終わるのを待つ必要はなく、リアルタイムで対話しながらアプローチを議論し、解決策へと導けるそうです。
00:10:35モデルの出力を最後まで待つべきか、途中で止めるべきか迷うことが多いので、
00:10:42この機能は非常に便利だと思います。特に長時間のタスクを実行する場合、
00:10:49作業中に軌道修正できるのは素晴らしいユーザー体験になるでしょう。
00:10:53Claudeにも新機能があります。まずは「Claude Code」でのエージェントチーム、
00:10:55いわゆるサブエージェント機能です。Richardが今週初めに動画を上げているので、そちらもチェックしてみてください。
00:11:01APIにも「コンパクション(Compaction)」機能が追加されました。コンテキストを要約し、
00:11:09長時間のタスクを実行しやすくする機能です。
00:11:16さらに、新しい「アダプティブ・シンキング(適応思考)モード」も搭載されました。
00:11:21文脈から判断して、モデル自身が思考プロセスをどの程度深めるかを自動で調整します。
00:11:27コーディングモデルの進化は、本当に目覚ましいですね。
00:11:32Claude Codeがリリースされてから、まだ1年も経っていないとは驚きです。
00:11:35皆さんはどのモデルが気になりましたか?ぜひコメントやチャンネル登録をお願いします。では、また次回の動画で!
00:11:40(アップテンポな音楽)
00:11:44Finally, we have a few new features for Claude as well. The first one is include code
00:11:48You can now use agent teams to work on tasks together aka sub agents Richard actually made a video on this earlier this week
00:11:55So check that out if you're interested in learning more and there was also some cool API features like Claude now has a compaction feature
00:12:01Built into the API so you can actually use that to summarize its context and perform a longer running tasks
00:12:06And there's also a new adaptive thinking mode
00:12:08So essentially you just let the model pick up on contextual clues to see how much it should actually use its extended thinking
00:12:13There we go coding models have come a seriously long way
00:12:16If you didn't know it's actually not even been a year since Claude code was released
00:12:20Let me know what you think of all of these models in the comments while you're there subscribe and as always see you in the next one
00:12:31(upbeat music)