00:00:00Opus 4.7がリリースされました。数値で見ると、
00:00:04これは大幅なアップグレードです。詳しく見ていきましょう。まずは、
00:00:08ベンチマークです。右側にMythosが表示されていますが、
00:00:12これは実在するものをチラ見せして期待を煽っているだけです。
00:00:15私が本当に注目したいのは、4.7対4.6です。Mythosが
00:00:20いつ利用可能になるか分かりませんから。そして数値上、
00:00:23これは非常に堅実な飛躍です。特にコーディング分野において顕著です。
00:00:28エージェント・コーディングを見ると、53から64へ、
00:00:3280から87へ、
00:00:34そして65から69へと、SWE-bench Pro、
00:00:39SWE-bench Verified、TerminalBench 2.0の3つの主要テストで上昇しています。
00:00:42Opus 4.7のベンチマークが、Mythosを除いた
00:00:46他のすべてのモデルを上回っていない唯一の箇所は、
00:00:49エージェント検索です。そこではGPT 5.4が優勢です。
00:00:54GPT 5.4の89.3に対し、Opus 4.7は、
00:00:57奇妙なことに4.6よりも低下しています。まあ、
00:01:01こういった数値を見ると、
00:01:02Opus 4.6より下がったベンチマークをあえて示すことで、
00:01:06「このベンチマークは本物だよ、嘘じゃない。ほら、
00:01:08ここを見て」と、信憑性をアピールしているのかと思ってしまいます。
00:01:11ええと、
00:01:12エージェント検索では5.4がリードしており、大学院レベルの
00:01:17推論でもリードしています。また、大幅な改善が見られるもう一つの分野は視覚的推論です。
00:01:2169から82へと跳ね上がっており、
00:01:25これはこのモデルのビジョン機能が大幅に向上したことと
00:01:29関係があるかもしれません。
00:01:29Opus 4.7に入力する画像の解像度は、
00:01:34従来の3倍になったと言われており、これは大きな変化です。
00:01:36図解や小さな文字を扱う場合には非常に重要で、
00:01:38これらのグラフにも同様の数値が反映されています。
00:01:42知識、実務、ビジョンが向上し、文書推論は57.1から80.6へと
00:01:46大幅に飛躍しました。これは大きなプラスです。
00:01:50もしあなたがCoworkのようなツールを使っていたり、
00:01:52オフィスで一日中、膨大な資料を読み込ませたりする
00:01:55環境にいるなら。ロングコンテキストの推論も重要です。
00:01:57このチャンネルでは、コンテキストの劣化と、セッション管理に
00:02:02細心の注意を払うべきだという話を常にしていますが、それは変わりません。
00:02:0771から75への向上は素晴らしいことですが、
00:02:09コンテキスト窓の20%から25%に達した時点で履歴をクリアするという
00:02:13積極的な運用を変えるべきではありません。ただ、これは改善であり、喜ばしいことです。
00:02:17そして、これも興味深い点です。
00:02:19マルチモーダルに関連するコーディング・ベンチマークです。コーディングですが、
00:02:22画像などの要素を含むコンテキストを投入した場合の結果も
00:02:25含まれています。これも当然の結果でしょう。
00:02:28その多くは解像度の向上によるものだと思われます。
00:02:30モデル自体の他に、いくつかのアップデートがありました。
00:02:32最大の変化は「エフォート(努力)」制御の強化です。新しく「X-High」というレベルが追加されました。
00:02:37おそらくOpenAIから借用したのでしょう。HighとMaxの中間です。
00:02:40さらに、Claude Codeはデフォルトで「Extra High」に設定されるようになりました。
00:02:44これは、Opus 4.6が「弱体化した」という多くの批判に対する
00:02:48反応だと思われます。そしてOpusの、いえ、Claude Codeの
00:02:52開発者であるBoris Cherny氏がこう述べました。
00:02:54「実際には、デフォルトの推論レベル、つまりエフォート・レベルを
00:02:58『Medium』に変更していました」。ですから、今回の「X-High」の導入は、
00:03:01モデルをいわば「より良く」、より「努力」させるための対応でしょう。
00:03:05かといって「Max」を強制すると、今度は利用制限にすぐ達すると苦情が出るため、その中間を狙ったのです。
00:03:10もし設定を変更したい場合は、
00:03:12やり方は簡単です。
00:03:13「/effort」コマンドを打ち込んで、レベルを設定するだけです。
00:03:16高解像度の対応はAPIでも利用可能です。
00:03:19さらに、新しい「/ultra-review」スラッシュコマンドもリリースされました。
00:03:24これにより、専用のレビューセッションが可能になります。加えて、
00:03:28オートモードも拡張されました。オートモードを
00:03:31知らない方のために言うと、要は権限確認をスキップする機能の代替案です。
00:03:34さて、ここで注目すべきは、Opus 4.7は4.6よりも
00:03:39多くのトークンを消費するという点です。
00:03:40公式には、Opus 4.7は更新されたトークナイザーを使用し、テキスト処理を
00:03:45改善したとされていますが、その結果、入力トークン数が
00:03:50コンテンツの種類により、約1倍から1.35倍に増加します。
00:03:54第二に、Opus 4.7は高いエフォート・レベルではより深く思考します。
00:03:58以前はデフォルトが「Medium」だったのに対し、今回は
00:04:03「Extra High」に設定されており、さらに4.7自体がより多くのトークンを使います。
00:04:07ですから、これまでずっと「Medium」のままで、
00:04:094.6ですでに利用制限ギリギリだったという方は、
00:04:13注意が必要です。利用制限の問題に直面する可能性が非常に高いです。
00:04:18すでに制限に悩まされている人にとっては、
00:04:19より多くのトークンが消費されることになるからです。
00:04:21また、面白いことに、拡張思考機能も削除されました。
00:04:25この移行についてさらに詳しく、深く知りたい方は、
00:04:28ドキュメントに全容が公開されています。
00:04:30全体として、非常に堅実なアップグレードに見えます。
00:04:32私自身、実際にテストしてみるのが楽しみです。