Claude Opus 4.7が登場、もはや次元が違うレベルに

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7がリリースされました。数値で見ると、
00:00:04これは大幅なアップグレードです。詳しく見ていきましょう。まずは、
00:00:08ベンチマークです。右側にMythosが表示されていますが、
00:00:12これは実在するものをチラ見せして期待を煽っているだけです。
00:00:15私が本当に注目したいのは、4.7対4.6です。Mythosが
00:00:20いつ利用可能になるか分かりませんから。そして数値上、
00:00:23これは非常に堅実な飛躍です。特にコーディング分野において顕著です。
00:00:28エージェント・コーディングを見ると、53から64へ、
00:00:3280から87へ、
00:00:34そして65から69へと、SWE-bench Pro、
00:00:39SWE-bench Verified、TerminalBench 2.0の3つの主要テストで上昇しています。
00:00:42Opus 4.7のベンチマークが、Mythosを除いた
00:00:46他のすべてのモデルを上回っていない唯一の箇所は、
00:00:49エージェント検索です。そこではGPT 5.4が優勢です。
00:00:54GPT 5.4の89.3に対し、Opus 4.7は、
00:00:57奇妙なことに4.6よりも低下しています。まあ、
00:01:01こういった数値を見ると、
00:01:02Opus 4.6より下がったベンチマークをあえて示すことで、
00:01:06「このベンチマークは本物だよ、嘘じゃない。ほら、
00:01:08ここを見て」と、信憑性をアピールしているのかと思ってしまいます。
00:01:11ええと、
00:01:12エージェント検索では5.4がリードしており、大学院レベルの
00:01:17推論でもリードしています。また、大幅な改善が見られるもう一つの分野は視覚的推論です。
00:01:2169から82へと跳ね上がっており、
00:01:25これはこのモデルのビジョン機能が大幅に向上したことと
00:01:29関係があるかもしれません。
00:01:29Opus 4.7に入力する画像の解像度は、
00:01:34従来の3倍になったと言われており、これは大きな変化です。
00:01:36図解や小さな文字を扱う場合には非常に重要で、
00:01:38これらのグラフにも同様の数値が反映されています。
00:01:42知識、実務、ビジョンが向上し、文書推論は57.1から80.6へと
00:01:46大幅に飛躍しました。これは大きなプラスです。
00:01:50もしあなたがCoworkのようなツールを使っていたり、
00:01:52オフィスで一日中、膨大な資料を読み込ませたりする
00:01:55環境にいるなら。ロングコンテキストの推論も重要です。
00:01:57このチャンネルでは、コンテキストの劣化と、セッション管理に
00:02:02細心の注意を払うべきだという話を常にしていますが、それは変わりません。
00:02:0771から75への向上は素晴らしいことですが、
00:02:09コンテキスト窓の20%から25%に達した時点で履歴をクリアするという
00:02:13積極的な運用を変えるべきではありません。ただ、これは改善であり、喜ばしいことです。
00:02:17そして、これも興味深い点です。
00:02:19マルチモーダルに関連するコーディング・ベンチマークです。コーディングですが、
00:02:22画像などの要素を含むコンテキストを投入した場合の結果も
00:02:25含まれています。これも当然の結果でしょう。
00:02:28その多くは解像度の向上によるものだと思われます。
00:02:30モデル自体の他に、いくつかのアップデートがありました。
00:02:32最大の変化は「エフォート(努力)」制御の強化です。新しく「X-High」というレベルが追加されました。
00:02:37おそらくOpenAIから借用したのでしょう。HighとMaxの中間です。
00:02:40さらに、Claude Codeはデフォルトで「Extra High」に設定されるようになりました。
00:02:44これは、Opus 4.6が「弱体化した」という多くの批判に対する
00:02:48反応だと思われます。そしてOpusの、いえ、Claude Codeの
00:02:52開発者であるBoris Cherny氏がこう述べました。
00:02:54「実際には、デフォルトの推論レベル、つまりエフォート・レベルを
00:02:58『Medium』に変更していました」。ですから、今回の「X-High」の導入は、
00:03:01モデルをいわば「より良く」、より「努力」させるための対応でしょう。
00:03:05かといって「Max」を強制すると、今度は利用制限にすぐ達すると苦情が出るため、その中間を狙ったのです。
00:03:10もし設定を変更したい場合は、
00:03:12やり方は簡単です。
00:03:13「/effort」コマンドを打ち込んで、レベルを設定するだけです。
00:03:16高解像度の対応はAPIでも利用可能です。
00:03:19さらに、新しい「/ultra-review」スラッシュコマンドもリリースされました。
00:03:24これにより、専用のレビューセッションが可能になります。加えて、
00:03:28オートモードも拡張されました。オートモードを
00:03:31知らない方のために言うと、要は権限確認をスキップする機能の代替案です。
00:03:34さて、ここで注目すべきは、Opus 4.7は4.6よりも
00:03:39多くのトークンを消費するという点です。
00:03:40公式には、Opus 4.7は更新されたトークナイザーを使用し、テキスト処理を
00:03:45改善したとされていますが、その結果、入力トークン数が
00:03:50コンテンツの種類により、約1倍から1.35倍に増加します。
00:03:54第二に、Opus 4.7は高いエフォート・レベルではより深く思考します。
00:03:58以前はデフォルトが「Medium」だったのに対し、今回は
00:04:03「Extra High」に設定されており、さらに4.7自体がより多くのトークンを使います。
00:04:07ですから、これまでずっと「Medium」のままで、
00:04:094.6ですでに利用制限ギリギリだったという方は、
00:04:13注意が必要です。利用制限の問題に直面する可能性が非常に高いです。
00:04:18すでに制限に悩まされている人にとっては、
00:04:19より多くのトークンが消費されることになるからです。
00:04:21また、面白いことに、拡張思考機能も削除されました。
00:04:25この移行についてさらに詳しく、深く知りたい方は、
00:04:28ドキュメントに全容が公開されています。
00:04:30全体として、非常に堅実なアップグレードに見えます。
00:04:32私自身、実際にテストしてみるのが楽しみです。

Key Takeaway

Opus 4.7は画像解像度の3倍向上と推論レベル「X-High」の導入によりコーディングと文書解析の性能を大幅に引き上げた一方、トークン消費量が最大35%増加するため利用制限への注意を要する。

Highlights

Opus 4.7はコーディング性能が向上し、SWE-bench Proで53から64、SWE-bench Verifiedで80から87へとスコアを伸ばした。

視覚的推論スコアが69から82へ上昇し、入力画像の解像度は従来の3倍に対応している。

文書推論の数値が57.1から80.6へ急上昇し、大量の資料を読み込む実務での精度が向上した。

推論の「努力」を制御する新設定「X-High」が追加され、Claude Codeのデフォルト設定に採用された。

新しいトークナイザーの導入により、入力トークン消費量が従来の1倍から1.35倍に増加する。

エージェント検索分野ではGPT 5.4が89.3のスコアでOpus 4.7を上回り、首位を維持している。

Timeline

主要ベンチマークとコーディング性能の向上

  • コーディング関連の3つの主要テストですべて数値が上昇した。
  • SWE-bench Proのスコアは53から64へ向上した。
  • エージェント検索性能は前モデルの4.6より低下し、GPT 5.4がリードを保っている。

Opus 4.7は特にエージェント・コーディング分野で堅実な飛躍を見せている。SWE-bench Verifiedは87、TerminalBench 2.0は69へと到達した。一部のベンチマーク低下をあえて公開することで、データの信憑性を強調している。

視覚的推論と文書解析の進化

  • 視覚的推論スコアは従来の69から82へと跳ね上がった。
  • 入力画像の解像度が従来の3倍になり、図解や微細な文字の認識精度が高まった。
  • 文書推論は57.1から80.6へと大幅な改善を遂げた。

解像度の向上は複雑なグラフやオフィス文書の解析に直結している。ロングコンテキスト推論も71から75へ向上したが、コンテキスト窓の20%から25%に達した時点で履歴をクリアする運用は依然として推奨される。

エフォート制御と新機能の実装

  • 推論レベルを制御する「X-High」設定がHighとMaxの間に追加された。
  • Claude Codeのデフォルト設定がMediumからExtra Highに変更された。
  • APIでも高解像度対応と新しいレビュー専用コマンドが利用可能になった。

モデルが「弱体化した」という批判に対応するため、より深く思考させる設定が導入された。ユーザーは「/effort」コマンドでレベルを調整できる。新しい「/ultra-review」コマンドにより、専用のレビューセッションも可能になった。

トークン消費量の増加と利用制限の懸念

  • 更新されたトークナイザーの影響で、入力トークン数が1倍から1.35倍に増加する。
  • 高いエフォート・レベルでの思考深化に伴い、消費トークン総量が増大した。
  • これまでの拡張思考機能は削除された。

4.7は4.6よりも多くのトークンを消費する仕組みになっている。デフォルトの推論レベルが上がったことも重なり、旧モデルで制限ギリギリだったユーザーは利用制限に達しやすくなる。性能向上の代償として、リソース管理の重要性が増している。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video