Opus 4.7は「最高」だ(トークン消費量を除けば)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00新しい最強モデル、Opus 4.7が登場しました。明らかに
00:00:05かなりのアップグレードのようです。コーディング能力はもちろん、
00:00:09ビジョンや自己検証も向上し、UI制作ではよりセンスが良く
00:00:12クリエイティブになったとのこと。ただ欠点もあり、コストは
00:00:17変わりませんが、トークナイザーの変更により、同じプロンプトでも
00:00:22最大35%多くのトークンを消費し、思考量も増えたため
00:00:26さらに消費が激しくなります。今回のリリースには興味深い詳細や
00:00:30Claude Codeの設定変更の必要性もあるので、早速見ていきましょう。
00:00:31さて、まずはベンチマークから始めます。実は先ほど
00:00:40「新最強モデル」と言ったのは少し語弊がありました。一般公開では最強ですが、
00:00:44ベンチマークには未公開の超強力モデル「Mythos」も含まれています。
00:00:47Anthropicによると、Opus 4.7では、禁止された高リスクな
00:00:52サイバーセキュリティ利用を阻止する新機能をテスト中であり、
00:00:56そこでの知見がMythos級モデルの一般リリースに繋がるそうです。
00:01:00将来、Mythosがリリースされ、開発の常識が覆る日が来たら
00:01:03動画にしますので、見逃さないようチャンネル登録をお願いします。
00:01:06今はMythosを無視して、実際に使えるOpus 4.7に集中しましょう。
00:01:10このモデルはベンチマークで大きな成果を上げています。
00:01:13詳細は割愛するので、詳しく見たい方は画面を止めて確認してください。
00:01:16SWE Bench Proなどのベンチマークでは、Opus 4.6から
00:01:2110%の飛躍、Verifiedでは7%向上しており、この傾向は
00:01:26他の項目でも続きます。唯一サイバーセキュリティだけは少し下がっており、
00:01:30これは先ほど述べたセーフガードの影響のようです。世界を守るために
00:01:34意図的にスコアを低く抑えているのかもしれません。
00:01:37また、システムカードで見つけた興味深いベンチマークでは、
00:01:40ロングコンテキストの「Needle In A Haystack」テストの結果が、
00:01:45Opus 4.6に比べて急落しているようです。実際の使用にどう影響するか気になります。
00:01:50ベンチマーク以外にも、Claudeの使い勝手を変えそうな改善点があります。
00:01:54まず指示への追従性が向上しました。これは、以前のモデルのように
00:01:58指示を緩く解釈したり、一部を飛ばしたりすることがなくなったため、
00:02:01過去のプロンプトで予期せぬ結果が出る可能性があることを意味します。
00:02:07Opus 4.7は指示を文字通りに捉えるため、プロンプトの微調整が必要かもしれません。
00:02:11次にマルチモーダル支援。旧モデルの3倍の高解像度画像を
00:02:16読み込めるようになり、PC操作やデータ抽出の精度が上がるはずです。
00:02:20メモリ使用量も改善され、ファイルシステムベースのメモリ機能により、
00:02:25セッションを跨いで重要なノートを記憶し、次のタスクでの
00:02:30事前コンテキストを削減できます。これでトークンを節約できるかもしれません。
00:02:34トークンの節約は重要です。なぜなら次の変更点が
00:02:39トークナイザーと思考プロセスだからです。Opus 4.7の新トークナイザーは
00:02:45処理を効率化しますが、同じ入力でも最大35%多く消費されます。
00:02:49さらにOpus 4.7は高い努力レベルでより深く思考するため、
00:02:54トークンの消費は相当なものになります。さらに悪いことに、
00:02:58新しい「Extra High」努力レベルがClaude Codeのデフォルトになっています。
00:03:02様々なレベルをテストして、影響を感じずに下げられる設定を
00:03:05見つけることを強くお勧めします。比較として、新レベルの
00:03:09「Extra High」はOpus 4.6の最大努力レベルと同等のトークンを使い、
00:03:14Opus 4.7の「High」は、Opus 4.6の最大レベルよりも
00:03:19少ないトークンで高いスコアを出します。以前の性能で十分なら、
00:03:24このチャートで比較してください。私はほとんどの場合、
00:03:27「High」レベルに変更して使うつもりです。概要はこの辺にして、
00:03:31実際にテストしてみましょう。まずはUIデザインが向上したか
00:03:35確認するため、index.htmlのみでカフェのサイトを作るという
00:03:40シンプルなプロンプトを投げました。テストした全モデルで
00:03:43努力レベルを最大に設定しています。これがOpus 4.7の結果です。
00:03:51かなり良いですね。カフェらしい雰囲気が出ています。フォントも良く、
00:03:55Unsplashから画像も取得しています。文句なしの出来です。
00:03:59メニューセクションもシンプルで、レスポンシブ対応も完璧。
00:04:04全体的に非常に優れています。Opus 4.6と比較すると、
00:04:09スタイルは異なりますが、フォントやメニュー構成は似ています。
00:04:12ただ、背景画像がなく、グラデーションの切り替えも不自然なので、
00:04:164.6の方が少し劣りますね。それでも悪くはありませんが、
00:04:20Opus 4.7の方が一歩リードしています。一方、Gemini 3.1は
00:04:25私の一番のお気に入りとなる結果を出してくれました。皆さんは
00:04:29どれが好きかコメントで教えてください。スクロールしても動かない背景や、
00:04:33「Our Story」セクションの画像配置が素晴らしいと思います。
00:04:36メニューも他と同様ですが、レイアウトが非常に綺麗です。
00:04:40フッターも同様で、今回のテストは3.1の勝利ですね。
00:04:45最下位は間違いなくGPT 5.4です。いかにもGPTらしい見た目で、
00:04:50ブラーのかかったカード形式を多用していますが、
00:04:55カフェのサイトとしては微妙です。よくあるGPT製アプリにしか見えません。
00:04:59Opus 4.7はUIに強く、指示を細かく出せばさらに良くなるでしょう。
00:05:04現在、デザインアリーナではOpus 4.6が首位ですが、
00:05:094.7がその座を奪うはずです。今のテストは単純すぎたので、
00:05:13次はより高度なタスクを与えます。Claude Codeを使い、
00:05:17個人の財務状況を詳細に把握できる個人財務管理ダッシュボードを
00:05:21作成させます。多くの機能をプロンプトに盛り込みましたが、
00:05:25技術スタックは指定せず、ゼロから構築させました。
00:05:30まずはOpus 4.7の結果。1回のプロンプトで約20分で完成。
00:05:34第一印象は「すごい」の一言です。UIは非常にクリーンで、
00:05:39チャートも美しく、レイアウトも完璧。配色もセンスが良いです。
00:05:44正直、自分でもこれ以上改善するところが見当たりません。
00:05:48UIに関しては素晴らしい仕事をしてくれました。
00:05:53要求した各ページも揃っています。口座一覧、取引履歴、
00:05:57予算管理。ただ、予算や目標を新規追加する機能は
00:06:02実装されていないようです。しかし、目標への入金は可能で、
00:06:05数値も連動し、構築されたバックエンドAPIも更新されます。
00:06:10個人間の送金テストも同様です。Claude Codeの購読料を
00:06:14支払うテストをしたところ、送金は成功し、
00:06:17ダッシュボードの純資産もその取引分、即座に更新されました。
00:06:22バックエンドのデータベースも動作しており、最近の取引にも
00:06:26反映されています。生成されたコードを確認すると、
00:06:30フロントエンドにはReactとViteが使われており、私が選ぶ構成と同じです。
00:06:34React Routerの使用も妥当です。TanStackでも良かったですが、
00:06:38どちらも良い選択肢です。UIコンポーネントも個別に整理され、
00:06:42フロントエンドの出来は非常に良いですね。マイナス点があるとすれば
00:06:46バックエンドです。Expressサーバーを使用していますが、
00:06:51これほどシンプルなアプリなら、BunやHonoの方が
00:06:54適していたかもしれません。また、データの保存方法が
00:06:59メモリ内のみである点も気になります。サーバーを再起動すると
00:07:04シードスクリプトのデータにリセットされます。つまり、
00:07:08ローカル配列のみで、永続的なデータベースはありませんでした。
00:07:13次にOpus 4.6の結果ですが、UIデザインに関しては
00:07:18明らかにOpus 4.7の方が優れています。4.6のUIは何かが足りません。
00:07:21パディングが多すぎるのか、4.7がダークモードだったのに対し
00:07:24こちらはライトモードだからか。個人的には4.7の方が好みです。
00:07:29構成要素は似ており、純資産のカード、推移グラフ、
00:07:33最近の取引、目標管理など、各ページも備わっています。
00:07:38機能面をテストするため、150ドルの食費の取引を
00:07:42新しく追加してみました。正常に反映され、
00:07:46ダッシュボードの純資産も更新されたので、動作に問題はありません。
00:07:501回のプロンプトでOpus 4.6が4.7に勝っていた点は、
00:07:54口座の追加が可能だったことです。また、教育予算などの
00:07:58予算や目標も追加できました。Opus 4.6の方が
00:08:03機能が多く盛り込まれていましたが、4.7にも追加指示を出せば
00:08:07済む話です。通常、1回のプロンプトで完結させることはありませんから。
00:08:12コードを見ると、4.6も同様にVite+React構成でしたが、
00:08:16興味深いことに、React 19とReact Router DOM 7を
00:08:20使っていました。4.7はReact 18とRouter 6でした。
00:08:274.7の方が知識のカットオフが新しいはずなのですが。また、
00:08:324.6はSQLiteデータベースを使用してデータを永続化していた点も
00:08:36評価できます。しかし、プロジェクト全体でJavaScriptを
00:08:40使っており、TypeScriptを正しく使った4.7に軍配が上がります。
00:08:45次はGPT 5.4の結果。正直、何がしたいのか分かりません。
00:08:50実用的なUIではなく、非常に見栄えが悪いです。全体的に煩雑で、
00:08:55フォントも好みではありません。これに時間をかけるつもりはないので、
00:08:59Claudeの結果と比べてかなり劣るとだけ言っておきます。
00:09:03一応、入金機能は動きますが、ページ全体がリフレッシュされます。
00:09:07コードも酷く、GPT 5.4はフルプロジェクトを作る気がないようで、
00:09:11index.html、JSファイル、スタイルのみという、非常に
00:09:14簡素なアプローチでした。データベースもJSスクリプト内での
00:09:19メモリ処理のみで、Opus 4.7と同じ構成です。
00:09:23また、これもTypeScriptではなくJavaScriptが使われていました。
00:09:28Gemini 3.1については、アプリを動かすのにかなり苦労し、
00:09:32どのような見た目になるか確認するために何度も追加プロンプトを
00:09:36送る必要がありました。見た目はOpus 4.6にそっくりです。
00:09:41UIの学習データが同じなのかもしれません。ただ、機能は
00:09:45一切動かず、タブもクリックできませんでした。Gemini 3.1が
00:09:50今回のワーストですね。5.4も相当ですが。しかし、
00:09:54Gemini 3.1のアプローチ自体は悪くありませんでした。
00:09:59React RouterではなくNext.jsを選択しており、APIルートを
00:10:02使える点は、このようなアプリには適しています。ただ、
00:10:07ORMにDrizzleではなくPrismaを使っていたのは残念です。
00:10:10今回のテスト結果には驚きました。これまでCodexを愛用し、
00:10:15Claude Codeから離れていましたが、Opus 4.7に惹きつけられそうです。
00:10:19UIデザインが素晴らしく、アプリの大部分が動作していました。
00:10:24今回はあえてスタックを曖昧に指示しましたが、本来なら
00:10:28詳細に指定します。それでも今回の結果には非常に感銘を受けました。
00:10:32皆さんはどのモデルがお好みですか?ぜひコメント欄で
00:10:36教えてください。チャンネル登録も忘れずに。それでは、
00:10:49また次回の動画でお会いしましょう。

Key Takeaway

Opus 4.7はコーディングやUIデザイン能力で競合を圧倒する性能を見せる一方、トークナイザー変更と思考深化によりトークン消費量が最大35%以上増加するため、用途に応じた努力レベルの調整が運用の鍵となる。

Highlights

Opus 4.7はベンチマークのSWE Bench Proで前モデルから10%の向上、Verifiedでは7%の向上を記録した。

新型トークナイザーの導入により、同一のプロンプト入力でもトークン消費量が最大35%増加する。

画像の解像度処理能力が旧モデルの3倍に向上し、PC操作やデータ抽出の精度が改善された。

Claude Codeのデフォルト設定である努力レベル「Extra High」は、前モデルの最大レベルと同等のトークンを消費する。

ファイルシステムベースのメモリ機能により、セッションをまたいで重要なノートを記憶し、コンテキスト削減が可能になった。

Timeline

Opus 4.7の基本性能向上とベンチマーク結果

  • SWE Bench Proで10%、Verifiedで7%のスコア向上が確認された。
  • サイバーセキュリティ分野のスコアは、高リスクな利用を阻止するセーフガード導入の影響で意図的に抑制されている。
  • ロングコンテキストの「Needle In A Haystack」テスト結果は、Opus 4.6と比較して急落している。

コーディングやビジョン能力の全般的な向上が確認されており、特にプロフェッショナルなソフトウェア開発指標で顕著な数値を示している。未公開モデルMythos級のリリースに向けたセキュリティテストが進行中であり、その過程で一部の安全機能が強化された。一方で、長文脈からの情報抽出能力には課題が残る結果となっている。

指示追従性とマルチモーダル機能の改善

  • 指示を文字通りに解釈する性質が強まったため、過去の緩いプロンプトでは結果が変わる可能性がある。
  • 画像解像度の対応範囲が3倍に拡大し、画面上のUI操作やテキスト抽出の精度が向上した。
  • 新しいメモリ機能がセッション間のコンテキスト維持を可能にし、再入力の手間を省く。

モデルがより厳密に指示を遂行するようになったため、プロンプトの微調整が必要になる場面が増える。高解像度画像のサポートは、複雑なUIの理解や精密なデータ抽出において強力な武器となる。ファイルシステムベースのメモリは、効率的なワークフローの構築に寄与する。

トークン消費量と努力レベルの最適化

  • 新トークナイザーの影響で、基本のトークン消費効率が最大35%悪化している。
  • Opus 4.7の「High」レベルは、前モデルの最大レベルより少ないトークンで同等以上の性能を出す。
  • デフォルトの「Extra High」設定は、非常に深い思考を行う代償として極めて多くのトークンを消費する。

性能向上の一方でコスト面での負担が増しているため、ユーザーによる努力レベル(Effort Level)の管理が重要である。前モデルの性能で十分なタスクであれば、設定を「High」に下げることで、コストを抑えつつ高いアウトプットを得られる。特にClaude Codeを使用する際は、この設定変更がランニングコストに直結する。

UIデザイン制作の実機比較テスト

  • Opus 4.7はカフェのサイト制作において、レスポンシブ対応やフォント選定に優れたセンスを見せた。
  • Gemini 3.1は背景配置やレイアウトの美しさで、今回のUIデザインテストにおける最高評価を獲得した。
  • GPT 5.4は画一的なカード形式のデザインに終始し、他のモデルに比べデザインの質が劣る。

単一のHTMLファイルでのサイト制作比較では、Opus 4.7が4.6を上回るクリエイティビティを発揮した。画像素材の取得やモバイル対応も完璧にこなしている。ただし、視覚的なレイアウトの完成度においてはGemini 3.1が最も高い評価を得ており、モデルごとの得意不得意が明確に分かれる結果となった。

Claude Codeによるフルプロジェクト構築能力

  • Opus 4.7は20分間の自動構築で、TypeScript、React、Viteを用いた洗練されたダッシュボードを完成させた。
  • バックエンドのデータ保存がメモリ内のみに限定され、再起動で消失する点が実装上の課題として残った。
  • Gemini 3.1はNext.jsを選択する合理的なアプローチを見せたが、最終的なアプリは動作せず最下位となった。

個人財務管理アプリの構築テストでは、Opus 4.7が最も実用的かつ美しいUIを提供した。コードの構造もTypeScriptを正しく活用しており、プロフェッショナルな品質に近い。対照的にGPT 5.4は簡素なファイル構成に留まり、Gemini 3.1は構成案こそ優れていたものの実動作に至らなかった。Opus 4.7の技術選定はReact 18ベースであり、4.6がReact 19を選択した点と比較すると、新旧モデル間で知識の反映に差異が見られる。

Community Posts

View all posts