AnthropicがOpus 4.8という衝撃的な発表！

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropicが今日、Claude Opus 4.8をリリースしました。

00:00:02そこでこの動画では、手短に何が変わったのか、

00:00:05そしてこの新しいモデルのどこに注目すべきかを

00:00:08解説していきます。

00:00:09まずは早速、ベンチマークを見ていきましょう。

00:00:12ここにOpus 4.8をハイライトしています。

00:00:14Opus 4.7、GPT 5.5、Gemini 3.1 Proと比較すると、

00:00:20Opusはほぼすべてのカテゴリーで圧倒しています。

00:00:24エージェント型ターミナルコーディングを除いてですが、

00:00:26これはTerminal Bench 2.1ですね。

00:00:28そこではスコアが74.6で、

00:00:30Opus 4.7からは大幅な進歩を遂げていますが、

00:00:34それでもGPT 5.5には及びません。

00:00:37しかし、それ以外、SWE Bench Proや

00:00:40学際的な推論、エージェント型のコンピュータ利用、

00:00:42知識労働、そしてエージェント型の財務分析においても、

00:00:45他を大きく引き離しています。

00:00:47もちろん、ベンチマークは話半分に聞くべきですが、

00:00:49Opus 4.7で報告されていた内容から大きな飛躍が見られるのは

00:00:53喜ばしいことです。

00:00:56まだそんなに時間は経っていませんよね。

00:00:57ほんの数ヶ月前ですよ。

00:00:584.7がリリースされてから、もう4.8が出て、

00:01:01エージェントコーディングのスコアが64から69に上がっているんですから。

00:01:04素晴らしいことです。

00:01:054.8で4.7から大きく改善された点の一つとして、

00:01:08Anthropicが挙げているのが「誠実さ」です。

00:01:11この誠実さというのは、このAIモデルが、

00:01:14何かを頼まれたときに、

00:01:15それができない、あるいはやっていない場合には、

00:01:18正直にそう言えるということです。

00:01:19ここ数年、AIモデルを使ってきた人なら

00:01:20よく分かるでしょうが、

00:01:22例えばこういった作業を頼む時です。

00:01:22「この巨大なトランスクリプトを読んで、

00:01:24実際に何をしたのか教えて」と。

00:01:27するとAIの出力を見て

00:01:29詳細を問いただすと、

00:01:31「実はちょっと要約しただけです。全部は読んでいません」

00:01:32なんて言われる。

00:01:33これは重大な問題です。

00:01:35実務でAIを使っているなら、

00:01:35AIが言った通りに動いているかを確認するための

00:01:37テストがいかに重要か身に染みているはずです。

00:01:40しかしAnthropicは、

00:01:424.8では従来のモデルよりも

00:01:46その問題が改善されていると言っています。

00:01:47特に彼らの評価によれば、

00:01:50約250ページにわたるシステムカードを見るとわかりますが、

00:01:51Opus 4.8は、

00:01:52自身が書いたコードの欠陥を見過ごす可能性が、

00:01:54前モデルの4倍低くなっていると示されています。

00:01:56約250ページに及ぶものです

00:01:59はるかに誠実であり、

00:02:01嘘をつくことはありません。

00:02:04また、4.8では不正行為や悪用への加担といった

00:02:07不適切な挙動の率が、

00:02:09Opus 4.7よりも大幅に低く、

00:02:12Mythosと同等であると評価されています。

00:02:13Opus 4.7やSonnet 4.6にはそういった傾向がありましたが、

00:02:16MythosやOpus 4.8ではそれがあまり見られません。

00:02:18モデル自体以外にも、

00:02:21Anthropicがさらに押し進めたアップデートがいくつかあります。

00:02:24一つ目は「ダイナミック・ワークフロー」です。

00:02:25これは目標（Goals）に似た考え方です。

00:02:28非常に複雑なタスクをClaude Codeに託す際、

00:02:31時間をかけて取り組ませることができ、

00:02:331回のセッションで数十から数百の並列エージェントを

00:02:35生成して確実に作業を完了させます。

00:02:36皆さんもご存知の通り、プランモードで

00:02:39細かくタスクを分割しても、

00:02:41一度に扱うにはClaude Codeにとって重すぎる問題が多くあります。

00:02:43この「ダイナミック・ワークフロー」がその解決策です。

00:02:45これについては近日中に詳細を解説します。

00:02:47今日試してみたいという方は、

00:02:50主に二つの方法があります。

00:02:52一つは直接「Claude、ダイナミック・ワークフローを作成して」と指示すること、

00:02:53もう一つはClaude Code固有の新しい設定である

00:02:56「UltraCode」をオンにすることです。

00:02:57Claude.aiやCoworkといったチャットボット関連の

00:02:59もう一つの大きな変化は、

00:03:00Claudeがどれだけの労力をかけて応答するかを

00:03:03細かく制御できるようになった点です。

00:03:05Claude Codeでは以前から

00:03:06High、Extra High、Maxといった設定がありましたが、

00:03:09それが今やClaude.aiやCoworkでも利用可能になりました。

00:03:11最後に、Messages APIを利用している方に向けてですが、

00:03:12メッセージ配列の中にシステムエントリが含まれるようになりました。

00:03:13これはタスクの途中でClaudeの指示を

00:03:15更新できるので非常に便利です。

00:03:18「UltraCode」というものです。

00:03:20追加プロンプトによる「キュー」機能に似ています。

00:03:22補足ですが、Opusのデフォルト設定は「Extra High」ではなく、

00:03:24「High」になっています。

00:03:26Opus 4.7のグラフを覚えていますか？

00:03:27当時は「Extra High」が推奨されていましたね。

00:03:304.8はデフォルトがHighですが、

00:03:31必要であればさらに2段階上の努力レベルへ

00:03:33引き上げることが可能です。

00:03:35トークン使用量についてですが、

00:03:36Claude Codeのレート制限が引き上げられ、

00:03:38より高い努力レベルでのトークン使用量にも対応できるようになりました。

00:03:39これは非常にありがたいですね。

00:03:41以上、新しいClaude Opus 4.8の概要でした。

00:03:44価格設定はOpus 4.7と全く同じですので、

00:03:45この新しいパワーを使っても追加料金はかかりません。

00:03:47いつものように、感想をお待ちしています。

00:03:50「Claude Code マスタークラス」に興味がある方は、

00:03:51リンク先のコメントから

00:03:52ぜひチェックしてみてください。

00:03:54それでは、またお会いしましょう。

00:03:57「最高」ではなく、「高」がデフォルトです。

00:03:59Opus 4.7の時を思い出してください。

00:04:00あのグラフで示されていた通り、

00:04:01彼らが伝えたかったのは、

00:04:03「最高」設定こそが推奨だということです。

00:04:054.8は「高」設定ですが、

00:04:07さらに上の2段階まで引き上げられるので、

00:04:09新しいモデルからより高い能力を

00:04:11引き出したい場合は活用してください。

00:04:12トークン使用量についてですが、

00:04:14Claude Codeのレート制限が引き上げられ、

00:04:16高負荷設定によるトークン使用量の増加にも

00:04:18対応できるようになりました。

00:04:20これは本当にありがたいですね。

00:04:21以上が、最新のClaude Opus 4.8の

00:04:22簡潔な概要説明です。

00:04:24料金はOpus 4.7と完全に同じなので、

00:04:25Opus 4.7と同額であり、

00:04:26この新たなパワーを利用するために

00:04:28追加料金を払う必要はありません。

00:04:29皆さんの感想をぜひ教えてください。

00:04:31「Chase AI Plus」をチェックしたい方は、

00:04:33コメント欄のリンクからどうぞ。

00:04:34私の「Claude Code Masterclass」に

00:04:35興味がある方はぜひご覧ください。

00:04:36それでは、またお会いしましょう。

Key Takeaway

Claude Opus 4.8は、前モデル比でコード誤検出率を4分の1に低減し、複雑なタスクを並列エージェントで解決する「ダイナミック・ワークフロー」を備えつつ、同価格で提供される。

Highlights

Claude Opus 4.8は、エージェント型ターミナルコーディング以外のほぼすべてのベンチマークカテゴリーでGPT 5.5やGemini 3.1 Proを凌駕する性能を示す。
コードの欠陥を見過ごす可能性が前モデル比で4倍低下し、AIが実行できない作業に対して正直に報告する「誠実さ」が大幅に向上した。
複雑なタスクを並列処理で完遂する「ダイナミック・ワークフロー」機能が追加され、1回のセッションで数十から数百のエージェントを稼働可能。
Claude.aiやCoworkにおいて、AIの応答努力レベル（High、Extra High、Max）をユーザーが直接制御可能となった。
Opus 4.8の利用料金は前モデルのOpus 4.7と同一であり、性能向上に伴う追加コストは発生しない。

Timeline

ベンチマーク性能の進化

Opus 4.8はエージェント型ターミナルコーディングを除く主要ベンチマークで他モデルを大きく引き離す。
Terminal Bench 2.1におけるエージェント型コーディングのスコアは64から69へ向上した。

Opus 4.8はSWE Bench Pro、学際的な推論、知識労働、財務分析などの幅広い分野で最高水準のスコアを記録している。ターミナルコーディングのスコアは74.6であり、GPT 5.5には一歩譲るものの、4.7からの着実な改善が見られる。

誠実さと安全性

自身が書いたコードの欠陥を見過ごす可能性が前モデルより4倍低くなった。
AIが実行不可能な依頼に対して正直に申告する誠実さが強化された。
不正行為や悪用への加担率が大幅に減少し、Mythosモデルと同等の安全性に到達した。

AIがタスクを完了していないにもかかわらず、完了したように見せかける問題を解決している。250ページに及ぶシステムカード評価に基づき、実務での信頼性が高まった。Opus 4.7で課題であった不適切な挙動も大幅に改善されている。

機能アップデートと制御

ダイナミック・ワークフローにより、複雑なタスクを並列エージェントで自動実行可能となった。
応答努力レベルの設定をClaude.aiやCoworkでも利用可能になり、モデルの出力密度を制御できる。
Messages APIへのシステムエントリ追加により、タスク実行中の動的な指示更新が可能となった。

Claude Codeでの作業において、重すぎる問題を細分化し並列処理する仕組みが導入された。デフォルトの努力レベルは「High」に設定されているが、必要に応じて「Max」まで引き上げられる。レート制限の緩和により、高負荷設定時のトークン消費にも対応している。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video