Transcript
00:00:00Anthropicが今日、Claude Opus 4.8をリリースしました。
00:00:02そこでこの動画では、手短に何が変わったのか、
00:00:05そしてこの新しいモデルのどこに注目すべきかを
00:00:08解説していきます。
00:00:09まずは早速、ベンチマークを見ていきましょう。
00:00:12ここにOpus 4.8をハイライトしています。
00:00:14Opus 4.7、GPT 5.5、Gemini 3.1 Proと比較すると、
00:00:20Opusはほぼすべてのカテゴリーで圧倒しています。
00:00:24エージェント型ターミナルコーディングを除いてですが、
00:00:26これはTerminal Bench 2.1ですね。
00:00:28そこではスコアが74.6で、
00:00:30Opus 4.7からは大幅な進歩を遂げていますが、
00:00:34それでもGPT 5.5には及びません。
00:00:37しかし、それ以外、SWE Bench Proや
00:00:40学際的な推論、エージェント型のコンピュータ利用、
00:00:42知識労働、そしてエージェント型の財務分析においても、
00:00:45他を大きく引き離しています。
00:00:47もちろん、ベンチマークは話半分に聞くべきですが、
00:00:49Opus 4.7で報告されていた内容から大きな飛躍が見られるのは
00:00:53喜ばしいことです。
00:00:56まだそんなに時間は経っていませんよね。
00:00:57ほんの数ヶ月前ですよ。
00:00:584.7がリリースされてから、もう4.8が出て、
00:01:01エージェントコーディングのスコアが64から69に上がっているんですから。
00:01:04素晴らしいことです。
00:01:054.8で4.7から大きく改善された点の一つとして、
00:01:08Anthropicが挙げているのが「誠実さ」です。
00:01:11この誠実さというのは、このAIモデルが、
00:01:14何かを頼まれたときに、
00:01:15それができない、あるいはやっていない場合には、
00:01:18正直にそう言えるということです。
00:01:19ここ数年、AIモデルを使ってきた人なら
00:01:20よく分かるでしょうが、
00:01:22例えばこういった作業を頼む時です。
00:01:22「この巨大なトランスクリプトを読んで、
00:01:24実際に何をしたのか教えて」と。
00:01:27するとAIの出力を見て
00:01:29詳細を問いただすと、
00:01:31「実はちょっと要約しただけです。全部は読んでいません」
00:01:32なんて言われる。
00:01:33これは重大な問題です。
00:01:35実務でAIを使っているなら、
00:01:35AIが言った通りに動いているかを確認するための
00:01:37テストがいかに重要か身に染みているはずです。
00:01:40しかしAnthropicは、
00:01:424.8では従来のモデルよりも
00:01:46その問題が改善されていると言っています。
00:01:47特に彼らの評価によれば、
00:01:50約250ページにわたるシステムカードを見るとわかりますが、
00:01:51Opus 4.8は、
00:01:52自身が書いたコードの欠陥を見過ごす可能性が、
00:01:54前モデルの4倍低くなっていると示されています。
00:01:56約250ページに及ぶものです
00:01:59はるかに誠実であり、
00:02:01嘘をつくことはありません。
00:02:04また、4.8では不正行為や悪用への加担といった
00:02:07不適切な挙動の率が、
00:02:09Opus 4.7よりも大幅に低く、
00:02:12Mythosと同等であると評価されています。
00:02:13Opus 4.7やSonnet 4.6にはそういった傾向がありましたが、
00:02:16MythosやOpus 4.8ではそれがあまり見られません。
00:02:18モデル自体以外にも、
00:02:21Anthropicがさらに押し進めたアップデートがいくつかあります。
00:02:24一つ目は「ダイナミック・ワークフロー」です。
00:02:25これは目標(Goals)に似た考え方です。
00:02:28非常に複雑なタスクをClaude Codeに託す際、
00:02:31時間をかけて取り組ませることができ、
00:02:331回のセッションで数十から数百の並列エージェントを
00:02:35生成して確実に作業を完了させます。
00:02:36皆さんもご存知の通り、プランモードで
00:02:39細かくタスクを分割しても、
00:02:41一度に扱うにはClaude Codeにとって重すぎる問題が多くあります。
00:02:43この「ダイナミック・ワークフロー」がその解決策です。
00:02:45これについては近日中に詳細を解説します。
00:02:47今日試してみたいという方は、
00:02:50主に二つの方法があります。
00:02:52一つは直接「Claude、ダイナミック・ワークフローを作成して」と指示すること、
00:02:53もう一つはClaude Code固有の新しい設定である
00:02:56「UltraCode」をオンにすることです。
00:02:57Claude.aiやCoworkといったチャットボット関連の
00:02:59もう一つの大きな変化は、
00:03:00Claudeがどれだけの労力をかけて応答するかを
00:03:03細かく制御できるようになった点です。
00:03:05Claude Codeでは以前から
00:03:06High、Extra High、Maxといった設定がありましたが、
00:03:09それが今やClaude.aiやCoworkでも利用可能になりました。
00:03:11最後に、Messages APIを利用している方に向けてですが、
00:03:12メッセージ配列の中にシステムエントリが含まれるようになりました。
00:03:13これはタスクの途中でClaudeの指示を
00:03:15更新できるので非常に便利です。
00:03:18「UltraCode」というものです。
00:03:20追加プロンプトによる「キュー」機能に似ています。
00:03:22補足ですが、Opusのデフォルト設定は「Extra High」ではなく、
00:03:24「High」になっています。
00:03:26Opus 4.7のグラフを覚えていますか?
00:03:27当時は「Extra High」が推奨されていましたね。
00:03:304.8はデフォルトがHighですが、
00:03:31必要であればさらに2段階上の努力レベルへ
00:03:33引き上げることが可能です。
00:03:35トークン使用量についてですが、
00:03:36Claude Codeのレート制限が引き上げられ、
00:03:38より高い努力レベルでのトークン使用量にも対応できるようになりました。
00:03:39これは非常にありがたいですね。
00:03:41以上、新しいClaude Opus 4.8の概要でした。
00:03:44価格設定はOpus 4.7と全く同じですので、
00:03:45この新しいパワーを使っても追加料金はかかりません。
00:03:47いつものように、感想をお待ちしています。
00:03:50「Claude Code マスタークラス」に興味がある方は、
00:03:51リンク先のコメントから
00:03:52ぜひチェックしてみてください。
00:03:54それでは、またお会いしましょう。
00:03:57「最高」ではなく、「高」がデフォルトです。
00:03:59Opus 4.7の時を思い出してください。
00:04:00あのグラフで示されていた通り、
00:04:01彼らが伝えたかったのは、
00:04:03「最高」設定こそが推奨だということです。
00:04:054.8は「高」設定ですが、
00:04:07さらに上の2段階まで引き上げられるので、
00:04:09新しいモデルからより高い能力を
00:04:11引き出したい場合は活用してください。
00:04:12トークン使用量についてですが、
00:04:14Claude Codeのレート制限が引き上げられ、
00:04:16高負荷設定によるトークン使用量の増加にも
00:04:18対応できるようになりました。
00:04:20これは本当にありがたいですね。
00:04:21以上が、最新のClaude Opus 4.8の
00:04:22簡潔な概要説明です。
00:04:24料金はOpus 4.7と完全に同じなので、
00:04:25Opus 4.7と同額であり、
00:04:26この新たなパワーを利用するために
00:04:28追加料金を払う必要はありません。
00:04:29皆さんの感想をぜひ教えてください。
00:04:31「Chase AI Plus」をチェックしたい方は、
00:04:33コメント欄のリンクからどうぞ。
00:04:34私の「Claude Code Masterclass」に
00:04:35興味がある方はぜひご覧ください。
00:04:36それでは、またお会いしましょう。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video