AnthropicがAIエージェントの既存手法を「過去のもの」に:エージェント設計の常識が変わる

AAI LABS
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00ここ数ヶ月、BMAD、GSD、SpecKit、Superpowersなど、多くのAIコーディングフレームワークを取り上げてきました。
00:00:08実際に使い始めた方も多いでしょう。しかし、Anthropicが自社のテスト環境で実験を行いました。
00:00:14コンポーネントを1つずつ取り除き、何が本当に重要かを測定した結果、
00:00:17彼らの結論は、そのほとんどが今や「デッドウェイト(無用の長物)」であるということでした。
00:00:25フレームワークの各要素は、モデルが自力でできないことへの仮定に基づいています。
00:00:32しかし、Opus 4.6の登場により、それらの仮定はもはや時代遅れになりました。
00:00:37私たちは全容を把握し、何が依然として重要で、何を削ぎ落とせるのか、
00:00:43そして現在のセットアップがどうあるべきかをまとめました。
00:00:50エージェント・ハーネスは、長期的なタスクにおいてエージェントの性能を大幅に向上させる重要な役割を担います。
00:00:55Anthropicはすでにエージェント・ハーネスを公開しており、以前の動画でセットアップと使用方法を詳しく解説しました。
00:01:01他にも同様の文脈でいくつかのフレームワークを紹介しましたが、
00:01:06実装方法は違えど、目指しているゴールはすべて同じです。
00:01:11しかし、それらのフレームワークが登場した当時、モデルは現在のOpus 4.6ほどの能力を持っていませんでした。
00:01:17例えば、GSDのようなフレームワークは「コンテキストの分離」に重点を置いていますが、
00:01:24Opus 4.6においては、それはもはや問題ではありません。
00:01:29100万トークンのコンテキストウィンドウがあるからだけではありませんが、その別の理由については後ほどお話しします。
00:01:35したがって、以前に実装された多くのフレームワークは、今や新しいモデルの能力に対してオーバーヘッド(余計な負荷)となっています。
00:01:38Anthropicは、ハーネスのさまざまな側面をテストする実験を行い、
00:01:46各要素を取り除いた際の影響を測定しました。
00:01:54その結果、エージェント・ハーネスに本当に必要なのは、計画、生成、評価のためのエージェントだけだと結論付けました。
00:02:01それ以外は、モデルが非常に有能になった現在では、単なる「デッドウェイト」に過ぎない手法なのです。
00:02:06核心となる理論は、どのフレームワークを使用していようとも、エージェント・ハーネスのすべてのコンポーネントが同じ原則に基づいているということです。
00:02:14各コンポーネントは、モデルが単独でできることについての仮定をエンコードしています。
00:02:20これらの仮定は、モデルが進化するにつれて不正確になったり、陳腐化したりするため、ストレスステストを行う必要があります。
00:02:27彼らは記事全体を通してそれを行いました。
00:02:30したがって、モデルの進化に合わせてハーネスも進化させるべきであり、
00:02:43数ヶ月前の原則のまま作業しているなら、最新の状態についていけていないことになります。
00:02:45「計画(Planning)」は、どのフレームワークでも変わらない最初のステップですが、
00:02:50より能力の高いモデルに合わせて、その計画の仕方は変える必要があります。
00:02:55Anthropicの以前の長期実行ハーネスでは、ユーザーが事前に詳細な仕様を提供する必要がありました。
00:02:57BMADやSpecKitのようなフレームワークは、文字通りタスクを小さな断片やマイクロタスクに分割し、
00:03:02AIエージェントが簡単に実装できるようにしていました。
00:03:08これらは単なる小さなタスクではなく、エージェントが考えずに従うだけの「詳細な手順」でした。
00:03:18当時はモデルの能力が十分ではなく、望み通りに動作させるには細かく誘導する必要があったからです。
00:03:23しかし、Opus 4.5や4.6では状況が変わりました。
00:03:32Anthropicのテストによれば、プランナーが事前に細かい技術的詳細を指定しようとすると、
00:03:401つのエラーが実装のすべてのレベルに連鎖し、
00:03:46エージェントが自ら軌道修正して問題を解決することが難しくなることが分かりました。
00:03:52すべては「いかに完璧な計画書が書かれているか」に依存していたのです。
00:03:56そのため、現在、計画は詳細な技術実装ではなく、ハイレベル(抽象的)なものであるべきです。
00:04:06エージェントは自ら判断できるほどスマートになったため、必要な成果物(デリバラブル)を伝えるだけで十分です。
00:04:12彼らは自分たちでそこに至るまでの道筋を見つけ出すことができます。
00:04:22この変化により、BMADやSpecKitのような計画アプローチは、もはやそれほど重要ではなくなりました。
00:04:31BMADの使用をPRD(製品要求仕様書)生成までの計画フェーズに限定し、技術的な分割プロセスは省くことができます。
00:04:40以前述べたように、BMADによるPRD生成が効果的なのは、
00:04:44Claude単体よりも製品要件を深く理解するための専門エージェントを備えているからです。
00:04:47これらのエージェントには、作成者によって特定のタスクに関する外部コンテキストが追加されているためです。
00:04:56あるいは、Superpowersの質疑応答セッションを利用することもできます。
00:04:59これはエッジケースを特定することを目的としており、多層的なタスク文書化よりも効果的な場合があります。
00:05:02しかし、過度に詳細な計画の根本的な問題は、エージェントを束縛してしまい、
00:05:12AIが自ら発見し、解決策を導き出す余地をなくしてしまうことです。
00:05:21Anthropicは、独自のプランナーエージェントを設定する際に参考にできる、プランナーエージェントが生成した計画例も公開しています。
00:05:27そこでは、計画はスコープを大きく持ち、提供されたアプリのアイデアの限界を押し広げるべきだと明確に示されています。
00:05:33核心的な考え方は、プロジェクトを「実装レベル」ではなく「製品レベル」で維持することです。
00:05:39もしプロジェクト計画の中で実装まで細かく計画しようとすると、技術的な詳細に固執しすぎてしまい、
00:05:42完全な製品として本当に必要なものを届けるのに失敗する可能性があるからです。
00:05:46「Claude自身のプランモードも、質問を投げかけたり詳細な計画を立てたりして同様のことをしているのではないか」と思うかもしれません。
00:05:56しかし、ここが違います。Claudeには計画エージェントがいますが、依然として実装の詳細に大きく偏っており、
00:06:03Anthropicの知見に反して、真に製品レベルで動作しているわけではありません。
00:06:08したがって、この体制を整えた後は、作成したエージェントを使ってアプリの計画を立てるようClaudeに依頼するだけです。
00:06:10すると、進行に合わせて完全な計画を生成し、フォルダ内にドキュメント化してくれます。
00:06:15この計画には製品レベルでの全機能のブレイクダウンが含まれ、
00:06:19各フェーズにはユーザーの視点を示すユーザーストーリーも含まれています。
00:06:26これにより、Claudeはユーザーが実際に期待する正しいワークフローを実装できるようになります。
00:06:34さて、先へ進む前に、スポンサーであるMinimaxからのお知らせです。
00:06:39AIエージェントのセットアップは悪夢です。APIキー、サーバー構成、Docker設定、
00:06:47それだけ苦労しても、タブを閉じた瞬間にアシスタントはすべてを忘れてしまいます。
00:06:54解決策は、指先ひとつで使えるクラウド型AI「MaxClaw」です。
00:06:58セットアップも悩みも不要で、独自のOpenClawをデプロイできます。
00:07:02デプロイをクリックするだけで、10秒以内に稼働します。ウェブサイトの構築、コード作成、リサーチ、
00:07:06そしてルーチンワークの自動化まで、すべてシンプルなテキストプロンプトから行えます。
00:07:12MaxClawはTelegram、Slack、Discordなどと直接連携し、ワークフローの自動化、ウェブ閲覧、
00:07:18さらには画像や動画の生成まで、すべてシンプルなチャットから実行可能です。
00:07:22これは「Minimax Agent」の一部であり、誰もがエージェントデザイナーになれるAIネイティブなワークスペースです。
00:07:27MacとWindowsで動作し、M 2.7を搭載。これはSWE-benchにおいてClaude Opus 4.6に匹敵する性能です。
00:07:32複雑なセットアップに格闘するのはもうやめて、MaxClawに任せましょう。固定コメントのリンクから始めてください。
00:07:38「コードを書くエージェントは、それを評価するエージェントであってはならない」。
00:07:42これは2番目に多い問題ですが、あまり議論されることはありません。
00:07:51自己評価には問題があります。コードを書いたのと同じエージェントに評価をさせると、
00:07:57たとえ品質が明らかに基準以下であっても、非常に自信たっぷりに反応し、自画自賛する傾向があるからです。
00:08:02「実装したAPIが実際に動作するか」といった定量的な指標があるタスクなら、まだ管理しやすいかもしれません。
00:08:08しかし、明確に検証可能な結果がないタスクでは、この問題はより顕著になります。
00:08:13その最大の例がUIです。
00:08:17何が良いUIであるかは主観的であり、AIはあなたの意図を完全には把握できないかもしれません。
00:08:21あなたの基準に達していなくても、AIは自らの実装を「よくできている」と見なす可能性があります。
00:08:28この問題は複数のフレームワークの制作者によってすでに認識されており、独自の評価メカニズムが実装されています。
00:08:37GSD、BMAD、Superpowersなど、紹介してきたすべてのフレームワークは、
00:08:42コードを書いたエージェント自身がその品質を評価しないようにしています。
00:08:47このアプローチにより、エージェントによる評価の正確性と信頼性が大幅に向上します。
00:08:50したがって、既存のフレームワークを使うにせよ、自作するにせよ、
00:08:56評価担当(エバリュエーター)を実装担当(インプリメンター)から完全に分ける必要があります。
00:09:02実装が始まる前に、生成エージェントと評価エージェントの両者が「コントラクト(契約)」を交わし、
00:09:07その作業における「完了」の定義について合意します。
00:09:11これにより、両方のエージェントが何を達成し、何を検証すべきかを明確に把握できます。
00:09:18ハイレベルな計画であっても、実行可能で実装可能なステップは必要です。
00:09:21しかし、ハーネスのテスト中、彼らは「スプリント・コントラクト」を取り除いてみました。
00:09:30その結果、Opus 4.5では、評価担当が問題をキャッチするために介入し続ける必要があり、効率が低下しました。
00:09:39ところがOpus 4.6では、モデルの能力が非常に向上していたため、もはやコントラクトは必要ありませんでした。
00:09:46生成エージェントは、ほとんどの作業を自力でこなせるほど有能になっていたのです。
00:09:50そのため、SonnetやHaikuのような小規模なモデルでは、依然としてタスクのドキュメント化が必要です。
00:09:57タスクをスプリント構造に適切に分解し、各エージェントに「完了」の定義を合意させる必要があります。
00:10:04しかし、より有能なモデルであれば、追加のステップなしに、Opusにハイレベルな計画の実行を任せることができます。
00:10:10さて、先ほど「コンテキストの分離」が重要である理由があると言いました。
00:10:13それは、小規模なモデルが「コンテキスト不安(Context Anxiety)」を起こすためです。
00:10:18これは、コンテキストウィンドウが埋まるにつれて、長いタスクにおいてモデルの一貫性が失われ始める現象です。
00:10:24これが発生すると、AIは作業を途中で切り上げ、実際には終わっていないのに「正しく実装した」と主張し始めます。
00:10:35有効だった解決策は「コンテキストのリセット」、つまり実装を開始する前にコンテキストウィンドウを消去することでした。
00:10:43コンテキストがクリアされても、外部に記録されたタスク分解を参照すれば、リセットを跨いで継続できます。
00:10:49しかし、モデルのコンテキスト不安は非常に強く、要約(コンパクション)だけでは不十分でした。
00:10:54長期的なタスクで問題を防ぐには、さらなる対策が必要だったのです。
00:11:02しかし、Opus 4.5以降、モデルはこの挙動を示さなくなりました。
00:11:06これらのエージェントはセッション全体を通して連続して動作でき、Claudeの要約機能だけで十分に機能します。
00:11:12したがって、コンテキストのリセットはもはや不要であり、BMADやSpecKitのような詳細なタスク分解も必要ありません。
00:11:19ハイレベルなガイダンスだけで十分なのです。
00:11:27生成(ジェネレーター)エージェントは、アプリを機能ごとに構築していくメインの実装担当です。
00:11:37計画から仕様を受け取り、Gitと連携してバージョン管理を行いながら、継続的に実装を進めます。
00:11:44生成担当は評価担当エージェントと連携して動作します。
00:11:54機能を構築した後、それをテストに回し、フィードバックを受けて実装を改善します。
00:12:02そのワークフローは、タスクの理解、実装、そして実装のブラッシュアップといういくつかのステップに分かれています。
00:12:10実装フェーズの中でも、作業は異なる側面をカバーする4つのサブフェーズに分割されています。
00:12:17デザインの方向性に従い、自らの作業を検証してから、評価担当に渡します。
00:12:21これにより構造化された段階的なパターンが生まれ、エージェントがアプリ全体を独立的かつ体系的に実装できるようになります。
00:12:35評価(エバリュエーター)エージェントは、生成担当に対する「検閲官」として機能します。
00:12:49その役割は、単に「バグを探す」といった一般的なパスではなく、バグが存在するという前提で批判的にアプローチすることです。
00:12:58Playwrightなどのツールを使用して、ユーザー操作をシミュレートしてテストを行い、
00:13:03事前定義された基準に基づいてバグを特定し、生成担当にフィードバックを返します。
00:13:10評価担当は計画を読み込むことで「完了」の定義を明確に理解し、承認前にすべてを徹底的にチェックします。
00:13:24各フレームワークにバリデーターはありますが、そのアプローチは大きく異なります。
00:13:33BMADは専門のコードレビューおよびQAエージェントを使用し、テストを生成・実行して多角的にコードを評価します。
00:13:43GSDは、既存の計画に照らして実装をチェックし、文書レポートを作成する検証サブエージェントを使用します。
00:13:48Superpowersは新しいサブエージェントに依存し、テストケースを書く前にコードを書いてはならない厳格なTDD(テスト駆動開発)を強制します。
00:13:57エージェントがこれをバイパスしようとすると、ブロックされます。

Key Takeaway

高度に進化したOpus 4.6環境下では、従来の詳細なマイクロタスク管理を廃止し、ハイレベルな計画、独立した生成・評価エージェントの3要素に絞った最小限の構成がエージェントの性能を最大化する。

Highlights

Opus 4.6の登場により、従来のAIコーディングフレームワークに含まれる多くのコンポーネントは「デッドウェイト(無用の長物)」と化している。

最新モデルでは、詳細な技術手順を指定するよりもハイレベルな製品レベルの計画を提示する方が、エージェントの自己軌道修正能力を阻害せず成果の質を高める。

コードの実装担当と評価担当を完全に分離し、両者が「完了の定義」について合意するコントラクトを交わすことで、評価の客観性と信頼性を担保する。

Opus 4.5以降のモデルは「コンテキスト不安」を克服しており、セッション途中のコンテキストリセットや過度なタスク分解なしで100万トークンのウィンドウを活用できる。

評価エージェントにはPlaywrightなどのツールを使用させ、バグが存在するという前提でユーザー操作をシミュレートする「検閲官」としての役割を与える。

Timeline

旧来のフレームワークが直面する陳腐化

  • BMADやGSDなどの既存フレームワークの構成要素は、モデルの能力不足を補うための仮定に基づいている。
  • Opus 4.6は自力でタスクを完遂する能力が高いため、従来の複雑な制御機構は処理のオーバーヘッドとなっている。
  • エージェント・ハーネスに真に必要な要素は、計画、生成、評価の3つのエージェントのみに集約される。

Anthropicの実験により、コンポーネントを1つずつ取り除いて性能を測定した結果、多くの機能が不要であることが判明しました。モデルの進化速度に合わせてハーネスを簡素化しなければ、数ヶ月前の原則は最新モデルの足を引っ張る原因になります。特にコンテキストの分離に注力していた手法は、現在の広大なコンテキストウィンドウの前では意味をなしません。

実装レベルから製品レベルへの計画の移行

  • 詳細すぎる技術計画は1つのエラーが全工程に連鎖し、エージェントの柔軟な問題解決を妨げる。
  • 現在の計画フェーズでは技術的な細部ではなく、ユーザー視点の機能分解や成果物の定義に集中すべきである。
  • Claudeの標準プランモードは依然として実装の詳細に偏っているため、独自に製品レベルの計画エージェントを構築する価値がある。

以前はモデルを細かく誘導するためにマイクロタスクへの分割が必須でしたが、高性能なモデルは自ら道筋を見つけ出すスマートさを備えています。計画を「製品レベル」に留めることで、エージェントは技術的な制約に縛られず、真にユーザーが期待するワークフローを実現できます。フォルダ内にドキュメント化される計画には、各フェーズのユーザーストーリーを含めることが推奨されます。

クラウド型AIエージェント環境の利便性

  • MaxClawは複雑なAPIキー設定やDocker構築を不要にし、10秒以内にエージェントを稼働させる。
  • M 2.7モデルを搭載したこのワークスペースは、SWE-benchにおいてClaude Opus 4.6に匹敵する性能を示す。

ローカル環境でのエージェント構築に伴うセットアップの煩雑さや、セッション終了時のメモリ消失問題を解決する手段としてクラウド型環境が提示されています。テキストプロンプトのみでウェブ閲覧やコード作成、画像生成までを統合し、主要なチャットアプリと連携する仕組みです。

実装担当と評価担当の分離による信頼性の向上

  • 自己評価を行うエージェントは、品質が基準以下であっても過剰な自信を持って「完了」と報告するバイアスを持つ。
  • 実装が始まる前に生成側と評価側が「完了の定義」について合意するコントラクトの締結が不可欠である。
  • Opus 4.6では実行中の介入が不要なほど自律性が高まっているが、下位モデルでは依然としてスプリント構造への分解が効果を発揮する。

UIのように主観が入り込むタスクでは、自己評価の欠陥が顕著に現れます。これを防ぐために、複数のフレームワークが評価メカニズムを物理的に分離する手法を採用しています。高性能モデルであればハイレベルな計画を渡すだけで自律的に動きますが、SonnetやHaikuを使用する場合は、依然としてタスクの細分化と厳格な合意形成のステップが品質維持に寄与します。

コンテキスト不安の解消と最新のワークフロー

  • 旧世代のモデルで見られたコンテキスト充填による一貫性の喪失(コンテキスト不安)は、Opus 4.5以降では発生しない。
  • 生成エージェントはGitと連携し、タスクの理解、実装、ブラッシュアップの4つのサブフェーズを経て段階的に構築を進める。
  • 評価エージェントはPlaywrightを用いたTDD(テスト駆動開発)を強制し、バグの存在を前提とした批判的な検証を行う。

モデルが進化し、コンテキストウィンドウが埋まっても一貫性を保てるようになったため、かつて有効だった「コンテキストのリセット」や「要約」の手間は不要になりました。最新のワークフローでは、生成エージェントが体系的にコードを書き、評価エージェントがそれを「検閲官」として厳格にチェックする構造をとります。Superpowersのようなフレームワークでは、テストを先に書かない限り実装をブロックする仕組みで、エージェントの不完全な作業を防止しています。

Community Posts

View all posts