Loop Engineering、Hermesエージェントを10倍に増強

AAI LABS
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00最近「ループエンジニアリング」という新しい言葉が広まっています。
00:00:04他の流行語と同じで、誰もが真新しいことのように話していますが、そうではありません。
00:00:09しかし、Hermesのような常時稼働エージェントと組み合わせると、単なる流行ではなくなります。
00:00:13これを設定しようとする人のほとんどは、ループ部分は正しくても、
00:00:17実際に機能させるための重要な点を見落としています。もし二種類のループについてご存知なら、
00:00:22その一方に、ほとんど誰もやっていない特定の設定があるのです。それを見れば、
00:00:27エージェント開発に対する考え方が完全に変わります。動画が終わる頃には、
00:00:31それが何なのかを正確に理解し、HermesやClaude Codeで実行できるようになっているでしょう。
00:00:36ループエンジニアリングの核心は単純です。あなたがエージェントを動かすプロンプトを書くのではなく、
00:00:41エージェント自身に駆動させるのです。しかし、なぜこれが転換点なのかを知るには、
00:00:46これまでの方法と比較する必要があります。かつて重要だったのはプロンプトエンジニアリングで、
00:00:51コーディングエージェントを適切に動かす指示書を書くことに全力を注いでいました。しかしループエンジニアリングは、
00:00:56それを逆転させます。自分でプロンプトを書く代わりに、
00:01:01プロンプトエンジニアリングを行い、エージェントを自律的に駆動させるシステムを設計するのです。
00:01:05つまり、指示を練ることよりも、自己稼働するシステムを設計することに重点が移ります。すべては、
00:01:10OpenClawの開発者が「もうコーディングエージェントにプロンプトを送るべきではない」と言ったことから始まりました。
00:01:15エージェントの代わりにプロンプトを投げるループの設計に集中すべきだと。Claude Codeの生みの親である
00:01:20BorisもAnthropicsの年次開発者会議で同じことを主張しました。彼は
00:01:25もうClaudeにプロンプトを出していないそうです。ループを走らせてClaudeに投げ、
00:01:30何をする必要があるかをClaude自身に考えさせているのです。では、どう始めればいいのでしょうか?
00:01:34すべては、エージェントへのプロンプトを心配する必要がないシステムをどれだけうまく構築できるかです。
00:01:39必要なものを定義すれば、あとはエージェントが行う。それがAI開発の向かう先です。
00:01:45実際に構築する方法に入る前に、ループとは何かを明確にしておきましょう。ループとは、
00:01:50最終的なゴールを定義し、エージェントがそこに到達するまでのステップを自分自身で把握するプロセスです。
00:01:56途中で自ら修正し、問題を回避しながら、設定したゴールまで進みます。
00:02:01数ヶ月前まで、モデルが長期タスクを維持する能力がなかったため、これは不可能でした。
00:02:06アプリを作るには、エージェントにプロンプトを送り、動作を監視し、出力を自分で確認し、
00:02:11問題を見つけて再度プロンプトを送る必要がありました。あなたがループそのものだったのです。
00:02:16エラーチェックや進路修正を毎回行っていたわけです。多くの人にとって開発とはまだそういうものですが、
00:02:20ループエンジニアリングはまさにそれを肩代わりしようとしています。これは真新しい概念に
00:02:25聞こえるかもしれませんが、実はループは以前から存在します。Cronジョブは
00:02:30皆さんもきっと見たことがあるループの好例です。タスクを繰り返し、自動的に実行するようにスケジュールされており、
00:02:35毎回自分でトリガーする必要はありません。唯一の違いは、Cronジョブは決まった時間に
00:02:39実行される点です。つまりループがあれば、仕事はプロンプトを書くことではなくなります。
00:02:44タスクにおけるエージェントのパフォーマンスは、最終ゴールをどれだけうまく定義できるかにかかっています。
00:02:49このプロセスを強化学習に似ていると感じる方もいるでしょう。強化学習を
00:02:54ご存知でない方のために説明すると、モデルに正解を教えるのではなく、
00:02:59上手くいった時とそうでない時を伝えるだけで、モデルが徐々に良さを理解していく訓練方法です。
00:03:04モデルは試行錯誤することで正しい道を見つけます。正しい方向へ動けばプラスのシグナル、
00:03:09そうでなければマイナスのシグナルが送られます。ここでも同じ考え方が適用されますが、
00:03:14訓練されているのはモデルそのものではありません。エージェントがやりたいタスクを完了するために動いており、
00:03:19モデルが訓練中に向上するのと同じ方法で反復を行っています。失敗すれば、エージェントに
00:03:23かけたループがタスクを完了とみなさず、再度試行し、ゴールを設定した通りに達成するまで修正を続けます。
00:03:28これを聞いて、すべてが自律化したら自分は何をするのかと思うかもしれません。
00:03:33しかし、あなたの役割は縮小するどころか、より重要になります。
00:03:38最終的なゴールを定義するのは、あなたのドメイン知識と経験だからです。
00:03:43それがあなたが構築し出荷するものすべてに反映されます。これが、自律的なループへの推進が
00:03:48加速している理由であり、あらゆる新機能に現れています。Fable 5が最も顕著な例です。
00:03:54AnthropicはAI開発の減速を求めていたにもかかわらずこれをリリースしました。
00:03:59モデルが追いつけないほどの速度で能力が向上しているからです。そして、
00:04:03しばらくリリースした後、彼らはそれを引き下げました。これは長く複雑なタスクのために構築され、
00:04:08タスクが長くて複雑であればあるほど性能を発揮するもので、従来のモデルの働きとは真逆でした。
00:04:13このシフトはOpus 4.5から本格的に始まりました。それがリリースされてから、長時間のタスクは
00:04:19劇的に改善されました。エージェントを慎重に誘導するためのハーネス、つまり各ステップを
00:04:23順を追って案内する構造を設定する必要はもうありません。焦点は、
00:04:28プロジェクトを長期間運用するための準備に移りました。モデルがステップごとの管理なしで、
00:04:33自分で物事を処理できるようになったからです。しかし重要なのはループだけではありません。
00:04:38エージェントが自分で作業し続けられるように、プロジェクトを構造化する必要があります。
00:04:43多くの人がこのような環境のためにシステムを構築・オープンソース化してきました。RALFループがその最初の一つです。
00:04:48これは最終ゴールを設定し、エージェントがそこから逸脱しないようにすることで機能しました。
00:04:53特定の事象が起きた時に自動的に実行されるスクリプトである「フック」を通じてこれを実現しました。
00:04:57このスクリプトは、条件を満たしていない限り、エージェントがタスク完了を宣言するのを厳格に防ぎます。
00:05:03しかしフックは融通が利かないため、Claudeはより柔軟な「ゴール」コマンドを導入しました。
00:05:09ハードコードされたチェックの代わりに、別のモデルがタスクの完了を判断するようにしたのです。
00:05:14「Goal Buddy 2」はさらに進んで、エージェントがローカルファイルで進捗を追跡し、
00:05:19始める前に完了の定義を明確にすることで、常に何を目指しているかを把握できるようにしました。
00:05:24HermesエージェントとOpenClawも同じ哲学に基づいています。あなたを完全に除外し、
00:05:29エージェント自身にすべてを任せるのです。さて、もしループを構築したいなら、
00:05:355つのステップからなるシンプルなシステムを用意しました。ループには2種類あり、ステップは少し異なりますが、
00:05:40両方とも後ほど詳しく説明します。まずはClaude Codeで始め、動画の後半で
00:05:45Hermesエージェントで同じことをする方法を見ていきましょう。第一段階はプロジェクトの状態を確認することです。
00:05:49そこからモデルが次に行うべきアクションを決定します。次にその決定に基づいて実行に移ります。
00:05:54ここが実際の作業が行われる場所です。エージェントはツールを呼び出し、ファイルに書き込み、コマンドを実行してタスクを完了させます。
00:05:59完了するとフィードバックを集めて何が起きたかを分析し、
00:06:04それに基づいてタスクが完了したかどうかを判断します。ここがプロンプトエンジニアリングと
00:06:09ループエンジニアリングの違いが明らかになるポイントです。プロンプトエンジニアリングでは決定ステップしか制御できませんが、
00:06:14ループエンジニアリングは5つのステップすべてを統合して処理します。
00:06:19優れたループを作るには、それぞれ特定の問題を解決するいくつかの要素を正しく設定する必要があります。
00:06:24まず一つ目は「コンテキスト管理」です。毎ターンのコンテキストに何を含めるかに注意を払う必要があります。
00:06:29それによってエージェントの理解度が変わるからです。100万トークンもの大きなウィンドウがあっても、
00:06:34会話が進むにつれ、システムプロンプトや指示が最近のツール出力で埋もれてしまうため、
00:06:39チャットコンテキストだけに頼ることはできません。エージェントは直近の情報に引っ張られるため、
00:06:44重要な情報が失われてしまうのです。これがコンテキスト管理が重要な理由です。
00:06:50次に大事なのは「フィードバックの品質」です。フィードバックはエージェントに結果を伝えるもので、
00:06:55システム全体で最も重要なシグナルの一つです。テストの出力やUIのスクリーンショットなど様々な形がありますが、
00:07:00それが何であれ、エージェントはそれを読んで次の動きを決めます。「検証ゲート」は、
00:07:05そのフィードバックを明確な判定に変えるものです。タスクが本当に完了したかどうかを伝えるチェックポイントです。
00:07:11「終了条件」も必要で、これはループをいつ止めるかを指示するルールです。明示的に設定しないと、
00:07:16エージェントが早すぎる終了をしたり、前進せずにループし続けたりします。
00:07:21見落とされがちなのが「エラーハンドリング」です。ツール呼び出しが失敗した時にどうすべきかを詳しく定義しておかないと、
00:07:26状態が壊れたまま放置され、さらなる問題を引き起こします。最後に、「ターン間の状態管理」です。
00:07:31会話が長くなってもタスクがどこまで進んでいるかを追跡します。コンテキストウィンドウには限界があるので、
00:07:36外部ファイルを使って情報を追跡し、スレッドを失わずに作業を続けさせます。
00:07:41ただ、モデル自身に進路を決めさせるため、ループはトークンを大量消費することを覚えておいてください。
00:07:46ですから、いつループを使うかは意図的に選ぶ必要があります。ループが扱えるトークンが多いほど、
00:07:51タスクの処理は良くなる傾向があります。その前に、スポンサーであるScrimbaについてご紹介します。
00:07:57ほとんどのPythonコースはスライドを読み上げるだけですが、Scrimbaは違います。
00:08:01動画プレーヤー自体がコードエディタになっているため、いつでも一時停止して、
00:08:06講師のコードを直接書き換えて何が起きるか試せます。タブ切り替えもコピペも不要で、開始直後から実践的なコーディングができます。
00:08:11新しいPython学習コースが注目を集めているのは、単なる練習問題ではなく、
00:08:15実際に使えるものを作るからです。初日から「PayUp」という完全な経費精算アプリを構築し、
00:08:21すべての概念をすぐに適用します。完全なゼロから始め、事前のPython知識は一切不要です。
00:08:26変数、文字列、ユーザー入力、演算子、データ変換など、アプリを作る過程で全て学べます。
00:08:31最後には、Pythonを習得したことを証明するプロジェクトが完成します。
00:08:37初日から、本格的な経費精算アプリ「PayUp」を開発しながら、各概念を即座に応用していきます。
00:08:42無料コースから今すぐ始めましょう。当チャンネルのユーザーはProプランが20%オフになります。
00:08:47ピン留めされたコメントのリンクか、QRコードから今すぐビルドを始めましょう。
00:08:53さて、ループには2種類あると言いましたね。一つ目は「決定論的ループ」です。
00:08:57これは完了が何であるかが明確に定義されているタスクに使います。テストの通過や、
00:09:02コンパイルの成功などがこれにあたります。ゴールの定義がはっきりしているため、
00:09:07何をすれば完了と言えるかが明確で、構築しやすいです。Hermesは常時稼働しているので、
00:09:12このループの実装に適しています。これまでも複数のワークフローを作成し、
00:09:18自律的にタスクを処理する様子を以前の動画で紹介しました。決定論的ループの核はゴールの明確な定義です。
00:09:23ホストしているアプリなら、テストケースがその定義になります。つまり、
00:09:28テストケースがあるアプリをHermesに監視させることも可能です。
00:09:33もしコミットで本番環境が壊れたら、Hermesに自動化を設定して検知させることができます。
00:09:38これがうまくいく理由は「自己進化スキル機能」があるためで、ワークフローに基づいて
00:09:43スキルを自動作成・進化させ、アプリの状態を健全に保てるからです。
00:09:49監視自動化を設定したら、Claude Codeを非インタラクティブモードで起動するよう頼みます。
00:09:54人間が操作せずともテストケースをすべて通過させるまでIssueを修正させます。
00:09:59エージェントが行うのは、自動化ワークフローの設定と、「サブエージェント駆動開発」スキル、
00:10:04およびGitHubでのアプリ管理を教える「GitHub PRワークフロー」スキルの読み込みです。
00:10:09本番環境を壊している問題を特定し、Claude Codeを起動して修正し、すべてのテスト通過後にコミットします。
00:10:14すべて修正してGitHub CLIで変更をコミットすると、
00:10:18成功に必要なすべてのチェックが満たされていることが確認され、エラーなく実行されるようになります。
00:10:23この解説が気に入ったらチャンネル登録と通知ベルのオン、そして「ハイプボタン」も押してください。
00:10:28このチャンネルでは、AIを活用してビジネスのプロセスを最適化する新しい方法を学べるコンテンツを投稿しています。
00:10:34サブエージェント駆動開発スキルや、アプリをGitHub上で管理する方法を指示するGitHub PRワークフロースキルなどを読み込みます。
00:10:39まず本番環境を壊していた問題を特定し、Clawed Codeを非対話モードで起動します。
00:10:44そしてテストを実行し、すべてパスしたら変更をコミットします。すべてのテストを実行し、
00:10:50本番環境での障害原因を修正した後、GitHub CLIを使って変更をコミットします。
00:10:55そのため、非決定論的ループではワークフローが異なります。AIを使ってUIを作る際、
00:11:00決まったパターンに陥りがちであることをご存知でしょう。そのため私たちは「AI Slop Detector」というスキルを作りました。
00:11:05AI特有の質の低いパターンを回避し、それを識別する手順をすべて保持しています。
00:11:10ここでもHermesの「自己進化スキル」を使います。スキルを実行してもまだスロップが見つかるなら、
00:11:15スキル自体を更新してフィードバックを直接取り込めるからです。だからこそHermesでこのワークフローを組んだのです。
00:11:21まずHermesにスキルを使ってUIをチェックさせます。もし問題があれば、
00:11:26Claude Codeを非インタラクティブモードで起動し、修正させ、何も残らなくなるまで繰り返させます。
00:11:31Hermesのもう一つの利点は、レビューモデルを開発モデルと別にできることです。
00:11:36コードレビューで最も優秀とされるGPTモデルを使い、Claudeをビルダーとして、GPTをベリファイアーにします。
00:11:41こうして互いにチェックし合う「対抗型ループ」が完成します。このループを実行すると、
00:11:46Opusモデルが吐き出すような汎用的な出力よりもはるかに優れたUIが生成されます。
00:11:51そのため、「AIスロップ検知器(AI Slop Detector)」というスキルを作成しました。これにはAIによる粗悪な生成(AIスロップ)を避けるための指示と、その特徴的なパターンがリスト化されています。
00:11:57AIが生成しがちなパターンがリスト化されています。私たちが再びHermesを使用している理由は、
00:12:02その自己進化するスキルにあります。UIを実行した後にまだAIスロップが見つかれば、スキル自体がアップデートされ、
00:12:07フィードバックを直接取り込むことができます。まさにそれが、私たちがHermesでこのワークフローを構築した理由です。そこで、
00:12:13Hermesにスキルを使ってUIにそうしたパターンが含まれていないかチェックさせます。もし見つかればそれを修正し、
00:12:18Claude Codeを非対話モードで起動してスキルを実行し、修正すべき箇所がなくなるまで繰り返し修正を行います。
00:12:23Hermesを活用するもう一つの利点は、作業を行うモデルとレビューするモデルを分けられることです。
00:12:28私たちはコードレビューにおいて最高クラスと評価されているGPTモデルを使用しています。
00:12:33つまり、Claudeモデルが構築担当となり、別のエージェントが検証担当になるのです。これによって、
00:12:38お互いの作業をチェックし合う敵対的ループが完成します。このループを実行した結果、
00:12:43現在Opusモデルが出力するような一般的な結果よりも、はるかに優れたUIが生成されました。もしエージェントによるループ終了後でも、
00:12:49UIにAIスロップの兆候があれば、それを指摘するだけでスキルが更新され、
00:12:54既存の検証機能をさらに強化できます。私たちは、私たちとHermesが共同で見出した複数のAIスロップパターンに対応できるよう、
00:12:59このスキルを強化してきました。このスキルを使ってみたい方は、私たちのコミュニティ「AI Labs Pro」から入手できます。
00:13:04リンクは概要欄に記載されています。今回の動画は以上です。
00:13:09このチャンネルを支援し、このような動画制作を続けてほしいという方は、
00:13:14ぜひ下の「スーパーサンクス」ボタンをご利用ください。いつもご視聴ありがとうございます。また次の動画でお会いしましょう。

Key Takeaway

ループエンジニアリングは、プロンプトの記述ではなく自律稼働システムの構築に焦点を合わせ、Hermesなどのエージェントとフィードバックループを統合することで、長期的な複雑タスクの自動完了率を劇的に向上させる。

Highlights

  • ループエンジニアリングは、指示を書くプロンプトエンジニアリングから、エージェントが自律駆動するシステム設計へと主軸を転換させる。

  • Claude Codeを非インタラクティブモードで実行し、テストケースを自動的に通過させることで、エラー修正のプロセスを完全自動化できる。

  • コンテキストウィンドウの限界を防ぐため、外部ファイルを使用して長時間のタスクにおける進捗状況を追跡する。

  • Hermesエージェントの自己進化スキル機能は、実行中のフィードバックを直接取り込み、失敗したタスクの修正手順を自動的にアップデートする。

  • 構築モデルにClaude、検証モデルにGPTを使用する「対抗型ループ」により、単一モデル運用よりも質の高いUI生成が可能になる。

Timeline

ループエンジニアリングの本質と目的

  • ループエンジニアリングは人間がエージェントへ逐次プロンプトを送るのではなく、エージェント自身が自律的にゴールを追求するシステムを設計する。
  • かつての開発手法は人間がエラー確認や進路修正を毎回行う必要があったが、ループはこの作業をシステムで肩代わりする。
  • 強化学習と同様のフィードバックメカニズムにより、エージェントは失敗から学習し、ゴールに到達するまで試行錯誤を繰り返す。

従来のプロンプトエンジニアリングは、コーディングエージェントへの指示書作成に注力していたが、現代のループエンジニアリングはそのアプローチを逆転させる。エージェントが長期タスクを維持・実行するためのシステムを設計することで、人間は単なる操作者からゴール定義の提供者へと役割が変化する。

自律ループを構成する5つのステップと管理要素

  • プロジェクト状態の確認、次ステップの決定、ツールの実行、フィードバックの分析、完了判断の5段階でループを構築する。
  • コンテキスト管理には直近情報への依存を防ぐため、システムプロンプトや外部ファイルを通じた状態管理が不可欠である。
  • 検証ゲートと終了条件を明示的に定義しなければ、エージェントは早期終了や無限ループに陥る。

効率的なループ構築には、失敗時のエラーハンドリングや、長時間の作業でもスレッドを失わないための状態管理が重要となる。モデル自身が進路を決定するためトークン消費量は増加する傾向にあるが、タスク完了の定義を明確化することでエージェントの性能を最大限に引き出せる。

決定論的ループと非決定論的ループの実践

  • テストケースの通過などが明確な決定論的ループは、GitHub CLIや自動テスト環境と組み合わせることで本番環境の健全性を維持できる。
  • UI生成のような非決定論的ループでは、「AIスロップ検知器」などのツールを用いて品質を担保し、エージェントがスキルを自己進化させる。
  • 構築をClaude、レビューをGPTに担当させる対抗型ループを構築することで、単一モデルでは達成困難な高品質な成果物を作成できる。

決定論的ループはテストケースを通じた修正に強みを発揮し、Hermesの自己進化機能でワークフローを自動更新する。非決定論的ループでは、AI特有の質の低いパターンを回避するため、レビューモデルを分けた二段構えの検証体制を構築し、反復修正を通じて最適解を導き出す。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video