ハーネス・エンジニアリング:2026年の個人開発者を定義する必須スキル

SSolo Swift Crafter
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00さて、始めましょうか。
00:00:02「今、最強のAIモデルはどれか?」
00:00:04Claudeか、GPTか、それともGeminiか。
00:00:07正直に言うと、それは愚問だと思います。
00:00:11完全に的外れな問いだと言ってもいい。
00:00:14本題の前に、自己紹介をさせてください。ダニエルです。
00:00:16iOS開発の世界にどっぷり浸かって8年以上になります。
00:00:20最初はフリーランスとしてUIデザインを手がけ、
00:00:24いくつものクライアントを渡り歩きながら、
00:00:25他人のアイデアを形にする日々を送っていました。
00:00:27自分のアイデアを模索しながらね。
00:00:28そして2025年以降、私はソロ開発にすべてを懸ける決心をしました。
00:00:33クライアントワークも、安全網も一切なしです。
00:00:36それ以来、15以上の自作アプリを制作してきました。
00:00:39すべてSwiftUIを使い、開発過程を公開しながら作っています。
00:00:41今、私は持てる全エネルギーを注いで、
00:00:44この個人スタジオを
00:00:46長く存続できるものにしようとしています。
00:00:49粗製乱造のMVPやAI任せの低品質なアプリではなく、
00:00:52規模が拡大しても耐えうる「本物」のアプリを作ること。
00:00:55そのプロセス、つまり
00:00:57泥臭い試行錯誤の全記録をCrafter's Labで公開しています。
00:01:00URLは crafterslab.dev です。
00:01:01ここは、単なるチュートリアルの墓場でもAIのクローン工場でもありません。
00:01:06真の意味での私の拠点であり、
00:01:08AIを真の「相棒」として活用するソロ開発者のための場所です。
00:01:12行き詰まった時にボタンを叩いて
00:01:14運任せで答えを待つような、自動販売機的な使い方はしません。
00:01:16もし、あなたが「つくること」を大切にしていて、
00:01:18本気でスキルアップを目指し、
00:01:20価値あるものを長く残したいと考えているなら、
00:01:23きっと居心地がいいはずです。
00:01:24それから、Patreonで支援してくださっている皆さん、
00:01:26本当にありがとうございます。でも、お知らせがあります。
00:01:29すべての活動拠点は crafterslab.dev に移行しました。
00:01:32仲間はみんな、あっちにいます。
00:01:33ぜひ、一緒に作りましょう。
00:01:35さて、今回のテーマについて考えるきっかけがありました。
00:01:38最近発表された、ある研究結果です。
00:01:41研究者たちが「Epic's Agent」というベンチマークを公開しました。
00:01:45これが、ネット上でよく議論される
00:01:49他の一般的なベンチマークと何が違うのか。
00:01:51それは、AIエージェントを「実務レベルの仕事」でテストしている点です。
00:01:55プログラミングのクイズや多肢選択式問題ではありません。
00:01:58コンサルタントや弁護士、アナリストたちが
00:02:03日々こなしている、実際の業務タスクです。
00:02:05人間が完了するのに1〜2時間はかかるタスクばかりです。
00:02:08これに主要な最先端モデルをすべて投入してテストしました。
00:02:11すると、最高成績のモデルでもタスクを完了できたのは
00:02:13わずか24%。つまり4回に1回です。
00:02:17同じモデルで8回試行を重ねても、
00:02:20成功率は40%程度までしか上がりませんでした。
00:02:23ここで思い出してほしいのは、これらのモデルは
00:02:26従来のベンチマークでは90%以上のスコアを叩き出し、
00:02:29世間を驚かせていたものだということです。
00:02:32つまり、これまでのベンチマークが実態を反映していないか、
00:02:33あるいは、私たちが測るべき指標を間違えているかのどちらかです。
00:02:36私は後者だと思っています。
00:02:37ここからが、私たちにとって重要な話になります。
00:02:41研究者たちは、なぜエージェントが失敗したのかを詳しく分析しました。
00:02:46その理由は「モデルの知能が低いから」ではありませんでした。
00:02:49モデルは必要な知識をすべて持っていましたし、
00:02:51問題に対する推論能力も十分でした。
00:02:54失敗の要因は、ほぼ例外なく
00:02:56「実行(Execution)」と「編成(Orchestration)」にありました。
00:03:00ステップ数が多くなると、エージェントは道を見失ってしまいます。
00:03:02すでに失敗した手法を何度もループしたり、
00:03:05そもそも自分が何をしようとしていたのかさえ、
00:03:09途中で忘れてしまったりするのです。
00:03:11もしあなたがClaude CodeやCursorを
00:03:14毎日使っているソロ開発者なら、身に覚えがあるはずです。
00:03:18エージェントが迷走し、動かないコードを3回もリトライしたり、
00:03:2120ステップ前の文脈を完全に忘れたりする様子を
00:03:23目の当たりにしたことがあるでしょう。
00:03:26そして、こう思うわけです。
00:03:28「モデルをOpusに切り替えるべきか?」
00:03:30「他のプロバイダーを使うべきか?」
00:03:32しかし、データが示している答えは違います。
00:03:34ボトルネックはモデルそのものではありません。
00:03:36モデルを包み込む「周囲の環境」にあるのです。
00:03:38それを言い表す言葉があります。
00:03:402025年が「エージェントの年」だったように、
00:03:432026年を象徴する言葉になるでしょう。
00:03:46その言葉とは「ハーネス(Harness)」です。
00:03:47エージェント・ハーネスとは、モデルを取り巻く全インフラを指します。
00:03:50モデルが何を見ることができるか、
00:03:52どんなツールにアクセスできるか、
00:03:54不測の事態からどう復帰するか、
00:03:56長時間のセッションでどう状況を把握し続けるか。
00:03:59OpenAIは文字通り「ハーネス・エンジニアリング」と題した
00:04:02ブログ記事を公開しました。
00:04:04Anthropicも、長時間稼働するエージェントのための
00:04:07「効果的なハーネスの構築」についてのガイドを出しています。
00:04:09Metaが買収したばかりのAI企業、Manusも、
00:04:13コンテキスト・エンジニアリングの教訓を公開しました。
00:04:16彼らはわずか半年の間に、自社のエージェント・フレームワークを
00:04:195回も作り直した末に、その結論に至っています。
00:04:22そして全員が、全く同じことを言っているのです。
00:04:24エンジニアリングの本質的な課題はモデルではなく、
00:04:27ハーネスにあるのだと。
00:04:28さて、ここからの話は正直、私にとって驚きでした。
00:04:32というのも、私たちがツールを使う際に抱く
00:04:34一般的な常識とは真逆の内容だからです。
00:04:38Vercelでの事例を紹介しましょう。
00:04:41彼らは「Text-to-SQL」エージェントを開発していました。
00:04:43質問を投げると、SQLクエリを生成してくれるものです。
00:04:46当初は、誰もがやるような方法で構築していました。
00:04:49多くの特化型ツールをエージェントに与えたのです。
00:04:51データベース構造を理解するためのツール、
00:04:54クエリを書くためのツール、結果を検証するためのツール、といった具合に。
00:04:58さらに、それらを幾重ものエラーハンドリングで
00:05:01ガチガチに固めて運用していました。その時の成功率は約80%でした。
00:05:04そこで、彼らはある過激な試みを行いました。
00:05:06それらツールの8割を、バッサリと削ぎ落としたのです。
00:05:11代わりに与えたのは、bashの実行やファイルの読み込みなど、
00:05:15grepやcatといった標準的なコマンドラインツールだけでした。
00:05:18私たちが普段使っているような、ごく基本的な機能です。
00:05:20すると、なんと精度が80%から100%に跳ね上がりました。
00:05:25さらに、消費トークンは40%も減り、
00:05:28処理速度は3.5倍も速くなったのです。
00:05:31正直言って、驚異的な結果だと思いませんか?
00:05:33これを構築したエンジニアの言葉が、
00:05:36非常に印象深く残っています。
00:05:38「モデルは賢くなり続け、
00:05:40コンテキスト・ウィンドウも拡大し続けている。
00:05:42ならば、エージェントの最適解は
00:05:44『ほとんど何もしないアーキテクチャ』かもしれない」と。
00:05:46これはパラダイムシフトですよ。
00:05:50特にソロ開発者で、システムの信頼性を
00:05:54高めようと必死になっている時は、
00:05:57ついツールやガードレール、複雑な
00:06:01ルーティング・ロジックを継ぎ足したくなります。
00:06:02構造を複雑にすれば助けになると思いがちですが、
00:06:04実際にはそれらのツールはモデルの助けになるどころか、
00:06:06かえって邪魔をしていたのです。
00:06:08そして、これは特異な事例ではありません。
00:06:10Manusも全く同じ結論に達しています。
00:06:13彼らは半年の間にフレームワークを
00:06:165回も根本から作り直しましたが、
00:06:19最大のパフォーマンス向上をもたらしたのは
00:06:21機能の追加ではなく、
00:06:23機能の「削除」だったのです。
00:06:25複雑なドキュメント検索機能を廃止し、
00:06:28凝ったルーティング・ロジックを捨て、
00:06:29管理用エージェントを単純な構造化された引き継ぎに置き換えました。
00:06:34削ぎ落とすたびに、システムはよりシンプルに、より高性能になりました。
00:06:37ここで、Claude Codeで長時間の開発を行う
00:06:40すべてのソロ開発者が知っておくべき事実があります。
00:06:42Manusの調査によると、エージェントは1つのタスクにつき
00:06:45平均して約50回ものツール呼び出しを行っていました。
00:06:49これはかなりのステップ数です。
00:06:50たとえ最新モデルが巨大なコンテキスト・ウィンドウを
00:06:53技術的にサポートしていたとしても、
00:06:54ある一定のラインを超えるとパフォーマンスは急激に低下します。
00:06:58モデルが突然すべてを忘れるわけではありません。
00:07:01重要な「シグナル」が大量の「ノイズ」に埋もれてしまうのです。
00:07:04セッション開始時の重要な指示が、
00:07:07膨大な中間結果の下に隠れて見えなくなってしまいます。
00:07:10そこで彼らが取った解決策は、驚くほど単純でした。
00:07:12「ファイルシステムをモデルの外部メモリとして使う」こと。
00:07:14コンテキスト・ウィンドウにすべてを詰め込むのをやめ、
00:07:17重要な情報はファイルに書き出し、
00:07:20必要な時にだけ読み取らせるようにしました。
00:07:23Claude Codeを使っているなら、見たことがあるはずです。
00:07:25「CLAUDE.md」というファイル、TODOリスト、進捗管理など。
00:07:27まさにあのパターンが、毎日あなたのターミナルで
00:07:29繰り広げられているわけです。
00:07:34さて、最初に話した
00:07:36「誰もが同じ結論にたどり着く」という話を思い出してください。
00:07:37現在、最も成功している3つのエージェント・システムを見ると、
00:07:40それぞれ異なるアプローチから出発しながら、
00:07:44最終的に同じ地点に到達しています。
00:07:45OpenAIのCodexは、階層型のアプローチを取っています。
00:07:49計画を立てる「オーケストレーター」、
00:07:51個別のタスクを処理する「エグゼキューター」、
00:07:53そしてエラーをキャッチする「リカバリー・レイヤー」。
00:07:57非常に堅牢で、丸投げしても安心感があります。
00:07:59これが1つ目の思想です。
00:08:02次に、私が毎日愛用しているClaude Code。
00:08:06その核心は、たった4つのツールしかありません。
00:08:07ファイルの読み、書き、編集、そしてbashコマンドの実行。以上。
00:08:09知能の大部分はモデル自体に委ねられ、
00:08:10ハーネスは極めてシンプルに保たれています。
00:08:14拡張性が必要な場合は、MCPや
00:08:16必要に応じてエージェントが習得する「スキル」で対応します。
00:08:19そしてManusがたどり着いたのは、
00:08:21「削減・外部化・分離(Reduce, Offload, Isolate)」という手法。
00:08:23コンテキストを積極的に切り詰め、ファイルシステムをメモリとして使い、
00:08:25重いタスクにはサブエージェントを走らせ、
00:08:28結果の要約だけをメインに持ち帰らせる。
00:08:30三者三様のアプローチですが、
00:08:33導き出された洞察は共通しています。
00:08:38「モデルよりもハーネスの方が重要である」ということ。
00:08:40この事実は、私たちソロ開発者が
00:08:43何に時間を費やすべきかを根本から変えてしまいます。
00:08:45時間は無限ではありません。
00:08:47Redditで「ClaudeかGPTか」と議論している時間は、
00:08:50プロダクトを開発していない時間です。
00:08:52強化学習の父の一人、リチャード・サットンによる
00:08:55「苦い教訓(The Bitter Lesson)」という有名な言葉があります。
00:08:57時間を費やすべきことが変わります。
00:08:59私たちには無限の時間があるわけではないからです。
00:09:01RedditでClaude対GPTの議論に
00:09:05費やす時間は、開発に充てられない無駄な時間です。
00:09:08強化学習の生みの親の一人、
00:09:11リチャード・サットンによる
00:09:14「苦い教訓」という概念があります。
00:09:16その核心的な主張は、
00:09:18計算量(コンピューティング)に比例してスケールする手法は、
00:09:21人間が手作業で設計した知識に頼る手法に
00:09:23常に最終的には勝利するというものです。
00:09:26これを私たちの活動に当てはめると、
00:09:27非常に具体的な意味を持ちます。
00:09:29モデルが賢くなるにつれて、
00:09:31ハーネス(制御機構)は複雑にするのではなく、
00:09:33よりシンプルにすべきなのです。
00:09:34モデルがアップグレードされるたびに手動のロジックや
00:09:36カスタムパイプラインを追加しているとしたら、
00:09:40それは時代の流れに逆行しています。
00:09:42正直なところ、その過剰な設計こそが
00:09:44エージェントが壊れ続ける原因かもしれません。
00:09:47そこで、実際に試してほしいことがあります。
00:09:49まず、Vercelの実験を自分で行ってみてください。
00:09:52もしエージェントを構築しているなら、
00:09:54それを削ぎ落とし、専用ツールを取り除いて、
00:09:57Bashターミナルと基本的なファイルアクセスだけを与え、
00:10:00何が起こるか見てみましょう。
00:10:02モデルはおそらく、あなたが構築した
00:10:03ツールパイプラインよりも賢いはずです。
00:10:06次に、「進捗ファイル」を追加することです。
00:10:08エージェントに、各ステップの後に更新する
00:10:10実行中のToDoリストを管理させます。
00:10:13各アクションの開始時にファイルを読み込み、
00:10:15終了時に書き込みます。
00:10:17これはまさにClaude Codeが
00:10:19Markdownファイルで行っていることです。
00:10:20そして、Manishが5回の完全な書き直しを経て
00:10:22たどり着いたのと同じパターンでもあります。
00:10:24実は、私のラボにはこのためのシステムがあり、
00:10:26エージェントへの指示や.mdテンプレートが
00:10:29すぐに使える状態で揃っています。興味があればお見せします。
00:10:333つ目は、MCPやスキルの学習を始めることです。
00:10:37これらは、外部ツールを操作するための
00:10:40クリーンで標準化された方法をモデルに提供し、
00:10:42すべての統合をハードコーディングする必要をなくします。
00:10:44拡張性は今やそこに存在します。
00:10:462025年は「エージェントの年」でした。
00:10:50そして、概ねその通りになりました。
00:10:53しかし2026年は、「ハーネスの年」になると思います。
00:10:58全く同じモデル、本当に全く同じモデルであっても、
00:11:03Claude Codeで動かすか、CursorやCodeiumで
00:11:06動かすかによって、振る舞いは完全に異なります。
00:11:08ですから、コーディングエージェントを使うにせよ作るにせよ、
00:11:11ハーネスは慎重に選んでください。
00:11:14さて、ここまで見てくれたあなたは、
00:11:17本当に素晴らしい情熱の持ち主です。
00:11:18現在、モデルに関する議論が非常に盛んなのは知っています。
00:11:22毎週のように新作やベンチマークが登場し、
00:11:24どれが最強かという議論が絶えません。
00:11:27しかし、実際にこれらを構築している
00:11:30企業から出てくるデータやエンジニアリングは、
00:11:32すべて別の方向を指し示しています。
00:11:34勝利の鍵は「ハーネス」にあるのです。
00:11:37個人開発者にとって、これは朗報です。
00:11:40なぜなら、より良いハーネスの構築は、
00:11:42次のモデルのリリースを待つことなく、
00:11:45今日からでもすぐに取り組めることだからです。
00:11:47私がこれらを具体的にどうセットアップし、
00:11:51.mdファイルやエージェントのワークフローを構築し、
00:11:56自分のアプリにどう繋ぎ合わせているか深く知りたい方は、
00:11:59crafterslab.devをチェックしてみてください。
00:12:02単なるチュートリアルの寄せ集めやAIコンテンツ農場ではありません。
00:12:06AIを真のチームメイトとして扱い、
00:12:09成果物にこだわりを持つ個人開発者のための、
00:12:11私の本拠地(ホームベース)です。
00:12:13中では、詳細な解説や
00:12:15実践的なビデオチュートリアル、すぐに使える
00:12:19Claude Codeのスキル一式を提供しています。
00:12:21自分のプロジェクトにそのまま取り込める
00:12:24ダウンロード可能なリソースもあります。
00:12:26メンバー同士がコメント欄で議論したり、
00:12:29質問を重ねたりしています。
00:12:30一方通行の配信ではなく、本物の対話の場です。
00:12:34しかし、核心となるのは「Notion Team Spaces」です。
00:12:37私のライブ・プレイブックとして、
00:12:40構築中のすべてのアプリの運営状況を公開しています。
00:12:42実際のプロジェクトで使っている.mdファイルや、
00:12:46プロンプトライブラリ、書き溜めているドキュメント、
00:12:49裏で動いている自動化の仕組みなど、すべてです。
00:12:51カメラ用に整えられたものではなく、泥臭いプロセスをそのまま公開しています。
00:12:55そして「Swift Brain」という、
00:12:58私が長年構築してきたSwiftとSwiftUIの
00:13:01厳選ライブラリや、深い知見を凝縮した
00:13:04プライベートトークも含まれています。
00:13:07これらは、ネット上の公開データには
00:13:10存在しないような貴重な資料です。
00:13:11私はこれを使ってカスタムMCPを構築し、
00:13:16Claude CodeやCursorなどのスキルを設定しています。
00:13:20常に実験し、有効だったものを共有しています。
00:13:23次に「Ops Lab」です。
00:13:25ここにはすべてのAIエージェントへの指示、
00:13:28Notionテンプレート、Claude Codeのスキル、
00:13:31ワークフロー、自動化の仕組みが揃っており、
00:13:33コピーしたり、分解したり、自由に壊して
00:13:36自分なりに再構築できるようになっています。
00:13:38目的は、インディー開発のスタックを繋ぎ続け、
00:13:41たとえ一人でキーボードに向かっていても、
00:13:44決して孤独に作っているのではないと感じられるようにすることです。
00:13:46コミュニティがまだ小さく、価格が固定されている
00:13:49今の時期が、参加するには絶好のチャンスです。
00:13:52巨大で顔の見えないフォーラムというよりは、
00:13:55開発者の秘密のラウンジのような雰囲気です。
00:13:57あなたにお会いできるのを楽しみにしています。
00:14:00ハーネスについて意見を交わしたり、
00:14:02皆さんの次のプロジェクトから学ばせてください。
00:14:05作り続け、実験を続けましょう。
00:14:08ベンチマークの喧騒に惑わされず、
00:14:10本当に重要なことに集中してください。
00:14:12それでは。

Key Takeaway

2026年のソロ開発者にとって最も重要なスキルは、最強モデルを選ぶことではなく、最小限のツールと外部メモリを活用してモデルの能力を最大限に引き出す「ハーネス・エンジニアリング」を習得することです。

Highlights

2026年のAI開発における核心は、モデルの知能(IQ)ではなく「ハーネス(制御機構)」の設計にある

最新ベンチマーク「Epic's Agent」では、実務タスクの成功率がわずか24%にとどまり、実行と編成がボトルネックとなっている

Vercelの事例では、特化型ツールを8割削減し、標準的なBashコマンドのみに簡素化したことで精度が100%に向上した

コンテキストウィンドウの限界を補うため、ファイルシステムをモデルの「外部メモリ」として活用する手法が有効である

モデルが賢くなるほど、人間が介在するロジック(ハーネス)はシンプルに保つべきという「苦い教訓」の現代的適用

成功しているエージェント(OpenAI, Claude Code, Manus)は、異なる道筋を経て「ハーネスの重要性」という共通の結論に達している

Timeline

導入:AIモデル論争への疑問と自己紹介

スピーカーのダニエルは、どのAIモデルが最強かという問いは的外れであると主張し、自身のiOS開発者としてのキャリアを紹介します。2025年以降、彼はソロ開発に専念し、SwiftUIを用いて15以上のアプリを公開しながら、AIを真の相棒として活用する手法を模索してきました。単なるチュートリアルやAI任せの低品質なアプリ量産ではなく、長期的に存続できる「本物」のプロダクトを作るための拠点として「Crafter's Lab」を設立した経緯を語ります。彼はAIを自動販売機のように使うのではなく、泥臭い試行錯誤を共有するコミュニティの重要性を強調しています。このセクションは、彼が実戦経験に基づいた独自の視点を持っていることを示す導入部となっています。

実務におけるAIエージェントの限界:Epic's Agentベンチマーク

最近公開された「Epic's Agent」というベンチマーク結果を引き合いに出し、AIの現状を分析します。従来のプログラミングクイズとは異なり、このテストは弁護士やアナリストが実際に行う1〜2時間の重い実務タスクを対象としています。驚くべきことに、最高峰のモデルでも成功率はわずか24%であり、試行回数を増やしても40%程度までしか改善しませんでした。これは、従来のベンチマークで90%以上のスコアを出していたモデルが、現実の複雑なタスクでは依然として苦戦していることを示しています。スピーカーは、私たちが測るべき指標や、モデルに対する期待値を見直す必要があると指摘しています。

失敗の本質:知能ではなく「実行」と「編成」の欠如

研究結果の分析によれば、エージェントの失敗原因はモデルの知識不足ではなく、タスクの「実行」と「編成(オーケストレーション)」の不備にありました。ステップ数が増えると、AIは当初の目的を見失ったり、失敗したループから抜け出せなくなったりする傾向があります。多くの開発者がCursorやClaude Codeを使用中に経験する「迷走」の正体は、モデル自体の性能不足ではありません。ボトルネックはモデルを包み込むインフラ、つまり「周囲の環境」にあることがデータによって証明されています。このセクションでは、モデルのアップグレードに頼るだけでは解決できない構造的な課題が浮き彫りにされます。

ハーネス・エンジニアリング:2026年の最重要コンセプト

2026年を象徴するキーワードとして、スピーカーは「ハーネス(Harness)」を提示します。エージェント・ハーネスとは、モデルがアクセスできるツール、視覚情報、不測の事態からの復帰方法、長時間の文脈保持能力など、モデルを取り巻く全インフラを指します。OpenAIやAnthropic、Metaが買収したManusといった主要企業が、一様に「課題の本質はモデルではなくハーネスにある」と言及し始めています。Manusは半年間でフレームワークを5回も作り直した末に、コンテキスト管理の重要性にたどり着きました。開発者の関心は、賢いモデルを探すことから、いかに優れたハーネスを構築するかにシフトしています。

Vercelの事例:複雑さを削ぎ落とす「引き算」の最適解

Vercelが開発したText-to-SQLエージェントの驚くべき事例が紹介されます。当初、彼らは多数の特化型ツールと厳重なエラーハンドリングを構築していましたが、成功率は80%で停滞していました。そこで思い切ってツールの8割を削除し、Bashやcatといった標準的なコマンドラインツールのみを与えたところ、精度が100%に向上しました。さらに、トークン消費量は40%削減され、処理速度は3.5倍になるという劇的な改善が見られました。この結果は、モデルが賢くなるほど、人間の設計した複雑な構造がかえって邪魔になるというパラダイムシフトを象徴しています。

コンテキスト管理と外部メモリの活用術

エージェントが長時間稼働する際のパフォーマンス低下を防ぐための具体的な戦略が解説されます。Manusの調査によれば、1つのタスクで平均50回ものツール呼び出しが行われ、重要な「シグナル」が大量の「ノイズ」に埋もれてしまうことが判明しました。これを解決するために、「ファイルシステムをモデルの外部メモリとして使う」という手法が推奨されています。具体的には、セッションのすべてをコンテキストに詰め込むのではなく、重要な進捗やTODOをMarkdownファイル(CLAUDE.mdなど)に書き出し、随時読み書きさせる方法です。これにより、モデルは常に最新の文脈を正確に把握し続けることが可能になります。

三者三様の成功モデルと「苦い教訓」

OpenAI、Claude Code、Manusという、現在最も成功している3つのアプローチを比較し、共通の洞察を導き出します。OpenAIは階層型の堅牢なレイヤー構造、Claude Codeは極限まで削ぎ落とした4つの基本ツール、Manusは情報の外部化と分離を特徴としています。これらは手法こそ異なりますが、「モデルよりもハーネスが重要である」という結論で一致しています。リチャード・サットンの「苦い教訓」が示す通り、計算量に比例してスケールする手法は、最終的に人間が手作業で設計した知識に勝利します。したがって、モデルが進化するほど、私たちはハーネスをシンプルに保つ努力をすべきであると結論づけています。

実践ガイド:今日から取り組める3つのステップ

視聴者が自分のプロジェクトにハーネス・エンジニアリングを取り入れるための3つの具体的なアクションを提案します。1つ目はVercelの実験を模倣し、専用ツールを廃止してBashとファイルアクセスのみでエージェントを動かしてみることです。2つ目は「進捗ファイル(TODOリスト)」を導入し、エージェントに各ステップの開始時と終了時にそのファイルを更新させる習慣をつけることです。3つ目は、MCP(Model Context Protocol)やスキルの学習を始め、ハードコーディングを避けたクリーンな統合を目指すことです。これらは、次の新モデルを待たずとも今日から実行可能な、確実な改善策として提示されています。

結びに代えて:Crafter's Labでのコミュニティとリソース

最後に、これらの高度なワークフローを具体的に実装するためのリソースとして「Crafter's Lab」の活動を詳しく紹介します。ここでは、実際に使用している.mdテンプレート、Claude Codeのカスタムスキル、Notionを用いたプレイブックなどがすべて公開されています。単なる情報の提供だけでなく、メンバー同士が議論を交わし、失敗も含めた「泥臭いプロセス」を共有する場であることが強調されています。特に「Swift Brain」や「Ops Lab」といった専用セクションは、公開データにはない貴重な知見の宝庫です。スピーカーは、ベンチマークの騒音に惑わされず、本当に重要な「つくること」に集中しようと呼びかけ、動画を締めくくります。

Community Posts

View all posts