既存のコーディングエージェントが不満だったので、自作してみた — マリオ・ゼヒナー (Pi)

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00[音楽]

00:00:02こんにちは、マリオです。

00:00:04アーノルド・シュワルツェネッガーの国から来ました。

00:00:06おそらくまだ気づいていないでしょうが

00:00:09私の英語がとても上手いので。

00:00:12まず初めに言っておきたいのですが

00:00:13今日は一日中 4歳の子供を連れて

00:00:16ロンドン中を走り回っていました。

00:00:17恐竜を見たりミイラを見たりナンドスにも行きました

00:00:24他にも色々行きましたがすでに忘れてしまいました。

00:00:26私はとても疲れています。

00:00:28もし私の言うことが理解できなくなったら

00:00:31手を挙げて「おじいちゃん起きて」と言ってください。

00:00:36私がここにいる理由は実はある人物にあります

00:00:39今日このコクニービルに来ている人物です。

00:00:40仮にシュテッター・パインバーガーと呼びましょう。

00:00:442025年の4月頃だったと思いますが

00:00:53彼が私とアーミン・ロナッハに言ったんです

00:00:58FlaskやSentryで有名な彼に「おい、コーディングエージェントが」

00:01:02「ついにちゃんと動くようになったぞ」と。

00:01:04私は「嘘つけよ」という感じでした。

00:01:06すみません、汚い言葉を使いました。

00:01:09全く信じていませんでした。

00:01:10一ヶ月後私たちはアパートに集まり 24時間

00:01:13徹夜で没頭しましたクランカー(機械)や

00:01:19粗悪なコード粗悪な成果物にまみれて。

00:01:21それ以来私たちの誰も

00:01:23基本的にはもう眠れていません。

00:01:27私たちは色々なものを構築していました

00:01:32そのほとんどは実際には使われませんでしたが

00:01:36それが2025年、26年の新しい傾向です。

00:01:37大量のものを構築しますが実際に使うものは

00:01:39それほど多くありません。

00:01:40私たちは多くのものを書きました。

00:01:42そして最終的に私はこう思いました

00:01:46「既存のコーディングエージェントや基盤は全部嫌いだ」

00:01:50「自分で書くのはどれくらい難しいだろうか？」

00:01:53ピーターは「ただ自分のやりたいことをやりたいんだ」と。

00:01:56「誰もそれについては耳にしないだろうし」

00:01:58「それはパーソナルアシスタントになるだろう」

00:02:01「ずっと欲しかったものだから」と言いました。

00:02:03彼の物語がどうなったかは皆さんご存知でしょう。

00:02:05今日は私のそれほど印象的ではない話をします。

00:02:08ですがいくつかの学びを伝えられればと思います

00:02:11この業界で私が収集することができた

00:02:16ここ数ヶ月間の学びです。

00:02:17さて、Piについて。

00:02:19始まりは Cloud Codeでした。

00:02:21実際には ChatGPTからのコピペでした。

00:02:252023年の始めはみんなそうしていました。

00:02:27それから——最初のGitHub Copilotを覚えている人は？

00:02:32ええ、実際エンジニアの方はどれくらいいますか？

00:02:35CursorやCloud Codeなどの

00:02:37コーディングエージェントを使っている人は？

00:02:39なるほど。

00:02:40人気調査です Cloud Codeは？

00:02:43Codex CLIは？

00:02:45Cursorは？

00:02:48Open——

00:02:48[聞き取り不能]

00:02:49はい。

00:02:50Open code?

00:02:50Anti-gravity.

00:02:51おや、それほど多くないですね。

00:02:52これを使っている人は？

00:02:55いいですね、気に入りました。

00:02:56後で一緒にビールを飲みましょう。

00:02:58とにかくこれが2025年以前に

00:03:03起きていたことです。

00:03:04ChatGPTからのコピペから始まりました。

00:03:06ほとんどが壊れていました。

00:03:07主に単一の関数や書きたくないコードでした。

00:03:10それからVS Codeの中に GitHub Copilotが登場し

00:03:13タブを連打するだけで幸せになれるようになりました。

00:03:15たまに動きましたが大抵はダメでした。

00:03:17時には GPLコードをそのまま引用したりもしました

00:03:22ジョン・カーマックの逆平方根のコードのような

00:03:25そんな話がたくさんありました。

00:03:29それから Aiderがありました。

00:03:30Aiderを覚えている人は？

00:03:31はい。

00:03:32古参の方々ですね。

00:03:33こんにちは。

00:03:33ええ。

00:03:37白髪がありますね。

00:03:37明らかにAiderをご存知でしょう。

00:03:41AutoGPTもありました。

00:03:43おそらくあまりいないでしょうが。

00:03:44ええ、OK。

00:03:45彼は何でも知っていますね。

00:03:48そして最終的に Cloud Codeが登場しました。

00:03:51彼らがリリースしたのは11月だったと思います

00:03:522024年のベータ版として。

00:03:55しかし実際に使われ始めたのは——何と言いました？

00:03:592月だけだ。

00:04:01ええ、2025年の2月か3月頃ですね。

00:04:03私は「これだ、最高だ」と思いました。

00:04:05素晴らしいです。

00:04:06Cloudチームも素晴らしい。

00:04:07彼らはSNSにもいますし

00:04:08皆とても善良で才能のある人たちです。

00:04:13彼らがこのジャンルを創り出したと言えます。

00:04:15AiderやAutoGPTのような先駆者はありましたが

00:04:18これほどのものはありませんでした。

00:04:20これは基本的にはエージェント型検索というものでした。

00:04:22Cursorのようにコードベースに入り込み

00:04:25インデックスを作成し ASTを構築して——

00:04:29それでもあまりうまくいかないようなものとは違い

00:04:31彼らは単にこう言ったんです。

00:04:33「自分たちのモデルを強化学習させた」と

00:04:35ファイルツールや Bashツールを使って

00:04:37コードベースを臨機応変に探索し必要な箇所を見つけ

00:04:41コードを理解し修正できるようにしたのです。

00:04:44これが非常にうまく機能したので

00:04:46私たちは眠るのをやめました

00:04:48手書きの時よりも遥かに多くのコードを生成できたからです。

00:04:52当時はシンプルで予測可能であり

00:04:54私のワークフローに完璧にフィットしていました。

00:04:57良かったです。

00:04:58しかしその後彼らは多くの人が陥る

00:05:05罠に嵌まってしまいました。

00:05:06AI(クランカー)は大量のコードを書けます。

00:05:08なら想像しうるすべての機能を

00:05:11書かせればいいじゃないか、となりますよね？

00:05:11素晴らしいことだと思いませんか？

00:05:12この機能もあの機能も追加しよう

00:05:14どんどん追加していこう、と。

00:05:15そして最終的にホーマー・シンプソンの——

00:05:18何て呼ぶのか分かりませんが。

00:05:20私はそれを「宇宙船」と呼んでいます。

00:05:21Cloud Codeは今や宇宙船になってしまいました。

00:05:23あまりに多機能で実際に使っているのは

00:05:26提供されている機能の 5%程度でしょう。

00:05:28全体でも10%くらいしか知られていません。

00:05:30残りの90%は

00:05:33AIやエージェントにおける「暗黒物質」のようなものです。

00:05:36それが実際何をしているのか誰も知りません。

00:05:37私は個人的にこれはあまり有用ではないと感じています

00:05:40なぜならエージェントが何をしているかを

00:05:43把握しておく必要があると考えているからです。

00:05:45この人はある程度反対するかもしれませんが。

00:05:49私たちは今 TESOLにいますが彼らもまた

00:05:51コンテキスト管理やコンテキストエンジニアリングを

00:05:54好んでいます。

00:05:55結局 Cloud Codeは良いツールではないと気づきました

00:05:58観測可能性や

00:06:01コンテキスト管理という点において。

00:06:04またこんなこともありました。

00:06:06Cloud Codeの膨大な量のフリッカー(ちらつき)

00:06:09説明のつかないちらつきが好きな人はいますか？

00:06:10まあ私はなぜそれが起きるか説明できますが

00:06:13彼らはまだ修正していません。

00:06:15こちらはタリクです。

00:06:16彼は本当に素晴らしい。

00:06:16大好きです。

00:06:17主にTwitterで活動しているDevRel担当で最高な奴です。

00:06:21でもたまに疑問に思うようなことも言います

00:06:24「私たちのTUIは今やゲームエンジンだ」なんて。

00:06:27ご存知の通り私はゲーム開発出身です。

00:06:30そこからキャリアを始めました。

00:06:31そんな私がこんなことを読むと

00:06:32少し心が痛みます

00:06:34だってそれは単なるターミナルUIですよ。

00:06:37ゲームエンジンではありません。

00:06:38信じてください。

00:06:39ゲームエンジンだと思ってしまう唯一の理由は

00:06:41ターミナルUIにReactを使っていて

00:06:44UIグラフ全体の再レイアウトに

00:06:4512ミリ秒もかかっているからです。

00:06:49そんなことはしないでください。

00:06:51ゲームエンジンじゃありませんからね。

00:06:54Ghostyを書いているミッチェルも

00:06:56「おい、それは心外だ」と言っていました。

00:06:59「Ghostyや他のターミナルのせいにしないでくれ」

00:07:02「君のコードがゴミなんだ」と。

00:07:04ターミナルは秒間数百フレームで

00:07:051フレーム1ミリ秒以下で描画できるんです。

00:07:09だからターミナルのせいにしないで、と。

00:07:12その後ついにちらつきは修正されました。

00:07:15しかし別の問題が起きました。

00:07:16彼らは完全に「バイブコーディング(感覚的な開発)」に屈したんです。

00:07:20Cloud Codeを使えば毎日それを実感できます。

00:07:23繰り返しますが彼らの努力や

00:07:27成果を否定するつもりはありません。

00:07:28Cloud Codeは今でも正当な理由でカテゴリーリーダーです。

00:07:30彼らがこれを生み出し素晴らしい仕事をしています。

00:07:32私は単に予測可能でシンプルなツールを好む

00:07:34古い人間だというだけです。

00:07:37これは私のワークフローやニーズには合わなくなりました。

00:07:41ええ。

00:07:42また彼らはバックグラウンドで色々なことをし

00:07:44コンテキストを操作しています。

00:07:46私は2025年の夏にいくつかのツールを作りました

00:07:50Cloud Codeからバックエンドへ送られる

00:07:52リクエストを傍受して

00:07:55裏でどんな追加テキストが

00:07:58コンテキストに注入されているかを調べるためのツールです。

00:08:00それらはすべて非常に有害であり

00:08:01常に変化していました。

00:08:04毎日か1日おきに新しいリリースがあり

00:08:062日おきに新しいリリースがあり

00:08:08どの時点で何を挿入するかが変更され既存のワークフローが

00:08:11めちゃくちゃにされてしまうのです

00:08:13およそ安定したツールではありませんでした

00:08:14今では彼らの立場も理解できます

00:08:16実験が必要なのです

00:08:17彼らには膨大なユーザーベースがありますし

00:08:18それほどの規模で

00:08:19実験を行うのは非常に困難です

00:08:21しかし彼らは気に留めませんでした

00:08:23その結果私たちが苦労することになったのです

00:08:25新しいツールを使い

00:08:27予測可能なワークフローを作ろうとしても

00:08:31ベンダーが内部でほんの些細な変更を加えるだけで

00:08:35既存のワークフローにおいて

00:08:36LLMが暴走してしまいます

00:08:38これでは持続不可能です

00:08:39私にはコントロールが必要なのです

00:08:40安定したものを提供してくれるとは期待できません

00:08:46結果として UIデザインの都合上

00:08:52可視性を制限せざるを得ないのでしょう

00:08:54個人的にはあまり好きではありませんが

00:08:56それは単なる好みの問題です

00:08:57ほとんどの人は

00:08:58Cloud Codeが提示する

00:09:00情報量で満足するのだと思います

00:09:03当然ながらモデルの選択肢はゼロです

00:09:06いわば Anthropic独自のツールですから

00:09:09欠点というわけではありません Claudeモデルは――

00:09:12私は気に入っています

00:09:13非常に優れていますから

00:09:15拡張性はほぼ皆無と言っていいでしょう

00:09:17フックシステムなどがあるのにおかしいと思うかもしれませんが

00:09:19実際には

00:09:21Piで可能なことと比較すると

00:09:25それほど深く統合されていません

00:09:28フックイベントが開始されるたびに

00:09:32プロセスを実行する仕組みなのですが

00:09:36何度も再起動するのは非常にコストがかかります

00:09:40結局私はCloud Codeに愛想を尽かしました

00:09:42ひどいツールだったからではありません

00:09:44ただ私には合わなくなっただけです

00:09:47その間に多くの人には合うツールになりました

00:09:50彼らは正しいことをしていますが私向けではないのです

00:09:54私が古い人間だからでしょう

00:09:56そこで他の選択肢を探し始めました

00:09:59Codex CLIもありましたが全く好きになれませんでした

00:10:01当初はUIもモデルも気に入りませんでしたが

00:10:05少なくともモデルに関しては状況が変わりました

00:10:08今のCodexは本当に素晴らしいです

00:10:10次にAMPがあります

00:10:12開発チームは以前Sourcegraphにいた人々です

00:10:15Sourcegraphからスピンオフしたチームで

00:10:20非常に優秀なエンジニアたちです

00:10:21彼らは機能を増やすのではなく

00:10:25削ぎ落とすことで商用コーディング基盤を構築しました

00:10:28彼らの選択の多くは私にとって非常に合理的です

00:10:33商用ツールを探しているなら

00:10:36AMPをぜひお勧めします本当に良いツールです

00:10:39Factory Droidも似たような感じで非常に良いですが

00:10:44AMPほど実験的ではありません

00:10:47そして多くの人が利用している

00:10:50オープンソースのOpenCodeがあります

00:10:53私はオープンソースに長く携わってきました

00:10:55かれこれ17年になります

00:11:00大小さまざまなプロジェクトを運営してきました

00:11:04それは私にとってかけがえのないものです

00:11:05親しみを感じたので

00:11:08OpenCodeを試してみようと思いました

00:11:12AMPと並んでこの分野で最も地に足の着いた

00:11:15実利的なチームの一つです

00:11:16使わないような機能で

00:11:18過剰な期待を煽ることもありません

00:11:20非常に安定した

00:11:23メインルートの維持に努めています

00:11:26またコーディングエージェントが

00:11:27私たちの専門職にとって何を意味するかについても

00:11:29深い考察があり共感できました

00:11:32ただOpenCodeの問題はコンテキスト管理が

00:11:37あまり得意ではない点です

00:11:38例えばターンのたびに sessionCompaction.prune を呼び出し

00:11:44次のような処理を行います

00:11:46直近の4万トークン以前の結果をすべて削除するのです

00:11:52プロンプトキャッシングをご存知の方はいますか？

00:11:56これがプロンプトキャッシュにどう影響するでしょうか？

00:11:58OpenCodeとAnthropicの間には興味深い経緯がありました

00:12:05最終的にAnthropicは ――私の意見では当然ですが――

00:12:11「それは認められない」と言ったのです

00:12:14公に発表されたわけではありませんが

00:12:17Tarekがここで説明しています

00:12:19ジムに来てマナーを守らずインフラを悪用すれば

00:12:22出入り禁止になるのは当然です

00:12:25私はそう考えています

00:12:27証拠があるわけではありませんが

00:12:28それこそが

00:12:30AnthropicとOpenCodeの間の確執の理由だと思います

00:12:33私は全面的に同意しますし

00:12:36Anthropicの方が明らかに正しいと思います

00:12:39インフラを混乱させてはいけません

00:12:42他にも OpenCodeには

00:12:44LSP（Language Server Protocol）のサポートが

00:12:46標準で備わっています

00:12:48コンテキストエンジニアリングの話に戻りましょう

00:12:51エージェントに

00:12:53複数のファイルを修正するよう指示したとします

00:12:55実際にはどうなるでしょうか？

00:12:57複数のファイルに対して順次

00:13:02一連の編集が行われます

00:13:03例えば10箇所の編集があるとして最初の編集直後に

00:13:09コードがコンパイル通る確率はどれくらいでしょうか？

00:13:12コードを一行ずつ修正する場合

00:13:15再び安定して

00:13:17正常にコンパイルできるようになるまでどのくらいかかりますか？

00:13:19すぐには無理です

00:13:20最初の編集後もおそらく2回目の後も

00:13:22コンパイルは通りません

00:13:24そこで「LSPサーバーさん

00:13:28このファイルの1行を編集したけど

00:13:30壊れてる？」と聞けば

00:13:31LSPサーバーは「完全に壊れてる」と答えるでしょう

00:13:34この機能はそのエラーを

00:13:36ツール実行直後に

00:13:39モデルへのフィードバックとして注入します

00:13:43「今やったことは間違いだ」と伝えるわけです

00:13:45モデルは「ふざけるな」と思うでしょう

00:13:47「まだ編集が終わっていないのに

00:13:49なぜそんなことを言うんだ？」と

00:13:50当然間違っているわけではありません

00:13:51しかしこれを繰り返すとモデルは投げ出してしまい

00:13:54非常に悪い結果を招きます

00:13:58だから私はLSPが好きではありません

00:13:59これを有効にするのは最悪のアイデアだと思います

00:14:02自然な同期ポイント ――

00:14:03リンターや型チェックを

00:14:06実行すべきタイミングがあります

00:14:07それはエージェントが完了したと判断した時だけです

00:14:10これは最近変更されました

00:14:14OpenCodeの1回のセッションで

00:14:20すべてのメッセージが

00:14:22個別のJSONファイルとしてディスクに保存されます

00:14:26これはアーキテクチャ全体に

00:14:29十分な検討がなされていない証拠だと感じました

00:14:31そこに不信感を抱くと

00:14:33もうそのツールを使いたいとは思いません

00:14:35繰り返しますがチーム自体は非常に優秀です

00:14:37驚くべき速さで開発を繰り返し

00:14:39多くの人にとって非常に有用なものを

00:14:42作り上げましたそれは確かです

00:14:43ただ私は同意できない決断があったため

00:14:46自分で作ることにしたのです

00:14:50またこのようなこともありました

00:14:51OpenCodeはデフォルトでサーバーが付属しています

00:14:54コアアーキテクチャがサーバーベースで

00:14:56そこにクライアントが接続する形です

00:14:57TUI（ターミナルUI）はそのクライアントの一つです

00:15:00デスクトップインターフェースもありますが

00:15:01どうでしょうか

00:15:03結局リモートコード実行が可能な

00:15:05セキュリティ脆弱性がデフォルトで組み込まれていました

00:15:09サーバーインフラやアーキテクチャを

00:15:12誇りに思っているのであれば

00:15:15成熟したエンジニアとして

00:15:18セキュリティについても考慮しているはずです

00:15:20しかし明らかにそうではありませんでした

00:15:21しかも長期間放置されていたのです

00:15:23誰かを責めているわけではありません

00:15:25かつてないほどの

00:15:27猛烈なスピードで動いている業界では

00:15:31起こり得ることです

00:15:33ただそんなツールは使いたくないというだけです

00:15:36これが既存のコーディングツールに対する

00:15:42私の観察結果でした

00:15:42AMPやDroidなら使えたかもしれません

00:15:45ですがやはりコントロールが効きません

00:15:47AMPの場合使用するモデルさえ彼らが決めます

00:15:50特定のタスクには特定のモデル一択です

00:15:53それは私のスタイルではありません

00:15:55Droidの方は少し自由度が高いと思いますが

00:15:58私が試した時点では

00:16:00どうも――

00:16:02Cloud Codeに対する大きな優位性を感じませんでした

00:16:07その後全く別の理由でベンチマークを調べ

00:16:10Terminal Benchを見つけました

00:16:12Terminal Benchを知っている人はいますか？

00:16:15これは基本的にコーディングやエージェントの

00:16:20評価用基盤でコンピューター操作やプログラミングに

00:16:24関連した――

00:16:24すみません 4歳児の相手で疲れていて

00:16:31コンピューター操作やコーディング関連のタスクが

00:16:35多数含まれておりエージェント内のLLMが

00:16:39それらを完遂する必要があります

00:16:40全部で82個ほどあるでしょうか

00:16:43内容は多岐にわたります

00:16:44ウィンドウ設定の修正からモンテカルロ・シミュレーションの

00:16:48コーディングまであります

00:16:51リーダーボードも公開されており

00:16:52エージェント基盤とモデルの

00:16:54組み合わせを確認できます

00:16:57そこには Terminusという独自のエージェントがあります

00:17:03ベンチマークで最高レベルのパフォーマンスを誇る

00:17:06ベンチマークにおいて最高のパフォーマンスを誇る

00:17:09ハーネスの一つです後で詳しく見ていきましょう

00:17:11具体的に何をするものなのでしょうか？

00:17:12モデルに与えられるのは TMUXセッションのみです

00:17:17モデルができるのはそこにキーストロークを送り

00:17:19出力されるVTコードシーケンスを読み取ることだけです

00:17:23これはモデルがコンピュータに対して持つ

00:17:27最小限かつ最小のインターフェースと言えます

00:17:31そしてこれがリーダーボード全体でトップクラスの性能を出しています

00:17:36この事実は既存のコーディングエージェントについて何を物語るでしょうか？

00:17:39モデルが実際に機能するためにこれほど多くの機能が必要なのでしょうか？

00:17:43個人的にはこれは単にモデルが

00:17:48優れているというだけの話ではありません

00:17:49ユーザーである人間がエージェントやモデルと

00:17:51対話する方法を持つことでもあります

00:17:54Terminusは明らかに私が求めるユーザー体験や

00:17:58開発者体験ではありませんが

00:18:00既存のコーディングハーネスが持つ多くの機能は

00:18:03エージェントから良い結果を得るために

00:18:08必ずしも必要ではないことを示しています

00:18:10ファイルツールもサブエージェントも Web検索も不要です

00:18:13これらの知見に基づいた 2つの持論があります

00:18:16現在は「試行錯誤」の段階にあり

00:18:18完璧なコーディングエージェントやハーネスが

00:18:21どうあるべきか誰にも分かっていません

00:18:23ミニマリズムからエージェントの大群による艦隊

00:18:27制御なしの完全な自律性などあらゆる方向性が

00:18:30試されている最中です

00:18:31まだ結論は出ていないと思います

00:18:33理想的な形が何であり何が業界標準になるのかという

00:18:35問いへの答えはまだ出ていません

00:18:382つ目はコーディングエージェントを

00:18:40より良く試行錯誤する方法が必要だということです

00:18:42つまりエージェント自身が自己改造でき

00:18:47柔軟に変化できる必要があります

00:18:48そうすることでアイデアを素早く実験し

00:18:50それが業界標準や私たちが適応すべき

00:18:53新しいワークフローになり得るか確認できます

00:18:58基本的な考え方は至ってシンプルで

00:18:59決して難しいことではありません

00:19:01すべてを削ぎ落とし最小限で拡張可能なコアを作ることです

00:19:05最低限の快適さは備えていますが

00:19:06何もない白紙の状態ではありません

00:19:09それが「Py」です

00:19:10モットーは「自分をエージェントに合わせるのではなく

00:19:13エージェントを自分のニーズに合わせる」です

00:19:164つのパッケージで構成されていますまずAIパッケージは

00:19:21複数のプロバイダーを抽象化したシンプルなもので

00:19:24それぞれ異なる通信プロトコルを吸収しています

00:19:27そのため全プロバイダーとの通信が容易で

00:19:29同一セッション内での切り替えも簡単です

00:19:34次にエージェント・コアはツール呼び出しや

00:19:36検証などを備えた汎用的なエージェントループです

00:19:39ストリーミング機能や約600行のコードで書かれた

00:19:42非常に快適に動作するターミナルUIも含まれます

00:19:47クランカー（AI）が書いたものではないので驚くほどよく動きます

00:19:51そしてコーディングエージェント本体はヘッドモードで使える

00:19:54SDKとしてもフル機能のTUIエージェントとしても

00:19:57利用可能です

00:20:02これがシステムプロンプトの全体像です

00:20:05他のエージェントのプロンプトと比べても

00:20:08これ以上のものはありません

00:20:10これはトークン数です

00:20:13最新モデルは RL（強化学習）によって

00:20:16エージェントとは何かをすでに熟知しています

00:20:18それなのになぜ彼らにエージェントであることや

00:20:21コーディングの手順を説明し続ける必要があるのでしょうか？

00:20:27デフォルトで「YOLOモード」なのはなぜか？

00:20:30現在の多くのハーネスには 2つのモードがあります

00:20:33エージェントが自由に振る舞うか

00:20:36「本当にこのファイルを削除しますか？」

00:20:40「ディレクトリ内のファイルを表示しますか？」などと

00:20:41いちいち確認を求めてくるかです

00:20:44その中間的なものも色々とありますが

00:20:47結局のところユーザーがエージェントのアクションを

00:20:49承認することで安全を確保しようとしています

00:20:53しかしこれは間違いで確認疲れを招くだけです

00:20:55結局は機能を完全にオフにする（YOLO）か

00:20:58内容を読まずにエンターキーを連打するようになります

00:21:01これでは解決になりません

00:21:02データの流出やプロンプトインジェクションを

00:21:04懸念する場合コンテナ化も

00:21:06完全な解決策ではありませんが

00:21:07承認ダイアログのようなガードレールよりも

00:21:10はるかに優れた基盤になると考えています

00:21:17ツールは読み取り、書き込み、編集、Bashの

00:21:19わずか4つです Bashがあれば十分です

00:21:22何が含まれていないのか？

00:21:23MCPもサブエージェントも計画機能も背景も

00:21:25組み込みのToDoリストもありません

00:21:26代わりにできることを提案します

00:21:28MCPの代わりに CLIツールとスキルを使うか

00:21:30後ほど紹介する拡張機能を作ってください

00:21:34サブエージェントがない理由は

00:21:35観測が困難だからです

00:21:36代わりに tmuxを使ってエージェントを再起動してください

00:21:41そうすれば入出力を完全にコントロールでき

00:21:44サブエージェントで起きている全てを把握できます

00:21:48興味深いことに code spawnの

00:21:50チームモードも現在はこれとほぼ同じことをしています

00:21:55計画モードも不要です plan.mdを書きましょう

00:21:57ターミナルの視野に収まらない

00:21:59使いにくいUIの代わりに永続的な成果物が得られ

00:22:04複数のセッションで再利用することも可能です

00:22:07バックグラウンドBashも不要です tmuxで代用できます

00:22:09同じことです

00:22:11組み込みToDoも todo.mdを書けばいいだけです

00:22:14あるいはこれら全てを自分の好きなように自作してください

00:22:17Pyは高い拡張性によってそれを可能にします

00:22:21カスタムツールの拡張も可能です

00:22:22定義したツールを LLMに与えることができます

00:22:26今のところ他のコーディングハーネスで

00:22:28これができるものはありません（コードをフォークしない限り）

00:22:31Pyならその必要はありません

00:22:32シンプルなTypeScriptファイルを書くだけで

00:22:34自動的に読み込まれます

00:22:37カスタムUIも作成できます

00:22:39スキル、プロンプトテンプレート、テーマも同様です

00:22:43これらをまとめて npmやGitにアップすれば

00:22:46コマンド一つでインストールでき非常に便利です

00:22:49すべてホットリロードに対応しています

00:22:51私はプロジェクトやタスクに特化した

00:22:53独自の拡張機能を Pyの中で開発しています

00:22:59エージェントが拡張機能を修正したらリロードするだけで

00:23:05実行中のコードに即座に反映されます

00:23:10これは本当に素晴らしい体験です

00:23:11実用的にはカスタムコンパクションが可能です

00:23:14既存のコンパクションの実装は良くないので

00:23:16もっと実験されるべき分野だと思います

00:23:21パーミッション・ゲートも 50行ほどのコードで実装でき

00:23:23他のハーネスができることは

00:23:24ほぼ網羅できます

00:23:27セルフホストモデルのプロキシも自由に登録してください

00:23:32私がやる必要はありません

00:23:33あなたやクランカー（AI）が自分でできるはずです

00:23:37組み込みツールの上書きも可能です

00:23:38読み取り、書き込み、Bashの挙動を自由に変更できます

00:23:42私はリモートマシン上のSSH経由で動作する

00:23:43ツール一式を自作しました

00:23:47実装には 5分ほどしかかかりませんでしたが完璧に動きます

00:23:51TUIにフルアクセスできるので

00:23:54完全にカスタムされたUIを構築することも可能です

00:23:58Cloud Codeが発表された際も誰かがPyを使って

00:24:02より多機能なものをわずか5分で再現しました

00:24:05PyMessengerは詳細までは把握していませんが

00:24:07複数のPyエージェントが会話するチャットルームのようなもので

00:24:10カスタムUIも備えています

00:24:13非常にうまく機能しています

00:24:18PyMessという拡張機能もあります

00:24:23エージェントの実行中にゲームで遊ぶこともできます

00:24:25また PyAnnotateを使えば

00:24:28作業中のサイトをフロントエンドで開き直接アノテーションして

00:24:31エージェントにフィードバックを送ることができます

00:24:35コンテキストに戻して内容を修正させることも可能です

00:24:39私が愛用しているのは File Switch Itです

00:24:42IDEやエディタに切り替えることなく

00:24:43修正されたファイルを素早く確認したいときに便利です

00:24:46これらはすべて拡張機能によるものです

00:24:48組み込み機能ではなく多くの人が数分から

00:24:50数時間で自分の思い通りのものを

00:24:52作り上げています

00:24:56PyWavicについても同様に多機能です

00:25:00Pyにはツリー構造も備わっています

00:25:01詳細は py.devを参照してください

00:25:03セッションは直列なチャットリストではなくツリー構造です

00:25:04これを利用してサブエージェントのような振る舞いも可能です

00:25:07ディレクトリ内のファイルを読み取って要約させ

00:25:11会話のルートに戻りその要約を携えて

00:25:14実際の作業に取り掛かるといった具合です

00:25:19裏で勝手に注入されるものは何もありません

00:25:22エージェント、スキル、完全なコスト追跡機能も備えています

00:25:24多くのハーネスにはこの機能がありません

00:25:26Open Codeも実装が不十分です

00:25:29HTMLエクスポート、JSON形式、ヘッドレスストリームなどなど

00:25:33実際に機能するのか？それは terminal benchを見れば分かります

00:25:35ズームしてみます

00:25:36できませんね

00:25:37素晴らしい

00:25:38Claude Opus 4.5を使用したTerminus 2のすぐ後ろにPyがいます

00:25:45これは昨年10月の Pyにコンパクションもなかった頃の記録です

00:25:49デモは省略してクランカー（AI）との戦いについて話しましょう

00:25:51彼らはオープンソースを破壊しています

00:25:54もし特定の有名プロジェクトに関わっているなら

00:25:56OpenClaw経由で何百人もの人々が

00:26:02リポジトリに押し寄せクランカーのゴミを散らかしていくでしょう

00:26:06そこで私はいくつかの対策を講じました

00:26:09「OSS休暇」というものを考案しました

00:26:11数週間の間 IssueやPRをすべて閉じ

00:26:14自分一人で作業に没頭する期間です

00:26:16重要なことは後から報告されるか

00:26:20Discordで共有されるので問題ありません

00:26:21また独自のアクセススキームも導入しました

00:26:26リポジトリ内に Markdownファイルを置いています

00:26:28そこにアカウント名が記載されていない人からの

00:26:32PRは自動的にクローズされます

00:26:34気にしません

00:26:35まずは Issueを通じて人間の声で自己紹介をしてください

00:26:39あまり長すぎない Issueを書いてください

00:26:42それ以上長いものはおそらくクランカー（AI）によるものです

00:26:45人間だと確認できれば喜んで承認します

00:26:47リストに名前が載れば PRを送れるようになります

00:26:51私が求めているのは人間による確認だけです

00:26:53GhostyのMitchellはこれに着目して

00:26:57自分のリポジトリに簡単に適用できる

00:27:00「Vouch」というプロジェクトを立ち上げました

00:27:02以上が「Py」です

00:27:03ぜひ試してみてください

00:27:05ご清聴ありがとうございました

00:27:06（拍手）

00:27:07（音楽）

Key Takeaway

既存のコーディングエージェントが肥大化し予測不能になる中で、4つの基本ツールとTypeScriptによる動的拡張に絞り込んだ「Py」は、最小限の構成ながらベンチマークでトップクラスの性能を発揮する。

Highlights

Cloud Codeなどの既存エージェントは多機能化が進み、実際に利用される機能は全体の5%から10%程度に留まっている。

ターミナルUIにReactを使用するとUIグラフの再レイアウトに12ミリ秒を要し、これが画面のちらつきの原因となる。

OpenCodeは1セッション内の全メッセージを個別のJSONファイルとしてディスク保存する設計であり、アーキテクチャの検討不足が見られる。

エージェント評価基盤のTerminal Benchにおいて、最小限のTMUXインターフェースのみを持つTerminusが高いパフォーマンスを記録している。

自作エージェント「Py」は、読み取り、書き込み、編集、Bash実行の4つの基本ツールのみで構成され、高い拡張性を備える。

オープンソースプロジェクトへのAIによる低品質なPR対策として、許可リストに登録された人間のみがPRを送れる「Vouch」システムが有効である。

Timeline

既存コーディングエージェントの限界と「宇宙船」化

2025年前後のコーディングエージェントは、ChatGPTからのコピペからCursorやCloud Codeのような高度なツールへと進化した。
Cloud Codeは強化学習によりコードベースを臨機応変に探索する能力を持つが、過剰な機能追加により「宇宙船」のような複雑なツールに変貌した。
ユーザーが把握できない「暗黒物質」のような機能が90%を占め、ツールの予測可能性が失われている。

初期のAIコーディングは単一関数の生成に限定されていたが、エージェント型検索の登場により生産性が飛躍的に向上した。しかし、開発チームがAIに大量のコードを書かせた結果、不要な機能が積み重なり、ツール全体の動作を制御することが困難になった。開発者にとっては、エージェントが何をしているかを完全に把握できる簡潔さが欠如している。

実装の欠陥とベンダーによるコンテキスト操作

TUIにゲームエンジン並みの性能を謳いながらReactを使用する設計は、レンダリング遅延と画面のちらつきを引き起こす原因となる。
ベンダーがリクエストに有害な追加テキストを秘密裏に注入し、頻繁にプロンプト構造を変更するため、ユーザーのワークフローが安定しない。
モデルの選択肢が限定され、独自のフックシステムもプロセスの再起動コストが高いため実用的な拡張性に欠ける。

Cloud Codeなどの商用ツールでは、ユーザーが知らないところでコンテキストが操作されており、1日おきのアップデートで挙動が激変する不安定さがある。また、技術的な選択ミスによりターミナルの描画パフォーマンスが損なわれており、プロフェッショナルな道具としての信頼性が低い。開発者には内部構造をコントロールする権利が与えられていない。

競合ツールの分析とLSP統合の罠

AMPは機能を削ぎ落とすことで実用性を高めた優れた商用基盤であるが、モデルの選択権はユーザーにない。
OpenCodeはエージェント動作中の未完成な状態でLSPの型チェックをフィードバックとして送るため、モデルの混乱と性能低下を招いている。
OpenCodeのコアアーキテクチャにはリモートコード実行が可能なセキュリティ脆弱性が長期間放置されていた。

Sourcegraphから派生したAMPは合理的な設計を持つが、特定のタスクに特定のモデルを強制する。一方でオープンソースのOpenCodeは、プロンプトキャッシュを破壊するコンパクション処理や、編集途中のエラーをモデルに突きつけるLSP連携など、設計上の問題が多い。特にデフォルトで有効なサーバー機能に起因するセキュリティリスクは、成熟したツールとして致命的である。

最小構成エージェント「Py」の設計思想

Terminusの成功は、複雑なファイルツールやWeb検索がなくても、モデルが計算機を操作する最小のインターフェースだけで十分であることを証明している。
承認ダイアログによるガードレールは「確認疲れ」を引き起こすだけであり、コンテナ化による隔離の方が根本的な安全策となる。
PyはAIプロバイダーの抽象化、エージェントループ、600行のTUI、SDKの4層で構成される。

ベンチマーク結果から、エージェントに必要なのは多機能さではなく、モデルの能力を最大限に引き出す簡潔なハブである。Pyは人間がエージェントに合わせるのではなく、エージェントを自分のニーズに合わせることをモットーとする。承認プロセスを排除した「YOLOモード」を基本とし、安全性の担保はインフラレベルで解決すべきだという思想に基づいている。

動的拡張性とコミュニティによる応用事例

TypeScriptファイルを書くだけで、カスタムツールやUI、プロンプトテンプレートをホットリロードで即座に反映できる。
既存の直列なチャット形式ではなく、セッションをツリー構造で管理することで、要約と作業の切り替えを柔軟に行える。
コスト追跡、HTMLエクスポート、ヘッドレスストリームなど、実用的な運用に必要な機能を標準装備している。

Pyはフォークすることなく、外部ファイルを通じてあらゆる挙動を上書きできる。例えば、SSH経由でリモートマシンを操作するツールセットは数分で実装可能である。ユーザーコミュニティでは、複数のエージェントが会話するチャットルームや、ブラウザ上の操作をエージェントに伝えるアノテーションツールなど、多様な拡張機能が数時間単位で開発されている。

AIによるOSS汚染への対抗策

AIエージェントによる低品質なIssueやPRの乱発からプロジェクトを守るため、定期的な「OSS休暇」が有効である。
リポジトリ内の許可リストに名前がないユーザーからのPRを自動で閉じるアクセス制限を導入している。
人間による確認を前提とした信頼スキーム「Vouch」により、AIのノイズを排除し、人間同士の対話を優先する。

AIツールの普及により、オープンソースプロジェクトは低品質な自動生成コンテンツの氾濫に直面している。これに対抗するため、まずはIssueで人間としての自己紹介を求め、信頼を得た人間のみがコードを提案できる仕組みを構築した。技術の進歩を享受しつつも、開発の核心である人間同士のコミュニケーションを保護するための防衛策が必要である。

Community Posts

自作のPythonコードが商用AIエージェントより優れている理由

makedream16 日前6050

Write about this video