「PI」コーディングエージェントは、単なる高性能なツール以上の可能性を秘めています!

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsStocksInternet Technology

Transcript

00:00:00また新しいコーディングエージェントについて話さなければなりません。ええ、わかっています。
00:00:07Claude CodeやCodexについては、すでに動画やコースを公開しました。どちらも素晴らしいツールですし、
00:00:15CursorやGitHub Copilotもありますね。それらのコースもあり、リンクは下にあります。ですが今日は、
00:00:21Piコーディングエージェントについてお話ししたいと思います。単なるコーディングエージェント以上の存在だからです。
00:00:31繰り返しになりますが、どのツールを使っても目的は達成できます。正解も不正解もありません。
00:00:38今の状況は、毎週のように新しいツールが登場していた2019年頃の
00:00:46JavaScriptフレームワーク戦争を彷彿とさせます。確かに、ある程度は
00:00:53そのような側面もあるでしょう。しかし、当時と同じで、正直なところ
00:01:00どれを選んでも大きな違いはありません。この動画は広告ではありませんし、コースを売るためでもありません。
00:01:06純粋に、このPiというエージェントは注目に値するツールだと思ったのです。
00:01:13CodexやClaude Code、Open Codeなどとは違い、Piには
00:01:20独自のサブスクリプションはありません。Open Codeの場合は、別のサブスク(Codexなど)を紐付けるか
00:01:27従量課金で利用できますが、Piコーディングエージェントも同様に、
00:01:32従量課金か、他のサブスクリプションを利用する形になります。例えば、
00:01:39私はこれをシステムにインストールし、Codexのサブスクリプションで動かしています。これは
00:01:45CodexアプリやCLIで使うものですが、ここでも使えます。Anthropicの
00:01:50Claude Code用サブスクも使えるようですが、公式側はそれを好まず、
00:01:55アカウントが停止されるリスクもあると聞いています。さて、このPiは何が特別なのでしょうか?
00:02:00なぜ通常のCodex CLIではなく、これを使うべきなのか。理由はいくつかあります。まず、
00:02:08このPiというエージェントは、非常に軽量でシンプルです。これは良い意味で、です。
00:02:20システムプロンプトが最小限で、搭載されているツールもわずかです。基本的には、
00:02:28読み取り、書き込み、編集、そしてbashツールの4つだけ(執筆時点)です。そしてこのbashこそが
00:02:36最強のツールとなります。bashが使えるということは、実質的に
00:02:44システム全体、マシン全体を制御できることを意味します。コマンドラインを通じて
00:02:50他のあらゆるツールを呼び出せるからです。以前、別の動画でも触れましたが、
00:02:55現在のコーディングエージェントにおいて、CLI(コマンドライン)へのアクセスは
00:03:03最も重要な要素です。エージェントは、使ったことのないCLIであっても
00:03:10非常にうまく使いこなすことができます。CLIやサードパーティ製の
00:03:15コマンドラインツールを通じて、エージェントはPC上で様々な操作が可能になります。
00:03:21HTTPリクエストの送信、スクリプトの作成・実行、JSONデータのパースなど、
00:03:29何でもこなせます。これがPiエージェントの哲学です。本体は極めてシンプルにし、
00:03:35最も強力なツールであるbashを与えることで、万能性を実現しています。さらに、
00:03:41内蔵されたシステムプロンプトも非常に無駄が少ないため、コンテキストウィンドウが
00:03:50不要な情報で埋まることがなく、柔軟なタスク遂行が可能です。
00:03:57Piの設計思想は、機能を詰め込むのではなく、
00:04:04「拡張性」を重視することにあります。「拡張機能(Extensions)」という仕組みがあり、
00:04:10さらに「エージェントスキル」も利用できます。これはある種の業界標準のようになりつつあり、
00:04:17ツールによって実装は異なりますが、コアとなるアイデアは、
00:04:24スキル用のディレクトリにマークダウンファイルを置き、そこにプロンプトや追加情報を記述するものです。
00:04:31これらは最初から読み込まれるのではなく、タスクに応じて必要な時に「遅延読み込み」されます。
00:04:39例えば、今動かしているこのPiのセッションでは、
00:04:46いくつかのスキルが読み込まれています。グローバル設定したものや、
00:04:53「コードリサーチ(調査)」のような非常に便利なスキルです。中身を見てみると、
00:04:59名前と説明が書かれた単純なマークダウンファイルであることがわかります。
00:05:03この「説明」が非常に重要で、エージェントがそのスキルを
00:05:08有効化して使うかどうかの判断基準になります。名前と説明からタスクに関連があると
00:05:16判断された場合にのみ、ファイルの残りの内容が読み込まれます。そして、
00:05:21中身は追加のコンテキストやプロンプトです。このコードリサーチスキルの場合、
00:05:26PiやCodexといったエージェントに対して、コードの調査方法を指示しています。
00:05:32具体的には、Peter Steinberger氏が作成した「MC Porter」というツールを使い、
00:05:38「deep wiki MCPサーバー」などの各種MCPサーバーを利用するよう伝えています。
00:05:46これはGitHubリポジトリを探索して理解するためのサーバーです。他にも調査用のツールを指定しています。
00:05:51ここで重要な点があります。MCP(Model Context Protocol)についてですが、
00:05:58Piエージェント自体はMCPをネイティブサポートしていません。その理由は、
00:06:05MCPを使うと、利用可能なツールやリソースに関する大量の情報が
00:06:10コンテキストウィンドウを占有してしまうからです。AIに認識させるためにそれが必要なのですが、
00:06:18Piの開発者(またはチーム)はそれを避けたがっています。これは私を含め
00:06:23多くの人が同意する考え方です。MCP検索のような解決策もありますが、
00:06:28PiにはあえてMCPサポートがありません。しかし、先ほどのMC Porterを使えば十分です。
00:06:35「使う」と言っても、AIにその都度MC Porterを呼び出す方法を教えているだけなので、
00:06:43ツール自体をコンテキストウィンドウに常駐させる必要がありません。
00:06:49このように、Piは徹底的に無駄を削ぎ落としています。これが最大の特徴です。そして、
00:06:54もう一つの大きな魅力は、先ほども触れた拡張性です。
00:07:01単なる「スキル」にとどまらず、メインとなるのは「拡張機能(Extensions)」です。
00:07:08Piはエージェントを拡張するためのファーストパーティ(公式)サポートを備えています。
00:07:16エージェントの動作ループの様々な段階にフック(割り込み)をかけることができ、
00:07:22あらゆるカスタマイズが可能です。望むなら、
00:07:30自分でMCPサポートを追加することだってできます。
00:07:36私は自分でいくつかの拡張機能を設定しています。例えば「プラン(計画)モード」です。
00:07:41デフォルトにはありませんが、非常に拡張性が高いので、プランモード中は
00:07:47エージェントによるファイル書き込みや編集を禁止する、といった制限を追加できます。
00:07:53ショートカットキーでプランモードに切り替えたり、
00:08:00ターミナルのUIを更新して「現在プランモードであること」を表示させたりもできます。
00:08:07また、「/plan」のようなスラッシュコマンドを追加してモードを切り替え、
00:08:14インジケーターを表示させることも。これで特定のツールを制限し、また元に戻せます。
00:08:20拡張機能を使えば、こういったカスタマイズが自在です。さらに、
00:08:24公式の拡張機能マーケットプレイスのようなものも存在します。Piには、
00:08:31自分で作った拡張機能やスキルをパッケージ化して他者と共有する仕組みがあります。
00:08:36私たちは他のユーザーが作成したパッケージをインストールして利用できるのです。
00:08:40例えば「サブエージェント」を追加するパッケージや、
00:08:47「ウェブアクセス」パッケージなどがあります。これはエージェントに
00:08:54ウェブ調査やサイト情報の効率的な取得機能を与える素晴らしいものです。このように、
00:09:00最小限のコアをベースに、自分好みにいくらでも拡張していけるのがPiです。
00:09:06それ自体が非常に面白い試みだと思います。Claude CodeやCodexなどは、
00:09:12最初から強力なツールが揃っていますが、その分、拡張性は低くなります。
00:09:20Piはその逆で、最小限の構成から何にでも姿を変えることができます。
00:09:28しかも、グローバルな設定だけでなく、プロジェクトごとにカスタマイズ可能です。
00:09:33特定のスキルや拡張機能をそのプロジェクト専用に導入できるのです。
00:09:39この汎用性の高さこそが、Piを試してみる価値がある理由です。
00:09:46ここ数週間、私はClaude CodeやCodexと並行してPiを使っています。
00:09:51これらのツールは進化が非常に早いため、頻繁に切り替えていますが、Piはとても気に入っています。
00:09:59さて、ここからが面白いところです。Piはコーディングだけに限定されません。
00:10:08「コーディングエージェント」という名前ですし、主な用途もそこにあるのは確かで、
00:10:15私も主にそのために使っています。しかし、それだけではないのです。
00:10:21例えば、私はウェブアクセス・パッケージをインストールし、Gemini APIキーを紐付けて、
00:10:30PiにGeminiベースの強力なウェブ調査能力を与えました。その結果、
00:10:35コーディングプロジェクト以外の場所でエージェントを起動し、次のようなタスクを任せられます。
00:10:41「過去7日間のAppleとNvidiaの株価を調べ、その推移を分析して報告して」と。
00:10:46そうすると、Piは自ら動き出します。株価データを取得する方法を考え、
00:10:55ウェブ検索を行ったり、投資家向け情報ページを訪問したりします。
00:11:04そして取得したデータをもとに計算を行い、必要なら一時的な
00:11:12スクリプトを作成して実行します。ここでは、追加したウェブ調査スキルが
00:11:18有効化されました。調査方法の詳細な指示に従って実行しようとします。
00:11:23途中、Pythonの実行環境に関する問題(実行ファイル名の違いなど)に直面しましたが、
00:11:29自ら「python3」を使うべきだと判断して解決しました。そして、
00:11:34ウェブサイトからデータを取得する一時的なPythonスクリプトを書き、実行して
00:11:40株価データを取得したようです。おそらくこの後は、
00:11:47そのデータを使って株価の変動率を計算するための小さなスクリプトを
00:11:55書くことになるでしょう。ニュースの調査なども含め、しばらく作業を続けた後、
00:12:01完了の報告が来ました。AppleとNvidiaの過去7日間の株価推移を提示し、
00:12:08それぞれのパフォーマンスの概要を示してくれました。
00:12:14さらに、結果を要約した分析レポートも作成してくれました。
00:12:23これらすべてが、Piに与えた拡張機能とスキルだけで完結しています。
00:12:29私がコードを書いたり、どのサイトを見るべきか指示したりは一切していません。自律的に行いました。
00:12:36もちろん、Claude CodeやCodexでも同じことは可能でしょう。結局のところ、
00:12:43これらはすべて、タスク遂行のためのツールを持ったAIエージェントだからです。
00:12:50主にコーディング用として作られてはいますが、他の用途に「転用」することもできます。
00:12:56今回のタスクも、ウェブサイトの閲覧とスクリプトの作成を伴うものであり、
00:13:01ドキュメントを読み込んでコードを書くという開発作業と、本質的には非常に似ています。
00:13:06つまり、他にも多くの応用が効くということです。その中で、
00:13:11PiがCodexやClaudeよりもこういったタスクに向いていると感じる理由は、
00:13:17その「最小限のコア」と、プロジェクト単位で「理想のツール」に作り変えられる柔軟性にあります。
00:13:24あるプロジェクトでは「リサーチの専門家」として、別の場所では
00:13:29「株式分析の専門家」として設定できます。また、別のプロジェクトでは
00:13:37「システムのハードドライブ使用率を分析する専門家」にすることも可能です。
00:13:42「OpenClaw」が内部でPiを採用しているのも、おそらく同じ理由でしょう。
00:13:50今、OpenClawリポジトリをdeep wikiで見ています。このサイトは
00:13:55GitHubリポジトリを理解するのに最適です。コードを分析し、
00:14:00それに基づいたドキュメントを即座に生成してくれます。リポジトリと対話することもできます。
00:14:05ここで「OpenClawは内部でPiコーディングエージェントを使っている?」と聞いてみると、
00:14:12コードを分析して、はい、OpenClawはPiを利用していると答えてくれました。
00:14:18具体的な実装方法まで教えてくれます。これがPiコーディングエージェントの実力です。
00:14:24今回紹介したのは、私がそこから利益を得ているからではありません。
00:14:31コースがあるわけでもない。ただ純粋に、素晴らしいツールだと思ったからです。
00:14:38特に、プログラミング以外のタスクでAIエージェントを活用したいと考えているなら、
00:14:44非常に面白い選択肢になります。もちろん、開発作業においても非常に強力です。
00:14:50OpenClawのように、その上に独自のツールを構築することさえ可能です。
00:14:56Codexでも同様のことはできますが、Piの「最小限のコア」というコンセプトは格別です。
00:15:02CodexやClaude Codeに加えて、あるいはその代わりとして、一見の価値はあります。
00:15:09ここ数週間、私はこれを使ってとても楽しんでいますし、
00:15:14今後1年でこのエージェント技術がどこまで進化し、何ができるようになるのか楽しみです。
00:15:18少し怖くもありますが、同時に非常にワクワクする、不思議な感覚ですね。

Key Takeaway

Piコーディングエージェントは、最小限の設計と高い拡張性により、開発作業の枠を超えてあらゆる専門タスクをこなす自律型AIへと進化できるツールです。

Highlights

Piは最小限のコアと強力なbashツールを組み合わせた、軽量でシンプルなコーディングエージェントである

独自のサブスクリプションを持たず、CodexやAnthropicのAPIキーを利用した従量課金制で運用可能

「エージェントスキル」や「拡張機能(Extensions)」により、用途に合わせた高度なカスタマイズができる

MCP(Model Context Protocol)をあえてネイティブサポートせず、コンテキストの肥大化を防いでいる

コーディングだけでなく、ウェブ調査や株価分析など、汎用的な自律型エージェントとして活用できる

プロジェクトごとに最適なツールセットを構築できる柔軟性が、他の競合ツールとの最大の違いである

Timeline

Piコーディングエージェントの概要と現状の市場背景

スピーカーは、Claude CodeやCursorなど多くのツールが存在する中で、なぜ今「Pi」に注目すべきかを解説しています。現在のAIツール業界を2019年頃のJavaScriptフレームワーク戦争に例え、どのツールを選んでも目的は達成できるが、Piには独特の価値があると述べています。Piは独自の月額課金体系を持たず、既存のAPIキーや他のサービスのサブスクリプションを紐付けて利用する形式を採用しています。この動画は広告ではなく、純粋にツールとしてのポテンシャルを評価して紹介するものであると強調されています。導入のハードルが低く、自由度が高い点が最初の特徴として挙げられています。

Piの設計思想:最小限のツールとbashの強力な連携

Piの最大の特徴は、システムプロンプトが最小限であり、搭載されている標準ツールが読み書き・編集・bashの4つだけというシンプルさにあります。特にbashツールは、コマンドラインを通じてシステム全体を制御できるため、実質的に無限の可能性を秘めています。エージェントは未知のCLIツールであっても巧みに使いこなし、HTTPリクエストやデータパースなどの複雑な操作を自律的に実行します。この設計思想により、コンテキストウィンドウが不要な情報で埋まることを防ぎ、高い柔軟性を維持しています。シンプルさが「万能性」に直結するというPi独自の哲学が詳しく説明されています。

拡張性とエージェントスキルの仕組み

Piは「拡張性」を重視しており、マークダウンファイル形式の「エージェントスキル」を通じて機能を自由に追加できます。スキルは必要な時にだけ読み込まれる「遅延読み込み」方式をとっており、AIがタスクに関連があると判断した時のみ有効化されます。具体例として、GitHubリポジトリを探索するための「コードリサーチ」スキルの構成や、中身の指示内容が紹介されています。これにより、エージェントに対して特定のツールの使い方や調査手順を、永続的なコンテキスト負荷をかけずに教え込むことが可能です。ユーザーは自分のワークフローに合わせた独自のスキルを簡単に定義し、共有することもできます。

MCPへのアプローチと高度なカスタマイズ機能

Piは、MCP(Model Context Protocol)をあえてネイティブではサポートしていません。その理由は、MCPによる大量のツール情報がコンテキストウィンドウを無駄に占有することを避けるためであると説明されています。代わりに「MC Porter」などのツールを介して、必要な時だけ情報を取得するスマートな手法を推奨しています。また、エージェントの動作ループに割り込む「フック」機能を利用して、ファイル編集を制限する「プランモード」などの独自の挙動を追加できます。ターミナルのUI表示を書き換えたり、スラッシュコマンドを作成したりといった、深いレベルでのカスタマイズが可能です。これにより、市販のツールでは不可能な、ユーザー専用の作業環境を構築できます。

共有パッケージとコーディング以外の応用事例

Piには公式のマーケットプレイスのような仕組みがあり、他人が作成した拡張機能をパッケージとしてインストールできます。ウェブアクセス機能やサブエージェント機能など、コミュニティによって開発された強力な機能が手軽に利用可能です。スピーカーは、このように最小限のコアをベースに必要な機能だけを積み上げる方式が、Piを非常に面白いツールにしていると語っています。Claude Codeなどの統合型ツールとは対照的に、プロジェクトごとに「姿を変える」ことができる汎用性が魅力です。グローバル設定だけでなく、特定のプロジェクト専用のカスタマイズも容易に行える点が高く評価されています。ここから、開発以外のタスクへの応用へと話が移ります。

実践:株価分析タスクによる自律性の実証

Piがコーディング以外でも極めて有能であることを示すため、AppleとNvidiaの株価分析を任せるデモンストレーションが行われます。Gemini APIを統合したウェブ調査スキルを使用し、エージェントは自ら検索を行い、投資家情報を収集して計算を行います。途中でPythonの実行環境に関するエラーに遭遇しても、自力で原因を特定して解決策を見出すという高度な自律性を発揮します。最終的に、データに基づいた株価推移のレポートと要約を提示し、人間が指示を出すことなくタスクを完結させました。このプロセスはドキュメントを読んでコードを書く開発作業と本質的に同じであり、Piの設計が汎用タスクに最適であることを証明しています。利用者の工夫次第で、どのような専門家エージェントにもなり得ます。

Piの活用可能性と将来への期待

まとめとして、Piが他のオープンソースプロジェクト(OpenClawなど)の基盤として採用されている事例が紹介されます。Deep Wikiを使用してOpenClawのリポジトリを分析し、実際にPiがどのように内部で組み込まれているかを即座に解明する様子が映し出されます。スピーカーは、Piの「最小限のコア」というコンセプトが、独自のツールを構築する際の強力な土台になると述べています。コーディングエージェントという枠に囚われず、システム管理やリサーチなど多方面での活用を推奨して動画を締めくくっています。急速に進化するエージェント技術に対して、恐怖を感じつつも大きな期待を寄せるスピーカーの情熱が伝わる内容となっています。

Community Posts

View all posts