00:00:00AIエージェントがますます便利になり、一般的になってきた今、
00:00:05少なくとも一部のタスクにおいて、物事が一周して元に戻りつつあるのは非常に興味深いことです。
00:00:11どういう意味か説明しましょう。コンピュータとインターネットの歴史を
00:00:16全体として捉えたとき、「使いやすさ」のチャートを描くと、おそらくこんな感じになります。
00:00:23もちろんこれは私の創作ですが、言いたいことは伝わるはずです。1970年代、
00:00:30あるいはその周辺から始まりました。正確な年については追求しないでください。
00:00:36初期の頃、あなたや私――まあ、私はまだ生まれてもいませんでしたが――普通の家庭に
00:00:41コンピュータすらなかった時代、操作は主にターミナル、つまりコマンドラインを通じた
00:00:47テキストのみのインターフェースでした。リッチなグラフィカル・ユーザー・インターフェースや
00:00:54リッチなウェブサイト、一般ユーザー向けに構築されたOSなどが
00:01:01登場したのは90年代から2000年代にかけてで、それから今日まで進化し続けてきました。
00:01:09もちろん今も進化し続けています。既存のものがなくなると言っているわけではありません。
00:01:14しかし、AIエージェントの登場によって、ある明確な傾向が見て取れます。
00:01:22それは、テキスト入力、ターミナル、CLIツール、Markdown、JSONといった基本への回帰です。
00:01:31これは単に、GUIを持たないClaude Codeのようなツールがある
00:01:37という話だけではありません。一応デスクトップアプリもありますが、
00:01:43基本的にはコマンドラインツールとして使われています。それだけのことではないのです。
00:01:48私が言いたいのは、これらのAIエージェントや「エージェンティック・ツール」が、
00:01:54他のコマンドラインツールや、コマンドラインから呼び出せるプログラムとの連携に
00:02:02非常に長けているということです。Markdownのようなシンプルな書式を好む、
00:02:09そこが彼らの真骨頂なのです。だからこそ、多くの企業――例えば
00:02:15これを録画している数時間前にも、Googleが次々とコマンドラインツールをリリースしました。
00:02:21Google Workspace CLIがリリースされたのです。信じられないかもしれませんが、
00:02:27今まで存在しなかった、GmailやGoogle Driveを公式CLIで操作できるツールです。
00:02:35以前から別の解決策はありました。例えばOpenClawの作者である
00:02:41Peter Steinberger氏が作った「GOG CLI」です。彼はGoogleサービスを
00:02:48プログラム的にCLIで操作したかったのですが、当時は存在しなかったため自作しました。
00:02:54それが数時間前に公式に登場したのです。これはGoogleの広告動画ではありませんが、
00:02:59サービスを提供する企業が、こうしたツールをリリースし始めているのは興味深い現象です。
00:03:04MCPサーバーも似たようなものですが、個人的にMCPにはいくつか欠点があると感じています。
00:03:11将来的には、APIをラップしたCLIツールこそが、
00:03:18エージェントを通じてサービスを利用する際の主流になると確信しています。
00:03:27具体的な例を挙げましょう。ここ数日から数週間、
00:03:32私は「PyCoding agent」を試していました。
00:03:37これは、いわばClaude Codeの代替案のようなものです。良い意味でよりシンプルで、
00:03:46機能は限定的ですが非常に強力です。例えばCodeiumのサブスクでも使えます。
00:03:51この動画の主役はこのエージェントではありませんし、
00:03:57Codeium、Cursor、その他の何を使っても目的は達成できます。
00:04:01ただ、私はこのツールを気に入っています。最も重要なのは、Claude Codeなどと同様に、
00:04:07名前に反してコーディング以外のタスクにも使えるという点です。例えば、
00:04:13実はこの「Py agent」はOpenClawの内部で使われています。いわばOpenClawの論理的な心臓部です。
00:04:19そこにOpenClawは、メモリや、Telegram、WhatsAppといった
00:04:24各種チャンネルなどの機能を数多く追加しているわけです。
00:04:30これは自分のシステムで動かせるエージェントツールの一例です。もちろん自作も可能です。
00:04:35私はそのためのコースも持っており、AIエージェントの仕組みや
00:04:40ワークフローとの違いについて解説しています。真のエージェントではなく、
00:04:44ワークフローの方が適している場合も多いですからね。興味があればそちらをご覧ください。
00:04:49Claude CodeやCodeiumに関するコースもあります。
00:04:54どのツールを使うにせよ、非常に興味深く明確なのは、
00:04:58それらが他のCLIツールといかにうまく連携できるかという点です。これは当然と言えます。
00:05:03なぜなら、彼らはcurlやcd、lsといった
00:05:10Linuxのコマンドライン操作を大量に学習データとして見てきたからです。
00:05:16標準的なコマンドを熟知しているだけでなく、
00:05:21それらのツールの「使い方」も学習しています。CLIツールをどう繋ぎ合わせ、
00:05:28あるツールの結果を別のツールにどうパイプするか、そうしたことに長けています。
00:05:35また、「--help」を使ってツールの詳細を学ぶ方法も知っています。
00:05:41これにより、学習データに含まれていない新しいツールであっても、
00:05:47新しいGoogle Workspace CLIのように使いこなすことができるのです。
00:05:52エージェントにとっては未知のツールなので、最初は使い方がわかりません。
00:05:57しかし、公式ドキュメントへのリンクを与えるか、
00:06:01あるいは何もしなくても、「--help」を叩いて自分で解決するでしょう。
00:06:05彼らにとっては、単なる「また別のCLIツール」に過ぎないからです。
00:06:11大規模言語モデルは、結局のところ、こうしたCLIツールの
00:06:17理解、説明、そして操作において非常に優れているのです。
00:06:20例えば昨日、ちょっとした問題がありました。PDFドキュメントを
00:06:26ウェブサイトにアップロードする必要があったのですが、よくある話で、
00:06:32「複数の書類を1つのファイルにまとめ、サイズは5MB以内に収めてください」と言われました。
00:06:38当然、PDFを圧縮しなければなりませんでした。
00:06:43代行してくれるウェブサイトを探すこともできましたが、
00:06:49自分の書類を見ず知らずのサイトにアップロードするのは抵抗がありました。
00:06:55システム内に役立つツールがないか調べることもできましたが、
00:07:01今はAdobeのサブスクも切っているので、調査に時間がかかりそうです。
00:07:07結局、怪しいサイトにアップロードすることになったかもしれません。しかしAIがいれば違います。
00:07:13CodeiumやClaudeを使って変換・圧縮ツールを自作することもできたでしょう。
00:07:19それもうまくいったはずですが、私はPy agentを起動し、
00:07:26「このPDFファイルを、品質を保ちつつ最大限に圧縮してくれ」と
00:07:33頼んだだけです。プロンプトはそれだけでした。
00:07:36エージェントは作業を開始し、コマンドラインで一連のコマンドを実行し、
00:07:41スクリプトを走らせました。ちなみに、これは自分のローカル環境で動かしていますが、
00:07:46ガードレールの拡張機能をインストールしてあります。このエージェントには
00:07:53拡張機能という概念があり、それを入れることで、
00:07:59エージェントが勝手にハードドライブの中身を消去したりするのを防いでいます。
00:08:06また、エージェントが次に何をするか説明するのを注視していました。
00:08:11実行を任せた結果、見事にドキュメントの圧縮に成功し、
00:08:18サイズを大幅に縮小してくれました。これは単純な例に過ぎませんし、
00:08:25他のやり方もあったでしょう。ポイントは、これがすべてコマンドライン上で、
00:08:29既存のプログラムを使って行われたということです。
00:08:36プログラムがコンピュータを使うという文脈では、これは非常に合理的です。
00:08:41GUIやリッチなウェブサイトは、人間であるあなたや私のために作られたものです。
00:08:46それは今後もなくなりませんが、AIエージェントに
00:08:53自分の代わりにタスクをこなしてもらいたいのであれば、
00:08:59より効率的な操作方法を与える必要があります。
00:09:03人間用のGUI、アプリ、ウェブサイトは、プログラムにとっては理想的ではありません。
00:09:09スクリーンショットを撮り、ボタンの位置を特定し、マウスを動かしてクリックし、
00:09:13またスクリーンショットを撮って結果を確認する……
00:09:18これは極めて非効率で、トークンも時間も浪費します。
00:09:24だからこそ、AIエージェントやLLMが登場するずっと前から、APIという概念が存在したのです。
00:09:31プログラムを書く際、それがウェブサイトであれアプリであれ、
00:09:37他のプログラムやサービスとやり取りしたい場合には、
00:09:43以前から当然のようにAPIを使っていました。
00:09:49人間用のウェブサイトを操作するスクリプトを書いたりはしなかったのです。CLIプログラムも、
00:09:56結局のところ、Google Workspace CLIのようにAPIをラップしたものです。
00:10:03そしてそれこそが、エージェントが必要としているプログラムの形です。
00:10:10エージェントは見栄えの良いボタンなど気にしません。必要なのは、
00:10:15タスクを完遂するために各種コマンドを呼び出すシンプルな手段です。これが理にかなっている理由です。
00:10:22Markdownの重要性がかつてないほど高まっているのも、多くのドキュメントサイトに
00:10:28コピーボタンが付いているのもそのためです。コンテンツをMarkdown形式で簡単にコピーし、
00:10:32LLMやチャット、コーディングツールに貼り付けられるようにしているのです。
00:10:38一部のサイトが、URLの末尾に「.md」を付けるだけで記事をMarkdownで提供しているのも、
00:10:46一部のサービスやコンテンツが「エージェントに消費されること」を
00:10:52主目的とする未来に向かっているからです。
00:10:58例えば「TanStack Start」のようなライブラリやフレームワークのドキュメントを考えてみましょう。
00:11:03最近このサイトを構築しようと思ったら、技術スタックが何であれ
00:11:09――言いたいことはわかると思いますが――おそらくCursorなどのコーディングエージェントを使うでしょう。
00:11:15その際、エージェントに使い方のドキュメントを教えようとして、
00:11:20普通のウェブサイトをそのまま読み込ませたくはないはずです。
00:11:25HTMLコードを丸ごとダウンロードさせると、不必要にトークンを消費します。
00:11:32CLIツールが重要性を増しているのも、これと同じ理由です。なぜなら、
00:11:38少なくともいくつかのタスクがAIエージェントの助けを借りて、
00:11:42あるいはエージェントのみで行われる未来に向かっているからです。
00:11:49これはつまり、もしあなたが人間以外にも利用されることを想定した
00:11:54サービスを構築しているなら、APIの提供だけでなくCLIの構築も
00:12:02真剣に検討すべきだということです。将来的にエージェント経由で利用されるために。
00:12:09もちろん、まだ非常に初期の段階です。大多数の人はエージェントのことなど気にしていません。
00:12:14AIエージェントがどれほど進化し、将来どのようなタスクをこなせるようになるかは未知数です。
00:12:20現状のように「一部のことはできるが、人間の監視は不可欠」というレベルで
00:12:26停滞する可能性もあります。
00:12:31しかし、たとえその段階であっても、エージェントに実行可能なタスクは存在します。
00:12:37サービスやウェブサイトとの連携を容易にする適切なツールを与えることで、
00:12:42彼らをより便利で強力な存在にできるのです。だからこそ、私たちは一周回って戻ってきたのです。
00:12:49当然ながら、GUIやウェブサイトが消えてなくなるわけではありません。
00:12:55人間が利用することを前提とした、エージェントには不向きな
00:13:01アプリやウェブサイトは常に存在し続けるでしょう。例えば、
00:13:07Netflixのようなサービスです。エージェントから映画のあらすじを聞くことに
00:13:13大きなメリットは感じません。映画は自分で観たいものです。
00:13:21しかし、多くのSaaSビジネスや専門的なサービスの分野では、
00:13:28これが進むべき道であることは間違いありません。まだ初期段階ですが、
00:13:34明確な進歩が見て取れます。少なくとも私はそう考えています。
00:13:39いつものように、皆さんの意見も聞かせてください。何か私が見落としていることや、
00:13:44考えがあればぜひシェアしてください。1、2年後にCLIの世界がどうなっているか楽しみですね。