AIエージェントはCLIが大好き

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00AIエージェントがますます便利になり、一般的になってきた今、
00:00:05少なくとも一部のタスクにおいて、物事が一周して元に戻りつつあるのは非常に興味深いことです。
00:00:11どういう意味か説明しましょう。コンピュータとインターネットの歴史を
00:00:16全体として捉えたとき、「使いやすさ」のチャートを描くと、おそらくこんな感じになります。
00:00:23もちろんこれは私の創作ですが、言いたいことは伝わるはずです。1970年代、
00:00:30あるいはその周辺から始まりました。正確な年については追求しないでください。
00:00:36初期の頃、あなたや私――まあ、私はまだ生まれてもいませんでしたが――普通の家庭に
00:00:41コンピュータすらなかった時代、操作は主にターミナル、つまりコマンドラインを通じた
00:00:47テキストのみのインターフェースでした。リッチなグラフィカル・ユーザー・インターフェースや
00:00:54リッチなウェブサイト、一般ユーザー向けに構築されたOSなどが
00:01:01登場したのは90年代から2000年代にかけてで、それから今日まで進化し続けてきました。
00:01:09もちろん今も進化し続けています。既存のものがなくなると言っているわけではありません。
00:01:14しかし、AIエージェントの登場によって、ある明確な傾向が見て取れます。
00:01:22それは、テキスト入力、ターミナル、CLIツール、Markdown、JSONといった基本への回帰です。
00:01:31これは単に、GUIを持たないClaude Codeのようなツールがある
00:01:37という話だけではありません。一応デスクトップアプリもありますが、
00:01:43基本的にはコマンドラインツールとして使われています。それだけのことではないのです。
00:01:48私が言いたいのは、これらのAIエージェントや「エージェンティック・ツール」が、
00:01:54他のコマンドラインツールや、コマンドラインから呼び出せるプログラムとの連携に
00:02:02非常に長けているということです。Markdownのようなシンプルな書式を好む、
00:02:09そこが彼らの真骨頂なのです。だからこそ、多くの企業――例えば
00:02:15これを録画している数時間前にも、Googleが次々とコマンドラインツールをリリースしました。
00:02:21Google Workspace CLIがリリースされたのです。信じられないかもしれませんが、
00:02:27今まで存在しなかった、GmailやGoogle Driveを公式CLIで操作できるツールです。
00:02:35以前から別の解決策はありました。例えばOpenClawの作者である
00:02:41Peter Steinberger氏が作った「GOG CLI」です。彼はGoogleサービスを
00:02:48プログラム的にCLIで操作したかったのですが、当時は存在しなかったため自作しました。
00:02:54それが数時間前に公式に登場したのです。これはGoogleの広告動画ではありませんが、
00:02:59サービスを提供する企業が、こうしたツールをリリースし始めているのは興味深い現象です。
00:03:04MCPサーバーも似たようなものですが、個人的にMCPにはいくつか欠点があると感じています。
00:03:11将来的には、APIをラップしたCLIツールこそが、
00:03:18エージェントを通じてサービスを利用する際の主流になると確信しています。
00:03:27具体的な例を挙げましょう。ここ数日から数週間、
00:03:32私は「PyCoding agent」を試していました。
00:03:37これは、いわばClaude Codeの代替案のようなものです。良い意味でよりシンプルで、
00:03:46機能は限定的ですが非常に強力です。例えばCodeiumのサブスクでも使えます。
00:03:51この動画の主役はこのエージェントではありませんし、
00:03:57Codeium、Cursor、その他の何を使っても目的は達成できます。
00:04:01ただ、私はこのツールを気に入っています。最も重要なのは、Claude Codeなどと同様に、
00:04:07名前に反してコーディング以外のタスクにも使えるという点です。例えば、
00:04:13実はこの「Py agent」はOpenClawの内部で使われています。いわばOpenClawの論理的な心臓部です。
00:04:19そこにOpenClawは、メモリや、Telegram、WhatsAppといった
00:04:24各種チャンネルなどの機能を数多く追加しているわけです。
00:04:30これは自分のシステムで動かせるエージェントツールの一例です。もちろん自作も可能です。
00:04:35私はそのためのコースも持っており、AIエージェントの仕組みや
00:04:40ワークフローとの違いについて解説しています。真のエージェントではなく、
00:04:44ワークフローの方が適している場合も多いですからね。興味があればそちらをご覧ください。
00:04:49Claude CodeやCodeiumに関するコースもあります。
00:04:54どのツールを使うにせよ、非常に興味深く明確なのは、
00:04:58それらが他のCLIツールといかにうまく連携できるかという点です。これは当然と言えます。
00:05:03なぜなら、彼らはcurlやcd、lsといった
00:05:10Linuxのコマンドライン操作を大量に学習データとして見てきたからです。
00:05:16標準的なコマンドを熟知しているだけでなく、
00:05:21それらのツールの「使い方」も学習しています。CLIツールをどう繋ぎ合わせ、
00:05:28あるツールの結果を別のツールにどうパイプするか、そうしたことに長けています。
00:05:35また、「--help」を使ってツールの詳細を学ぶ方法も知っています。
00:05:41これにより、学習データに含まれていない新しいツールであっても、
00:05:47新しいGoogle Workspace CLIのように使いこなすことができるのです。
00:05:52エージェントにとっては未知のツールなので、最初は使い方がわかりません。
00:05:57しかし、公式ドキュメントへのリンクを与えるか、
00:06:01あるいは何もしなくても、「--help」を叩いて自分で解決するでしょう。
00:06:05彼らにとっては、単なる「また別のCLIツール」に過ぎないからです。
00:06:11大規模言語モデルは、結局のところ、こうしたCLIツールの
00:06:17理解、説明、そして操作において非常に優れているのです。
00:06:20例えば昨日、ちょっとした問題がありました。PDFドキュメントを
00:06:26ウェブサイトにアップロードする必要があったのですが、よくある話で、
00:06:32「複数の書類を1つのファイルにまとめ、サイズは5MB以内に収めてください」と言われました。
00:06:38当然、PDFを圧縮しなければなりませんでした。
00:06:43代行してくれるウェブサイトを探すこともできましたが、
00:06:49自分の書類を見ず知らずのサイトにアップロードするのは抵抗がありました。
00:06:55システム内に役立つツールがないか調べることもできましたが、
00:07:01今はAdobeのサブスクも切っているので、調査に時間がかかりそうです。
00:07:07結局、怪しいサイトにアップロードすることになったかもしれません。しかしAIがいれば違います。
00:07:13CodeiumやClaudeを使って変換・圧縮ツールを自作することもできたでしょう。
00:07:19それもうまくいったはずですが、私はPy agentを起動し、
00:07:26「このPDFファイルを、品質を保ちつつ最大限に圧縮してくれ」と
00:07:33頼んだだけです。プロンプトはそれだけでした。
00:07:36エージェントは作業を開始し、コマンドラインで一連のコマンドを実行し、
00:07:41スクリプトを走らせました。ちなみに、これは自分のローカル環境で動かしていますが、
00:07:46ガードレールの拡張機能をインストールしてあります。このエージェントには
00:07:53拡張機能という概念があり、それを入れることで、
00:07:59エージェントが勝手にハードドライブの中身を消去したりするのを防いでいます。
00:08:06また、エージェントが次に何をするか説明するのを注視していました。
00:08:11実行を任せた結果、見事にドキュメントの圧縮に成功し、
00:08:18サイズを大幅に縮小してくれました。これは単純な例に過ぎませんし、
00:08:25他のやり方もあったでしょう。ポイントは、これがすべてコマンドライン上で、
00:08:29既存のプログラムを使って行われたということです。
00:08:36プログラムがコンピュータを使うという文脈では、これは非常に合理的です。
00:08:41GUIやリッチなウェブサイトは、人間であるあなたや私のために作られたものです。
00:08:46それは今後もなくなりませんが、AIエージェントに
00:08:53自分の代わりにタスクをこなしてもらいたいのであれば、
00:08:59より効率的な操作方法を与える必要があります。
00:09:03人間用のGUI、アプリ、ウェブサイトは、プログラムにとっては理想的ではありません。
00:09:09スクリーンショットを撮り、ボタンの位置を特定し、マウスを動かしてクリックし、
00:09:13またスクリーンショットを撮って結果を確認する……
00:09:18これは極めて非効率で、トークンも時間も浪費します。
00:09:24だからこそ、AIエージェントやLLMが登場するずっと前から、APIという概念が存在したのです。
00:09:31プログラムを書く際、それがウェブサイトであれアプリであれ、
00:09:37他のプログラムやサービスとやり取りしたい場合には、
00:09:43以前から当然のようにAPIを使っていました。
00:09:49人間用のウェブサイトを操作するスクリプトを書いたりはしなかったのです。CLIプログラムも、
00:09:56結局のところ、Google Workspace CLIのようにAPIをラップしたものです。
00:10:03そしてそれこそが、エージェントが必要としているプログラムの形です。
00:10:10エージェントは見栄えの良いボタンなど気にしません。必要なのは、
00:10:15タスクを完遂するために各種コマンドを呼び出すシンプルな手段です。これが理にかなっている理由です。
00:10:22Markdownの重要性がかつてないほど高まっているのも、多くのドキュメントサイトに
00:10:28コピーボタンが付いているのもそのためです。コンテンツをMarkdown形式で簡単にコピーし、
00:10:32LLMやチャット、コーディングツールに貼り付けられるようにしているのです。
00:10:38一部のサイトが、URLの末尾に「.md」を付けるだけで記事をMarkdownで提供しているのも、
00:10:46一部のサービスやコンテンツが「エージェントに消費されること」を
00:10:52主目的とする未来に向かっているからです。
00:10:58例えば「TanStack Start」のようなライブラリやフレームワークのドキュメントを考えてみましょう。
00:11:03最近このサイトを構築しようと思ったら、技術スタックが何であれ
00:11:09――言いたいことはわかると思いますが――おそらくCursorなどのコーディングエージェントを使うでしょう。
00:11:15その際、エージェントに使い方のドキュメントを教えようとして、
00:11:20普通のウェブサイトをそのまま読み込ませたくはないはずです。
00:11:25HTMLコードを丸ごとダウンロードさせると、不必要にトークンを消費します。
00:11:32CLIツールが重要性を増しているのも、これと同じ理由です。なぜなら、
00:11:38少なくともいくつかのタスクがAIエージェントの助けを借りて、
00:11:42あるいはエージェントのみで行われる未来に向かっているからです。
00:11:49これはつまり、もしあなたが人間以外にも利用されることを想定した
00:11:54サービスを構築しているなら、APIの提供だけでなくCLIの構築も
00:12:02真剣に検討すべきだということです。将来的にエージェント経由で利用されるために。
00:12:09もちろん、まだ非常に初期の段階です。大多数の人はエージェントのことなど気にしていません。
00:12:14AIエージェントがどれほど進化し、将来どのようなタスクをこなせるようになるかは未知数です。
00:12:20現状のように「一部のことはできるが、人間の監視は不可欠」というレベルで
00:12:26停滞する可能性もあります。
00:12:31しかし、たとえその段階であっても、エージェントに実行可能なタスクは存在します。
00:12:37サービスやウェブサイトとの連携を容易にする適切なツールを与えることで、
00:12:42彼らをより便利で強力な存在にできるのです。だからこそ、私たちは一周回って戻ってきたのです。
00:12:49当然ながら、GUIやウェブサイトが消えてなくなるわけではありません。
00:12:55人間が利用することを前提とした、エージェントには不向きな
00:13:01アプリやウェブサイトは常に存在し続けるでしょう。例えば、
00:13:07Netflixのようなサービスです。エージェントから映画のあらすじを聞くことに
00:13:13大きなメリットは感じません。映画は自分で観たいものです。
00:13:21しかし、多くのSaaSビジネスや専門的なサービスの分野では、
00:13:28これが進むべき道であることは間違いありません。まだ初期段階ですが、
00:13:34明確な進歩が見て取れます。少なくとも私はそう考えています。
00:13:39いつものように、皆さんの意見も聞かせてください。何か私が見落としていることや、
00:13:44考えがあればぜひシェアしてください。1、2年後にCLIの世界がどうなっているか楽しみですね。

Key Takeaway

AIエージェントの普及に伴い、人間向けの複雑なGUIよりも、プログラムが理解しやすく効率的なCLIやMarkdownといった「基本」への回帰が加速している。

Highlights

AIエージェントの台頭により、コンピューティングの歴史がGUIから再びテキストベースのCLI(コマンドラインインターフェース)へと回帰している現象。

Google Workspace CLIの公式リリースに見られるように、大手企業がエージェントによる操作を前提としたツールを提供し始めている。

LLMは学習データを通じて標準的なLinuxコマンドやツールの「使い方」を熟知しており、未知のツールでもヘルプコマンドから自律的に学習できる。

人間向けのGUIをAIに操作させるのはトークンと時間の浪費であり、APIをラップしたCLIこそがエージェントにとって最も効率的なインターフェースである。

ドキュメントのMarkdown化やURL末尾への「.md」付加など、コンテンツが「エージェントに消費されること」を目的とする未来への移行。

PDF圧縮の事例のように、複雑なGUIアプリを使わずに自然言語の指示だけでCLIツールを組み合わせたタスク完遂が可能になっている。

Timeline

コンピューティングの歴史とCLIへの回帰

スピーカーは、AIエージェントの普及によってコンピューティングのトレンドが「一周して元に戻っている」と指摘します。1970年代のテキストのみのインターフェースから、90年代以降のリッチなGUIへと進化した歴史を振り返ります。しかし、現在のAI時代においては、再びテキスト入力やターミナル、JSONといったシンプルな形式が重要視されています。これは既存の技術がなくなるわけではなく、新しい操作の形として「基本への回帰」が起きていることを意味しています。この変化は、エージェントがプログラム的にシステムを操作する際の利便性に起因しています。

エージェントとCLIツールの親和性とGoogleの動向

AIエージェントが他のコマンドラインツールやプログラムと連携する能力に長けている点について詳しく解説されます。その象徴的な例として、GoogleがGmailやGoogle Driveを操作できる公式の「Google Workspace CLI」をリリースしたことが挙げられます。以前は個人が自作したツールで代用されていましたが、公式がCLIを提供し始めたことは非常に興味深い現象です。スピーカーは、将来的にはAPIをラップしたCLIツールこそが、エージェントがサービスを利用する際の主流になると確信しています。これにより、エージェントは人間用の画面を介さず直接サービスを制御できるようになります。

ローカルエージェントの活用例:PyCoding agent

具体的なツールとして、Claude Codeの代替案となる「PyCoding agent」というシンプルなエージェントを紹介します。このツールはコーディングだけでなく、メモリ機能や各種チャネルとの連携を担う「論理的な心臓部」として機能します。スピーカーは、タスクによっては複雑な自律型エージェントよりも、明確なワークフローの方が適している場合があるとも補足しています。また、これらのツールを使いこなすための学習コースの存在についても言及し、教育の重要性を示唆しています。重要なのは、どのツールを使うかよりも、それがいかに他のCLI環境とシームレスに繋がるかという点です。

LLMがCLIを好む技術的な理由と自律学習

なぜLLMがCLI操作に優れているのか、その背景には学習データに含まれる膨大なLinuxコマンド(curl, cd, lsなど)の存在があります。エージェントは単にコマンドを知っているだけでなく、パイプ機能を使ってツール同士を連結させる「作法」まで理解しています。さらに特筆すべきは、未知のツールであっても「--help」コマンドを実行して自ら使い方を学ぶ能力です。公式ドキュメントがなくても、CLIの構造さえあればエージェントは自律的に問題を解決してしまいます。このため、新しいCLIツールはエージェントにとって即座に利用可能な「手」となるのです。

実例:自然言語によるPDF圧縮タスクの完遂

スピーカーが実際に遭遇した、ウェブサイトへのアップロードのためにPDFを5MB以下に圧縮しなければならなかった事例が共有されます。怪しいオンライン変換サイトを使いたくない、あるいは高価なAdobe製品のサブスクが切れているといった日常的な悩みが背景にあります。ここでPy agentに「品質を保ちつつ最大限に圧縮してくれ」と一言頼むだけで、エージェントが適切なスクリプトを選択し実行しました。安全性のためにガードレール機能を導入している点や、エージェントの挙動を監視する重要性についても触れています。結果として、複雑な操作を一切せず、ローカル環境の既存ツールだけで見事にタスクが完了しました。

GUIの非効率性と「エージェントファースト」な未来

プログラムがコンピュータを操作する際、人間用のGUIはスクリーンショットの解析やマウス移動を伴うため、極めて非効率であると断言します。これに対してCLIやAPIは、エージェントが見栄えを気にせず、トークンと時間を節約してタスクを完遂するための理想的な手段です。かつて人間同士がAPIを使って連携していたのと同様に、エージェントもまたAPIをラップしたCLIを必要としています。サービス提供者は、人間向けの「見栄えの良いボタン」だけでなく、エージェントが呼び出せる「シンプルなコマンド」を整備する必要があります。この視点の転換が、次世代のソフトウェア開発において不可欠な要素となります。

ドキュメントの変容とこれからのサービス設計

Markdownの重要性が高まっている理由として、エージェントがHTMLの不要なタグを読み込まずに情報を消費できる点を挙げます。TanStack Startのような最新のドキュメントサイトが、エージェントによる利用を想定した構造に移行しつつある現状を説明します。動画の締めくくりとして、Netflixのように「人間が体験すること」を目的としたサービスはGUIで残り続ける一方、SaaSや専門的な実務サービスはCLI化が進むと予測します。現時点ではまだ初期段階であり人間の監視も必要ですが、進むべき方向は明確であると強調しています。スピーカーは、1、2年後にCLIの世界がどう進化しているかへの期待を込めて視聴者に問いかけます。

Community Posts

View all posts