ИИ-агенты ОБОЖАЮТ интерфейс командной строки

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Теперь, когда ИИ-агенты становятся всё более полезными и актуальными,
00:00:05по крайней мере, для некоторых задач, любопытно наблюдать, как мы возвращаемся к истокам.
00:00:11И вот что я имею в виду. Если взглянуть на историю компьютеров и интернета
00:00:16в целом, мы могли бы нарисовать график простоты использования, который выглядит примерно так.
00:00:23Конечно, он полностью вымышленный, но вы поймете мою мысль. Мы начали в 1970-х
00:00:30или где-то около того — не ловите меня на слове насчет конкретного года — но в те времена,
00:00:36когда у нас с вами — ну, я тогда еще даже не родился — но когда в обычных домах
00:00:41даже не было компьютеров, взаимодействие с ними было в основном текстовым, через терминалы,
00:00:47по сути, через командную строку. Богатые графические интерфейсы, сложные
00:00:54сайты и все эти классные штуки — операционные системы для обычных пользователей — это
00:01:01стало реальностью только в 90-х и 2000-х и, конечно, продолжало развиваться до сегодняшнего дня.
00:01:09Оно и сейчас развивается, не поймите меня неправильно, я не говорю, что это всё исчезнет,
00:01:14но одна вещь отчетливо видна: с появлением ИИ-агентов
00:01:22наметился сильный тренд на возврат к чисто текстовому вводу, терминальным интерфейсам, CLI-инструментам, Markdown,
00:01:31JSON и прочим базовым вещам. И под этим я не просто имею в виду такие инструменты, как
00:01:37Claude Code, у которых нет графического интерфейса — хотя десктопное приложение существует,
00:01:43но в основном им пользуются как инструментом командной строки — я не только об этом.
00:01:48Я имею в виду, что все эти ИИ-агенты, эти агентские инструменты — как бы вы их ни называли —
00:01:54действительно мастерски взаимодействуют с другими консольными утилитами, программами,
00:02:02которые они могут вызвать через терминал. Им нужен простой текст, простой форматированный текст вроде Markdown,
00:02:09именно здесь они по-настоящему блистают. И поэтому всё больше компаний — например,
00:02:15всего несколько часов назад, на момент записи видео, Google выпустила новые инструменты командной строки.
00:02:21Google представила Google Workspace CLI. Поверите или нет, до этого его не существовало,
00:02:27и это инструмент для работы с сервисами Google Workspace, такими как Gmail или Google Drive,
00:02:35через официальный интерфейс командной строки. До этого уже были сторонние решения — например,
00:02:41GOG CLI от Петера Штайнбергера, создателя OpenClaw. Он создал его, потому что
00:02:48ему был нужен программный способ взаимодействия с сервисами Google через CLI, которого не было
00:02:54до сегодняшнего дня. И это не спонсированное видео от Google или что-то в этом роде,
00:02:59просто интересно наблюдать, как всё больше компаний выпускают подобные инструменты.
00:03:04MCP-серверы — это нечто похожее, хотя у MCP, на мой взгляд,
00:03:11есть ряд недостатков. Я твердо верю, что в будущем мы увидим CLI-инструменты и API
00:03:18(а CLI — это просто обертки над API) как основной способ использования
00:03:27сервисов через агентские инструменты. Вот конкретный пример того, что я имею в виду.
00:03:32Последние пару недель я экспериментировал с агентом PyCoding.
00:03:37PyCoding — это, можно сказать, альтернатива Claude Code. Он проще в хорошем смысле слова,
00:03:46более ограничен по функциям, но очень мощный, и его можно использовать, например, с вашей подпиской на Codex.
00:03:51Это видео не совсем про этого агента, и на самом деле не важно,
00:03:57используете ли вы его, или Claude, или Cursor — все они справятся с задачей.
00:04:01Но мне очень нравится этот инструмент, а главное — как и Claude Code,
00:04:07его можно использовать для задач, не связанных с программированием, несмотря на название.
00:04:13Например, именно этот агент Py используется внутри OpenClaw. Это его сердце,
00:04:19логический центр, если угодно. А OpenClaw уже добавил сверху много всего,
00:04:24например память и каналы вроде Telegram и WhatsApp. Но
00:04:30это один из примеров агентского инструмента, который можно запустить в системе для выполнения дел.
00:04:35Конечно, вы можете создать и своего агента. У меня есть курс об этом, где я объясняю,
00:04:40как на самом деле работают ИИ-агенты и чем они отличаются от рабочих процессов (workflows),
00:04:44ведь часто вам нужен именно рабочий процесс, а не полноценный агент. Если хотите углубиться — загляните в курс.
00:04:49Также у меня есть курсы по Claude Code и Codex, если хотите узнать о них больше.
00:04:54Но какой бы инструмент вы ни выбрали, поразительно,
00:04:58насколько хорошо они взаимодействуют с другими CLI-утилитами. И это логично,
00:05:03потому что они видели массу примеров работы в терминале: использование curl, стандартных
00:05:10команд вроде cd, ls и всех прочих команд Linux. В их обучающих данных этого предостаточно.
00:05:16И они не просто знают эти команды наизусть,
00:05:21но, что более важно, они видели, как ими пользоваться: как связывать CLI-инструменты в цепочки,
00:05:28как перенаправлять (pipe) результаты из одной утилиты в другую. Они это видели и в этом они профи.
00:05:35Они также знают, что можно использовать флаг --help, чтобы изучить инструмент.
00:05:41И это дает им огромное преимущество при работе с новыми инструментами,
00:05:47которых не было в обучающей выборке, как тот же Google Workspace CLI.
00:05:52Разумеется, если вы захотите использовать его через агента, он не видел его во время обучения.
00:05:57Он не знает, как с ним работать. Но если вы укажете на него, возможно, дадите ссылку
00:06:01на официальную документацию, а то и без этого — он, скорее всего, сам разберется,
00:06:05используя --help и двигаясь дальше. Потому что это просто очередной CLI-инструмент.
00:06:11А большие языковые модели в конечном итоге отлично понимают, описывают и используют
00:06:17такие консольные утилиты.
00:06:20Например, буквально вчера у меня возникла небольшая проблема. Мне нужно было загрузить
00:06:26PDF-документ на сайт. Знаете эти сайты, которые требуют загрузить кучу файлов
00:06:32одним документом, размер которого не должен превышать 5 мегабайт? Да, я был на таком сайте.
00:06:38Естественно, мне нужно было сжать этот PDF-файл.
00:06:43Я мог бы попытаться найти онлайн-сервис для этого, но я не фанат
00:06:49загрузки своих документов на какие-то случайные сайты. Так что — сомнительно.
00:06:55Я также мог проверить, нет ли в моей системе встроенных средств для этого,
00:07:01но подписки на Adobe у меня больше нет, так что пришлось бы что-то искать.
00:07:07В итоге я мог бы всё же сдаться и загрузить файл на какой-нибудь подозрительный сайт. Но не с ИИ.
00:07:13Конечно, я мог бы использовать Codex, Claude или Cursor, чтобы «навайбить» (vibe code) утилитку для сжатия.
00:07:19Это, вероятно, тоже сработало бы. Но вместо этого я запустил агента Py,
00:07:26которого использую через подписку Codex, и просто попросил его взглянуть на PDF
00:07:33и сжать его, максимально сохранив качество.
00:07:36Это было всё. Мой единственный запрос. И он принялся за работу: выполнил
00:07:41несколько команд в терминале, запустил пару скриптов. Кстати, я запускаю его
00:07:46прямо в системе, но у меня установлено расширение для безопасности. У PI (или Py)
00:07:53есть концепция расширений. Я установил то, которое не дает агенту
00:07:59просто взять и стереть мой жесткий диск, по крайней мере, напрямую. И я
00:08:06внимательно следил за тем, как он описывал свои действия. Я позволил ему делать свое дело,
00:08:11он прогнал несколько команд, и в конце концов всё было готово. И действительно,
00:08:18он успешно сжал документ, сделав его значительно меньше. Это простой пример,
00:08:25и были другие варианты. Но суть в том, что он сделал всё это в командной строке,
00:08:29в терминале, используя наши обычные команды и программы. И в этом
00:08:36есть огромный смысл, ведь речь идет о программах, использующих компьютер.
00:08:41Все эти графические интерфейсы и красивые сайты создавались для людей — для нас с вами.
00:08:46Они не исчезнут, конечно. Но если мы хотим, чтобы в нашей системе работали полезные утилиты,
00:08:53ИИ-агенты, способные выполнять хотя бы часть наших текущих задач, то
00:08:59мы должны дать им возможность использовать компьютер более эффективно. Ведь графический
00:09:03интерфейс, приложение или сайт, созданные для человека — не лучший вариант
00:09:09для компьютерной программы. Ей пришлось бы делать скриншот, понимать, где кнопки,
00:09:13двигать мышь к кнопке, нажимать её, снова делать скриншот, чтобы увидеть изменения.
00:09:18Это крайне неэффективно, тратит уйму токенов и времени. Именно
00:09:24поэтому концепция API появилась задолго до ИИ-агентов и больших языковых моделей.
00:09:31Когда мы пишем программу — неважно, сайт это или приложение —
00:09:37если мы хотим взаимодействовать с другой программой или сервисом,
00:09:43мы всегда использовали API, а не пытались написать скрипт, кликающий по сайту,
00:09:49предназначенному для людей. Для этого и существуют API и CLI — консольные программы
00:09:56в конечном итоге просто являются обертками над API, как в случае с
00:10:03Google Workspace CLI. И именно такие программы нам нужны для работы агента,
00:10:10потому что ему плевать на красивые кнопочки. Ему нужен
00:10:15простой способ вызова команд для достижения результата. Вот почему это логично.
00:10:22Поэтому Markdown сейчас важнее, чем когда-либо, и поэтому
00:10:28на многих страницах документации уже есть кнопка «копировать», которая
00:10:32позволяет легко скопировать контент как Markdown, чтобы вставить его в чат с ИИ
00:10:38или в инструмент для кодинга. По этой же причине некоторые сайты позволяют добавить .md
00:10:46в конец URL, чтобы получить статью в Markdown. Мы движемся в будущее, где
00:10:52часть сервисов и контента будет в первую очередь предназначена для потребления агентами.
00:10:58Взять, к примеру, документацию библиотеки или фреймворка вроде TanStack Start.
00:11:03Если вы создаете сайт на TanStack Start сегодня (и неважно, какой
00:11:09стек вы используете, вы понимаете суть), вы, скорее всего, делаете это с помощью кодинг-агента вроде Cursor.
00:11:15И если вы хотите объяснить агенту, как использовать библиотеку, или указать
00:11:20на конкретную статью в документации, вам не нужно отправлять его на обычный сайт.
00:11:25Вы не хотите, чтобы он скачивал HTML-код и впустую тратил токены.
00:11:32И это та же самая причина, по которой CLI-инструменты становятся всё
00:11:38более важными: мы движемся к будущему, где часть задач
00:11:42будет выполняться с помощью ИИ-агентов или исключительно ими. Это,
00:11:49конечно, означает, что если вы создаете какой-то сервис, который не предназначен
00:11:54только для людей, вам стоит серьезно подумать о создании CLI в дополнение к API,
00:12:02чтобы в будущем люди могли пользоваться вашим сервисом через агентов.
00:12:09Конечно, мы всё еще в самом начале пути. Большинству людей
00:12:14пока нет дела до агентов. И рано судить о том, насколько хорошими они станут
00:12:20и какие задачи смогут решать. Возможно, мы застрянем на текущем уровне,
00:12:26когда они могут кое-что делать, но далеко не всё, и им всё еще нужен контроль человека.
00:12:31Но даже в этом случае есть задачи, которые под силу агентам, и вы можете
00:12:37сделать их полезнее, дав им правильные инструменты для легкого взаимодействия
00:12:42с нашими сервисами и сайтами. Вот почему круг замыкается.
00:12:49Очевидно, это не значит, что графические интерфейсы
00:12:55и сайты исчезнут. Наверняка всегда будут приложения или сайты,
00:13:01созданные для людей, которые нет смысла использовать через агентов. Например,
00:13:07какой-нибудь Netflix. Не вижу смысла в том, чтобы агент пересказывал мне сюжет фильма.
00:13:13Я ведь хочу его посмотреть. Но для многих сервисов, особенно в сфере SaaS
00:13:21или профессиональных услуг, это определенно путь вперед. Я думаю,
00:13:28что хоть сейчас и ранние дни, это отчетливый вектор развития. По крайней мере,
00:13:34таково мое мнение. Но, как всегда, мне интересно узнать, что думаете вы.
00:13:39Поделитесь своими мыслями: что я упустил или не учел? И что ж,
00:13:44посмотрим, как мир CLI-инструментов изменится через год или два.

Key Takeaway

Использование интерфейсов командной строки (CLI) становится критически важным, так как они обеспечивают наиболее эффективный и экономичный способ взаимодействия ИИ-агентов с программным обеспечением по сравнению с традиционными графическими интерфейсами.

Highlights

Возврат к интерфейсам командной строки (CLI) как основной тренд в эпоху ИИ-агентов

Преимущество CLI перед GUI для программ: отсутствие необходимости в анализе скриншотов и кликах

Эффективность Markdown и простого текста для обработки большими языковыми моделями

Выпуск Google Workspace CLI как подтверждение рыночного вектора в сторону автоматизации

Способность ИИ-агентов к самообучению через чтение документации и использование команды --help

Важность создания CLI и API для современных SaaS-сервисов, ориентированных на будущее

Timeline

Исторический контекст и возвращение к текстовым интерфейсам

Спикер проводит исторический экскурс, отмечая любопытный парадокс: с развитием ИИ-агентов индустрия возвращается к текстовому вводу, популярному в 1970-х годах. В то время как 90-е и 2000-е годы характеризовались расцветом сложных графических интерфейсов (GUI) для обычных пользователей, современные технологии снова делают акцент на терминалах. Автор подчеркивает, что развитие графики не прекращается, но в сфере автоматизации наметился четкий тренд на упрощение. Это возвращение к истокам обусловлено спецификой работы искусственного интеллекта. Таким образом, мы наблюдаем циклическое развитие технологий взаимодействия человека и машины.

Почему ИИ-агенты предпочитают CLI и Markdown

В этом разделе объясняется, почему ИИ-агенты мастерски справляются с консольными утилитами и форматом Markdown. Спикер приводит в пример Claude Code и недавно выпущенный Google Workspace CLI, который позволяет управлять Gmail и Диском через терминал. Основная идея заключается в том, что текстовые интерфейсы позволяют агентам взаимодействовать с программами напрямую, без лишних надстроек. Ранее существовали только сторонние решения вроде GOG CLI, но теперь гиганты индустрии выпускают официальные инструменты. Это подтверждает, что будущее взаимодействия с сервисами лежит через CLI и API, которые служат идеальными обертками для агентских инструментов.

Практические примеры и инструменты: PyCoding и OpenClaw

Автор делится личным опытом использования агента PyCoding, который является мощной альтернативой Claude Code и может работать с подпиской Codex. Этот инструмент служит логическим центром проекта OpenClaw, добавляя функции памяти и интеграцию с мессенджерами типа Telegram. Спикер отмечает, что такие агенты полезны не только для написания кода, но и для решения широкого спектра повседневных задач. В видео также упоминаются обучающие курсы автора, где подробно разбирается разница между агентами и рабочими процессами (workflows). Важно понимать, какой инструмент лучше подходит для конкретной цели, прежде чем внедрять автоматизацию. Подчеркивается, что выбор правильного инструмента определяет успех интеграции ИИ в рабочую среду.

Мастерство ИИ в работе с терминалом Linux

Спикер объясняет феноменальную эффективность языковых моделей при работе с Linux-командами, такими как curl, cd и ls. Поскольку LLM обучались на огромных массивах данных, содержащих примеры использования терминала, они отлично понимают логику конвейеров (pipes). Одной из ключевых особенностей является способность агента самостоятельно изучать новые инструменты с помощью флага --help. Даже если инструмент, такой как Google Workspace CLI, не входил в обучающую выборку, ИИ может разобраться в нем, прочитав документацию на лету. Это дает агентам огромное преимущество в гибкости и масштабируемости при работе с любым новым ПО. Способность к самообучению через текстовые интерфейсы делает их незаменимыми помощниками.

Кейс по сжатию PDF и неэффективность GUI для ИИ

Автор описывает реальную ситуацию, когда ему потребовалось сжать PDF-файл для загрузки на сайт без использования подозрительных онлайн-сервисов. Вместо поиска графического приложения, он поручил эту задачу ИИ-агенту через терминал, обеспечив безопасность данных. Спикер детально описывает процесс: агент выполнил ряд скриптов под наблюдением системы безопасности, успешно уменьшив размер файла. Этот пример наглядно иллюстрирует, насколько неэффективно для ИИ использовать GUI, требующий скриншотов, распознавания кнопок и эмуляции движений мыши. Использование терминала экономит время, вычислительные ресурсы и токены. Таким образом, CLI является естественной средой обитания для программных агентов.

Будущее контента и сервисов для агентов

Раздел посвящен концепции создания контента и API специально для потребления искусственным интеллектом. Спикер отмечает растущую популярность Markdown-версий документации, которые можно легко копировать в чаты с ИИ. Многие сайты начинают добавлять специальные расширения в URL для получения чистого текста, минуя тяжелый HTML. Это движение в сторону будущего, где часть сервисов будет ориентирована исключительно на агентов, а не на людей. Автор призывает разработчиков SaaS-решений серьезно задуматься о создании CLI в дополнение к основному интерфейсу. Это позволит их продуктам оставаться актуальными в мире, где задачи выполняются автоматизированными помощниками.

Заключение: Баланс между людьми и агентами

В финальной части видео спикер подчеркивает, что мы находимся в самом начале пути развития ИИ-агентов. Несмотря на очевидные преимущества CLI, графические интерфейсы (GUI) не исчезнут, так как они необходимы для человеческого восприятия. Например, сервисы вроде Netflix всегда будут ориентированы на человека, так как просмотр фильма — это личный опыт, который не имеет смысла делегировать. Однако для профессиональных услуг и B2B-сервисов вектор развития в сторону агентских инструментов очевиден. Автор призывает зрителей делиться своими мыслями о будущем CLI и автоматизации. Видео заканчивается прогнозом на значительные изменения в индустрии в ближайшие пару лет.

Community Posts

View all posts