A los agentes de IA les ENCANTAN las CLI

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ahora que los agentes de IA son cada vez más útiles y se están volviendo más comunes, al menos
00:00:05para algunas tareas, creo que es muy interesante ver cómo estamos volviendo al punto de partida.
00:00:11A esto me refiero. Si echamos un vistazo a la historia de la informática y de internet
00:00:16en su conjunto, tal vez podríamos dibujar un gráfico de facilidad de uso parecido a este.
00:00:23Por supuesto, esto es totalmente inventado, pero probablemente entiendan mi punto. Empezamos en los años 70
00:00:30o por ahí —no me presionen con un año específico— pero en los primeros
00:00:36días, cuando tú y yo —bueno, yo ni siquiera había nacido— pero cuando los hogares normales no
00:00:41tenían ni un ordenador, interactuar con ellos era mayormente solo texto a través de interfaces
00:00:47de terminal, básicamente a través de la línea de comandos. Y las interfaces gráficas ricas y las
00:00:54webs complejas y todas esas cosas divertidas —sistemas operativos creados para usuarios normales— eso solo
00:01:01se convirtió en algo real hacia los 90, los 2000, y por supuesto siguió evolucionando hasta hoy.
00:01:09Y todavía está evolucionando, no me malinterpreten, no digo que todo esto vaya a
00:01:14desaparecer, pero una cosa que es claramente visible y fácil de ver es que con los agentes de IA
00:01:22tenemos esta fuerte tendencia de vuelta al texto, a las interfaces de terminal, herramientas CLI, markdown,
00:01:31JSON, todo lo básico. Y con esto no solo me refiero a que tenemos herramientas como
00:01:37Claude Code que no vienen con una interfaz gráfica de usuario —aunque hay
00:01:43una aplicación de escritorio, se consume principalmente como una herramienta de línea de comandos— no solo me refiero a eso.
00:01:48En cambio, me refiero a que todos estos agentes de IA, estas herramientas agenticas —como quieran
00:01:54llamarlas— realmente destacan interactuando con otras herramientas de línea de comandos, otros programas que
00:02:02pueden invocar mediante la consola; quieren texto simple, texto con formato sencillo como markdown,
00:02:09ahí es donde realmente brillan. Y es por eso que cada vez más empresas —como
00:02:15hace unas horas, mientras grabo esto, Google lanzó más y más herramientas de línea de comandos.
00:02:21Como Google Workspace CLI. Aunque no lo crean, eso no existía
00:02:27hasta ahora, y es una herramienta que puedes usar para interactuar con tus servicios de Google Workspace como Gmail,
00:02:35Google Drive, a través de una CLI oficial. Ya existían otras soluciones —como
00:02:41por ejemplo GOG CLI de Peter Steinberger, el creador de OpenClaw— él la creó porque
00:02:48quería una forma programática basada en CLI de interactuar con los servicios de Google y eso no existía
00:02:54hasta hace unas horas, pero ahora sí existe. Y este no es un vídeo patrocinado por Google
00:02:59ni nada parecido, es solo que es interesante ver que cada vez más empresas que ofrecen
00:03:04servicios están lanzando herramientas como esta. Los servidores MCP serían algo similar,
00:03:11aunque los MCP en mi opinión tienen varias desventajas y creo firmemente que veremos herramientas CLI
00:03:18y APIs (al final las CLI solo envuelven APIs) en el futuro como la forma principal de consumir
00:03:27servicios mediante herramientas agenticas. Y aquí hay un ejemplo concreto de lo que quiero decir. Durante
00:03:32los últimos días y semanas he estado jugando con el agente PyCoding. Ahora,
00:03:37el agente PyCoding es, se podría decir, una alternativa a Claude Code. Es más simple, en el buen
00:03:46sentido, más limitado en cuanto a funciones pero muy, muy potente y puedes usarlo con
00:03:51tu suscripción de Codex, por ejemplo. Este vídeo no trata principalmente sobre este agente y
00:03:57realmente no importa si usas este o Codex o Cursor o lo que sea, todos te sirven.
00:04:01Pero también me gusta mucho esta herramienta y, lo más importante, al igual que Claude Code
00:04:07y Codex, también puedes usar esta herramienta para tareas que no sean de programación a pesar de su nombre. Por ejemplo,
00:04:13es este agente Py el que se usa internamente en OpenClaw. Ese es el corazón,
00:04:19el corazón lógico de OpenClaw, se podría decir. Y luego OpenClaw, por supuesto, le añadió mucho
00:04:24más, como memoria y canales como Telegram y WhatsApp y todo eso. Pero
00:04:30esta es una herramienta agentica que podrías estar ejecutando en tu sistema para hacer cosas. También podrías
00:04:35crear tu propio agente, por supuesto. Y tengo un curso sobre eso donde también explico cómo
00:04:40funcionan realmente los agentes de IA y cuál es la diferencia con los flujos de trabajo, ya que a menudo
00:04:44quizás quieras un flujo de trabajo y no un agente real. Pero tengo un curso sobre eso si quieres profundizar
00:04:49un poco más. También tengo cursos sobre Claude Code y Codex si quieres aprender más sobre estas
00:04:54herramientas. Pero no importa qué herramienta uses, lo que es muy, muy interesante y fácil
00:04:58de ver es lo bien que pueden interactuar con otras herramientas CLI. Lo cual tiene mucho sentido
00:05:03porque han visto mucho trabajo de CLI usando herramientas como curl, o nuestros comandos
00:05:10de línea de comandos como cd, ls... ya saben, todos esos comandos de Linux. Han visto muchísimo de eso
00:05:16en sus datos de entrenamiento. Y no solo han visto comandos estándar de Linux que, por lo tanto,
00:05:21se conocen de memoria. Sino que, lo más importante, vieron cómo usar estas herramientas. Cómo encadenar
00:05:28herramientas CLI. Cómo pasar resultados de una herramienta a otra mediante tuberías. Vieron todo eso y
00:05:35sobresalen en ello. También vieron que pueden usar --help para aprender más sobre una herramienta.
00:05:41Y eso los pone en una posición excelente para usar herramientas nuevas también. Herramientas que no han visto
00:05:47en sus datos de entrenamiento, como esta nueva CLI de Google Workspace, por ejemplo.
00:05:52Por supuesto, si quieres usar eso a través de un agente, no lo vio en su entrenamiento.
00:05:57No sabe cómo usarlo. Pero si se lo indicas, si tal vez le das un enlace
00:06:01a la documentación oficial, o incluso si no lo haces, lo más probable es que sea capaz de averiguar
00:06:05cómo usarlo usando --help y partiendo de ahí. Porque es solo otra herramienta CLI
00:06:11más. Y los modelos de lenguaje grandes, al final, destacan entendiendo, describiendo y usando
00:06:17estas herramientas CLI.
00:06:20Y por ejemplo el otro día, ayer de hecho, tuve un pequeño problema. Necesitaba subir
00:06:26un documento PDF a un sitio web. Ya saben, esos sitios que quieren que subas un montón de documentos
00:06:32todos en uno solo y ese documento no debe exceder los 5 megabytes de tamaño. Pues bien, yo
00:06:38estaba en uno de esos sitios. Y, naturalmente, tuve que comprimir ese documento PDF.
00:06:43Podría haber intentado buscar una web que lo hiciera por mí. Aunque no me hace mucha gracia subir
00:06:49mis cosas a cualquier sitio web aleatorio. Así que, no sé. También podría haber comprobado si
00:06:55había alguna herramienta en mi sistema que pudiera ayudarme con eso. Pero ya no tengo la suscripción de Adobe,
00:07:01así que me habría llevado algo de investigación. Y quizás al final lo habría terminado subiendo
00:07:07a alguna web poco fiable. Bueno, con la IA no. Por supuesto, podría haber usado Codex o Claude
00:07:13o Cursor o lo que fuera para programar rápido una pequeña herramienta de conversión/compresión. Eso probablemente
00:07:19también habría funcionado. Pero lo que hice fue arrancar el agente Py que uso con
00:07:26mi suscripción de Codex. Y simplemente le pedí que echara un vistazo a ese archivo PDF y que por favor lo comprimiera
00:07:33manteniendo la calidad lo máximo posible.
00:07:36Eso fue todo. Ese fue mi único prompt. Y básicamente se puso a trabajar, ejecutó
00:07:41un montón de comandos en la consola, lanzó algunos scripts pequeños. Y, por cierto, estoy ejecutando
00:07:46esto en mi sistema, pero instalé una extensión de guardrails. Py (o PI es el nombre real) tiene
00:07:53este concepto de extensiones que puedes instalar. Así que instalé una que impide que el
00:07:59agente borre mi disco duro, al menos de forma directa. Y también lo estaba
00:08:06vigilando de cerca mientras describía lo que iba a hacer. Así que dejé que hiciera lo suyo
00:08:11y ejecutó un montón de cosas aquí. Y al final terminó. Y, efectivamente, logró
00:08:18comprimir este documento con éxito y lo hizo significativamente más pequeño. Ese es solo un ejemplo sencillo.
00:08:25Y habría habido alternativas. Mi punto es que lo hizo todo en la línea
00:08:29de comandos, en el terminal, usando nuestros comandos y programas de allí. Y por supuesto,
00:08:36todo eso tiene mucho sentido porque hablamos de programas usando un ordenador. Y
00:08:41todas estas interfaces gráficas y webs complejas fueron creadas para humanos, para ti y
00:08:46para mí. Y eso no va a desaparecer, claro. Pero si queremos tener pequeñas utilidades, agentes de IA
00:08:53ejecutándose en nuestro sistema que puedan hacer al menos algunas de las tareas que hacemos ahora, entonces
00:08:59tenemos que darles una forma de usar el ordenador de una manera más eficiente. Porque una interfaz
00:09:03gráfica, una app o una web hecha para un humano no es la forma ideal para un programa
00:09:09informático. Tendría que hacer una captura de pantalla, averiguar dónde están los botones,
00:09:13mover el ratón a un botón, hacer clic, capturar de nuevo para ver qué hay en la
00:09:18nueva página... Eso es súper ineficiente, quema muchísimos tokens y tarda demasiado. Y quiero decir,
00:09:24por eso tenemos el concepto de APIs mucho antes de la llegada de los agentes de IA y los modelos
00:09:31de lenguaje grandes. Porque si estamos escribiendo un programa, no importa si es una web o una app,
00:09:37si estamos escribiendo un programa y queremos interactuar con otro programa, con otro servicio,
00:09:43por supuesto en el pasado ya usábamos una API y no intentábamos escribir un script que usara
00:09:49una web pensada para ser usada por humanos. Por eso existen las APIs y las CLI (programas
00:09:56de línea de comandos) al final solo son envoltorios de las APIs, al menos en el caso de CLI como la
00:10:03de Google Workspace. Pero ese es exactamente el tipo de programa que necesitamos y queremos que consuma
00:10:10un agente porque no le importan los botones bonitos ni nada de eso. Quiere una
00:10:15forma sencilla de invocar varios comandos para hacer las cosas. Y por eso esto tiene
00:10:22sentido. Por eso también, por supuesto, el markdown es ahora más importante que nunca y por qué
00:10:28la mayoría de páginas de documentación ya ofrecen un botoncito de copiar como este, que facilita
00:10:32copiar el contenido como markdown para que puedas pegarlo en tu modelo de lenguaje favorito,
00:10:38en tu sesión de chat o herramienta de programación. Por eso algunas webs también permiten añadir .md al final
00:10:46de la URL para obtener el artículo en markdown, porque vamos hacia un futuro donde
00:10:52al menos algunos servicios y contenidos estarán destinados principalmente a ser consumidos por agentes.
00:10:58Piensen en la documentación de una librería o un framework como TanStack Start. Si estás
00:11:03creando un sitio con TanStack Start hoy en día —y por supuesto no importa qué pila tecnológica
00:11:09uses, entienden mi punto— probablemente lo hagas con la ayuda de algún agente de programación, Cursor,
00:11:15o lo que sea. Y si quieres decirles a esos agentes cómo usar la librería, si quieres dirigirlos
00:11:20a un artículo de documentación específico, no querrás dirigirlos a una web como
00:11:25esta. No quieres que se descarguen el código HTML, lo que quema muchísimos tokens innecesariamente.
00:11:32Y esa es la misma razón por la que las herramientas CLI se están volviendo
00:11:38cada vez más importantes, porque nos movemos hacia un futuro donde al menos algunas tareas
00:11:42se harán con la ayuda de agentes de IA o exclusivamente por agentes de IA. Lo cual, por supuesto, también
00:11:49significa que si estás creando algún tipo de servicio que no esté destinado principalmente a ser
00:11:54consumido por humanos, te conviene pensar seriamente en crear una CLI además de ofrecer una
00:12:02API y todo lo necesario para que, en el futuro, la gente pueda consumir tu servicio a través de agentes.
00:12:09Y por supuesto, todavía estamos muy al principio. A la gran mayoría de la gente no le importan
00:12:14nada los agentes. Y es pronto para saber qué tan buenos llegarán a ser y qué tipo de
00:12:20tareas podrán abordar en el futuro. Quizás nos quedemos estancados en el nivel actual
00:12:26donde pueden hacer algunas cosas, pero definitivamente no todo, y aún necesitan supervisión humana.
00:12:31Pero incluso en ese punto, hay tareas que pueden realizar los agentes y puedes hacerlos
00:12:37más útiles y potentes dándoles las herramientas adecuadas que les faciliten
00:12:42interactuar con nuestros servicios, con webs, etc. Y por eso estamos cerrando
00:12:49el círculo. Obviamente, eso no significa que la interfaz gráfica de usuario
00:12:55y las webs vayan a desaparecer, y probablemente siempre habrá apps o webs que estén
00:13:01pensadas para ser consumidas por humanos y que no tenga mucho sentido que las use un agente. Quiero decir,
00:13:07algo como Netflix. No veo una gran ventaja en que un agente me cuente de qué trata
00:13:13cierta película. Supongo que lo que quiero es verla. Pero para muchos servicios, especialmente en el
00:13:21negocio SaaS o en el área de servicios profesionales, ese es definitivamente el camino a seguir. Creo que,
00:13:28obviamente es pronto, pero es un desarrollo claro que podemos ver aquí. Al menos
00:13:34esa es mi opinión. Pero como siempre, quiero saber cuál es la suya también. Así que por favor
00:13:39compártanla. Cuéntenme qué piensan de esto, qué me he olvidado o pasado por alto. Y bueno, vamos
00:13:44a ver cómo se ve el mundo de las herramientas CLI en un año o dos.

Key Takeaway

La evolución tecnológica está cerrando el círculo hacia las interfaces de línea de comandos (CLI) porque los agentes de IA interactúan de forma más eficiente, económica y potente con texto simple que con interfaces gráficas diseñadas para humanos.

Highlights

Retorno a las interfaces de texto (CLI, Markdown, JSON) impulsado por la eficiencia de los agentes de IA.

Lanzamiento de herramientas oficiales como Google Workspace CLI para facilitar la interacción programática.

Superioridad de los LLM al ejecutar comandos de terminal y encadenar herramientas mediante tuberías.

Incapacidad de las interfaces gráficas (GUI) para ser consumidas eficientemente por máquinas debido al alto consumo de tokens.

Importancia estratégica de ofrecer documentación en Markdown y arquitecturas preparadas para agentes (Agent-ready).

Uso de guardrails o sistemas de seguridad al permitir que agentes ejecuten comandos en sistemas locales.

Timeline

El retorno a las interfaces de texto

El autor observa una tendencia circular en la informática donde, tras décadas de avance hacia interfaces gráficas complejas, los agentes de IA están impulsando un regreso al texto. Explica que en los años 70 la interacción era puramente mediante terminales y que las webs ricas fueron una evolución para usuarios humanos. Sin embargo, herramientas modernas como Claude Code demuestran que el minimalismo técnico es ahora una ventaja competitiva. Los agentes destacan al interactuar con Markdown y JSON porque son formatos que procesan con mayor naturalidad. Esta sección establece la tesis de que estamos volviendo al punto de partida por una cuestión de pragmatismo tecnológico.

Nuevas herramientas CLI de grandes empresas

Se analiza el reciente lanzamiento de Google Workspace CLI como un hito que valida esta tendencia hacia lo programático. El ponente menciona que antes solo existían soluciones de terceros, como las de Peter Steinberger, para interactuar con Gmail o Drive mediante consola. Se discute cómo las CLI actúan esencialmente como envoltorios de APIs, facilitando que las herramientas agénticas consuman servicios sin fricciones. Aunque se mencionan los servidores MCP (Model Context Protocol), el autor prefiere las CLI y APIs directas para el futuro. Este cambio sugiere que las empresas están adaptando su infraestructura para ser "leída" por inteligencias artificiales.

Capacidades de los agentes y el ejemplo de PyCoding

El orador introduce el agente PyCoding como una alternativa potente y sencilla a Claude Code para tareas de automatización. Explica que estos modelos son excepcionales usando comandos de Linux como 'curl' o 'ls' porque han sido entrenados con vastas cantidades de código y registros de terminal. Una ventaja crítica es su capacidad para usar el comando '--help' para aprender a utilizar herramientas nuevas que no estaban en su set de entrenamiento inicial. Los modelos de lenguaje sobresalen al encadenar comandos mediante tuberías para resolver problemas complejos de forma autónoma. Esto transforma al agente en un operador de sistemas capaz de razonar sobre la infraestructura técnica.

Caso de uso práctico: Compresión de PDFs

Se narra una anécdota personal sobre la necesidad de comprimir un archivo PDF de más de 5 megabytes para un trámite web. En lugar de buscar una herramienta online poco fiable, el autor utilizó un agente para ejecutar scripts locales de compresión manteniendo la calidad. Es importante destacar el uso de "guardrails" o extensiones de seguridad para evitar que el agente realice acciones destructivas como borrar el disco duro. El agente describió cada paso antes de actuar, permitiendo una supervisión humana efectiva durante el proceso. Este ejemplo ilustra cómo la CLI permite soluciones rápidas y privadas sin depender de software comercial pesado.

Incompatibilidad de las GUIs con la IA

El autor argumenta que las interfaces gráficas y las webs actuales son sumamente ineficientes para los programas informáticos. Obligar a una IA a procesar capturas de pantalla y mover un ratón virtual consume una cantidad excesiva de tokens y tiempo de procesamiento. Las APIs y las CLI existen precisamente para permitir que un software hable con otro sin las distracciones visuales diseñadas para el ojo humano. Un agente no necesita botones atractivos ni un diseño UX moderno; requiere una forma directa de invocar funciones. Por tanto, el diseño de software futuro debe considerar dos tipos de usuarios: el humano y el agente.

El futuro del contenido y la documentación

Se discute cómo el contenido web está evolucionando hacia formatos listos para agentes, como el uso extendido de Markdown en las documentaciones. El ponente pone ejemplos de sitios que permiten añadir '.md' a sus URLs para facilitar la ingesta de datos por parte de LLMs. Si un desarrollador usa Cursor o un agente de programación, es mucho más eficiente enviarle un archivo de texto plano que un código HTML pesado. Por ello, se recomienda a las empresas de software (SaaS) crear CLI oficiales para que sus servicios sean fácilmente integrables en flujos agénticos. Esta transición marca un cambio de paradigma en cómo se distribuye y consume la información técnica.

Conclusión y visión a largo plazo

El vídeo concluye reconociendo que todavía estamos en una etapa temprana donde la mayoría de los usuarios no utilizan agentes. Aunque las interfaces gráficas no desaparecerán para servicios de ocio como Netflix, en el ámbito profesional el cambio es inevitable. El autor invita a la audiencia a reflexionar sobre qué tareas serán abordadas exclusivamente por IA en los próximos años. Se enfatiza que dar a los agentes las herramientas adecuadas (CLI) los hace exponencialmente más útiles y potentes. Finalmente, se abre el debate sobre el estado de estas herramientas en el corto plazo de uno o dos años.

Community Posts

View all posts