Transcript

00:00:00Da KI-Agenten immer nĂŒtzlicher werden und immer prĂ€senter sind – zumindest
00:00:05fĂŒr bestimmte Aufgaben –, finde ich es sehr spannend zu sehen, wie sich der Kreis irgendwie schließt.
00:00:11Und das meine ich so: Wenn wir uns die Geschichte der Computer und des Internets
00:00:16als Ganzes ansehen, könnten wir vielleicht ein Diagramm zur Benutzerfreundlichkeit zeichnen, das etwa so aussieht.
00:00:23Das ist natĂŒrlich rein fiktiv, aber Sie verstehen sicher, worauf ich hinauswill. Wir begannen in den 1970ern
00:00:30oder etwa um diese Zeit – nageln Sie mich nicht auf ein bestimmtes Jahr fest –, aber in der frĂŒhen Phase,
00:00:36als Sie und ich – nun ja, ich war da noch nicht einmal geboren – als normale Haushalte
00:00:41noch gar keinen Computer hatten, erfolgte die Interaktion meist rein textbasiert ĂŒber Terminal-Schnittstellen,
00:00:47im Wesentlichen ĂŒber die Kommandozeile. Komplexe grafische BenutzeroberflĂ€chen, aufwendige
00:00:54Websites und all das – Betriebssysteme fĂŒr normale Endanwender –, das wurde
00:01:01erst um die 90er und 2000er Jahre ein Thema und hat sich natĂŒrlich bis heute weiterentwickelt.
00:01:09Es entwickelt sich natĂŒrlich immer noch weiter, verstehen Sie mich nicht falsch, ich sage nicht, dass das alles verschwindet,
00:01:14aber eines ist deutlich erkennbar: Mit den KI-Agenten haben
00:01:22wir diesen starken Trend zurĂŒck zu reinem Text-Input, Terminal-OberflĂ€chen, CLI-Tools, Markdown,
00:01:31JSON und all diesen Basistechnologien. Und damit meine ich nicht nur, dass wir Tools wie
00:01:37Claude Code haben, die ohne grafische OberflĂ€che auskommen – obwohl es
00:01:43eine Desktop-App gibt, wird es primĂ€r als Kommandozeilen-Tool genutzt –, das meine ich nicht nur.
00:01:48Vielmehr meine ich, dass all diese KI-Agenten, diese agentischen Tools – wie auch immer man sie
00:01:54nennen mag – wirklich exzellent darin sind, mit anderen Kommandozeilen-Tools oder Programmen zu interagieren,
00:02:02die sie ĂŒber die Kommandozeile aufrufen können. Sie bevorzugen einfachen, formatierten Text wie Markdown,
00:02:09denn genau da glĂ€nzen sie so richtig. Und deshalb veröffentlichen immer mehr Unternehmen – wie
00:02:15zum Beispiel vor ein paar Stunden, wĂ€hrend ich das hier aufnehme – immer mehr Kommandozeilen-Tools.
00:02:21Google hat zum Beispiel eine Google Workspace CLI herausgebracht. Ob Sie es glauben oder nicht, das gab es
00:02:27bisher nicht. Es ist ein Tool, mit dem man ĂŒber eine offizielle CLI mit Google Workspace-Diensten wie Gmail
00:02:35oder Google Drive interagieren kann. Es gab zwar bereits andere Lösungen – wie
00:02:41zum Beispiel GOG CLI von Peter Steinberger, dem Schöpfer von OpenClaw. Er hat es entwickelt,
00:02:48weil er eine programmatische, CLI-basierte Methode zur Interaktion mit Google-Diensten wollte, die es
00:02:54bis vor wenigen Stunden nicht gab. Aber jetzt existiert sie. Das ist kein gesponsertes Video von Google
00:02:59oder so etwas, es ist nur interessant zu sehen, dass immer mehr Dienstanbieter
00:03:04solche Tools veröffentlichen. MCP-Server wĂ€ren etwas Ähnliches,
00:03:11obwohl MCPs meiner Meinung nach diverse Nachteile haben. Ich glaube fest daran, dass wir in Zukunft CLI-Tools
00:03:18und APIs sehen werden – und letztlich sind CLI-Tools nur Wrapper fĂŒr APIs –, die der Hauptweg sein werden,
00:03:27um Dienste ĂŒber agentische Tools zu nutzen. Hier ist ein konkretes Beispiel dafĂŒr. In den
00:03:32letzten Tagen und Wochen habe ich mit dem PyCoding-Agenten herumgespielt.
00:03:37Dieser PyCoding-Agent ist sozusagen eine Alternative zu Codeium oder Claude Code. Er ist im positiven Sinne einfacher,
00:03:46funktional etwas limitierter, aber sehr leistungsstark, und man kann ihn zum Beispiel mit einem Codeium-Abo nutzen.
00:03:51In diesem Video geht es nicht primÀr um diesen Agenten, und
00:03:57es spielt eigentlich keine Rolle, ob man ihn, Claude, Cursor oder was auch immer verwendet – alle fĂŒhren zum Ziel.
00:04:01Aber ich mag dieses Tool sehr und, was am wichtigsten ist: Genau wie Claude Code
00:04:07oder Codeium kann man dieses Tool trotz seines Namens auch fĂŒr Aufgaben verwenden, die nichts mit Programmieren zu tun haben. Es ist
00:04:13tatsĂ€chlich dieser Py-Agent, der intern von OpenClaw genutzt wird. Er ist sozusagen das HerzstĂŒck,
00:04:19das logische Zentrum von OpenClaw. OpenClaw hat dann natĂŒrlich noch viel mehr
00:04:24hinzugefĂŒgt, wie Speicherfunktionen und KanĂ€le wie Telegram, WhatsApp und all das. Aber
00:04:30dies ist ein agentisches Tool, das man auf dem eigenen System laufen lassen kann, um Dinge zu erledigen. Man könnte natĂŒrlich
00:04:35auch einen eigenen Agenten bauen. Dazu habe ich einen Kurs, in dem ich auch erklÀre, wie KI-Agenten
00:04:40eigentlich funktionieren und was der Unterschied zu Workflows ist – oft braucht man nĂ€mlich eher
00:04:44einen Workflow als einen echten Agenten. Ich habe dazu einen Kurs, falls Sie tiefer in das Thema
00:04:49eintauchen wollen. Ich habe auch Kurse zu Claude Code und Codeium, um mehr ĂŒber diese
00:04:54Tools zu erfahren. Aber egal welches Tool man nutzt, es ist wirklich auffÀllig,
00:04:58wie gut sie mit anderen CLI-Tools interagieren können. Das ergibt absolut Sinn,
00:05:03weil sie Unmengen an CLI-Arbeit mit Tools wie curl oder normalen
00:05:10Kommandozeilenbefehlen wie cd, ls – also all diese Linux-Befehle – gesehen haben. Davon gab es
00:05:16jede Menge in ihren Trainingsdaten. Und sie haben nicht nur Standard-Linux-Befehle gesehen,
00:05:21die sie daher auswendig kennen. Vor allem haben sie gelernt, wie man diese Tools einsetzt, wie man CLI-Tools
00:05:28miteinander verknĂŒpft oder Ergebnisse von einem Tool in ein anderes weiterleitet. Das haben sie alles gesehen
00:05:35und darin sind sie exzellent. Sie haben auch gelernt, dass sie “--help” nutzen können, um mehr ĂŒber ein Tool zu erfahren.
00:05:41Das versetzt sie in eine hervorragende Lage, auch neue Tools zu bedienen – Tools, die sie noch nicht
00:05:47in ihren Trainingsdaten hatten, wie zum Beispiel diese neue Google Workspace CLI.
00:05:52Wenn man diese ĂŒber einen Agenten nutzen will, war sie natĂŒrlich nicht in dessen Trainingsdaten.
00:05:57Er weiß nicht, wie man sie bedient. Aber wenn man ihn darauf hinweist, ihm vielleicht einen Link
00:06:01zur offiziellen Doku gibt – oder selbst wenn man das nicht tut –, wird er höchstwahrscheinlich
00:06:05durch die Nutzung von “--help” selbst herausfinden, wie es geht. Denn es ist einfach nur ein weiteres CLI-Tool.
00:06:11Und Large Language Models sind am Ende des Tages exzellent darin, diese CLI-Tools
00:06:17zu verstehen, zu beschreiben und anzuwenden.
00:06:20Gestern hatte ich zum Beispiel ein kleines Problem. Ich musste ein PDF-Dokument
00:06:26auf eine Website hochladen. Sie kennen diese Seiten, auf denen man einen Haufen Dokumente
00:06:32in einer einzigen Datei hochladen muss, und diese Datei darf nicht grĂ¶ĂŸer als 5 Megabyte sein? Genau
00:06:38auf so einer Seite war ich. Also musste ich dieses PDF-Dokument natĂŒrlich komprimieren.
00:06:43Ich hĂ€tte versuchen können, eine Website zu finden, die das fĂŒr mich erledigt. Ich bin aber
00:06:49kein großer Fan davon, meine Daten auf irgendeine beliebige Website hochzuladen.
00:06:55Ich hÀtte auch schauen können, ob es auf meinem System ein Tool gibt, das mir dabei hilft.
00:07:01Aber ich habe kein Adobe-Abo mehr, also hÀtte das einiges an Recherche erfordert. Und am Ende
00:07:07hĂ€tte ich es vielleicht doch auf eine dubiose Website geladen. Nun, nicht mit KI. NatĂŒrlich hĂ€tte ich Codeium,
00:07:13Claude oder Cursor nutzen können, um mir ein kleines Konvertierungs- oder Komprimierungstool zu schreiben.
00:07:19Das hÀtte wahrscheinlich auch funktioniert. Aber stattdessen startete ich den Py-Agenten,
00:07:26den ich mit meinem Codeium-Abo nutze. Ich bat ihn einfach, sich dieses PDF anzusehen
00:07:33und es bitte zu komprimieren, wÀhrend die QualitÀt so weit wie möglich erhalten bleibt.
00:07:36Das war alles. Das war mein einziger Prompt. Er machte sich an die Arbeit, fĂŒhrte
00:07:41eine Reihe von Befehlen in der Kommandozeile aus und ließ ein paar kleine Skripte laufen. Übrigens lasse ich
00:07:46das auf meinem System laufen, habe aber eine Guardrails-Erweiterung installiert. PI – oder Py – hat
00:07:53dieses Konzept von Erweiterungen, die man installieren kann. Ich habe also eine Erweiterung installiert, die
00:07:59verhindert, dass der Agent einfach meine Festplatte löscht, zumindest nicht auf direktem Weg. Und ich habe
00:08:06ihn auch genau beobachtet, wĂ€hrend er beschrieb, was er tun wollte. Also ließ ich ihn machen,
00:08:11er fĂŒhrte einiges aus, und am Ende war er fertig. Und tatsĂ€chlich hat er
00:08:18dieses Dokument erfolgreich komprimiert und deutlich verkleinert. Das ist vielleicht nur ein simples Beispiel.
00:08:25Und es hÀtte Alternativen gegeben. Mein Punkt ist einfach: Er hat das alles in der
00:08:29Kommandozeile, im Terminal erledigt, indem er unsere Befehle und Programme dort genutzt hat.
00:08:36Und natĂŒrlich ergibt das alles Sinn, denn wir sprechen hier ĂŒber Programme, die einen Computer benutzen.
00:08:41All diese grafischen OberflĂ€chen und schicken Websites wurden fĂŒr Menschen gebaut, fĂŒr Sie und
00:08:46mich. Das wird natĂŒrlich nicht verschwinden. Aber wenn wir kleine Hilfsmittel wollen – KI-Agenten,
00:08:53die auf unserem System laufen und zumindest einige unserer aktuellen Aufgaben ĂŒbernehmen können –,
00:08:59dann mĂŒssen wir ihnen einen Weg geben, den Computer effizienter zu nutzen. Denn eine
00:09:03grafische OberflĂ€che, eine App oder Website fĂŒr Menschen ist fĂŒr ein Computerprogramm
00:09:09natĂŒrlich nicht ideal. Es mĂŒsste einen Screenshot machen, herausfinden, wo die Buttons sind,
00:09:13die Maus zu einem Button bewegen, klicken und erneut einen Screenshot machen, um zu sehen, was auf der
00:09:18neuen Seite ist. Das ist extrem ineffizient, verbraucht Unmengen an Token und dauert viel zu lange.
00:09:24Und genau deshalb haben wir das Konzept der APIs schon lange vor dem Aufkommen von KI-Agenten
00:09:31und Large Language Models eingefĂŒhrt. Wenn wir ein Programm schreiben, egal ob Website oder App,
00:09:37und mit einem anderen Programm oder Dienst interagieren wollen,
00:09:43haben wir natĂŒrlich schon frĂŒher eine API benutzt und nicht versucht, ein Skript zu schreiben, das
00:09:49eine fĂŒr Menschen gedachte Website bedient. Darum gibt es APIs, und CLIs – Kommandozeilen-
00:09:56Programme – sind letztlich nur Wrapper um APIs, zumindest im Falle von CLIs wie der
00:10:03Google Workspace CLI. Aber genau das ist die Art von Programm, die ein Agent
00:10:10nutzen sollte, denn ihn interessieren keine hĂŒbschen Buttons oder so etwas. Er will einen
00:10:15einfachen Weg, verschiedene Befehle aufzurufen, um Dinge zu erledigen. Und deshalb ergibt das
00:10:22Sinn. Deshalb ist Markdown heute wichtiger denn je, und deshalb bieten die meisten
00:10:28Dokumentationsseiten bereits einen Kopier-Button an, der es ermöglicht,
00:10:32den Inhalt als Markdown zu kopieren, damit man ihn in sein bevorzugtes Sprachmodell,
00:10:38seine Chat-Session oder sein Coding-Tool einfĂŒgen kann. Einige Websites unterstĂŒtzen es auch, “.md” am Ende
00:10:46der URL anzuhÀngen, um den Artikel im Markdown-Format zu erhalten. Wir bewegen uns auf eine Zukunft zu,
00:10:52in der zumindest einige Dienste und Inhalte primĂ€r fĂŒr die Nutzung durch Agenten gedacht sein werden.
00:10:58Nehmen wir die Dokumentation einer Library wie TanStack Start. Wenn man heutzutage
00:11:03eine TanStack Start-Seite baut – und es ist natĂŒrlich egal, welchen Tech-Stack
00:11:09man nutzt, Sie verstehen den Punkt –, dann wird man das wahrscheinlich mit Hilfe eines Coding-Agenten wie Cursor tun.
00:11:15Und wenn man diesen Agenten erklÀren will, wie man die Library nutzt, oder sie auf einen
00:11:20bestimmten Dokumentationsartikel verweisen möchte, will man sie nicht auf eine Website wie
00:11:25diese schicken. Man möchte nicht, dass sie den HTML-Code herunterladen, was unnötig viele Token verbraucht.
00:11:32Und das ist im Grunde derselbe Grund, warum CLI-Tools immer
00:11:38wichtiger werden: Wir bewegen uns auf eine Zukunft zu, in der zumindest einige Aufgaben
00:11:42mit Hilfe von KI-Agenten oder sogar ausschließlich von ihnen erledigt werden. Was natĂŒrlich auch
00:11:49bedeutet: Wenn Sie einen Dienst entwickeln, der nicht primĂ€r fĂŒr die Nutzung
00:11:54durch Menschen gedacht ist, sollten Sie unbedingt ĂŒber eine CLI sowie eine
00:12:02API nachdenken, damit die Menschen Ihren Dienst kĂŒnftig ĂŒber Agenten nutzen können.
00:12:09NatĂŒrlich stehen wir hier noch ganz am Anfang. Die große Mehrheit der Menschen interessiert sich noch gar nicht
00:12:14fĂŒr Agenten. Und es ist noch zu frĂŒh, um zu sagen, wie gut KI-Agenten werden und welche Art von
00:12:20Aufgaben sie kĂŒnftig bewĂ€ltigen können. Vielleicht bleiben wir auch auf dem aktuellen Stand stecken,
00:12:26auf dem sie zwar einiges können, aber eben nicht alles und noch menschliche Aufsicht benötigen.
00:12:31Aber selbst dann gibt es Aufgaben, die von Agenten ĂŒbernommen werden können, und man kann
00:12:37sie nĂŒtzlicher und mĂ€chtiger machen, indem man ihnen genau die richtigen Werkzeuge an die Hand gibt,
00:12:42die ihnen die Interaktion mit unseren Diensten und Websites erleichtern. Und deshalb schließt
00:12:49sich der Kreis irgendwie. Das bedeutet natĂŒrlich nicht, dass grafische OberflĂ€chen
00:12:55und Websites verschwinden werden. Es wird wahrscheinlich immer Apps oder Websites geben,
00:13:01die fĂŒr Menschen gedacht sind und bei denen eine Nutzung durch Agenten wenig Sinn ergibt. Ich meine,
00:13:07so etwas wie Netflix. Ich sehe keinen großen Vorteil darin, wenn ein Agent mir erzĂ€hlt, worum es in einem
00:13:13bestimmten Film geht. Ich denke, ich will ihn einfach sehen. Aber fĂŒr viele Dienste, besonders im SaaS-Bereich
00:13:21oder im Bereich professioneller Dienstleistungen, ist das definitiv der Weg nach vorn. Ich denke,
00:13:28es ist offensichtlich noch in der Anfangsphase, aber man kann hier eine ganz klare Entwicklung sehen.
00:13:34Zumindest ist das meine Meinung. Aber wie immer möchte ich wissen, was Ihre Meinung dazu ist.
00:13:39Lassen Sie mich wissen, was Sie davon halten, was ich vielleicht vergessen oder ĂŒbersehen habe. Und ja, schauen wir mal,
00:13:44wie die Welt der CLI-Tools in ein oder zwei Jahren aussieht.

Key Takeaway

Die Entwicklung von KI-Agenten fĂŒhrt zu einer Renaissance der Kommandozeile (CLI), da textbasierte Schnittstellen fĂŒr Computerprogramme wesentlich effizienter und prĂ€ziser zu bedienen sind als grafische OberflĂ€chen fĂŒr Menschen.

Highlights

KI-Agenten bevorzugen textbasierte Schnittstellen (CLIs) gegenĂŒber grafischen BenutzeroberflĂ€chen (GUIs), da diese effizienter zu verarbeiten sind.

Der Trend geht zurĂŒck zu Basistechnologien wie Markdown, JSON und Terminal-Tools, was eine Art Kreisfluss in der Computergeschichte darstellt.

Große Unternehmen wie Google veröffentlichen nun offizielle CLI-Tools (z. B. Google Workspace CLI), um die Interaktion fĂŒr KI-Agenten zu erleichtern.

LLMs sind exzellent darin, CLI-Tools durch automatische Analyse von Befehlen wie "--help" oder Dokumentationen zu verstehen und zu bedienen.

FĂŒr die Zukunft wird empfohlen, Dienste sowohl mit APIs als auch mit CLIs auszustatten, um sie fĂŒr die automatisierte Nutzung durch Agenten zu optimieren.

Grafische OberflĂ€chen bleiben fĂŒr den menschlichen Konsum (z. B. Entertainment) wichtig, verlieren aber im SaaS- und ProduktivitĂ€tsbereich an Bedeutung fĂŒr die AusfĂŒhrung von Aufgaben.

Timeline

Die RĂŒckkehr zur Texteingabe

Der Sprecher beobachtet eine interessante Entwicklung, bei der sich der Kreis der Computerinteraktion schließt. WĂ€hrend die 70er Jahre von rein textbasierten Terminal-Schnittstellen geprĂ€gt waren, dominierten in den 90ern und 2000ern grafische BenutzeroberflĂ€chen fĂŒr Endanwender. Mit dem Aufstieg von KI-Agenten kehrt der Trend nun massiv zu CLI-Tools, Markdown und JSON zurĂŒck. Diese Entwicklung bedeutet nicht das Ende von GUIs, markiert aber einen technologischen Wendepunkt. Der Fokus liegt wieder auf den Basistechnologien, die fĂŒr Maschinen leichter lesbar sind.

Warum Agenten CLIs und Markdown lieben

KI-Agenten sind besonders leistungsstark, wenn sie mit anderen Kommandozeilen-Tools interagieren können, da sie in einfachem, formatiertem Text glĂ€nzen. Ein aktuelles Beispiel ist die neue Google Workspace CLI, die eine programmatische Interaktion mit Diensten wie Gmail und Drive ermöglicht. FrĂŒher gab es hierfĂŒr oft nur inoffizielle Lösungen wie die GOG CLI von Peter Steinberger. Der Sprecher betont, dass CLIs im Grunde effiziente Wrapper fĂŒr APIs sind. Diese Entwicklung zeigt, dass Dienstanbieter ihre Infrastruktur zunehmend fĂŒr agentische Tools optimieren.

Praxisbeispiel: Der Py-Coding-Agent

In diesem Abschnitt stellt der Sprecher den Py-Coding-Agenten vor, eine einfachere Alternative zu Tools wie Claude Code oder Cursor. Dieser Agent dient als logisches HerzstĂŒck von OpenClaw und kann weit mehr als nur Programmieren. Er lĂ€sst sich lokal auf dem eigenen System ausfĂŒhren, um vielfĂ€ltige Aufgaben zu automatisieren. Der Sprecher nutzt diesen Agenten beispielsweise in Verbindung mit einem Codeium-Abonnement. Es wird deutlich, dass solche Tools universelle Assistenten fĂŒr das gesamte Betriebssystem darstellen.

Trainingsdaten und die Kraft von --help

KI-Modelle sind deshalb so gut in der CLI-Nutzung, weil sie wĂ€hrend ihres Trainings riesige Mengen an Terminal-Befehlen und Dokumentationen gesehen haben. Sie verstehen nicht nur Standard-Linux-Befehle wie 'ls' oder 'cd', sondern beherrschen auch das Piping von Daten zwischen verschiedenen Tools. Besonders beeindruckend ist ihre FĂ€higkeit, neue Tools durch den Aufruf von '--help' eigenstĂ€ndig zu erlernen. Selbst wenn ein Tool nicht in den ursprĂŒnglichen Trainingsdaten enthalten war, kann der Agent die Logik oft sofort erfassen. Dies macht KI-Agenten zu extrem flexiblen Werkzeugen fĂŒr jede neue Software.

Anwendungsfall: PDF-Komprimierung ohne Cloud-Upload

Der Sprecher schildert ein persönliches Problem, bei dem er eine PDF-Datei fĂŒr einen Website-Upload auf unter 5 MB komprimieren musste. Statt seine Daten auf dubiose Online-Konverter hochzuladen oder teure Software-Abos abzuschließen, nutzte er den Py-Agenten. Durch einen einfachen Prompt erledigte der Agent die Aufgabe lokal im Terminal mithilfe von Skripten und Systembefehlen. Zur Sicherheit verwendet der Sprecher dabei spezielle Guardrails-Erweiterungen, um den Zugriff des Agenten zu ĂŒberwachen. Das Beispiel zeigt, wie Agenten komplexe lokale Aufgaben effizient und datenschutzfreundlich lösen können.

Effizienz: Agenten vs. menschliche Interfaces

Grafische OberflĂ€chen wurden fĂŒr menschliche Sinne entworfen, sind aber fĂŒr Computerprogramme extrem ineffizient. Ein Agent mĂŒsste mĂŒhsam Screenshots analysieren, Mauszeiger bewegen und Klicks simulieren, was Zeit und teure Token kostet. APIs und CLIs bieten hingegen einen direkten, strukturierten Weg fĂŒr die Interaktion zwischen Programmen. Dokumentationsseiten reagieren bereits auf diesen Trend, indem sie Markdown-Exportfunktionen oder spezielle URLs anbieten. Der Fokus verschiebt sich weg von optischer Ästhetik hin zu maschineller Verarbeitbarkeit.

Ausblick: Die Zukunft der Dienstentwicklung

Entwickler sollten heute zwingend ĂŒber CLIs und APIs nachdenken, wenn sie möchten, dass ihre Dienste kĂŒnftig von KI-Agenten genutzt werden können. WĂ€hrend Unterhaltungsmedien wie Netflix weiterhin auf GUIs setzen, ist im SaaS-Bereich die maschinelle Schnittstelle entscheidend. Wir stehen zwar noch am Anfang der Agenten-Ära, doch der Trend zur Automatisierung professioneller Dienstleistungen ist unverkennbar. Die Interaktion mit Computern wird durch diese spezialisierten Werkzeuge mĂ€chtiger und zugĂ€nglicher. Abschließend lĂ€dt der Sprecher die Zuschauer ein, ihre eigenen Erfahrungen mit CLI-Tools und KI zu teilen.

Community Posts

View all posts