Transcript

00:00:00Da KI-Agenten immer nützlicher werden und immer präsenter sind – zumindest
00:00:05für bestimmte Aufgaben –, finde ich es sehr spannend zu sehen, wie sich der Kreis irgendwie schließt.
00:00:11Und das meine ich so: Wenn wir uns die Geschichte der Computer und des Internets
00:00:16als Ganzes ansehen, könnten wir vielleicht ein Diagramm zur Benutzerfreundlichkeit zeichnen, das etwa so aussieht.
00:00:23Das ist natürlich rein fiktiv, aber Sie verstehen sicher, worauf ich hinauswill. Wir begannen in den 1970ern
00:00:30oder etwa um diese Zeit – nageln Sie mich nicht auf ein bestimmtes Jahr fest –, aber in der frühen Phase,
00:00:36als Sie und ich – nun ja, ich war da noch nicht einmal geboren – als normale Haushalte
00:00:41noch gar keinen Computer hatten, erfolgte die Interaktion meist rein textbasiert über Terminal-Schnittstellen,
00:00:47im Wesentlichen über die Kommandozeile. Komplexe grafische Benutzeroberflächen, aufwendige
00:00:54Websites und all das – Betriebssysteme für normale Endanwender –, das wurde
00:01:01erst um die 90er und 2000er Jahre ein Thema und hat sich natürlich bis heute weiterentwickelt.
00:01:09Es entwickelt sich natürlich immer noch weiter, verstehen Sie mich nicht falsch, ich sage nicht, dass das alles verschwindet,
00:01:14aber eines ist deutlich erkennbar: Mit den KI-Agenten haben
00:01:22wir diesen starken Trend zurück zu reinem Text-Input, Terminal-Oberflächen, CLI-Tools, Markdown,
00:01:31JSON und all diesen Basistechnologien. Und damit meine ich nicht nur, dass wir Tools wie
00:01:37Claude Code haben, die ohne grafische Oberfläche auskommen – obwohl es
00:01:43eine Desktop-App gibt, wird es primär als Kommandozeilen-Tool genutzt –, das meine ich nicht nur.
00:01:48Vielmehr meine ich, dass all diese KI-Agenten, diese agentischen Tools – wie auch immer man sie
00:01:54nennen mag – wirklich exzellent darin sind, mit anderen Kommandozeilen-Tools oder Programmen zu interagieren,
00:02:02die sie über die Kommandozeile aufrufen können. Sie bevorzugen einfachen, formatierten Text wie Markdown,
00:02:09denn genau da glänzen sie so richtig. Und deshalb veröffentlichen immer mehr Unternehmen – wie
00:02:15zum Beispiel vor ein paar Stunden, während ich das hier aufnehme – immer mehr Kommandozeilen-Tools.
00:02:21Google hat zum Beispiel eine Google Workspace CLI herausgebracht. Ob Sie es glauben oder nicht, das gab es
00:02:27bisher nicht. Es ist ein Tool, mit dem man über eine offizielle CLI mit Google Workspace-Diensten wie Gmail
00:02:35oder Google Drive interagieren kann. Es gab zwar bereits andere Lösungen – wie
00:02:41zum Beispiel GOG CLI von Peter Steinberger, dem Schöpfer von OpenClaw. Er hat es entwickelt,
00:02:48weil er eine programmatische, CLI-basierte Methode zur Interaktion mit Google-Diensten wollte, die es
00:02:54bis vor wenigen Stunden nicht gab. Aber jetzt existiert sie. Das ist kein gesponsertes Video von Google
00:02:59oder so etwas, es ist nur interessant zu sehen, dass immer mehr Dienstanbieter
00:03:04solche Tools veröffentlichen. MCP-Server wären etwas Ähnliches,
00:03:11obwohl MCPs meiner Meinung nach diverse Nachteile haben. Ich glaube fest daran, dass wir in Zukunft CLI-Tools
00:03:18und APIs sehen werden – und letztlich sind CLI-Tools nur Wrapper für APIs –, die der Hauptweg sein werden,
00:03:27um Dienste über agentische Tools zu nutzen. Hier ist ein konkretes Beispiel dafür. In den
00:03:32letzten Tagen und Wochen habe ich mit dem PyCoding-Agenten herumgespielt.
00:03:37Dieser PyCoding-Agent ist sozusagen eine Alternative zu Codeium oder Claude Code. Er ist im positiven Sinne einfacher,
00:03:46funktional etwas limitierter, aber sehr leistungsstark, und man kann ihn zum Beispiel mit einem Codeium-Abo nutzen.
00:03:51In diesem Video geht es nicht primär um diesen Agenten, und
00:03:57es spielt eigentlich keine Rolle, ob man ihn, Claude, Cursor oder was auch immer verwendet – alle führen zum Ziel.
00:04:01Aber ich mag dieses Tool sehr und, was am wichtigsten ist: Genau wie Claude Code
00:04:07oder Codeium kann man dieses Tool trotz seines Namens auch für Aufgaben verwenden, die nichts mit Programmieren zu tun haben. Es ist
00:04:13tatsächlich dieser Py-Agent, der intern von OpenClaw genutzt wird. Er ist sozusagen das Herzstück,
00:04:19das logische Zentrum von OpenClaw. OpenClaw hat dann natürlich noch viel mehr
00:04:24hinzugefügt, wie Speicherfunktionen und Kanäle wie Telegram, WhatsApp und all das. Aber
00:04:30dies ist ein agentisches Tool, das man auf dem eigenen System laufen lassen kann, um Dinge zu erledigen. Man könnte natürlich
00:04:35auch einen eigenen Agenten bauen. Dazu habe ich einen Kurs, in dem ich auch erkläre, wie KI-Agenten
00:04:40eigentlich funktionieren und was der Unterschied zu Workflows ist – oft braucht man nämlich eher
00:04:44einen Workflow als einen echten Agenten. Ich habe dazu einen Kurs, falls Sie tiefer in das Thema
00:04:49eintauchen wollen. Ich habe auch Kurse zu Claude Code und Codeium, um mehr über diese
00:04:54Tools zu erfahren. Aber egal welches Tool man nutzt, es ist wirklich auffällig,
00:04:58wie gut sie mit anderen CLI-Tools interagieren können. Das ergibt absolut Sinn,
00:05:03weil sie Unmengen an CLI-Arbeit mit Tools wie curl oder normalen
00:05:10Kommandozeilenbefehlen wie cd, ls – also all diese Linux-Befehle – gesehen haben. Davon gab es
00:05:16jede Menge in ihren Trainingsdaten. Und sie haben nicht nur Standard-Linux-Befehle gesehen,
00:05:21die sie daher auswendig kennen. Vor allem haben sie gelernt, wie man diese Tools einsetzt, wie man CLI-Tools
00:05:28miteinander verknüpft oder Ergebnisse von einem Tool in ein anderes weiterleitet. Das haben sie alles gesehen
00:05:35und darin sind sie exzellent. Sie haben auch gelernt, dass sie “--help” nutzen können, um mehr über ein Tool zu erfahren.
00:05:41Das versetzt sie in eine hervorragende Lage, auch neue Tools zu bedienen – Tools, die sie noch nicht
00:05:47in ihren Trainingsdaten hatten, wie zum Beispiel diese neue Google Workspace CLI.
00:05:52Wenn man diese über einen Agenten nutzen will, war sie natürlich nicht in dessen Trainingsdaten.
00:05:57Er weiß nicht, wie man sie bedient. Aber wenn man ihn darauf hinweist, ihm vielleicht einen Link
00:06:01zur offiziellen Doku gibt – oder selbst wenn man das nicht tut –, wird er höchstwahrscheinlich
00:06:05durch die Nutzung von “--help” selbst herausfinden, wie es geht. Denn es ist einfach nur ein weiteres CLI-Tool.
00:06:11Und Large Language Models sind am Ende des Tages exzellent darin, diese CLI-Tools
00:06:17zu verstehen, zu beschreiben und anzuwenden.
00:06:20Gestern hatte ich zum Beispiel ein kleines Problem. Ich musste ein PDF-Dokument
00:06:26auf eine Website hochladen. Sie kennen diese Seiten, auf denen man einen Haufen Dokumente
00:06:32in einer einzigen Datei hochladen muss, und diese Datei darf nicht größer als 5 Megabyte sein? Genau
00:06:38auf so einer Seite war ich. Also musste ich dieses PDF-Dokument natürlich komprimieren.
00:06:43Ich hätte versuchen können, eine Website zu finden, die das für mich erledigt. Ich bin aber
00:06:49kein großer Fan davon, meine Daten auf irgendeine beliebige Website hochzuladen.
00:06:55Ich hätte auch schauen können, ob es auf meinem System ein Tool gibt, das mir dabei hilft.
00:07:01Aber ich habe kein Adobe-Abo mehr, also hätte das einiges an Recherche erfordert. Und am Ende
00:07:07hätte ich es vielleicht doch auf eine dubiose Website geladen. Nun, nicht mit KI. Natürlich hätte ich Codeium,
00:07:13Claude oder Cursor nutzen können, um mir ein kleines Konvertierungs- oder Komprimierungstool zu schreiben.
00:07:19Das hätte wahrscheinlich auch funktioniert. Aber stattdessen startete ich den Py-Agenten,
00:07:26den ich mit meinem Codeium-Abo nutze. Ich bat ihn einfach, sich dieses PDF anzusehen
00:07:33und es bitte zu komprimieren, während die Qualität so weit wie möglich erhalten bleibt.
00:07:36Das war alles. Das war mein einziger Prompt. Er machte sich an die Arbeit, führte
00:07:41eine Reihe von Befehlen in der Kommandozeile aus und ließ ein paar kleine Skripte laufen. Übrigens lasse ich
00:07:46das auf meinem System laufen, habe aber eine Guardrails-Erweiterung installiert. PI – oder Py – hat
00:07:53dieses Konzept von Erweiterungen, die man installieren kann. Ich habe also eine Erweiterung installiert, die
00:07:59verhindert, dass der Agent einfach meine Festplatte löscht, zumindest nicht auf direktem Weg. Und ich habe
00:08:06ihn auch genau beobachtet, während er beschrieb, was er tun wollte. Also ließ ich ihn machen,
00:08:11er führte einiges aus, und am Ende war er fertig. Und tatsächlich hat er
00:08:18dieses Dokument erfolgreich komprimiert und deutlich verkleinert. Das ist vielleicht nur ein simples Beispiel.
00:08:25Und es hätte Alternativen gegeben. Mein Punkt ist einfach: Er hat das alles in der
00:08:29Kommandozeile, im Terminal erledigt, indem er unsere Befehle und Programme dort genutzt hat.
00:08:36Und natürlich ergibt das alles Sinn, denn wir sprechen hier über Programme, die einen Computer benutzen.
00:08:41All diese grafischen Oberflächen und schicken Websites wurden für Menschen gebaut, für Sie und
00:08:46mich. Das wird natürlich nicht verschwinden. Aber wenn wir kleine Hilfsmittel wollen – KI-Agenten,
00:08:53die auf unserem System laufen und zumindest einige unserer aktuellen Aufgaben übernehmen können –,
00:08:59dann müssen wir ihnen einen Weg geben, den Computer effizienter zu nutzen. Denn eine
00:09:03grafische Oberfläche, eine App oder Website für Menschen ist für ein Computerprogramm
00:09:09natürlich nicht ideal. Es müsste einen Screenshot machen, herausfinden, wo die Buttons sind,
00:09:13die Maus zu einem Button bewegen, klicken und erneut einen Screenshot machen, um zu sehen, was auf der
00:09:18neuen Seite ist. Das ist extrem ineffizient, verbraucht Unmengen an Token und dauert viel zu lange.
00:09:24Und genau deshalb haben wir das Konzept der APIs schon lange vor dem Aufkommen von KI-Agenten
00:09:31und Large Language Models eingeführt. Wenn wir ein Programm schreiben, egal ob Website oder App,
00:09:37und mit einem anderen Programm oder Dienst interagieren wollen,
00:09:43haben wir natürlich schon früher eine API benutzt und nicht versucht, ein Skript zu schreiben, das
00:09:49eine für Menschen gedachte Website bedient. Darum gibt es APIs, und CLIs – Kommandozeilen-
00:09:56Programme – sind letztlich nur Wrapper um APIs, zumindest im Falle von CLIs wie der
00:10:03Google Workspace CLI. Aber genau das ist die Art von Programm, die ein Agent
00:10:10nutzen sollte, denn ihn interessieren keine hübschen Buttons oder so etwas. Er will einen
00:10:15einfachen Weg, verschiedene Befehle aufzurufen, um Dinge zu erledigen. Und deshalb ergibt das
00:10:22Sinn. Deshalb ist Markdown heute wichtiger denn je, und deshalb bieten die meisten
00:10:28Dokumentationsseiten bereits einen Kopier-Button an, der es ermöglicht,
00:10:32den Inhalt als Markdown zu kopieren, damit man ihn in sein bevorzugtes Sprachmodell,
00:10:38seine Chat-Session oder sein Coding-Tool einfügen kann. Einige Websites unterstützen es auch, “.md” am Ende
00:10:46der URL anzuhängen, um den Artikel im Markdown-Format zu erhalten. Wir bewegen uns auf eine Zukunft zu,
00:10:52in der zumindest einige Dienste und Inhalte primär für die Nutzung durch Agenten gedacht sein werden.
00:10:58Nehmen wir die Dokumentation einer Library wie TanStack Start. Wenn man heutzutage
00:11:03eine TanStack Start-Seite baut – und es ist natürlich egal, welchen Tech-Stack
00:11:09man nutzt, Sie verstehen den Punkt –, dann wird man das wahrscheinlich mit Hilfe eines Coding-Agenten wie Cursor tun.
00:11:15Und wenn man diesen Agenten erklären will, wie man die Library nutzt, oder sie auf einen
00:11:20bestimmten Dokumentationsartikel verweisen möchte, will man sie nicht auf eine Website wie
00:11:25diese schicken. Man möchte nicht, dass sie den HTML-Code herunterladen, was unnötig viele Token verbraucht.
00:11:32Und das ist im Grunde derselbe Grund, warum CLI-Tools immer
00:11:38wichtiger werden: Wir bewegen uns auf eine Zukunft zu, in der zumindest einige Aufgaben
00:11:42mit Hilfe von KI-Agenten oder sogar ausschließlich von ihnen erledigt werden. Was natürlich auch
00:11:49bedeutet: Wenn Sie einen Dienst entwickeln, der nicht primär für die Nutzung
00:11:54durch Menschen gedacht ist, sollten Sie unbedingt über eine CLI sowie eine
00:12:02API nachdenken, damit die Menschen Ihren Dienst künftig über Agenten nutzen können.
00:12:09Natürlich stehen wir hier noch ganz am Anfang. Die große Mehrheit der Menschen interessiert sich noch gar nicht
00:12:14für Agenten. Und es ist noch zu früh, um zu sagen, wie gut KI-Agenten werden und welche Art von
00:12:20Aufgaben sie künftig bewältigen können. Vielleicht bleiben wir auch auf dem aktuellen Stand stecken,
00:12:26auf dem sie zwar einiges können, aber eben nicht alles und noch menschliche Aufsicht benötigen.
00:12:31Aber selbst dann gibt es Aufgaben, die von Agenten übernommen werden können, und man kann
00:12:37sie nützlicher und mächtiger machen, indem man ihnen genau die richtigen Werkzeuge an die Hand gibt,
00:12:42die ihnen die Interaktion mit unseren Diensten und Websites erleichtern. Und deshalb schließt
00:12:49sich der Kreis irgendwie. Das bedeutet natürlich nicht, dass grafische Oberflächen
00:12:55und Websites verschwinden werden. Es wird wahrscheinlich immer Apps oder Websites geben,
00:13:01die für Menschen gedacht sind und bei denen eine Nutzung durch Agenten wenig Sinn ergibt. Ich meine,
00:13:07so etwas wie Netflix. Ich sehe keinen großen Vorteil darin, wenn ein Agent mir erzählt, worum es in einem
00:13:13bestimmten Film geht. Ich denke, ich will ihn einfach sehen. Aber für viele Dienste, besonders im SaaS-Bereich
00:13:21oder im Bereich professioneller Dienstleistungen, ist das definitiv der Weg nach vorn. Ich denke,
00:13:28es ist offensichtlich noch in der Anfangsphase, aber man kann hier eine ganz klare Entwicklung sehen.
00:13:34Zumindest ist das meine Meinung. Aber wie immer möchte ich wissen, was Ihre Meinung dazu ist.
00:13:39Lassen Sie mich wissen, was Sie davon halten, was ich vielleicht vergessen oder übersehen habe. Und ja, schauen wir mal,
00:13:44wie die Welt der CLI-Tools in ein oder zwei Jahren aussieht.

Key Takeaway

Die Entwicklung von KI-Agenten führt zu einer Renaissance der Kommandozeile (CLI), da textbasierte Schnittstellen für Computerprogramme wesentlich effizienter und präziser zu bedienen sind als grafische Oberflächen für Menschen.

Highlights

KI-Agenten bevorzugen textbasierte Schnittstellen (CLIs) gegenüber grafischen Benutzeroberflächen (GUIs), da diese effizienter zu verarbeiten sind.

Der Trend geht zurück zu Basistechnologien wie Markdown, JSON und Terminal-Tools, was eine Art Kreisfluss in der Computergeschichte darstellt.

Große Unternehmen wie Google veröffentlichen nun offizielle CLI-Tools (z. B. Google Workspace CLI), um die Interaktion für KI-Agenten zu erleichtern.

LLMs sind exzellent darin, CLI-Tools durch automatische Analyse von Befehlen wie "--help" oder Dokumentationen zu verstehen und zu bedienen.

Für die Zukunft wird empfohlen, Dienste sowohl mit APIs als auch mit CLIs auszustatten, um sie für die automatisierte Nutzung durch Agenten zu optimieren.

Grafische Oberflächen bleiben für den menschlichen Konsum (z. B. Entertainment) wichtig, verlieren aber im SaaS- und Produktivitätsbereich an Bedeutung für die Ausführung von Aufgaben.

Timeline

Die Rückkehr zur Texteingabe

Der Sprecher beobachtet eine interessante Entwicklung, bei der sich der Kreis der Computerinteraktion schließt. Während die 70er Jahre von rein textbasierten Terminal-Schnittstellen geprägt waren, dominierten in den 90ern und 2000ern grafische Benutzeroberflächen für Endanwender. Mit dem Aufstieg von KI-Agenten kehrt der Trend nun massiv zu CLI-Tools, Markdown und JSON zurück. Diese Entwicklung bedeutet nicht das Ende von GUIs, markiert aber einen technologischen Wendepunkt. Der Fokus liegt wieder auf den Basistechnologien, die für Maschinen leichter lesbar sind.

Warum Agenten CLIs und Markdown lieben

KI-Agenten sind besonders leistungsstark, wenn sie mit anderen Kommandozeilen-Tools interagieren können, da sie in einfachem, formatiertem Text glänzen. Ein aktuelles Beispiel ist die neue Google Workspace CLI, die eine programmatische Interaktion mit Diensten wie Gmail und Drive ermöglicht. Früher gab es hierfür oft nur inoffizielle Lösungen wie die GOG CLI von Peter Steinberger. Der Sprecher betont, dass CLIs im Grunde effiziente Wrapper für APIs sind. Diese Entwicklung zeigt, dass Dienstanbieter ihre Infrastruktur zunehmend für agentische Tools optimieren.

Praxisbeispiel: Der Py-Coding-Agent

In diesem Abschnitt stellt der Sprecher den Py-Coding-Agenten vor, eine einfachere Alternative zu Tools wie Claude Code oder Cursor. Dieser Agent dient als logisches Herzstück von OpenClaw und kann weit mehr als nur Programmieren. Er lässt sich lokal auf dem eigenen System ausführen, um vielfältige Aufgaben zu automatisieren. Der Sprecher nutzt diesen Agenten beispielsweise in Verbindung mit einem Codeium-Abonnement. Es wird deutlich, dass solche Tools universelle Assistenten für das gesamte Betriebssystem darstellen.

Trainingsdaten und die Kraft von --help

KI-Modelle sind deshalb so gut in der CLI-Nutzung, weil sie während ihres Trainings riesige Mengen an Terminal-Befehlen und Dokumentationen gesehen haben. Sie verstehen nicht nur Standard-Linux-Befehle wie 'ls' oder 'cd', sondern beherrschen auch das Piping von Daten zwischen verschiedenen Tools. Besonders beeindruckend ist ihre Fähigkeit, neue Tools durch den Aufruf von '--help' eigenständig zu erlernen. Selbst wenn ein Tool nicht in den ursprünglichen Trainingsdaten enthalten war, kann der Agent die Logik oft sofort erfassen. Dies macht KI-Agenten zu extrem flexiblen Werkzeugen für jede neue Software.

Anwendungsfall: PDF-Komprimierung ohne Cloud-Upload

Der Sprecher schildert ein persönliches Problem, bei dem er eine PDF-Datei für einen Website-Upload auf unter 5 MB komprimieren musste. Statt seine Daten auf dubiose Online-Konverter hochzuladen oder teure Software-Abos abzuschließen, nutzte er den Py-Agenten. Durch einen einfachen Prompt erledigte der Agent die Aufgabe lokal im Terminal mithilfe von Skripten und Systembefehlen. Zur Sicherheit verwendet der Sprecher dabei spezielle Guardrails-Erweiterungen, um den Zugriff des Agenten zu überwachen. Das Beispiel zeigt, wie Agenten komplexe lokale Aufgaben effizient und datenschutzfreundlich lösen können.

Effizienz: Agenten vs. menschliche Interfaces

Grafische Oberflächen wurden für menschliche Sinne entworfen, sind aber für Computerprogramme extrem ineffizient. Ein Agent müsste mühsam Screenshots analysieren, Mauszeiger bewegen und Klicks simulieren, was Zeit und teure Token kostet. APIs und CLIs bieten hingegen einen direkten, strukturierten Weg für die Interaktion zwischen Programmen. Dokumentationsseiten reagieren bereits auf diesen Trend, indem sie Markdown-Exportfunktionen oder spezielle URLs anbieten. Der Fokus verschiebt sich weg von optischer Ästhetik hin zu maschineller Verarbeitbarkeit.

Ausblick: Die Zukunft der Dienstentwicklung

Entwickler sollten heute zwingend über CLIs und APIs nachdenken, wenn sie möchten, dass ihre Dienste künftig von KI-Agenten genutzt werden können. Während Unterhaltungsmedien wie Netflix weiterhin auf GUIs setzen, ist im SaaS-Bereich die maschinelle Schnittstelle entscheidend. Wir stehen zwar noch am Anfang der Agenten-Ära, doch der Trend zur Automatisierung professioneller Dienstleistungen ist unverkennbar. Die Interaktion mit Computern wird durch diese spezialisierten Werkzeuge mächtiger und zugänglicher. Abschließend lädt der Sprecher die Zuschauer ein, ihre eigenen Erfahrungen mit CLI-Tools und KI zu teilen.

Community Posts

View all posts