00:00:00Da KI-Agenten immer nützlicher werden und immer präsenter sind – zumindest
00:00:05für bestimmte Aufgaben –, finde ich es sehr spannend zu sehen, wie sich der Kreis irgendwie schließt.
00:00:11Und das meine ich so: Wenn wir uns die Geschichte der Computer und des Internets
00:00:16als Ganzes ansehen, könnten wir vielleicht ein Diagramm zur Benutzerfreundlichkeit zeichnen, das etwa so aussieht.
00:00:23Das ist natürlich rein fiktiv, aber Sie verstehen sicher, worauf ich hinauswill. Wir begannen in den 1970ern
00:00:30oder etwa um diese Zeit – nageln Sie mich nicht auf ein bestimmtes Jahr fest –, aber in der frühen Phase,
00:00:36als Sie und ich – nun ja, ich war da noch nicht einmal geboren – als normale Haushalte
00:00:41noch gar keinen Computer hatten, erfolgte die Interaktion meist rein textbasiert über Terminal-Schnittstellen,
00:00:47im Wesentlichen über die Kommandozeile. Komplexe grafische Benutzeroberflächen, aufwendige
00:00:54Websites und all das – Betriebssysteme für normale Endanwender –, das wurde
00:01:01erst um die 90er und 2000er Jahre ein Thema und hat sich natürlich bis heute weiterentwickelt.
00:01:09Es entwickelt sich natürlich immer noch weiter, verstehen Sie mich nicht falsch, ich sage nicht, dass das alles verschwindet,
00:01:14aber eines ist deutlich erkennbar: Mit den KI-Agenten haben
00:01:22wir diesen starken Trend zurück zu reinem Text-Input, Terminal-Oberflächen, CLI-Tools, Markdown,
00:01:31JSON und all diesen Basistechnologien. Und damit meine ich nicht nur, dass wir Tools wie
00:01:37Claude Code haben, die ohne grafische Oberfläche auskommen – obwohl es
00:01:43eine Desktop-App gibt, wird es primär als Kommandozeilen-Tool genutzt –, das meine ich nicht nur.
00:01:48Vielmehr meine ich, dass all diese KI-Agenten, diese agentischen Tools – wie auch immer man sie
00:01:54nennen mag – wirklich exzellent darin sind, mit anderen Kommandozeilen-Tools oder Programmen zu interagieren,
00:02:02die sie über die Kommandozeile aufrufen können. Sie bevorzugen einfachen, formatierten Text wie Markdown,
00:02:09denn genau da glänzen sie so richtig. Und deshalb veröffentlichen immer mehr Unternehmen – wie
00:02:15zum Beispiel vor ein paar Stunden, während ich das hier aufnehme – immer mehr Kommandozeilen-Tools.
00:02:21Google hat zum Beispiel eine Google Workspace CLI herausgebracht. Ob Sie es glauben oder nicht, das gab es
00:02:27bisher nicht. Es ist ein Tool, mit dem man über eine offizielle CLI mit Google Workspace-Diensten wie Gmail
00:02:35oder Google Drive interagieren kann. Es gab zwar bereits andere Lösungen – wie
00:02:41zum Beispiel GOG CLI von Peter Steinberger, dem Schöpfer von OpenClaw. Er hat es entwickelt,
00:02:48weil er eine programmatische, CLI-basierte Methode zur Interaktion mit Google-Diensten wollte, die es
00:02:54bis vor wenigen Stunden nicht gab. Aber jetzt existiert sie. Das ist kein gesponsertes Video von Google
00:02:59oder so etwas, es ist nur interessant zu sehen, dass immer mehr Dienstanbieter
00:03:04solche Tools veröffentlichen. MCP-Server wären etwas Ähnliches,
00:03:11obwohl MCPs meiner Meinung nach diverse Nachteile haben. Ich glaube fest daran, dass wir in Zukunft CLI-Tools
00:03:18und APIs sehen werden – und letztlich sind CLI-Tools nur Wrapper für APIs –, die der Hauptweg sein werden,
00:03:27um Dienste über agentische Tools zu nutzen. Hier ist ein konkretes Beispiel dafür. In den
00:03:32letzten Tagen und Wochen habe ich mit dem PyCoding-Agenten herumgespielt.
00:03:37Dieser PyCoding-Agent ist sozusagen eine Alternative zu Codeium oder Claude Code. Er ist im positiven Sinne einfacher,
00:03:46funktional etwas limitierter, aber sehr leistungsstark, und man kann ihn zum Beispiel mit einem Codeium-Abo nutzen.
00:03:51In diesem Video geht es nicht primär um diesen Agenten, und
00:03:57es spielt eigentlich keine Rolle, ob man ihn, Claude, Cursor oder was auch immer verwendet – alle führen zum Ziel.
00:04:01Aber ich mag dieses Tool sehr und, was am wichtigsten ist: Genau wie Claude Code
00:04:07oder Codeium kann man dieses Tool trotz seines Namens auch für Aufgaben verwenden, die nichts mit Programmieren zu tun haben. Es ist
00:04:13tatsächlich dieser Py-Agent, der intern von OpenClaw genutzt wird. Er ist sozusagen das Herzstück,
00:04:19das logische Zentrum von OpenClaw. OpenClaw hat dann natürlich noch viel mehr
00:04:24hinzugefügt, wie Speicherfunktionen und Kanäle wie Telegram, WhatsApp und all das. Aber
00:04:30dies ist ein agentisches Tool, das man auf dem eigenen System laufen lassen kann, um Dinge zu erledigen. Man könnte natürlich
00:04:35auch einen eigenen Agenten bauen. Dazu habe ich einen Kurs, in dem ich auch erkläre, wie KI-Agenten
00:04:40eigentlich funktionieren und was der Unterschied zu Workflows ist – oft braucht man nämlich eher
00:04:44einen Workflow als einen echten Agenten. Ich habe dazu einen Kurs, falls Sie tiefer in das Thema
00:04:49eintauchen wollen. Ich habe auch Kurse zu Claude Code und Codeium, um mehr über diese
00:04:54Tools zu erfahren. Aber egal welches Tool man nutzt, es ist wirklich auffällig,
00:04:58wie gut sie mit anderen CLI-Tools interagieren können. Das ergibt absolut Sinn,
00:05:03weil sie Unmengen an CLI-Arbeit mit Tools wie curl oder normalen
00:05:10Kommandozeilenbefehlen wie cd, ls – also all diese Linux-Befehle – gesehen haben. Davon gab es
00:05:16jede Menge in ihren Trainingsdaten. Und sie haben nicht nur Standard-Linux-Befehle gesehen,
00:05:21die sie daher auswendig kennen. Vor allem haben sie gelernt, wie man diese Tools einsetzt, wie man CLI-Tools
00:05:28miteinander verknüpft oder Ergebnisse von einem Tool in ein anderes weiterleitet. Das haben sie alles gesehen
00:05:35und darin sind sie exzellent. Sie haben auch gelernt, dass sie “--help” nutzen können, um mehr über ein Tool zu erfahren.
00:05:41Das versetzt sie in eine hervorragende Lage, auch neue Tools zu bedienen – Tools, die sie noch nicht
00:05:47in ihren Trainingsdaten hatten, wie zum Beispiel diese neue Google Workspace CLI.
00:05:52Wenn man diese über einen Agenten nutzen will, war sie natürlich nicht in dessen Trainingsdaten.
00:05:57Er weiß nicht, wie man sie bedient. Aber wenn man ihn darauf hinweist, ihm vielleicht einen Link
00:06:01zur offiziellen Doku gibt – oder selbst wenn man das nicht tut –, wird er höchstwahrscheinlich
00:06:05durch die Nutzung von “--help” selbst herausfinden, wie es geht. Denn es ist einfach nur ein weiteres CLI-Tool.
00:06:11Und Large Language Models sind am Ende des Tages exzellent darin, diese CLI-Tools
00:06:17zu verstehen, zu beschreiben und anzuwenden.
00:06:20Gestern hatte ich zum Beispiel ein kleines Problem. Ich musste ein PDF-Dokument
00:06:26auf eine Website hochladen. Sie kennen diese Seiten, auf denen man einen Haufen Dokumente
00:06:32in einer einzigen Datei hochladen muss, und diese Datei darf nicht größer als 5 Megabyte sein? Genau
00:06:38auf so einer Seite war ich. Also musste ich dieses PDF-Dokument natürlich komprimieren.
00:06:43Ich hätte versuchen können, eine Website zu finden, die das für mich erledigt. Ich bin aber
00:06:49kein großer Fan davon, meine Daten auf irgendeine beliebige Website hochzuladen.
00:06:55Ich hätte auch schauen können, ob es auf meinem System ein Tool gibt, das mir dabei hilft.
00:07:01Aber ich habe kein Adobe-Abo mehr, also hätte das einiges an Recherche erfordert. Und am Ende
00:07:07hätte ich es vielleicht doch auf eine dubiose Website geladen. Nun, nicht mit KI. Natürlich hätte ich Codeium,
00:07:13Claude oder Cursor nutzen können, um mir ein kleines Konvertierungs- oder Komprimierungstool zu schreiben.
00:07:19Das hätte wahrscheinlich auch funktioniert. Aber stattdessen startete ich den Py-Agenten,
00:07:26den ich mit meinem Codeium-Abo nutze. Ich bat ihn einfach, sich dieses PDF anzusehen
00:07:33und es bitte zu komprimieren, während die Qualität so weit wie möglich erhalten bleibt.
00:07:36Das war alles. Das war mein einziger Prompt. Er machte sich an die Arbeit, führte
00:07:41eine Reihe von Befehlen in der Kommandozeile aus und ließ ein paar kleine Skripte laufen. Übrigens lasse ich
00:07:46das auf meinem System laufen, habe aber eine Guardrails-Erweiterung installiert. PI – oder Py – hat
00:07:53dieses Konzept von Erweiterungen, die man installieren kann. Ich habe also eine Erweiterung installiert, die
00:07:59verhindert, dass der Agent einfach meine Festplatte löscht, zumindest nicht auf direktem Weg. Und ich habe
00:08:06ihn auch genau beobachtet, während er beschrieb, was er tun wollte. Also ließ ich ihn machen,
00:08:11er führte einiges aus, und am Ende war er fertig. Und tatsächlich hat er
00:08:18dieses Dokument erfolgreich komprimiert und deutlich verkleinert. Das ist vielleicht nur ein simples Beispiel.
00:08:25Und es hätte Alternativen gegeben. Mein Punkt ist einfach: Er hat das alles in der
00:08:29Kommandozeile, im Terminal erledigt, indem er unsere Befehle und Programme dort genutzt hat.
00:08:36Und natürlich ergibt das alles Sinn, denn wir sprechen hier über Programme, die einen Computer benutzen.
00:08:41All diese grafischen Oberflächen und schicken Websites wurden für Menschen gebaut, für Sie und
00:08:46mich. Das wird natürlich nicht verschwinden. Aber wenn wir kleine Hilfsmittel wollen – KI-Agenten,
00:08:53die auf unserem System laufen und zumindest einige unserer aktuellen Aufgaben übernehmen können –,
00:08:59dann müssen wir ihnen einen Weg geben, den Computer effizienter zu nutzen. Denn eine
00:09:03grafische Oberfläche, eine App oder Website für Menschen ist für ein Computerprogramm
00:09:09natürlich nicht ideal. Es müsste einen Screenshot machen, herausfinden, wo die Buttons sind,
00:09:13die Maus zu einem Button bewegen, klicken und erneut einen Screenshot machen, um zu sehen, was auf der
00:09:18neuen Seite ist. Das ist extrem ineffizient, verbraucht Unmengen an Token und dauert viel zu lange.
00:09:24Und genau deshalb haben wir das Konzept der APIs schon lange vor dem Aufkommen von KI-Agenten
00:09:31und Large Language Models eingeführt. Wenn wir ein Programm schreiben, egal ob Website oder App,
00:09:37und mit einem anderen Programm oder Dienst interagieren wollen,
00:09:43haben wir natürlich schon früher eine API benutzt und nicht versucht, ein Skript zu schreiben, das
00:09:49eine für Menschen gedachte Website bedient. Darum gibt es APIs, und CLIs – Kommandozeilen-
00:09:56Programme – sind letztlich nur Wrapper um APIs, zumindest im Falle von CLIs wie der
00:10:03Google Workspace CLI. Aber genau das ist die Art von Programm, die ein Agent
00:10:10nutzen sollte, denn ihn interessieren keine hübschen Buttons oder so etwas. Er will einen
00:10:15einfachen Weg, verschiedene Befehle aufzurufen, um Dinge zu erledigen. Und deshalb ergibt das
00:10:22Sinn. Deshalb ist Markdown heute wichtiger denn je, und deshalb bieten die meisten
00:10:28Dokumentationsseiten bereits einen Kopier-Button an, der es ermöglicht,
00:10:32den Inhalt als Markdown zu kopieren, damit man ihn in sein bevorzugtes Sprachmodell,
00:10:38seine Chat-Session oder sein Coding-Tool einfügen kann. Einige Websites unterstützen es auch, “.md” am Ende
00:10:46der URL anzuhängen, um den Artikel im Markdown-Format zu erhalten. Wir bewegen uns auf eine Zukunft zu,
00:10:52in der zumindest einige Dienste und Inhalte primär für die Nutzung durch Agenten gedacht sein werden.
00:10:58Nehmen wir die Dokumentation einer Library wie TanStack Start. Wenn man heutzutage
00:11:03eine TanStack Start-Seite baut – und es ist natürlich egal, welchen Tech-Stack
00:11:09man nutzt, Sie verstehen den Punkt –, dann wird man das wahrscheinlich mit Hilfe eines Coding-Agenten wie Cursor tun.
00:11:15Und wenn man diesen Agenten erklären will, wie man die Library nutzt, oder sie auf einen
00:11:20bestimmten Dokumentationsartikel verweisen möchte, will man sie nicht auf eine Website wie
00:11:25diese schicken. Man möchte nicht, dass sie den HTML-Code herunterladen, was unnötig viele Token verbraucht.
00:11:32Und das ist im Grunde derselbe Grund, warum CLI-Tools immer
00:11:38wichtiger werden: Wir bewegen uns auf eine Zukunft zu, in der zumindest einige Aufgaben
00:11:42mit Hilfe von KI-Agenten oder sogar ausschließlich von ihnen erledigt werden. Was natürlich auch
00:11:49bedeutet: Wenn Sie einen Dienst entwickeln, der nicht primär für die Nutzung
00:11:54durch Menschen gedacht ist, sollten Sie unbedingt über eine CLI sowie eine
00:12:02API nachdenken, damit die Menschen Ihren Dienst künftig über Agenten nutzen können.
00:12:09Natürlich stehen wir hier noch ganz am Anfang. Die große Mehrheit der Menschen interessiert sich noch gar nicht
00:12:14für Agenten. Und es ist noch zu früh, um zu sagen, wie gut KI-Agenten werden und welche Art von
00:12:20Aufgaben sie künftig bewältigen können. Vielleicht bleiben wir auch auf dem aktuellen Stand stecken,
00:12:26auf dem sie zwar einiges können, aber eben nicht alles und noch menschliche Aufsicht benötigen.
00:12:31Aber selbst dann gibt es Aufgaben, die von Agenten übernommen werden können, und man kann
00:12:37sie nützlicher und mächtiger machen, indem man ihnen genau die richtigen Werkzeuge an die Hand gibt,
00:12:42die ihnen die Interaktion mit unseren Diensten und Websites erleichtern. Und deshalb schließt
00:12:49sich der Kreis irgendwie. Das bedeutet natürlich nicht, dass grafische Oberflächen
00:12:55und Websites verschwinden werden. Es wird wahrscheinlich immer Apps oder Websites geben,
00:13:01die für Menschen gedacht sind und bei denen eine Nutzung durch Agenten wenig Sinn ergibt. Ich meine,
00:13:07so etwas wie Netflix. Ich sehe keinen großen Vorteil darin, wenn ein Agent mir erzählt, worum es in einem
00:13:13bestimmten Film geht. Ich denke, ich will ihn einfach sehen. Aber für viele Dienste, besonders im SaaS-Bereich
00:13:21oder im Bereich professioneller Dienstleistungen, ist das definitiv der Weg nach vorn. Ich denke,
00:13:28es ist offensichtlich noch in der Anfangsphase, aber man kann hier eine ganz klare Entwicklung sehen.
00:13:34Zumindest ist das meine Meinung. Aber wie immer möchte ich wissen, was Ihre Meinung dazu ist.
00:13:39Lassen Sie mich wissen, was Sie davon halten, was ich vielleicht vergessen oder übersehen habe. Und ja, schauen wir mal,
00:13:44wie die Welt der CLI-Tools in ein oder zwei Jahren aussieht.