gwscli: Das ultimative Google Workspace CLI für KI-Agenten (mit Claude Code)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Google Workspace ist gerade viel besser für KI-Agenten geworden, denn es wurde ein
00:00:04robustes CLI-Tool veröffentlicht, mit dem euer Agent jede Google Workspace API nutzen kann.
00:00:09Dateien von Drive lesen, E-Mails senden oder Slides erstellen – alles von Grund auf
00:00:14für KI-Agenten entwickelt. Das heißt, sie verbrauchen so wenig Token wie möglich und erstellen Befehle
00:00:19dynamisch zur Laufzeit, damit die APIs immer aktuell sind. Aber was bedeutet es,
00:00:24wenn ein Riese wie Google ein CLI für etwas erstellt, das bisher ein MCP-Server war,
00:00:29für die Zukunft von MCP? Abonniert den Kanal und finden wir es heraus.
00:00:33Letzten Monat habe ich ein Video darüber gemacht, dass Playwright ein CLI für einen ehemaligen MCP-Server erstellt hat.
00:00:42Nun scheint Google Workspace dasselbe getan zu haben, und die Leute auf Twitter drehen
00:00:46völlig durch. Es ist ein CLI-Tool von Justin, der in einem Blogpost erklärt, was er alles getan hat,
00:00:52um es speziell für Agenten zu optimieren. Aber es gibt bereits über 100
00:00:57Skills, die man von skills.sh laden kann, was den "G-Man" natürlich sehr freut.
00:01:01Bevor wir uns ansehen, was es kann, müssen wir die Einrichtung durchgehen. Denn wenn wir eines
00:01:06über Google Cloud-Tools wissen, dann, dass sie nicht gerade unkompliziert sind. Ich zeige es euch.
00:01:10Zuerst und am wichtigsten: Ihr braucht Zugriff auf die Google Cloud Console. Erstellt ein neues
00:01:15Projekt oder nutzt ein bestehendes. Ich habe ein neues erstellt. Dann installiert ihr das gcloud CLI,
00:01:21was auf dem Mac einfach über Brew geht. Sobald das Google Workspace CLI installiert ist,
00:01:26müsst ihr diesen Befehl ausführen, um das Setup zu starten, das eigentlich selbsterklärend ist.
00:01:31Nutzt eure E-Mail zur Authentifizierung, wählt ein GCP-Projekt aus und bestimmt die APIs,
00:01:37auf die ihr zugreifen wollt. Danach geht ihr in der Console zu "APIs und Dienste", "Anmeldedaten",
00:01:42und erstellt eine neue OAuth-Client-ID. Ich glaube, der Typ ist egal – ich habe "Web" genommen,
00:01:48aber "Desktop" sollte auch gehen, da ihr nur die Client-ID und das Secret braucht.
00:01:53Danach wird es im nächsten Schritt etwas knifflig, denn nach dem Ausführen dieses Befehls
00:01:57müsst ihr den Auth-Bereich wählen. Für diese Demo habe ich alles ausgewählt,
00:02:02was nicht ideal ist, aber ich wollte die API nur testen. Dann erhaltet ihr eine riesige URL für den Browser.
00:02:08Achtet darauf, dass keine Tippfehler drin sind, sonst gibt es Fehler. Notiert euch vor allem
00:02:12den Port nach "localhost", in meinem Fall ist das die 51065.
00:02:18Zurück in der Cloud Console klickt ihr auf "OAuth-Zustimmungsbildschirm",
00:02:23dann auf "Clients" und wählt euren Web-Client aus. Unten bei "Autorisierte Weiterleitungs-URLs"
00:02:28ändert ihr dies auf die Portnummer ab – also 51065. Aber wir sind noch nicht ganz fertig.
00:02:33Geht zu "Zielgruppe", scrollt nach unten und fügt dort eure E-Mail-Adresse hinzu, falls nötig.
00:02:37Wenn ihr bereits eine veröffentlichte App habt, tritt dieses Problem nicht auf,
00:02:40aber da ich die API nur teste, befinde ich mich im Testmodus.
00:02:44Ich muss also meine E-Mail und die aller Nutzer hinzufügen, die das CLI hier verwenden sollen.
00:02:48Danach könnt ihr die URL kopieren und den Schritten folgen, um das CLI zu konfigurieren.
00:02:52Am Ende solltet ihr eine Erfolgsmeldung sehen. Wenn diese nicht erscheint,
00:02:56wartet ein paar Sekunden und versucht es erneut, da die Registrierung der Weiterleitungs-URL kurz dauert.
00:03:01Dieser ganze Prozess, also allein das Setup, hat bei mir am längsten gedauert,
00:03:06was zeigt, dass ich Google Cloud-Tools nicht oft nutze. Aber wenn es erst mal läuft,
00:03:11seht ihr hier eure Details, und der Spaß kann endlich beginnen. Schaut euch das an.
00:03:15Ich fange simpel an und bitte Claude um Informationen zu meinen letzten 10 E-Mails.
00:03:19Hoffentlich ist nichts Vertrauliches dabei. Mit dem GWS CLI
00:03:24erhalte ich Infos zu jeder E-Mail mit Absender, Betreff, Datum und Labels.
00:03:28Man sieht, dass für diese Aufgabe nur 9 % des gesamten Kontexts verbraucht wurden, einfach weil
00:03:33keine MCP-Tools geladen sind. Der meiste Kontext wurde für die Nachrichten genutzt. Okay, nächster Versuch.
00:03:38Ich bitte Claude, einen E-Mail-Entwurf mit dem Betreff "I love Claude" und einem
00:03:44netten Gedicht zu schreiben. Wieder nutzt er das GWS CLI und schreibt Python via Bash. Jetzt,"
00:03:50wo es fertig ist, sehen wir hier einen neuen E-Mail-Entwurf von Claude. Ich zoome mal ran.
00:03:56Die Mail enthält ein Gedicht darüber, wie sehr ich Claude liebe. Interessant ist aber,"
00:04:00wie Claude das GWS CLI eigentlich benutzt. Wenn wir uns die vergangenen Befehle ansehen,"
00:04:05sehen wir hier viele Unterbefehle und ein Params-Flag mit integriertem JSON.
00:04:11Das Spannende ist: Wenn ich als Mensch dasselbe tun wollte,"
00:04:16und "gws help" eingebe, um alle Unterbefehle zu sehen, erhalte ich nicht alle, sondern nur eine Handvoll.
00:04:23Um tiefer in einen Befehl einzutauchen, müsste ich immer wieder "help" nutzen,"
00:04:28um mehr Infos zu bekommen. Aber der Agent kann diese Informationen extrem schnell abrufen.
00:04:32Er kennt sogar die exakten Parameter, um die richtigen Daten zu erhalten. Schaut euch das an.
00:04:37Ich habe den Prompt eingegeben, er hat einmal "help" genutzt und konnte alles daraus ableiten.
00:04:43Wir schauen uns gleich noch genauer an, wie das funktioniert,"
00:04:48aber man sieht hier, dass der Hilfe-Bereich des CLIs die Nutzung sowie Service-Ressourcen erklärt.
00:04:53Den Service sehen wir hier unten. Für mehr Details
00:04:57könnten wir uns auch "gws schema" mit Service, Ressource und Methode ansehen. Okay, noch eine Sache.
00:05:03Ich bitte Claude, eine Google Slides-Präsentation zu erstellen, mit einer Titelfolie namens
00:05:08"Claude Cat" und vier weiteren Folien mit Katzenbildern. Wieder nutzt er das GWS CLI,"
00:05:15fragt nach Hilfe und vertieft sich in die Slides- und Presentations-Befehle. Jetzt ist er fertig.
00:05:20Schauen wir uns die Präsentation im Browser an. Hier ist sie. Ich hatte vorher schon
00:05:24einen Test mit "Claude Dogs" gemacht, aber nehmen wir diese hier. Wir haben den Titel "Claude Cats",
00:05:30einen Untertitel und insgesamt fünf Folien mit Katzenbildern. Das ist wirklich cool.
00:05:36Und wir haben erst 15 % des Kontexts verbraucht. Wir könnten also ewig so weitermachen.
00:05:42Ich habe auch eine Google Tabelle mit der Einwohnerzahl aller US-Bundesstaaten erstellt,"
00:05:47inklusive Summe am Ende, und sogar Termine in meinem Kalender geplant.
00:05:52Vielleicht ist euch aufgefallen, dass ich dafür keine speziellen Google Workspace Skills installiert habe.
00:05:58Das Projekt bietet jedoch viele Skills mit Helpern, Personas und Rezepten für komplexe Aktionen,"
00:06:05wie das Blockieren von Fokuszeit oder das Verschieben von Meetings. Wie hat Justin das so gut hinbekommen?
00:06:10Erstens hat er verschachteltes JSON priorisiert – schwer lesbar für Menschen, aber ideal für Agenten.
00:06:16Außerdem ist die Dokumentation zur Laufzeit abfragbar. Dieser Schema-Bereich hier
00:06:21sorgt dafür, dass der Agent bei Updates oder falschen Parametern sofort weiß,"
00:06:26wo er den korrekten Wert ohne Verwirrung nachschlagen kann. Die
00:06:31Parameter und Felder können zudem genutzt werden, um die Antwortmenge der API zu reduzieren.
00:06:36Der Agent fordert nur das an, was er wirklich braucht, statt unnötige Zusatzinfos zu erhalten.
00:06:42Das spart massiv Token. Und natürlich nutzt er Skills für agentenspezifische Anleitungen.
00:06:47In der Demo habe ich sie nicht genutzt, aber sie liefern mehr Infos, als der Agent via "help" bekäme.
00:06:53Sind MCP-Server also out und Skills sowie CLIs in? Nun, nicht ganz.
00:06:59Bei MCP kann der Agent Funktionen direkt aufrufen, statt erst Shell-Befehle zu konstruieren
00:07:06und JSON zu übergeben, wie es das CLI macht. MCP-Tools eignen sich auch besser
00:07:11für die Verkettung komplexer Schritte. Und man braucht kein Terminal für die Ausführung.
00:07:16Deshalb hat das Google Workspace CLI auch eine MCP-Option. Allerdings verbrauchen CLIs viel weniger Token,"
00:07:24selbst wenn die Werkzeugsuche aktiv ist. Sie sind portabel und funktionieren mit jedem
00:07:28Agent-Harness oder sogar ganz ohne. Zudem lassen sich Befehle zum Debuggen leicht reproduzieren.
00:07:34Es kommt also auf den Anwendungsfall an. Ich hatte aber auch ein paar Probleme mit dem CLI.
00:07:40Einige generierte URLs enthielten Tippfehler – keine Ahnung, wie das passieren konnte.
00:07:47Auch die Sache mit der Redirect-URL und dem Localhost-Port hat mich Zeit gekostet.
00:07:52Ich weiß nicht, ob das an Google Cloud liegt oder am CLI, aber es hat keinen Spaß gemacht.
00:07:59Zudem gab es ein Problem mit der Token-Aktualisierung, weshalb ich ein GitHub-Issue erstellt habe.
00:08:05Eigentlich hat Claude es für mich geschrieben, ich habe gar nichts selbst getippt. Aber für ein Projekt,"
00:08:10das keine Woche alt ist und über 10.000 Sterne auf GitHub hat, sieht die Zukunft vielversprechend aus.
00:08:16Apropos Zukunft: Falls ihr mal eine Electron-App mit Bun erstellen wollt,"
00:08:21um von Speed und kleinen Paketgrößen zu profitieren, schaut euch mein Video zu
00:08:26Electrobahn an, in dem ich zeige, wie man es für ein einfaches Vite-Projekt nutzt.

Key Takeaway

Das Google Workspace CLI revolutioniert die Interaktion zwischen KI-Agenten und Google-Diensten durch extreme Token-Effizienz und eine für Maschinen optimierte, dynamische Befehlsstruktur.

Highlights

Das Google Workspace CLI (gwscli) wurde speziell für die effiziente Nutzung durch KI-Agenten entwickelt.

Die Einrichtung erfordert den Zugriff auf die Google Cloud Console, die Erstellung einer OAuth-Client-ID und die Konfiguration von Redirect-URLs.

Im Vergleich zu herkömmlichen MCP-Servern verbraucht das CLI deutlich weniger Token, da Agenten nur die absolut notwendigen Daten abfragen.

KI-Agenten wie Claude können das CLI-Schema zur Laufzeit dynamisch abfragen, um Befehle und Parameter eigenständig zu verstehen.

Praktische Tests zeigen die erfolgreiche Erstellung von E-Mail-Entwürfen, Google Slides-Präsentationen mit Bildern und Tabellenkalkulationen.

Das Tool bietet über 100 vordefinierte 'Skills' für komplexe Aufgaben wie das Verschieben von Meetings oder Fokuszeit-Management.

Trotz einiger Hürden beim Setup und kleineren Fehlern in der Testphase gilt das Projekt als wegweisend für die Zukunft der Agent-Interaktion.

Timeline

Einführung in das Google Workspace CLI für Agenten

Der Sprecher stellt das neue gwscli-Tool vor, das als robuste Schnittstelle für KI-Agenten zu sämtlichen Google Workspace APIs dient. Es ermöglicht Agenten das Lesen von Drive-Dateien, Versenden von E-Mails und Erstellen von Präsentationen mit minimalem Token-Verbrauch. Ein besonderes Merkmal ist die dynamische Erstellung von Befehlen zur Laufzeit, wodurch die APIs stets aktuell bleiben. Der Vergleich mit bisherigen MCP-Servern deutet auf einen signifikanten Wandel in der Entwicklung von KI-Werkzeugen hin. Justin, der Entwickler des Tools, hat es gezielt für die Optimierung von Agenten-Workflows konzipiert.

Schritt-für-Schritt Einrichtung in der Google Cloud

Die Installation des Tools wird als technisch anspruchsvoll beschrieben, da sie tiefgreifende Kenntnisse der Google Cloud Console voraussetzt. Nutzer müssen ein GCP-Projekt erstellen, das gcloud CLI installieren und eine OAuth-Client-ID für den Zugriff konfigurieren. Ein kritischer Punkt ist die korrekte Einstellung der autorisierten Weiterleitungs-URLs, wobei insbesondere auf die Portnummern am Localhost geachtet werden muss. Der Sprecher betont, dass dieser Setup-Prozess aufgrund von Port-Konfigurationen und Testmodus-Einschränkungen die meiste Zeit in Anspruch genommen hat. Am Ende steht jedoch eine erfolgreiche Authentifizierung, die den Weg für die praktische Nutzung ebnet.

Praxistest: E-Mails und die Funktionsweise des CLI

In einem ersten Test bittet der Sprecher die KI Claude, Informationen über die letzten zehn E-Mails abzurufen und einen neuen Entwurf zu erstellen. Dabei zeigt sich die Effizienz des Tools: Es wurden lediglich 9 % des Kontextfensters verbraucht, da keine schweren MCP-Tools geladen werden mussten. Claude nutzt das CLI, indem es Unterbefehle und JSON-Parameter über die Bash-Schnittstelle generiert, was für Menschen komplex, für KIs aber ideal ist. Durch den Aufruf von Hilfe-Befehlen kann der Agent das Schema des Dienstes eigenständig erlernen und präzise anwenden. Dies demonstriert die Fähigkeit der KI, sich ohne menschliche Anleitung tief in die API-Struktur einzuarbeiten.

Komplexe Aufgaben: Google Slides und Tabellen

Der Agent demonstriert seine Vielseitigkeit, indem er eine Google Slides-Präsentation über Katzen mit fünf Folien inklusive Bildern erstellt. Auch hier bleibt der Token-Verbrauch mit rund 15 % bemerkenswert gering, was lange Arbeitssitzungen ohne Kontextverlust ermöglicht. Neben Präsentationen werden auch Tabellen mit statistischen Daten und Kalendereinträge erfolgreich automatisiert. Die zugrunde liegende Architektur priorisiert verschachteltes JSON und erlaubt es dem Agenten, gezielt nur die benötigten Felder abzufragen. Vorgefertigte 'Skills' ergänzen das CLI um komplexe Handlungsanweisungen, die über die Standard-API-Funktionen hinausgehen.

Vergleich mit MCP und Fazit zur Zukunft

Abschließend wägt der Sprecher die Vor- und Nachteile zwischen dem CLI-Ansatz und traditionellen MCP-Servern ab. Während MCP einen direkten Funktionsaufruf ohne Terminal ermöglicht, punktet das CLI durch Portabilität, Debugging-Fähigkeiten und enorme Token-Ersparnis. Trotz technischer Kinderkrankheiten wie Tippfehlern in generierten URLs und Problemen bei der Token-Aktualisierung sieht der Sprecher großes Potenzial in diesem Projekt. Mit über 10.000 Sternen auf GitHub innerhalb einer Woche zeigt das Tool eine beeindruckende Resonanz in der Entwickler-Community. Der Beitrag endet mit einem Ausblick auf weitere Performance-Tools wie Electrobahn für Electron-Apps.

Community Posts

View all posts