Das Toolkit vom Y-Combinator-CEO: So wird Claude Code fantastisch

BBetter Stack
Computing/SoftwareSmall Business/StartupsManagementInternet Technology

Transcript

00:00:00Der CEO von Y Combinator hat sein eigenes Toolkit für Claudes Code namens GStack entwickelt, sein Geheimnis,
00:00:06um fast hundert PRs in sieben Tagen zu bewältigen, was neun spezialisierte Workflows umfasst,
00:00:13einen Headless-Browsing-Modus mit Playwright, Greptile-Integration, eine Diff-sensitive QA und vieles,
00:00:18vieles mehr.
00:00:19Aber Garys kürzlicher Tweet über die Zukunft des Codes hat viele Entwickler wirklich
00:00:24verärgert.
00:00:25Was bedeutet das also für die Zukunft von GStack?
00:00:28Abonniert den Kanal und lasst es uns herausfinden.
00:00:33Gary Tan ist seit 2023 CEO von Y Combinator und hat davor im Jahr 2011 eine Risikokapitalgesellschaft
00:00:39mitbegründet.
00:00:42Er hat also jede Menge Erfahrung, wenn es darum geht, Pitches zu sichten und herauszufinden,
00:00:46was ein neues Stück Technik einzigartig macht.
00:00:49Und all dieses Wissen hat er in sein eigenes Toolkit für Claude Code gesteckt, was man
00:00:53an den Namen vieler seiner Workflows erkennen kann.
00:00:57Probieren wir GStack doch einfach mal aus.
00:00:59Damit GStack funktioniert, müssen Claude Code und Bun installiert sein, aber sobald es
00:01:03ordnungsgemäß in Claude Code installiert ist – entweder durch diesen exakten Prompt oder
00:01:08durch das Herunterladen der Skills – sollten diese Informationen in eurer Claude-MD-Datei erscheinen.
00:01:12Meine war leer.
00:01:13Deshalb steht hier nur das, aber wenn ihr bereits Text habt, wird dies einfach
00:01:17hinzugefügt.
00:01:18Es legt auch alle relevanten Skills im Skills-Verzeichnis ab, falls ihr sie mit eurem Team teilen wollt,
00:01:21und installiert dann Playwright mit dem entsprechenden Browser.
00:01:25Ich werde GStack jetzt nutzen, um dieser React-Vite-Anwendung ein Feature hinzuzufügen, mit dem
00:01:30Nutzer ein Bild eines Tweets von einer bestimmten URL herunterladen können.
00:01:34Vielleicht habt ihr mich dieses Feature schon in einem früheren Video hinzufügen sehen.
00:01:37Ich verlinke es in der Beschreibung, falls ihr das Ergebnis sehen wollt, aber
00:01:41wir werden sehen, ob GStack das noch besser hinbekommt.
00:01:44Zuerst starte ich im Plan-Modus, nutze dann den Skill "plan_ceo_review" und gebe GStack
00:01:49einige Informationen über das Feature.
00:01:51Ich sage: Füge ein Feature hinzu, das einen Screenshot eines Tweets von der vom Nutzer angegebenen
00:01:56URL erstellt.
00:01:57Außerdem soll der Nutzer das Bild anpassen und herunterladen können, und Claude soll das bestehende
00:02:02Layout und die Styles beibehalten.
00:02:03Nachdem ich Enter gedrückt habe, prüft GStack zuerst, ob es Updates für diesen Skill gibt,
00:02:08und checkt das Git-Log, bevor es weitermacht.
00:02:10Dieser Modus überdenkt das Problem aus der Sicht eines Gründers/CEO und versucht,
00:02:16die bestmögliche Version dessen zu entwerfen, was wir bauen wollen, und hinterfragt
00:02:20Annahmen über Umfang und Wert.
00:02:21Danach lässt es uns wählen, wie sehr wir den ursprünglichen Umfang
00:02:26erweitern wollen.
00:02:27Ich entscheide mich für die Umfangserweiterung, da sie die meisten Features bietet.
00:02:30Dann lässt es uns eine kritische Architekturentscheidung treffen.
00:02:33Ich wähle die empfohlene, da sie am einfachsten ist.
00:02:36Dann stellt es noch ein paar Fragen, bei denen ich ebenfalls den empfohlenen
00:02:39Ansatz wähle.
00:02:40Jetzt, wo es fertig ist, wurde ein Mega-Plan erstellt, der den gewählten Modus zeigt
00:02:44und alles auflistet, was in diesem Umfang umgesetzt wird.
00:02:47Es hat auch aufgeschrieben, was für dieses Feature nicht vorgesehen ist.
00:02:50Und hier unten haben wir den Implementierungsplan mit Architekturdiagramm, wichtigen
00:02:55Entscheidungen und verschiedenen Schritten.
00:02:57Das ist ein wahnsinnig detaillierter Plan, ähnlich wie ich ihn von Superpowers bekäme,
00:03:01wenn ich denselben Weg gehen würde.
00:03:02Hinweis: Es gibt in GStack auch einen "plan_engineering_review"-Skill, der Claude in einen
00:03:07Engineering Manager oder Tech Lead verwandelt, um Architekturdiagramme zu erstellen,
00:03:12den Tech-Stack festzulegen, Edge Cases zu definieren und so weiter.
00:03:15Aber es sieht so aus, als hätte der "plan_ceo_review"-Skill einiges davon bereits erledigt.
00:03:20Wir springen also direkt zur Implementierung.
00:03:22Nun können wir den Review-Slash-Befehl ausführen, um fehlende Edge Cases zu prüfen,
00:03:27Bugs zu finden, die die CI bestanden hätten, und Probleme abzufangen, bevor sie in Produktion gehen.
00:03:32Auch hier wird nach Updates im Skript und im Diff gesucht.
00:03:36Jetzt wird die Vollständigkeit der Aufgabe geprüft, bevor eine Zusammenfassung erscheint,
00:03:40die besagt, dass keine Probleme gefunden wurden.
00:03:41Nun können wir den Ship-Slash-Befehl ausführen, der mit dem Main-Branch synchronisiert, Tests ausführt
00:03:46und etwaige Greptile-Reviews auflöst, falls vorhanden.
00:03:49Wir sehen, dass bereits ein Pull Request erstellt wurde, ohne dass ich es explizit befohlen habe.
00:03:54In dieser Phase können wir den QA-Slash-Befehl ausführen, der nur die Änderungen testet,
00:03:58die wir basierend auf dem Diff gemacht haben.
00:03:59Hier sieht man, dass der lokale Server gestartet wurde und die Website durchgegangen wird, um
00:04:05die implementierten Features mittels Screenshots und mehr zu testen.
00:04:09Es hat einige 500er-Fehler in den Screenshots und einen Bug beim JSON-Parsing gefunden,
00:04:15den es anscheinend bereits behoben hat.
00:04:16Hier sehen wir es.
00:04:17Der Fix wurde verifiziert und gepusht.
00:04:20Nun wurde ein Abschlussbericht mit den gelösten Problemen verfasst.
00:04:24Das ist sehr cool.
00:04:25Okay.
00:04:26Es ist fertig.
00:04:27Probieren wir das Feature mal aus.
00:04:28Wir haben jetzt eine Screenshot-Seite.
00:04:30Nehmen wir einen Tweet von Tana.
00:04:32Diesen hier, und ich füge ihn hier ein.
00:04:34Es ist nicht der spannendste Tweet, aber es dient ja nur dem Test.
00:04:37Und wow, okay, das ist super beeindruckend.
00:04:40Hier ist der Tweet.
00:04:42Wir können zwischen den Lichtmodi wählen, und er wird neu erfasst.
00:04:44Oh, wow.
00:04:45Okay.
00:04:46Wir haben also Light- und Dark-Mode.
00:04:47Mal sehen, ob das gecached wurde.
00:04:49Ja, hat es. Sehr cool.
00:04:51Ich kann die Aktionen ausblenden und voilà.
00:04:53Ich kann Bilder ein- und ausblenden und den Hintergrund ändern.
00:04:58Das ist wirklich stark.
00:04:59Wir haben LinkedIn, Twitter, Blog, lila Farbverlauf, und wir können es sogar anpassen
00:05:03oder den Winkel des Verlaufs ändern.
00:05:07Wow.
00:05:08Das ist ein vollwertiges Feature, und wir können das Seitenverhältnis ändern.
00:05:11Wir haben 9:16, 16:9, 1:1 und so weiter.
00:05:16Laden wir das Bild jetzt mal herunter.
00:05:18Und da ist es.
00:05:19Wenn ich jetzt hier klicke – jetzt habt ihr alle meine Tabs gesehen.
00:05:22Hier ist das Bild.
00:05:23Ich öffne es in der Vorschau.
00:05:24Und das ist es.
00:05:25Das ist das Bild, das ich gerade mit dem Feature erstellt habe, das ich mit GStack gebaut habe,
00:05:29was wahnsinnig beeindruckend ist, aber es geht noch mehr.
00:05:34Denn im PR sehen wir eine Greptile-Zusammenfassung: Ressourcenerschöpfung auf dem Server,
00:05:40Race Condition, kein Cache-Ablauf und so weiter.
00:05:42Anstatt Claude zu bitten, sich die Probleme anzusehen, führen wir einfach
00:05:47den Review-Slash-Befehl aus.
00:05:49Er hat alle Kommentare gefunden.
00:05:50Er hat mir unten Optionen zur Behebung gegeben, die ich durchgehe.
00:05:53Und jetzt sind alle Probleme behoben.
00:05:55Bis auf ein False Positive wurde der Code gepusht, Greptile scheint zufrieden zu sein.
00:06:00Als jemand, der regelmäßig Superpowers nutzt, sehe ich bereits den Nutzen von GStack,
00:06:05auch wenn einige Aspekte davon recht komplex sind.
00:06:08Aber was ist mit Garys Kommentar auf Twitter, dass Markdown der neue Code sei?
00:06:13Nun, ich verstehe gewissermaßen, worauf er hinauswill.
00:06:15Ich glaube nicht, dass er meint, ein Informatikstudium sei Zeitverschwendung, nur weil
00:06:20man Markdown schreiben kann und daraus Code wird.
00:06:22Es geht eher um die Anweisungen, da neuere Modelle immer besser darin werden,
00:06:27Markdown-Instruktionen zu befolgen. Früher brauchte ich einen Claude Code Hook,
00:06:32um sicherzustellen, dass Bun statt NPM zur Installation genutzt wird.
00:06:36Aber jetzt kann ich das in die claude.md schreiben, und mit einem guten Modell wie Opus
00:06:42wird das in 90 bis 95 % der Fälle befolgt.
00:06:44Was er also sagen will: Wenn man eine ausreichend detaillierte und gut strukturierte
00:06:49Markdown-Datei hat, kann das Modell darauf basierend gute Software erstellen.
00:06:55Aber das heißt nicht, dass GStack nur eine Ansammlung von Markdown-Instruktionen ist.
00:06:59Jeder Skill hat sein eigenes Verzeichnis, sogar die Funktion zum Upgraden von GStack.
00:07:03Betrachten wir den Browse-Skill, sehen wir eine Template-Datei und die eigentliche
00:07:08Skill-Datei.
00:07:09Und das hat nichts mit Go-Templates zu tun, egal was die GitHub-Seite sagt.
00:07:14Es funktioniert so: Unter scripts/genskill liest die TypeScript-Datei
00:07:20die Template-Dateien und ersetzt Platzhalter darin durch echtes Markdown.
00:07:26Ich werde mich nicht auf jeden Skill einzeln konzentrieren, da sie sehr detailliert sind.
00:07:30Wichtig ist jedoch, dass der Browse-Skill mehr als nur eine skill.md-Datei hat,
00:07:35da wir hier ein Test-Verzeichnis haben und auch das Source-Verzeichnis,
00:07:40das die eigentliche Implementierung für das Browsermanagement enthält.
00:07:42Man sieht also, dass die Befehle hier ziemlich komplex sind.
00:07:46Ein Blick in das Changelog zeigt wirklich interessante Features wie
00:07:49End-to-End-Observability, inkrementelle Eval-Speicherungen usw., was zur App-Entwicklung genutzt wird.
00:07:55Es teilt Reviews in einem To-do-Format.
00:07:56Es unterstützt Screenshot-Element- und Region-Clipping,
00:07:58ganz zu schweigen von den Integrationen mit Greptile und der Tatsache, dass es für Conductor konzipiert wurde.
00:08:03Die Millionen-Dollar-Frage ist also: Werde ich persönlich GStack nutzen?
00:08:07Und ich würde sagen: Ja, ich werde es für 30 Tage testen.
00:08:11Ich lösche das Superpowers-Plugin und mache GStack zu meinem Haupt-Tool,
00:08:15um Features vorzubereiten und Bugs zu fixen, und schaue, wie es läuft.
00:08:21Wer weiß?
00:08:23Vielleicht klone ich einfach das nächste Open-Source-Tool von Vercel und sorge für neuen Beef auf Twitter.
00:08:24Abonniert den Kanal und lasst es uns herausfinden.

Key Takeaway

GStack transformiert Claude Code durch CEO-orientierte Workflows und automatisierte QA-Prozesse in ein hochproduktives Entwicklungswerkzeug, das die Grenze zwischen technischer Implementierung und strategischer Planung verwischt.

Highlights

GStack ist ein von Y-Combinator-CEO Gary Tan entwickeltes Toolkit für Claude Code, das fast 100 Pull Requests in sieben Tagen ermöglicht.

Das Framework umfasst neun spezialisierte Workflows, darunter Headless-Browsing mit Playwright und Integrationen mit Greptile.

Ein zentrales Feature ist der "plan_ceo_review"-Modus, der Probleme aus der Perspektive eines Gründers analysiert und den Projektumfang strategisch bewertet.

GStack bietet automatisierte QA-Zyklen, die lokale Server starten und Features mittels Screenshots auf Fehler wie 500er-Statuscodes prüfen.

Gary Tans These "Markdown ist der neue Code" unterstreicht die wachsende Bedeutung strukturierter Instruktionen für moderne KI-Modelle.

Die technische Basis nutzt TypeScript-Skripte, um komplexe Markdown-Templates mit realen Daten und Logiken für die KI-Ausführung zu füllen.

Timeline

Einführung in GStack und Gary Tans Vision

Der Sprecher stellt GStack vor, ein persönliches Toolkit des Y-Combinator-CEOs Gary Tan, das speziell für die Optimierung von Claude Code entwickelt wurde. Es wird betont, dass Gary Tan seine umfassende Erfahrung als Investor und Gründer genutzt hat, um Workflows zu erstellen, die weit über einfaches Coding hinausgehen. Das Toolkit enthält Funktionen wie Headless-Browsing mit Playwright und eine diff-sensitive Qualitätssicherung, um die Effizienz massiv zu steigern. Zudem wird ein kontroverser Tweet von Tan thematisiert, der die Zukunft der Softwareentwicklung und die Rolle von Entwicklern in Frage stellt. Dieser Abschnitt legt den Grundstein für das Verständnis, warum GStack mehr als nur eine Sammlung von Skripten ist.

Installation und erste Schritte mit Claude Code

In diesem Teil wird die technische Einrichtung von GStack erläutert, wofür die Installation von Claude Code und Bun zwingend erforderlich ist. Der Prozess integriert spezifische Skills direkt in die claude.md-Datei, was die Grundlage für die KI-Interaktion bildet. Der Sprecher demonstriert die Installation und zeigt, wie das System automatisch notwendige Abhängigkeiten wie Playwright-Browser herunterlädt. Als praktisches Testprojekt wird die Entwicklung eines Screenshot-Features für eine React-Vite-Anwendung gewählt, um die Leistungsfähigkeit des Toolkits zu demonstrieren. Damit wird verdeutlicht, wie nahtlos sich GStack in bestehende Entwicklungsumgebungen und Team-Workflows integrieren lässt.

Strategische Planung im CEO- und Engineering-Modus

Der Fokus liegt hier auf dem Skill "plan_ceo_review", der eine Aufgabe aus der strategischen Sicht eines Firmengründers bewertet. GStack hinterfragt hierbei Annahmen über den Wert eines Features und schlägt verschiedene Ausbaustufen vor, von minimal bis umfassend. Der Sprecher wählt die maximale Umfangserweiterung, woraufhin das Tool einen detaillierten Implementierungsplan inklusive Architekturdiagrammen und Edge-Case-Definitionen erstellt. Parallel dazu wird der "plan_engineering_review" erwähnt, der eher die Rolle eines Tech-Leads einnimmt und technische Entscheidungen validiert. Dieser strukturierte Ansatz zeigt, wie KI dabei hilft, komplexe Architekturentscheidungen bereits vor der ersten Zeile Code fundiert zu treffen.

Implementierung, QA und automatisierte Fehlerbehebung

Nach der Planung folgt die eigentliche Umsetzung, bei der GStack Befehle wie "Review" und "QA" nutzt, um die Codequalität sicherzustellen. Das System führt automatisierte Tests auf einem lokalen Server aus und nutzt visuelle Prüfungen, um Fehler wie JSON-Parsing-Probleme oder Serverfehler zu identifizieren. Besonders beeindruckend ist, dass Claude die gefundenen Fehler direkt korrigiert, die Fixes verifiziert und anschließend einen Abschlussbericht erstellt. Der Sprecher zeigt, wie das Tool eigenständig Pull Requests erstellt und mit dem Main-Branch synchronisiert, ohne dass ein manuelles Eingreifen nötig ist. Dies illustriert die enorme Zeitersparnis durch die Automatisierung des gesamten CI/CD-Zyklus innerhalb von Claude.

Live-Test des Features und Greptile-Integration

Das fertige Feature wird live getestet und erweist sich als äußerst umfangreich, mit Funktionen für Light/Dark-Mode, verschiedene Seitenverhältnisse und Hintergründe. Es wird deutlich, dass die KI nicht nur Basisfunktionalität geliefert hat, sondern ein poliertes Produkt mit komplexen UI-Optionen. Zusätzlich wird die Integration von Greptile gezeigt, die tiefere Code-Analysen wie Race Conditions oder Ressourcenprobleme im Pull Request aufdeckt. Über den Review-Befehl behebt GStack diese kritischen Anmerkungen fast vollständig automatisiert, was die Robustheit des generierten Codes erhöht. Der Sprecher äußert sich sichtlich beeindruckt von der Tiefe und Qualität der erstellten Softwarekomponenten.

Analyse der Markdown-Philosophie und technischer Deep Dive

Im abschließenden Teil analysiert der Sprecher Gary Tans Aussage, dass Markdown der neue Code sei, und ordnet sie als Fokus auf präzise Instruktionen ein. Es wird erklärt, dass moderne Modelle wie Opus komplexe Markdown-Vorgaben so zuverlässig umsetzen, dass sie herkömmliche Konfigurationsdateien teilweise ersetzen können. Technisch wird beleuchtet, wie GStack intern TypeScript nutzt, um Templates zu generieren und komplexe Browsing-Aufgaben zu steuern. Der Sprecher kündigt an, GStack für 30 Tage als Haupt-Tool zu nutzen und seine bisherigen Plugins dafür zu entfernen. Das Video endet mit dem Fazit, dass GStack ein mächtiges Ökosystem für Entwickler ist, die die Grenzen der KI-gestützten Programmierung ausreizen wollen.

Community Posts

View all posts