Shannon: Der Open-Source KI-Pentester auf Basis von Claude Code

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Das ist Shannon, ein quelloffener, autonomer KI-Pen-Tester, der Code-Analysen durchführt und
00:00:05Live-Exploits mittels Browser-Automatisierung ausführt, um Sicherheitslücken aller Art zu finden – von
00:00:11Server-Side Request Forgery über Cross-Site Scripting bis hin zu SQL-Injection und vielem mehr. Er liefert
00:00:17einen detaillierten, umfassenden Sicherheitsbericht ohne Fehlalarme. Aber nach der Ankündigung von Claudes
00:00:22Code-Sicherheit und der Tatsache, dass Shannon auf dem Claude SDK basiert – was bedeutet, dass man
00:00:27sein Abo nicht nutzen kann – stellt sich die Frage: Lohnt es sich überhaupt, etwas zu lernen, das vielleicht nicht lange Bestand hat?
00:00:31Abonniert den Kanal und legen wir los.
00:00:32In einem meiner früheren Jobs haben wir vor einem großen Release Tausende von Dollar an externe Pen-Tester gezahlt,
00:00:38nur um festzustellen, dass es Fehler gab, die wir beheben mussten, woraufhin wir erneut testen ließen –
00:00:43was uns viel Zeit und natürlich Geld kostete. Aber genau dieses Problem soll Shannon lösen.
00:00:48Man kann Shannon beliebig oft ausführen. Man kann es sogar in eine CI/CD-Pipeline einbinden und
00:00:53automatisch laufen lassen. Und da es Open Source ist, ist es völlig kostenlos. Nun, es gibt eine Bezahlversion,
00:00:58über die wir später sprechen. Aber als jemand, der kein Sicherheitsexperte ist, jage ich mein Projekt lieber
00:01:03durch Shannon, als Kali Linux zu booten. Schauen wir uns Shannon mal in Aktion an. Shannon wurde
00:01:08mit dem Anthropic Agent SDK entwickelt. Man benötigt also einen Claude-API-Schlüssel, damit es funktioniert.
00:01:13Leider funktioniert das Abo hier auch nicht, aber ich habe es auf einem VPS mit einem Nicht-Root-Benutzer installiert
00:01:20und werde es gegen den OWASP Juice Shop testen, eine App, die zu Testzwecken voller Sicherheitslücken steckt.
00:01:25Ich habe das Shannon-Repo bereits geklont, was ihr auch tun müsst, wenn ihr es ausführen wollt.
00:01:30Damit es funktioniert, muss sich das zu testende Repository im „repos“-Verzeichnis von Shannon befinden.
00:01:34Ich habe den Juice Shop hier drin. Während das Juice-Shop-Projekt läuft,
00:01:39werde ich diesen Befehl ausführen, der sich mit der lokal laufenden App für Browser-Tests
00:01:44und mit dem Repo im Verzeichnis verbindet, um den Code zu scannen. Wenn ihr Shannon zum ersten Mal
00:01:50startet, muss es, da es Docker Compose nutzt, zuerst eine Reihe von
00:01:54Images vom Docker Hub herunterladen. Da ich das schon erledigt habe, springt es direkt hierhin.
00:01:58Wir erhalten einen Link zum Temporal-Workflow und können ihn über das Web-UI ansehen, das so aussieht
00:02:03und alle anstehenden Schritte anzeigt. Oder wir führen diesen Befehl aus, um die Logs in Echtzeit zu sehen,
00:02:07was ich manchmal bevorzuge, da das Web-UI nicht immer alle Informationen anzeigt.
00:02:12Aber Moment, was ist Temporal? Ich dachte, wir reden über Shannon. Nun,
00:02:16Shannon-Pen-Tests können je nach Projektgröße eine oder mehrere Stunden dauern, und Temporal
00:02:21garantiert eine dauerhafte Ausführung, egal was passiert. Wenn also euer Computer mitten im Test abstürzt
00:02:26oder die Cloud-Credits ausgehen und ihr nachladen müsst, geht kein Fortschritt verloren.
00:02:32Temporal merkt sich genau, wo ihr aufgehört habt, und startet Shannon an diesem Checkpoint neu. Schreibt
00:02:36mir in die Kommentare, wenn ihr ein eigenes Video zu Temporal wollt, aber es orchestriert auch alle Phasen
00:02:42und Aktivitäten von Shannon. Und obwohl es nur fünf Phasen sind, passiert darin eine ganze Menge.
00:02:47Ich zeige es euch. Den Anfang macht die „Pre-flight“-Phase, die prüft, ob die API-Zugangsdaten gültig sind,
00:02:53die Docker-Container bereitstehen und das Repo existiert. Dann folgt die „Pre-recon“-Stufe, die den
00:03:00Code analysiert, um die App zu verstehen: Architektur, Einstiegspunkte und Sicherheitsmuster.
00:03:05Als Nächstes kommt die eigentliche „Recon“-Stufe, die sich stark von der Vorstufe unterscheidet, denn hier
00:03:12wird Playwright genutzt, um durch die App zu navigieren. Es klickt auf Buttons, füllt Formulare aus und nutzt
00:03:18das, um Netzwerkanfragen zu beobachten, Screenshots zu machen und Cookies zu prüfen – im Grunde wird die ganze App kartografiert.
00:03:24In Phase vier laufen dann fünf Pipelines parallel ab. Hier haben wir zum einen
00:03:31Injection-Schwachstellen und Exploits, dann Cross-Site Scripting (XSS) samt Exploits,
00:03:38gefolgt von Authentifizierung und Server-Side Request Forgery (SSRF). Und schließlich die Autorisierung – also der Zugriff
00:03:45auf privilegierte Daten oder Infos anderer Nutzer. All das geschieht parallel auf fünf verschiedenen
00:03:52Agenten für Schwachstellen und weiteren fünf für Exploits. Zum Schluss folgt Phase fünf, die
00:03:59alles zu einem umfassenden Pen-Test-Bericht zusammenfasst, indem sie die letzten fünf Prüfungen kombiniert.
00:04:07Apropos Bericht: Sehen wir uns an, wie weit unser Pen-Test ist. Nach fast zweieinhalb Stunden
00:04:12ist der Prozess abgeschlossen. Wir sehen hier, dass es mit der Pre-flight-Validierung begann,
00:04:17gefolgt von Pre-recon und dem Recon-Agenten. Und hier laufen nun all die Schwachstellen-Checks
00:04:25durch: Injection, Cross-Site Scripting, Autorisierung und SSRF.
00:04:31Bei einigen ist die grüne Linie unterbrochen. Das liegt daran, dass ein erneuter Versuch nötig war,
00:04:36weil mir die Cloud-Credits ausgingen. Hier sieht man eine Zwei, bei den anderen gab es
00:04:40keinen Retry. Ohne diese Verzögerungen wäre es vielleicht schneller als zweieinhalb Stunden gewesen,
00:04:46aber sicher nicht unter zwei Stunden. Wie dem auch sei, nach den fünf Schwachstellen-Prüfungen
00:04:51folgen die fünf Exploit-Checks. Hier sehen wir SSRF, hier den
00:04:56Auth-Exploit, dann Injection und so weiter. Sobald das alles erledigt ist, sehen wir,
00:05:02dass der Auth-Exploit am längsten dauert. Der Report-Agent schließt dann alles ab.
00:05:07Natürlich könnten wir das alles aufklappen, um mehr Details zu jeder Phase zu sehen, aber
00:05:13ich bin kein Temporal-Experte. In der Dokumentation findet man sicher noch viel mehr
00:05:17zur Nutzung der Plattform. Aber werfen wir jetzt einen Blick auf den fertigen Bericht, den Shannon erstellt hat.
00:05:22Hier im „deliverables“-Verzeichnis unseres Juice-Shop-Projekts sehen wir die Liste aller
00:05:28erstellten Berichte. Es sind viel mehr, als ich erwartet hätte. Schauen wir uns zuerst
00:05:33diesen Bericht an, die Authentifizierungs-Analyse. Oben gibt es eine Zusammenfassung und hier
00:05:37wird vermerkt, dass 11 kritische Schwachstellen identifiziert wurden. Wir sehen auch direkt, welche.
00:05:43Null von sechs Authentifizierungs-Endpunkten haben HTTPS erzwungen – logisch, da ich es lokal
00:05:47ausgeführt habe. Außerdem fehlte die korrekte CSP-Steuerung.
00:05:52Und die Endpunkte hatten keine angemessene Ratenbegrenzung. Das ist wirklich
00:05:56detailliert. Wenn man nach unten scrollt, sieht man genau, was die Probleme waren, wo sie lagen
00:06:01und welche Endpunkte sie verursacht haben. Ich werde euch jetzt nicht mit jedem einzelnen
00:06:05Bericht langweilen, aber schauen wir uns die Zusammenfassung an, den „Comprehensive Security Assessment Report“.
00:06:10Darin finden wir Details zum verwendeten Modell und zum Projektumfang. Wenn wir weiter
00:06:15runterscrollen, sehen wir vier kritische Auth-Schwachstellen, die vollständig
00:06:21ausgenutzt wurden, und sie werden hier aufgelistet. Das ist sehr gründlich, aber schaut euch das an:
00:06:26Noch weiter unten gibt es eine Zusammenfassung. Das ist der erste IDOR-Punkt,
00:06:31und noch tiefer sieht man genau, wie ein Angreifer das ausnutzen könnte. Hier steht der exakte
00:06:38Curl-Befehl mit allen Details und der Art von Informationen, die man extrahieren könnte.
00:06:43Diesen Detailgrad gibt es für jede einzelne Schwachstelle, was zeigt, wie viel
00:06:48Sorgfalt in die Bewertung geflossen ist. Falls es euch interessiert: Ich verlinke alle
00:06:54Berichte in der Beschreibung. Aber zweieinhalb Stunden sind eine lange Zeit für Claude Sonnet,
00:06:59um ein Repo zu scannen. Hätte Shannon Pro da helfen können? Es sieht nicht so aus,
00:07:04als würde Shannon Pro bei der Geschwindigkeit helfen, aber es bietet andere Dinge wie CVSS-Scoring,
00:07:09das in der Basisversion fehlt. Es bietet CI/CD-Unterstützung und API-Zugriff. Und noch
00:07:16wichtiger für Enterprise-Nutzer: Man bekommt alles Erwartete, inklusive OWASP-Compliance-Berichten
00:07:22sowie SOC 2 und PCI DSS. Auch wenn zweieinhalb Stunden lang sind, haben meine Recherchen
00:07:27ergeben, dass der erste Durchlauf am längsten dauert und nachfolgende Runs viel schneller sind.
00:07:32Ich weiß, was ihr denkt: Fast zweieinhalb Stunden Claude Sonnet 3.5 für einen einzigen Test –
00:07:37was hat das an Credits gekostet? Sagen wir einfach: eine Menge.
00:07:43Ich habe etwa 66 $aufgeladen und am Ende blieb nur das hier übrig. Fast 60$ an Claude-Credits wurden
00:07:50für diesen Pen-Test ausgegeben. Das ist zwar günstiger als ein menschlicher Tester, aber immer noch
00:07:55viel Geld. Ich hätte liebend gern mein Claude Pro- oder Max-Abo genutzt, was das Ganze
00:08:00deutlich billiger gemacht hätte. Hoffentlich wird Claudes Code-Sicherheit das ermöglichen,
00:08:05wenn es offiziell erscheint – es sei denn, das Team von Keygraph schreibt Shannon für das OpenAI Agent SDK
00:08:10oder das Vercel AI SDK um, was die Nutzung vieler weiterer Modelle erlauben würde. Alles in allem:
00:08:16Wenn ihr ein Startup seid und kein Vermögen für menschliche Pen-Tester ausgeben wollt, ist Shannon eine
00:08:21gute Alternative. Als Indie-Hacker mit knappem Budget sollte man vielleicht abwarten und
00:08:26das Produkt erst mal veröffentlichen, um zu sehen, ob es überhaupt jemand nutzt. Wo wir gerade bei KI und Sicherheit sind:
00:08:30Wenn ihr wissen wollt, wie man OpenHands sicher auf einem VPS installiert,
00:08:34dann schaut euch das nächste Video an, in dem ich das Schritt für Schritt erkläre.

Key Takeaway

Shannon bietet eine leistungsstarke, automatisierte Alternative zu teuren menschlichen Pen-Testern, erfordert jedoch aufgrund der API-Kosten für Claude 3.5 Sonnet eine sorgfältige Budgetplanung.

Highlights

Shannon ist ein quelloffener

Timeline

Einführung in Shannon und das Problem herkömmlicher Pen-Tests

Der Sprecher stellt Shannon als autonomen KI-Pen-Tester vor, der moderne Sicherheitslücken wie SSRF und SQL-Injection aufspürt. Er reflektiert über persönliche Erfahrungen aus früheren Jobs, in denen externe Sicherheitsüberprüfungen Tausende von Dollar kosteten und oft langwierige Korrekturzyklen nach sich zogen. Shannon soll dieses Problem lösen, indem es beliebig oft und sogar innerhalb einer CI/CD-Pipeline ausgeführt werden kann. Da das Tool Open Source ist, entfallen theoretisch die Lizenzgebühren für die Software selbst. Besonders für Nicht-Experten stellt es eine benutzerfreundliche Alternative zu komplexen Tools wie Kali Linux dar.

Installation und technisches Setup mit Docker und Temporal

In diesem Abschnitt wird die technische Basis von Shannon erläutert, die auf dem Anthropic Agent SDK und Docker Compose beruht. Für den Betrieb ist ein Claude-API-Schlüssel zwingend erforderlich, da herkömmliche Abonnements nicht unterstützt werden. Ein zentraler Bestandteil der Architektur ist Temporal, ein System zur Orchestrierung von Workflows, das eine dauerhafte Ausführung sicherstellt. Dies ist besonders wichtig, da Pen-Tests mehrere Stunden dauern können und Temporal den Fortschritt bei Abstürzen an Checkpoints speichert. Der Sprecher demonstriert das Klonen des Repositories und den Startvorgang gegen die Test-App OWASP Juice Shop.

Die fünf Phasen des Pentesting-Prozesses

Der Analyseprozess von Shannon ist in fünf logische Phasen unterteilt, die hier detailliert beschrieben werden. Es beginnt mit der Pre-flight-Phase zur Validierung der Umgebung, gefolgt von einer Pre-recon-Stufe zur statischen Code-Analyse der Anwendungsarchitektur. In der Recon-Phase nutzt das Tool Playwright, um die App wie ein echter Nutzer zu navigieren und eine Karte der Endpunkte zu erstellen. Danach folgen fünf parallele Pipelines, die gezielt nach Injection, XSS, SSRF sowie Authentifizierungs- und Autorisierungsfehlern suchen. Den Abschluss bildet die Zusammenführung aller Ergebnisse in einen finalen Sicherheitsbericht.

Live-Analyse der Ergebnisse und Zeitaufwand

Der Sprecher zeigt den Fortschritt des Pen-Tests, der in seinem Fall insgesamt etwa zweieinhalb Stunden in Anspruch genommen hat. Er erklärt die Visualisierung in der Temporal-Weboberfläche, wo man die Ausführung der verschiedenen Agenten in Echtzeit verfolgen kann. Es wird deutlich, dass einige Prozesse aufgrund von Credit-Engpässen bei der API neu gestartet werden mussten, was die Gesamtdauer verlängerte. Die Authentifizierungs-Exploits stellten sich dabei als die zeitintensivsten Aufgaben heraus. Trotz der Dauer bietet das System eine Transparenz, die bei manuellen Tests oft fehlt.

Detaillierte Berichterstattung und Exploit-Beispiele

In diesem Teil wird das Verzeichnis der Projektergebnisse (deliverables) untersucht, das eine überraschende Fülle an detaillierten Berichten enthält. Der Authentifizierungsbericht deckt beispielsweise elf kritische Schwachstellen auf, wie fehlendes HTTPS oder mangelndes Rate-Limiting. Besonders beeindruckend ist der "Comprehensive Security Assessment Report", der nicht nur Lücken auflistet, sondern konkrete Angriffsszenarien beschreibt. Für jede Schwachstelle wird ein exakter Curl-Befehl bereitgestellt, mit dem Entwickler den Exploit sofort selbst reproduzieren können. Dieser Detailgrad unterstreicht die Sorgfalt der KI-gestützten Bewertung.

Kostenanalyse, Shannon Pro und Fazit

Zum Abschluss beleuchtet der Sprecher die wirtschaftliche Seite und stellt fest, dass der Test etwa 60 USD an Claude-Credits verbraucht hat. Er vergleicht dies mit der Shannon Pro-Version, die zusätzliche Features wie CVSS-Scoring und offizielle Compliance-Berichte für Unternehmen bietet. Obwohl die Kosten für einen Indie-Hacker hoch sein mögen, ist das System für Startups im Vergleich zu menschlichen Testern immer noch sehr günstig. Es wird die Hoffnung geäußert, dass zukünftige Versionen auch andere Modelle oder Abos unterstützen, um die Kosten zu senken. Das Video endet mit einem Ausblick auf die sichere Installation von OpenHands auf einem VPS.

Community Posts

View all posts