Das größte Problem von KI-Coding ist endlich gelöst

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00KI hat das Programmieren für jeden zugänglich gemacht, und die Leute haben begonnen,
00:00:04Code in einem viel schnelleren Tempo zu veröffentlichen.
00:00:05Aber in einem noch schnelleren Tempo häuften sich Sicherheitsprobleme in diesen Apps an.
00:00:09Und in den letzten Monaten hat sich die Lage tatsächlich verschlechtert.
00:00:12Es gab viele Fälle, in denen ein Agent das gesamte Projekt von jemandem gelöscht hat.
00:00:16Ein anderer Agent löschte eine komplette Produktionsdatenbank, während der Entwickler
00:00:20an etwas völlig anderem arbeitete.
00:00:22Und es gab viele ähnliche Probleme, wie das Leak von Apples internem Clod.md.
00:00:26Werkzeuge, die diese Probleme erkennen können, sind heute wichtiger denn je.
00:00:30Angesichts dieser Zunahme hat Vercel DeepSec veröffentlicht, ein Sicherheits-Harness
00:00:35zur Erkennung von Sicherheitslücken in KI-generierten Anwendungen.
00:00:37Man könnte meinen, dass Claude-Code Sicherheitsüberprüfungen bereits allein durchführen kann.
00:00:42Warum sollte man also DeepSec überhaupt benötigen?
00:00:44Weil DeepSec ein strukturiertes Tool ist, das Überprüfungen weitaus systematischer handhabt.
00:00:49Unter der Haube nutzt es Coding-Agenten wie Claude-Code und Codex.
00:00:52Das Tool ist für das Scannen großer Repositories konzipiert, da es ein paralleles Design
00:00:57unterstützt, das den Workflow beschleunigt und Code in mehrere Gruppen bündelt,
00:01:01was es perfekt für die Überprüfung großer Codebasen macht.
00:01:03Dabei wurde nicht primär auf Kosteneffizienz geachtet.
00:01:06Es werden die leistungsstärksten Modelle von Claude-Code und Codex verwendet,
00:01:10wie Opus 4.7 bei maximalem Aufwand und GPT 5.5 mit extrem hoher Logikfähigkeit.
00:01:16Durch den parallelen Betrieb summiert sich der Token-Verbrauch schnell und erhöht die Kosten.
00:01:20Mehrere bekannte Apps haben dieses Harness bereits genutzt und gute Ergebnisse gemeldet.
00:01:25In den durchgeführten Tests liegt die Falsch-Positiv-Rate dieses Tools bei etwa 10-20 %.
00:01:30Diese Zahl ist beachtlich, wenn man die übliche Genauigkeit von LLMs betrachtet.
00:01:33Umgekehrt bedeutet dies, dass der Agent meistens richtig liegt und die Trefferquote hoch ist.
00:01:37Die Architektur dahinter ist das, was den Unterschied ausmacht.
00:01:38Wenn Sie Claude-Code oder einen Agenten um einen Sicherheits-Review bitten,
00:01:40beginnt dieser direkt mit dem Scannen der Codebasis und erstellt dann einen Bericht.
00:01:45Das kostet nicht nur viel Zeit, sondern verbraucht auch viele Token,
00:01:48und die Überprüfung könnte dennoch Dinge übersehen.
00:01:52Der erste Teil dieses Workflows ist daher ein Scan,
00:01:53der eine reine RegEx-Prüfung aller Dateien auf sicherheitsrelevante Bereiche durchführt.
00:01:58Diese RegEx-Erkennung ist wichtig, da das Tool für große Codebasen ausgelegt ist,
00:02:01die leicht Tausende von Dateien enthalten können.
00:02:06RegEx-Matching nutzt Codemuster, die bekannte, anfällige Bereiche identifizieren,
00:02:08und filtert diese Dateien dann aus dem großen Pool heraus.
00:02:13Sobald die Dateien gefiltert sind, folgt im nächsten Schritt die Untersuchung durch den Agenten.
00:02:16Der Agent ist der teure Teil, der viele Token verbraucht und normalerweise
00:02:21viel Zeit in Anspruch nimmt, abhängig von der Größe Ihrer Codebasis.
00:02:25Dieses Tool teilt daher alle Dateien in Batches auf und parallelisiert diese,
00:02:28sodass sie gleichzeitig verarbeitet werden können.
00:02:32Nach diesem Prozess folgt ein Schritt der Revalidierung,
00:02:34bei dem die Untersuchung erneut geprüft wird, um Falsch-Positive abzugleichen.
00:02:37Falls etwas übersehen wurde, wird es hier erfasst, um sicherzustellen,
00:02:40dass die Klassifizierung korrekt durchgeführt wurde.
00:02:45Diese Revalidierung ist eigentlich optional.
00:02:46Danach nutzt der Agent Git-Metadaten und andere Quellen, um festzustellen,
00:02:47welche Personen für welche Probleme verantwortlich sind.
00:02:51Wenn das erledigt ist, werden die Ergebnisse als Markdown oder JSON gespeichert,
00:02:53sodass sie in Tickets für Menschen oder Coding-Agenten umgewandelt werden können.
00:02:57Wie bereits erwähnt, werden die Dateien in Gruppen von etwa 5 Dateien pro Batch verarbeitet.
00:03:01Für jeden Batch wird ein neuer Prompt basierend auf dem Framework
00:03:05und anderen Projektinformationen zusammengestellt.
00:03:06Diese werden dann vom Claude-Agent-SDK oder Codex-Agent-SDK analysiert,
00:03:11wobei diese Werkzeuge nur Lesezugriff auf die Codebasis erhalten.
00:03:12Sobald die Ergebnisse vorliegen, wird alles in einer einzigen Datei zusammengeführt,
00:03:17bereinigt und normalisiert.
00:03:22Am Ende gibt es einen Follow-up-Schritt, um sicherzustellen,
00:03:26dass die Analyse tatsächlich alles abgedeckt hat.
00:03:27Diese Architektur macht es durch den systematischen Prozess und die strukturierte Analyse
00:03:31effektiv und hilft, Probleme weitaus besser zu identifizieren als ohne das Harness.
00:03:36Um das zu testen, haben wir ein Open-Source-Webprojekt verwendet,
00:03:41das absichtlich eingebaute Sicherheitsrisiken zu Übungszwecken enthielt.
00:03:45Wir wollten sehen, ob das Tool alle Probleme in diesem Repo eigenständig erkennt.
00:03:47Dieses Projekt enthält 10 Sicherheitsprobleme, deren Details direkt im Code stehen,
00:03:52einschließlich der Information, wie sie zu beheben sind.
00:03:53Um DeepSec auszuführen, nutzt man zuerst den Befehl „deepsec init“,
00:03:56der Abhängigkeiten installiert und einen .deepsec-Ordner erstellt.
00:03:58Anschließend installiert man die Abhängigkeiten innerhalb dieses Ordners.
00:04:03Man erhält zudem einen Prompt, den man in den jeweiligen Coding-Agenten einfügt.
00:04:08Da wir Claude-Code nutzten, führten wir den Prompt in Claude aus,
00:04:12der Anweisungen zum Erstellen einer kleinen info.md-Datei enthält,
00:04:16die alle Projektinformationen basierend auf einer Vorlage enthält.
00:04:21Man muss diesen Befehl nicht im Projektordner selbst ausführen,
00:04:23sondern im .deepsec-Ordner, da er den Agenten anweist,
00:04:27im übergeordneten Verzeichnis nach Informationen zu suchen.
00:04:31Die info.md-Datei enthält eine allgemeine Übersicht über die Codebasis,
00:04:32den Authentifizierungs-Flow, Bedrohungsmodelle, projektspezifische Muster
00:04:37und alle bekannten Falsch-Positiven im Code.
00:04:42Sobald diese Datei erstellt ist, folgt als Nächstes der Befehl „deepsec scan“.
00:04:44Dieser Befehl ist der zuvor erwähnte RegEx-Matcher, der Endpunkte findet
00:04:48und alle gefilterten Dateien mit potenziellen Sicherheitsproblemen auflistet.
00:04:52Dieser Teil geht schnell, da es sich um eine rein programmgesteuerte Aktion handelt.
00:04:57Der nächste Schritt ist die Ausführung des Befehls „deepsec process“.
00:05:00Hier kann jeder API-Key des gewünschten Modells in der .env.local-Datei
00:05:02hinterlegt werden, sei es das Vercel-API-Gateway, Codex oder Claude.
00:05:07Wenn man dies nicht tut, wird automatisch das Claude-Code-Abonnement
00:05:11genutzt, was anstelle eines API-Keys Ihre Authentifizierung verwendet.
00:05:16Es teilt das Projekt in Batches auf und wendet mehrere Tools auf jeden Batch an.
00:05:19Nach jedem Batch gibt es eine Zusammenfassung der verbrauchten Token
00:05:23und der geschätzten Kosten.
00:05:27Bei Nutzung eines Abonnements fallen keine Kosten über die Grundgebühr hinaus an,
00:05:28aber es liefert dennoch eine Schätzung für die API-Kosten.
00:05:32Da es für große Codebasen konzipiert ist, wird auch auf Zuverlässigkeit geachtet.
00:05:35Falls während des Reviews Fehler auftreten, wird nicht alles von vorn gestartet,
00:05:39sondern an der Stelle fortgesetzt, an der der Fehler auftrat.
00:05:43Sobald der Scan abgeschlossen ist, führt man den Befehl „deepsec report“ aus.
00:05:46Dieser generiert einen Bericht im JSON- und Markdown-Format mit einer Übersicht
00:05:50aller Funde, kategorisiert nach Schweregrad.
00:05:55Nachdem dieser Bericht erstellt wurde, kann die Revalidierung durchgeführt werden.
00:05:56Dieser Schritt ist vollkommen optional.
00:06:00Man kann ihn ausführen oder komplett überspringen.
00:06:02Wenn man ihn nutzt, validiert er die Funde, um zu prüfen,
00:06:04ob es sich um Falsch-Positive handelt oder nicht.
00:06:08Danach kann man alles mit dem Export-Befehl exportieren,
00:06:09wodurch die Ergebnisse in den „findings“-Ordner geschrieben werden.
00:06:13Dieser Ordner enthält die Probleme nach Priorität sortiert in Unterordnern
00:06:15und erstellt pro identifiziertem Problem eine eigene Datei.
00:06:20Zuerst wird die Quelle des Problems genannt, also die Datei und die Zeilen,
00:06:22der Schweregrad und wie sicher sich das Modell bei der Identifizierung war.
00:06:26Es wird auch erwähnt, welcher Commit das Problem eingeführt hat,
00:06:30und der verantwortliche Benutzer wird zugewiesen.
00:06:34Es erklärt die empfohlene Behebung, listet Revalidierungsergebnisse auf
00:06:39und nennt alle explizit behandelten Probleme.
00:06:41Zudem sind Schritte zur Reproduktion der Fehler in den Ergebnissen enthalten.
00:06:44Allerdings identifizierte dieser Bericht nicht alle Probleme, obwohl
00:06:48die Informationen dazu im Code selbst vorhanden waren.
00:06:52Wir haben daher mit Claude analysiert, warum die absichtlich eingebauten
00:06:56Vulnerabilitäten nicht erkannt wurden.
00:06:59Bei der Analyse mit Claude stellten wir fest, dass der Grund für nur 3 Funde
00:07:03eine explizite Erwähnung in der info.md-Datei war.
00:07:07DeepSec erwartete eine App, in der die 10 Schwachstellen bereits bekannt sind,
00:07:12und konzentrierte sich nur auf Probleme außerhalb dieser Liste.
00:07:16Es versuchte also, über das Bekannte hinauszugehen und sich auf andere Muster zu fokussieren,
00:07:21um den Scan effektiver zu machen und keine Token für dokumentierte Probleme zu verschwenden.
00:07:25Danach testeten wir eine andere App, um zu sehen, ob es diesmal besser lief.
00:07:28Wir führten dieselben Schritte aus, vom Scan bis zur Verarbeitungsphase.
00:07:32Die Revalidierung ließen wir weg, erstellten den Bericht und exportierten ihn direkt.
00:07:36Diesmal enthielt Claudes info.md-Datei nur Details zur App ohne
00:07:42die einschränkenden Aussagen wie zuvor.
00:07:43Parallel dazu baten wir Claude, den Code zu prüfen und eine report.md-Datei
00:07:48mit einem kompletten Sicherheits-Review zu erstellen, um beide zu vergleichen.
00:07:52Der von DeepSec erstellte Bericht fand mehrere Bugs in verschiedenen Schweregraden.
00:07:56Es wurden 9 Probleme gefunden und ein detaillierter Bericht mit
00:08:01Behebungsschritten erstellt.
00:08:02Diese empfohlenen Schritte fehlen oft in anderen Berichten, dabei helfen sie
00:08:05dem Agenten sehr zu verstehen, wie das Problem zu lösen ist.
00:08:09Wir bemerkten jedoch, dass Claudes Bericht viel detaillierter war und 39 Probleme aufzeigte.
00:08:13Wir baten daher zuerst um einen Vergleich der Unterschiede (Diff).
00:08:15Der Diff zeigte, dass Claudes Anzahl tatsächlich größer war.
00:08:18Aber das hatten wir bereits bei unseren Tests mit Codex gesehen.
00:08:20Claude neigt dazu, nebenbei auch andere Probleme außerhalb des Fokus zu finden.
00:08:24Es konzentriert sich nicht nur auf die spezifischen Themen, für die DeepSec konzipiert wurde.
00:08:29Als wir es baten, nur den Fokusbereich zu prüfen, reduzierte es die Funde auf 13 Probleme.
00:08:34Trotzdem gab es einige Punkte, die DeepSec übersah, die aber in Claudes Bericht standen.
00:08:38Der Grund dafür ist, dass DeepSec sich auf Probleme konzentriert, die direkt
00:08:43im Code stehen und innerhalb der Funktionen gelöst werden können.
00:08:47Es erkennt keine Probleme, die erst bei der Ausführung entstehen, wie
00:08:52etwa CORS-bezogene Schwierigkeiten.
00:08:53Es liegt auch kein Fokus auf logischen Mustern oder architektonischen Entscheidungen.
00:08:57Wie erwähnt, nutzt es RegEx, um Dateien zuerst herauszufiltern.
00:09:01Daher konzentriert es sich auf das, was explizit im Code vorhanden ist,
00:09:05und nicht auf dynamische Probleme während der Laufzeit.
00:09:08Wenn Ihnen unser Content gefällt, drücken Sie bitte den Hype-Button,
00:09:12da uns das hilft, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.
00:09:15Anstatt diese Schritte einzeln manuell auszuführen, haben wir diesen DeepSec-Skill erstellt,
00:09:20der alle Anweisungen zur Nutzung von Vercels Sicherheits-Scanner enthält
00:09:24und erkennt, was genau vom Benutzer angefragt wird.
00:09:28Er folgt dann dem gesamten Prozess und verwaltet das Harness eigenständig.
00:09:32Er ist zudem mit diversen Assets, Evals und Referenzen für alle Probleme gebündelt,
00:09:37zusammen mit Skripten, die bei der Lösung und dem allgemeinen Betrieb
00:09:42dieses Repositories helfen können.
00:09:43Damit können Sie einfach den Sicherheits-Scan starten und das Modell wählen,
00:09:47und das Tool übernimmt die komplette Abwicklung für Sie.
00:09:50Es durchläuft alle Schritte und adressiert auch die zuvor übersehenen Probleme,
00:09:54wodurch ein viel besserer Security-Review möglich wird, der DeepSecs Stärken nutzt
00:09:59und gleichzeitig dessen Lücken in den Ergebnissen schließt.
00:10:02Diesen Skill und alle Ressourcen finden Sie bei AI Labs Pro passend zu diesem Video
00:10:07und zu allen unseren bisherigen Videos zum Download für Ihre eigenen Projekte.
00:10:11Wenn Sie unsere Arbeit wertvoll finden und den Kanal unterstützen möchten,
00:10:15ist dies der beste Weg dafür.
00:10:16Der Link befindet sich in der Beschreibung.
00:10:17Damit sind wir am Ende dieses Videos angelangt.
00:10:19Wenn Sie uns helfen möchten, weiterhin solche Videos zu produzieren,
00:10:23können Sie den Super-Thanks-Button unten benutzen.
00:10:25Wie immer, danke fürs Zuschauen und bis zum nächsten Mal.

Key Takeaway

Das DeepSec-Harness von Vercel löst das Problem unzuverlässiger KI-Sicherheitsprüfungen durch einen mehrstufigen Prozess aus RegEx-Filterung, paralleler Agenten-Analyse und optionaler Revalidierung.

Highlights

  • Vercel DeepSec reduziert Sicherheitslücken in KI-generiertem Code durch ein systematisches Harness-System.

  • Das Tool erreicht in Tests eine Falsch-Positiv-Rate von lediglich 10 bis 20 Prozent.

  • Die Analyse nutzt Hochleistungsmodelle wie Opus 4.7 und GPT 5.5 für maximale logische Tiefe bei der Sicherheitsprüfung.

  • DeepSec verarbeitet Code in Batches von etwa fünf Dateien gleichzeitig, um die Geschwindigkeit durch Parallelisierung zu erhöhen.

  • Ein initialer RegEx-Scan filtert relevante Dateien aus großen Repositories mit tausenden Dateien effizient heraus.

  • Berichte werden in den Formaten JSON und Markdown ausgegeben, um eine direkte Umwandlung in Tickets zu ermöglichen.

Timeline

Sicherheitsrisiken durch KI-Agenten

  • KI-Agenten verursachen zunehmend kritische Datenverluste in Produktionsumgebungen.
  • Infrastruktur-Leaks wie das interne Clod.md von Apple resultieren aus unkontrolliertem KI-Einsatz.

Die Geschwindigkeit der Code-Veröffentlichung durch KI übertrifft die Kapazitäten für Sicherheitsprüfungen. In dokumentierten Fällen löschten Agenten gesamte Projekte oder Produktionsdatenbanken während laufender Entwicklungsarbeiten. Diese Vorfälle verdeutlichen den dringenden Bedarf an automatisierten, aber strukturierten Sicherheitswerkzeugen.

Architektur und Funktionsweise von DeepSec

  • DeepSec nutzt ein paralleles Design für das Scannen großer Codebasen.
  • Das System priorisiert logische Präzision durch Opus 4.7 und GPT 5.5 gegenüber reiner Kosteneffizienz.
  • Die Trefferquote übertrifft die Standardgenauigkeit herkömmlicher Large Language Models deutlich.

Im Gegensatz zu einfachen Prompts an KI-Modelle arbeitet DeepSec systematischer und bündelt Code in Gruppen. Die Verwendung leistungsstarker Modelle führt zwar zu einem höheren Token-Verbrauch, senkt jedoch die Falsch-Positiv-Rate auf einen Bereich von 10 bis 20 Prozent. Dies macht das Tool für professionelle Softwareprojekte mit hohem Sicherheitsanspruch nutzbar.

Der mehrstufige Analyse-Workflow

  • Ein RegEx-basierter Vor-Scan identifiziert bekannte Codemuster für Schwachstellen.
  • Agenten erhalten ausschließlich Lesezugriff auf die in Batches aufgeteilte Codebasis.
  • Optionale Revalidierungsschritte gleichen die Ergebnisse ab, um die Klassifizierung zu sichern.

Der Prozess beginnt mit einer schnellen Filterung durch reguläre Ausdrücke, um die Menge der zu prüfenden Dateien für die teureren KI-Agenten zu reduzieren. Nach der Batch-Verarbeitung führt das System die Ergebnisse in einer normalisierten Datei zusammen. Git-Metadaten helfen am Ende dabei, Verantwortlichkeiten für spezifische Probleme direkt zuzuweisen.

Praktische Anwendung und Initialisierung

  • Der Befehl 'deepsec init' erstellt die notwendige Infrastruktur und Konfigurationsordner.
  • Eine info.md-Datei liefert dem System Kontext über Authentifizierungs-Flows und Bedrohungsmodelle.
  • Fehler während des Scans führen nicht zum Neustart, sondern erlauben die Fortsetzung am Fehlerpunkt.

Die Integration erfolgt über CLI-Befehle, wobei ein lokaler .deepsec-Ordner alle Abhängigkeiten verwaltet. Die Erstellung einer Übersicht über die Codebasis ist essenziell, damit der Agent den Fokus auf relevante Bereiche legt. Das System ist auf Zuverlässigkeit ausgelegt und speichert den Fortschritt kontinuierlich ab.

Ergebnisse und Limitierungen der statischen Analyse

  • DeepSec kategorisiert Funde nach Schweregrad und liefert konkrete Reproduktionsschritte.
  • Das Tool konzentriert sich auf explizite Code-Probleme statt auf dynamische Laufzeitfehler.
  • Dokumentierte Schwachstellen werden ignoriert, um Token-Kosten für bereits bekannte Probleme zu sparen.

In Tests erkannte DeepSec gezielt Probleme, die innerhalb der Funktionen gelöst werden können. Architektonische Entscheidungen oder Laufzeitphänomene wie CORS-Probleme werden aufgrund der RegEx-basierten Vorfilterung oft nicht erfasst. Die Berichte enthalten jedoch detaillierte Lösungsvorschläge, die den Behebungsprozess beschleunigen.

Automatisierung durch spezialisierte Skills

  • Spezialisierte Skills automatisieren den gesamten DeepSec-Prozess inklusive Asset-Verwaltung.
  • Die Kombination aus Harness und zusätzlichen Skripten schließt Lücken in der Standard-Analyse.

Anstatt jeden Befehl manuell auszuführen, fassen neue Automatisierungsebenen den Workflow zusammen. Diese Erweiterungen verwalten das Harness eigenständig und integrieren Referenzen für bekannte Sicherheitsmuster. Dies ermöglicht einen umfassenderen Security-Review, der die strukturellen Stärken von DeepSec mit flexibleren Korrektur-Skripten verbindet.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video