9:43Chase AI
Log in to leave a comment
No posts yet
KI ist nachsichtig mit dem Code, den sie selbst geschrieben hat. Wenn man sich die von Anthropic veröffentlichten SWE-bench (Verified) Daten ansieht, liegt die tatsächliche Patch-Erfolgsquote von Coding-Agents zwar bei über 80 %, doch subtile Edge-Cases in komplexer Business-Logik werden nach wie vor übersehen. Selbst wenn das Modell entscheidet, dass alles perfekt ist, treten beim tatsächlichen Betrieb häufig Bugs auf. Um diesen intelligenten blinden Fleck zu überwinden, sollten Sie Claude 3.7 Sonnet als Hauptentwickler einsetzen, aber OpenAIs o1 oder Codex separat als antagonistische Prüfer fungieren lassen.
Die Fehlererkennungsrate steigt, wenn man die Verifizierung nicht als Bestätigung, sondern aus der Perspektive der Ablehnung betrachtet. Ich erstelle eine AGENTS.md im Projekt-Root und erzwinge Rollen.
.claude-codex-config und AGENTS.md im Projekt-Root.AGENTS.md die Persona von Codex als "kritischer Senior Security Engineer, der jedes Mal belohnt wird, wenn er eine logische Schwachstelle findet". Weisen Sie ihn an, Lob wegzulassen und nur nach Schwachstellen zu suchen.alias codex-audit='codex --full-auto --prompt "$(cat AGENTS.md)"'codex-audit unmittelbar nach einer Code-Änderung durch Claude aus, um eine antagonistische Überprüfung zu erzwingen.Durch die Einführung dieses Protokolls lösen Sie das Problem der fehlenden Objektivität, das bei der Einzelentwicklung oft auftritt, systemseitig. In der Praxis werden Sie erleben, dass sich die für das Debugging aufgewendete Zeit um mehr als 5 Stunden pro Woche reduziert.
Claude 3.7 hat ein hohes Verständnis für Architekturen, aber die Token-Kosten sind hoch. Für einen Solo-Entwickler ist es ein Betriebsrisiko, teure Modelle wahllos für jede Verifizierung zu verwenden. Es bedarf eines wirtschaftlichen Engineerings, das nur gezielte Änderungen prüft. Codex ist schnell in der Verarbeitung und optimiert für die Verifizierung einfacher Logik.
Füttern Sie nicht die gesamte Codebasis ein, sondern konzentrieren Sie sich auf die geänderten Bereiche. So sparen Sie über 70 % des Token-Verbrauchs.
git add.git diff --cached | codex-audit nur die geänderten Code-Fragmente (Chunks) an Codex.Dies ist ein Weg, um die monatlichen API-Ausgaben zu halbieren und gleichzeitig die Prüfintensität auf dem Niveau eines Senior-Entwicklers zu halten.
Wenn die Zahlungslogik in einer SaaS-Anwendung bricht, ist das das Todesurteil für den Service. Claude ist stark in der Implementierung, übersieht jedoch manchmal die strikte Verifizierung in terminal-nativen Umgebungen. Mit einem dreistufigen Sicherheitsnetz, das die Stärken beider Modelle kombiniert, müssen Race Conditions und Sicherheitslücken verhindert werden.
Dies ist das Verfahren für sicherheitskritische Workflows:
Diese Routine fängt Probleme wie doppelte Zahlungen oder Berechtigungsumgehungen, die Junior-Entwicklern häufig unterlaufen, noch vor dem Deployment ab.
KI-Agents geben manchmal massenhaft kleinteilige Stilkritik (Nitpicks) ab. Das führt zu Alarm-Müdigkeit und erschöpft den Entwickler. Wenn man unnötiges Genörgel aussortiert und sich nur auf Kernfehler konzentriert, steigt die Produktivität um 30 %. Auch KI-Feedback benötigt eine Priorisierung.
Durch diese Automatisierung haben Sie quasi rund um die Uhr einen Code-Reviewer an Ihrer Seite. Das chronische Risiko des Solo-Entwicklers, der alles alleine entscheidet und sich unsicher fühlt, verschwindet. Dass sich die Codequalität auf hohem Niveau einpendelt, ist ein willkommener Bonus.