9:43Chase AI
Log in to leave a comment
No posts yet
AI는 자기가 짠 코드에 관대합니다. 안트로픽(Anthropic)이 공개한 SWE-bench(Verified) 데이터를 보면 코딩 에이전트의 실제 패치 성공률은 80%를 상회하지만, 복잡한 비즈니스 로직에서 발생하는 미묘한 엣지 케이스는 여전히 놓칩니다. 모델 스스로는 완벽하다고 판단해도 실제 구동 시 터지는 버그가 허다합니다. 이 지능적 맹점을 깨려면 Claude 3.7 Sonnet을 주 구현자로 쓰되, OpenAI의 o1이나 Codex를 적대적 검토자로 분리해서 운영해야 합니다.
검증을 확인이 아닌 부정의 관점으로 바꿀 때 오류 탐지율이 올라갑니다. 나는 프로젝트 루트에 AGENTS.md를 만들고 역할을 강제합니다.
.claude-codex-config와 AGENTS.md 파일을 만듭니다.AGENTS.md에 Codex의 페르소나를 "논리적 허점을 찾을 때마다 보상을 받는 비판적 시니어 보안 엔지니어"로 정의합니다. 칭찬은 생략하고 오직 약점만 찾으라고 명령하십시오.alias codex-audit='codex --full-auto --prompt "$(cat AGENTS.md)"'codex-audit을 실행하여 적대적 검토를 강제합니다.이 프로토콜을 도입하면 혼자 개발할 때 놓치기 쉬운 자기 객관화 문제를 시스템으로 해결합니다. 실제로 디버깅에 쏟는 시간이 주당 5시간 이상 줄어드는 경험을 하게 됩니다.
Claude 3.7은 아키텍처 이해도가 높지만 토큰 비용이 비쌉니다. 1인 개발자가 모든 검증에 고비용 모델을 처덕처덕 바르는 건 운영 리스크입니다. 변경 사항만 골라내서 검토하는 경제적 공학이 필요합니다. Codex는 처리 속도가 빠르고 단순 로직 검증에 최적화되어 있습니다.
전체 코드베이스를 다 밀어넣지 말고 수정된 영역만 집중 리뷰하십시오. 토큰 소모량을 70% 이상 아낍니다.
git add로 수정 사항을 스테이징합니다.git diff --cached | codex-audit 명령으로 변경된 코드 조각(Chunk)만 Codex에게 보냅니다.월간 API 지출을 절반으로 낮추면서도 검증 강도는 시니어 개발자 수준으로 유지하는 방법입니다.
SaaS에서 결제 로직이 깨지는 건 곧 서비스의 사망 선고입니다. Claude는 구현에 강하지만, 터미널 네이티브 환경에서의 엄격한 검증은 때로 놓칩니다. 두 모델의 강점을 결합한 3단계 안전망으로 레이스 컨디션과 보안 취약점을 막아야 합니다.
보안이 중요한 워크플로우를 처리하는 절차입니다.
이 루틴은 주니어 개발자가 흔히 저지르는 결제 중복 처리나 권한 우회 사고를 배포 전에 잡아냅니다.
AI 에이전트들은 때로 지엽적인 스타일 지적(Nitpick)을 쏟아냅니다. 사람을 지치게 만드는 알람 피로입니다. 불필요한 잔소리를 쳐내고 핵심 결함에만 집중해도 생산성이 30%는 뜁니다. AI의 피드백에도 등급이 필요합니다.
이렇게 자동화하면 24시간 상주하는 코드 리뷰어를 둔 셈입니다. 혼자 결정하고 혼자 불안해하는 1인 개발자의 고질적인 리스크가 사라집니다. 코드 품질이 상향 평준화되는 건 덤입니다.