Log in to leave a comment
No posts yet
소프트웨어 공학의 패러다임이 변하고 있습니다. Anthropic의 연구원 Nicholas Carlini가 수행한 이번 프로젝트는 단순히 AI에게 코딩을 시킨 수준이 아닙니다. 16개의 Claude Opus 4.6 인스턴스를 동원해 인간의 개입을 최소화한 채 밑바닥부터 Rust 기반 C 컴파일러를 구축해냈습니다.
이 결과물은 10만 라인의 코드로 구성되었으며, 리눅스 6.9 커널을 빌드하고 고전 게임인 Doom을 실행하는 데 성공했습니다. 하지만 화려한 겉모습보다 중요한 것은 2만 달러(약 2,700만 원)라는 API 비용을 쏟아부으며 발견한 에이전틱 워크플로우의 한계와 가능성입니다. 단순히 프롬프트를 잘 쓰는 단계를 넘어, AI를 어떻게 시스템적으로 통제하고 협업시킬 것인지에 대한 엔지니어링 실체를 파헤쳐 봅니다.
복잡한 시스템 프로그래밍에서 단일 에이전트는 금세 컨텍스트 윈도우의 한계에 부딪힙니다. 시간이 흐를수록 과거의 대화 기록이 현재의 판단을 흐리는 환각 현상이 발생하기 때문입니다. Carlini는 이를 해결하기 위해 16개의 독립적인 Docker 컨테이너와 함께 RALF(Refresh, Act, Learn, Feedback) 루프를 도입했습니다.
README.md에 기록하고 Git에 푸시하여 지식을 동기화합니다.16개의 에이전트가 동시에 투입될 때 가장 큰 리스크는 자원 낭비입니다. 두 에이전트가 같은 버그를 수정하려 들면 코드 충돌은 물론 API 비용만 두 배로 청구됩니다. Carlini는 별도의 복잡한 데이터베이스 대신 Git 저장소 내의 텍스트 플래그를 활용한 경량 락킹(Locking) 메커니즘을 구현했습니다.
에이전트는 특정 작업을 시작하기 전 current_tasks/ 디렉토리에 작업 이름과 동일한 파일을 생성합니다. Git의 원자적 커밋 특성 덕분에, 동일한 파일을 생성하려던 다른 에이전트의 푸시는 거절됩니다. 이 단순한 시스템이 에이전트 간의 경쟁 상태(Race Condition)를 원천 차단했습니다.
이번 프로젝트의 백미는 기성 도구인 GCC를 오라클(Oracle)로 활용했다는 점입니다. AI에게 정답을 추측하게 하는 대신, 시스템적으로 정답을 강제하는 전략입니다. 거대한 리눅스 커널 빌드에서 오류가 발생했을 때, Carlini는 이진 탐색(Binary Search) 알고리즘을 자동화했습니다.
성과는 압도적이었으나 생성된 컴파일러의 성능은 GCC의 최저 최적화 단계(-O0)에도 미치지 못했습니다. Claude 에이전트 군단은 다음과 같은 고차원적 엔지니어링 영역에서 한계를 보였습니다.
엔지니어링 매니저 입장에서 2만 달러는 결코 비싼 금액이 아닙니다. 전문 팀 5명이 3개월 이상 투입되어야 할 과제를 단 2주 만에 끝냈기 때문입니다. 이는 전통적인 인건비 대비 약 10배 이상의 가성비를 증명합니다. 기업이 이 모델을 도입하려면 다음의 의사결정 트리를 따라야 합니다.
| 질문 | Yes | No |
|---|---|---|
| 결과물을 테스트로 객관적 검증이 가능한가? | 다음 단계 진행 | 도입 부적합 (환각 위험) |
| 비교 가능한 기존 도구(오라클)가 있는가? | 오라클 전략 채택 | 인간의 상시 모니터링 필요 |
| 작업을 100개 이상의 단위로 분할 가능한가? | 병렬 에이전트 운용 | 단일 에이전트 권장 |
progress.json 등에 기록하도록 강제하십시오.Anthropic의 실험은 엔지니어의 역할이 코드 작성자에서 시스템 설계 및 감사자로 이동했음을 의미합니다. 이제 중요한 역량은 직접 알고리즘을 짜는 능력이 아니라, AI 에이전트 군단이 제 궤도를 벗어나지 않도록 논리적 구속 조건과 검증 하네스를 설계하는 능력입니다.
2만 달러라는 비용은 단순한 지출이 아니라, 인간의 정교한 설계가 뒷받침될 때 AI가 도달할 수 있는 자동화의 상한선을 보여준 이정표입니다. 기업은 이제 AI의 자율성에만 매몰되지 말고, 인간의 전략적 스티어링을 시스템화하는 데 집중해야 합니다.