제멋대로인 AI 에이전트… 이 방법으로 결정론적 시스템 만들기 (Archon)

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00AI 에이전트들이 엄청나게 강력해지고 있지만, 여전히 혼란스러운 상태입니다.
00:00:04똑같은 작업을 맡겨도 매번 완전히 다른 코드와 다른 품질,
00:00:09심지어 매번 다른 결정을 내리기도 하죠.
00:00:12이것이 에이전트를 사용하는 현재의 현실입니다.
00:00:15하지만 꼭 그럴 필요는 없다는 사실이 밝혀졌습니다.
00:00:17이것은 'Archon'이며, 이제 병합 충돌 없이 여러 에이전트를 동시에 실행하여
00:00:22일관된 결과를 얻을 수 있게 해줍니다.
00:00:24어떻게 설정하고 작동하는지 다음 몇 분 동안 정확히 보여드리겠습니다.
00:00:30Claude code, Cursor, Codex 등을 써보면 첫 번째 실행 결과는 훌륭하다는 걸 압니다.
00:00:39하지만 두 번째 실행에서는 완전히 다른 계획을 세울 수도 있죠.
00:00:42문맥이 흐트러질 수도 있고,
00:00:44에이전트가 도중에 방향을 바꿔버리기도 합니다.
00:00:47그러다 확장하려고 시도하면 어떨까요?
00:00:49에이전트 두 개, 세 개, 네 개를 쓰게 되면
00:00:51이제 여러분의 저장소는 엉망진창이 됩니다.
00:00:54진짜 문제는 따로 있습니다.
00:00:55더 이상 시간을 절약하는 게 아니라는 거죠.
00:00:57프롬프트를 계속 다시 실행하고,
00:00:58이번 실행에서는 다 망가지지 않기를 바라며 깨진 코드를 고치게 됩니다.
00:01:02무언가를 개발할 때 이런 점은 작업 속도를 정말 갉아먹습니다.
00:01:06Archon은 “하네스 엔지니어링(Harness Engineering)”이라는 방식으로 이를 해결합니다.
00:01:10에이전트가 잘 행동하기를 바라는 대신, 프로세스를 직접 정의하는 겁니다.
00:01:14기획, 코딩, 테스트, 리뷰를 모두 YAML로 정의하죠.
00:01:18또한 에이전트 스킬은 에이전트가 자동으로 로드하는 재사용 가능한 지침 팩입니다.
00:01:23따라서 에이전트는 무엇을 할지 짐작하는 대신 시스템을 따르게 됩니다.
00:01:28워크플로를 가속화하는 코딩 도구를 좋아하신다면 구독해 주세요.
00:01:32새로운 영상이 계속 올라올 예정입니다.
00:01:34자, 이제 보여드리겠습니다.
00:01:36이것은 클라우드 없이 제 M4 Pro에서 로컬로 실행 중입니다.
00:01:40'archonserv'를 입력하면,
00:01:43이런 UI 인터페이스가 나타납니다.
00:01:45Claude를 사용해 이 레포지토리에 Archon 스킬을 설치하겠습니다.
00:01:49이제 이 문제를 해결하기 위한 간단한 워크플로를 실행합니다.
00:01:54지금 이 부분을 잘 보세요.
00:01:55에이전트가 스스로 스킬을 찾아 워크플로를 로드하고 단계별로 실행합니다.
00:02:02터미널이나 여기 UI에서 진행 상황을 볼 수 있습니다.
00:02:04훨씬 보기에 좋죠.
00:02:05여기에는 프롬프트 튜닝이 필요 없습니다.
00:02:07실패하더라도 UI 내에서 투명하게 모든 과정을 볼 수 있습니다.
00:02:11어느 단계에서 문제가 생겼는지 정확히 파악하고 워크플로를 수정할 수 있죠.
00:02:15채팅 기록만 뒤져야 하는 일반 Claude code보다 훨씬 낫습니다.
00:02:20이 부분이 핵심입니다.
00:02:21별도의 Git worktree에서 실행되므로 메인 브랜치를 절대 건드리지 않습니다.
00:02:26프롬프트가 진행되며 결과가 생성되는 것을 볼 수 있습니다.
00:02:29끝났습니다. 동일한 구조와 결과의 깔끔한 PR이 생성되었네요.
00:02:33로그와 프롬프트 처리 과정, 전체 출력물을 확인할 수 있습니다.
00:02:38이것이 바로 일관성입니다.
00:02:40그렇다면 실제로 무엇이 달라진 걸까요?
00:02:42Archon을 사용하면 세 가지가 달라집니다.
00:02:45첫째는 워크플로입니다.
00:02:47Archon은 YAML DAG를 사용합니다.
00:02:50에이전트가 반드시 따라야 할 체크리스트라고 생각하시면 됩니다.
00:02:53어떤 단계는 AI를 사용하지만,
00:02:56어떤 단계는 고정되어 있습니다.
00:02:58이런 혼합 방식이 안정성을 높여줍니다.
00:03:00다음은 격리(Isolation)입니다.
00:03:01모든 실행이 별도의 Git worktree에서 일어나므로 에이전트끼리 서로 덮어쓰지 않습니다.
00:03:06그래서 병합 충돌이 발생하지 않는 거죠.
00:03:08그리고 스킬을 통해 매번 프롬프트를 채워 넣는 대신 문맥을 자동으로 로드합니다.
00:03:14따라서 일반적인 에이전트에 비해 무작위성을 완전히 제거할 수 있습니다.
00:03:19이 분야에서 LangChain 같은 도구와 비교해 보자면,
00:03:22LangChain도 훌륭하지만 Archon은 일반 봇이 아닌 '코드'를 위해 만들어졌습니다.
00:03:27그리고 스크립트와 비교했을 때, 이것은 재사용이 가능합니다.
00:03:30버전 관리가 되고,
00:03:31탐색이 가능합니다.
00:03:32에이전트가 더 이상 추측하지 않아도 되는 거죠.
00:03:34우리는 이 전체 워크플로를 가지고 있고,
00:03:36에이전트는 실제 시스템을 따르고 있습니다.
00:03:38이제 레포지토리가 깨질 걱정 없이 여러 에이전트를 동시에 실행할 수 있습니다.
00:03:42매번 똑같은 형태의 PR을 생성할 수 있고,
00:03:45중요한 점은 채팅 기록 속에서 지식을 잃어버리지 않는다는 겁니다.
00:03:49프로세스가 워크플로에 저장되어, 실행할 때마다 결과가 더 일관되게 나옵니다.
00:03:55이것을 사용하면 말이죠.
00:03:56깔끔한 PR과 더 예측 가능한 결과가 가능해집니다.
00:03:58같은 입력에 대해 같은 출력이 나오는 것,
00:04:00그게 바로 지금까지 에이전트에게 부족했던 부분입니다.
00:04:02물론 이것도 완벽하지는 않겠죠?
00:04:04하지만 장점은 뭘까요?
00:04:05오픈 소스이고, 로컬에서 잘 작동하며 특히 M 시리즈 칩에서 훌륭합니다.
00:04:10VPS 설정이 필요한 것들도 있지만,
00:04:13여기서는 필요 없습니다.
00:04:14YAML 덕분에 모든 과정이 눈에 보입니다.
00:04:16우리에게 큰 이점이며 Git worktree가 실제 문제를 해결해 줍니다.
00:04:19하지만 동시에 몇 가지 생각할 점도 있습니다.
00:04:21사전에 고민을 좀 해야 한다는 거죠.
00:04:23워크플로 설계에 노력이 좀 들고, 여전히 발전 중인 도구입니다.
00:04:28계속 변할 것이고,
00:04:29진화하겠지만 성장하고 있습니다.
00:04:31그냥 간단한 프롬프트 작업만 한다면 이게 필요 없을 수도 있습니다.
00:04:34솔직히 그런 경우에는 시간 낭비일 뿐이죠.
00:04:36또한 모델 자체가 여전히 중요합니다.
00:04:38당연히 더 좋은 모델이 더 좋은 결과물을 만들어내니까요.
00:04:42에이전트의 실수를 고치는 데 지쳤다면 시도해 볼 가치가 충분합니다.
00:04:46자신을 의심하지 않고 믿고 쓸 수 있는 도구를 원한다면,
00:04:50이것은 꽤 가치 있는 선택입니다.
00:04:52그냥 실험 삼아 해보신다면, 저도 실험 삼아 해봤는데
00:04:55간단하게 유지했을 때,
00:04:56정말 잘 작동했습니다.
00:04:57어떤 도구인지 제대로 파악할 수 있었죠.
00:04:58진지하게 에이전트로 무언가를 구축하려 한다면, 제가 지금까지 본 도구 중
00:05:02가장 활용도가 높은 도구 중 하나입니다.
00:05:04단순한 데모 수준에 머물던 에이전트를 실제 배포 가능한 수준으로,
00:05:08더 안정적으로 워크플로에 통합시켜 줍니다.
00:05:13꽤 간단합니다.
00:05:14에이전트가 알아서 잘해주길 바라기 전에,
00:05:16에이전트는 에이전트일 뿐이니까요.
00:05:17이제 우리가 작동 방식을 정의합니다.
00:05:20그게 바로 이 하네스 엔지니어링이 주장하는 핵심입니다.
00:05:23이런 코딩 도구와 팁이 좋으셨다면 Better Stack 채널을 구독해 주세요.
00:05:27그럼 다음 영상에서 뵙겠습니다.

Key Takeaway

Archon은 하네스 엔지니어링 방식을 통해 AI 에이전트의 행동을 YAML 워크플로와 격리된 Git 환경에 가두어 결정론적이고 일관된 코드 생성 시스템을 구축합니다.

Highlights

  • Archon은 AI 에이전트의 무작위성을 제거하기 위해 YAML 기반의 DAG(Directed Acyclic Graph)로 워크플로를 정의합니다.

  • 모든 에이전트 작업은 별도의 Git worktree에서 실행되어 메인 브랜치 오염이나 에이전트 간 병합 충돌을 원천 차단합니다.

  • 에이전트 스킬 시스템은 재사용 가능한 지침 팩을 자동으로 로드하여 매번 프롬프트를 수동으로 입력해야 하는 번거로움을 없앱니다.

  • M4 Pro 칩 기반의 로컬 환경에서 클라우드 연결 없이 archonserv 명령어로 UI 제어 및 모니터링이 가능합니다.

  • 에이전트의 모든 의사결정 과정과 오류 발생 지점은 UI 로그를 통해 투명하게 공개되어 즉각적인 워크플로 수정이 가능합니다.

Timeline

기존 AI 에이전트 시스템의 신뢰성 문제

  • 동일한 프롬프트에도 불구하고 실행 시마다 코드 품질과 계획이 달라지는 불일치 문제가 발생합니다.
  • 여러 에이전트를 동시에 가동하면 코드 저장소의 문맥이 꼬이고 작업 결과가 서로 충돌합니다.
  • 부정확한 결과물로 인해 프롬프트를 반복 실행하고 코드를 수동 수정하는 과정에서 개발 속도가 저하됩니다.

Claude code나 Cursor 같은 도구들은 단일 실행에서는 우수하지만, 복합적인 작업이나 확장 시나리오에서는 방향성을 잃기 쉽습니다. 에이전트가 도중에 계획을 변경하거나 문맥을 놓치면 사용자는 시간을 절약하는 대신 오히려 깨진 코드를 고치는 데 더 많은 시간을 소비하게 됩니다. 이는 에이전트의 자율성에만 의존할 때 발생하는 구조적인 한계입니다.

하네스 엔지니어링을 통한 통제권 확보

  • 기획, 코딩, 테스트, 리뷰 등 모든 단계를 YAML 파일로 명시하여 에이전트의 추측을 배제합니다.
  • 스킬 시스템은 에이전트가 수행해야 할 구체적인 지침을 자동 로드하여 일관된 수행 능력을 보장합니다.
  • 에이전트가 스스로 판단하는 대신 미리 정의된 시스템 프로세스를 엄격히 따르도록 강제합니다.

하네스 엔지니어링은 에이전트가 잘 작동하기를 바라는 막연한 기대 대신 명확한 가이드라인을 제공하는 방식입니다. 재사용 가능한 지침 팩인 '에이전트 스킬'을 활용하면 에이전트는 작업의 맥락을 정확히 이해하고 정해진 규칙 안에서 움직입니다. 이를 통해 무작위적인 결과물 대신 예측 가능한 성과를 도출합니다.

로컬 실행 및 실시간 워크플로 관리

  • M4 Pro 등 로컬 자원을 활용하여 외부 서버 연결 없이 독립적인 UI 인터페이스를 구동합니다.
  • 진행 상황을 터미널과 UI에서 실시간으로 추적하며 문제 발생 지점을 시각적으로 확인합니다.
  • 별도의 Git worktree 환경은 메인 브랜치를 보호하며 최종적으로 깔끔한 Pull Request를 자동 생성합니다.

archonserv를 실행하면 나타나는 전용 UI는 에이전트의 작업 단계를 투명하게 보여줍니다. 일반적인 챗봇 Interface와 달리 각 단계의 성공과 실패를 명확히 구분하여 보여주기 때문에 트러블슈팅이 용이합니다. 특히 작업이 완료된 후 생성되는 PR은 구조와 형식이 항상 일정하게 유지되어 협업 효율을 높입니다.

Archon의 3대 핵심 차별점

  • YAML 기반 DAG를 사용하여 AI 처리 단계와 고정된 로직 단계를 혼합하여 안정성을 확보합니다.
  • 격리(Isolation) 원칙에 따라 에이전트 간 작업 중첩과 데이터 덮어쓰기를 방지합니다.
  • 버전 관리가 가능한 워크플로 저장 방식을 택해 채팅 기록 유실에 따른 지식 손실을 막습니다.

LangChain과 같은 범용 프레임워크와 달리 Archon은 철저히 '코드 작성'에 최적화되어 설계되었습니다. 고정된 체크리스트와 AI의 유연함을 결합한 혼합 방식이 시스템의 신뢰도를 높이는 핵심 동력입니다. 모든 프로세스가 워크플로 파일로 저장되므로 같은 입력에 대해 항상 같은 출력 형태를 유지하는 결정론적 시스템 구현이 가능해집니다.

실무 도입 시 고려사항 및 총평

  • 간단한 일회성 프롬프트 작업에는 워크플로 설계 비용이 과도하여 적합하지 않을 수 있습니다.
  • 오픈 소스 프로젝트로서 로컬 환경 특히 Apple Silicon 칩셋에서 최상의 성능을 발휘합니다.
  • 도구의 성능과 별개로 기반이 되는 대규모 언어 모델의 품질이 최종 결과물에 결정적인 영향을 미칩니다.

Archon은 단순한 실험 단계를 넘어 실제 배포 가능한 수준의 에이전트 워크플로를 구축하려는 사용자에게 유용합니다. 초기에 워크플로를 설계하는 노력이 필요하지만, 장기적으로 에이전트의 실수를 수정하는 비용을 획기적으로 줄여줍니다. 에이전트의 자율성을 제어하고 인간이 정의한 프로세스 내에 가두는 것이 이 도구의 핵심 철학입니다.

Community Posts

View all posts