하네스 엔지니어가 대체 뭐길래 왜 중요할까요?

AAI Jason
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00이 영상의 스폰서인 HubSpot에 감사드립니다.
00:00:03사실 2025년 12월에 정말 엄청난 일이 일어났습니다.
00:00:07하지만 대부분의 사람들은 그 사실을 깨닫지도 못했죠.
00:00:09앤드류 컵시가 지난주에 이에 대해 트윗을 올렸는데요.
00:00:10"지난 두 달 동안 AI로 인해 프로그래밍이 얼마나 변했는지 설명하기 어려울 정도입니다."
00:00:15"특히 지난 12월 이후로 말이죠."
00:00:17OpenAI의 그렉도 이 점을 언급했습니다.
00:00:2012월 이후로 모델과 도구의 성능에 비약적인 발전이 있었다는 것이죠.
00:00:24몇몇 엔지니어들은 2025년 12월 이후로
00:00:28자신들의 업무 방식이 근본적으로 바뀌었다고 그에게 말했습니다.
00:00:29그렇다면 2025년 12월에 실제로 무슨 일이 일어났을까요?
00:00:32짧게 말하자면, 당시 도입된 최신 모델이 드디어
00:00:37완전 자율형 장기 작업이 가능한 수준에 도달한 것입니다.
00:00:38AI의 궁극적인 꿈은 우리가 잠든 사이에도 AI가
00:00:4324시간 내내 완전히 자율적으로 작업을 처리하는 것이었습니다.
00:00:462023년에도 가장 인기 있었던 프로젝트가 'AutoGPT'였다는 걸 기억하실 겁니다.
00:00:50완전 자율형 에이전트 시스템이 처음으로 소개된 때였죠.
00:00:54당시에는 GPT-4를 모델로 사용하는 상당히 기초적이고 단순한 구조였습니다.
00:00:59사용자의 목표에 따라 작업 목록을 자율적으로 세분화하고
00:01:03결과를 저장하는 간단한 메모리 저장소를 갖춘 형태였죠.
00:01:04사람들은 '10만 달러 벌어오기' 같은 목표를 주고
00:01:08완료될 때까지 무한 루프를 돌리는 미친 짓들을 하곤 했습니다.
00:01:11하지만 당시 모델은 준비가 덜 되었기에 시스템은 처참하게 실패하곤 했죠.
00:01:15그러나 작년 12월부터 상황이 정말 달라졌습니다.
00:01:18모델의 품질과 장기적인 일관성이 대폭 향상되면서
00:01:22훨씬 더 크고 긴 작업들을 수행할 수 있게 된 것입니다.
00:01:24업계에서는 온갖 종류의 실험적인 결과들이 쏟아져 나오기 시작했습니다.
00:01:28먼저 1월부터 '러프 루프(rough loop)'라는 아주 핫한 개념이 등장했는데요.
00:01:33모델이 더 복잡한 작업을 수행할 수 있도록 더 오래 작동하게 만드는
00:01:37가장 기본적이고 단순한 에이전트 반복 루프입니다.
00:01:38단순한 조건 확인과 함께 모델을 무한 루프 시켰을 뿐인데 이미 차이가 나타나기 시작했습니다.
00:01:42이미 그 차이를 체감할 수 있었죠.
00:01:43일주일 후, Cursor 팀은 GPT-5.2를 사용하여 300만 줄의 코드로 구성된
00:01:49브라우저를 바닥부터 자율적으로 구축하는 실험 결과를 발표했습니다.
00:01:52Anthropic 또한 Claude 코더 팀을 구성하여
00:01:572주 동안 C 컴파일러를 바닥부터 자율적으로 만드는 실험을 공개했습니다.
00:02:01결국 수동 코딩 없이 실제로 작동하는 버전을 완성해 냈죠.
00:02:05이 컴파일러 안에서 '둠(Doom)' 게임을 실행할 수도 있을 정도입니다.
00:02:08동시에 OpenClaw가 주목받기 시작하며
00:02:13전례 없는 폭발적인 성장을 기록했습니다.
00:02:14외부에서 보면 OpenClaw가 왜 그렇게 인기 있는지 이해하기 어려울 수 있습니다.
00:02:18단순히 내 컴퓨터 안에 상주하며 텔레그램으로도 접속 가능한
00:02:23또 다른 비서 정도로 보이기 쉽기 때문이죠.
00:02:27대체 왜 이렇게 인기가 많은 걸까요?
00:02:29직접 깊이 사용해 본 후에야 깨달았습니다. OpenClaw의 진짜 차별점은
00:02:35항상 켜져 있고, 장기 실행이 가능하며, 완전히 자율적인 에이전트라는 점입니다.
00:02:40인간이 다음 행동을 일일이 프롬프트로 지시해야 했던
00:02:45기존의 다른 에이전트 시스템들과는 매우 다릅니다.
00:02:46OpenClaw는 항상 켜져 있으며 선제적으로 행동합니다.
00:02:49이러한 자율성은 상당히 단순한 구조에서 비롯됩니다.
00:02:53트리거와 크론 작업(cron job)이 포함된 메모리 컨텍스트 계층이 작업을 자동 실행하고
00:02:58컴퓨터에 대한 전체 권한을 가져 강력한 작업 환경을 확보합니다.
00:03:02저는 OpenClaw가 2026년의 가장 큰 패러다임 변화를 이끈 프로젝트라고 믿습니다.
00:03:06단순 작업 중심의 코파일럿에서 장기 실행이 가능한
00:03:13완전 자율형 에이전트로 이동하고 있는 것이죠.
00:03:15항상 켜져 있고 준비되어 있으며, 복잡하고 조율된 작업을 완벽히 수행하는 존재입니다.
00:03:20이것은 여러분이 반드시 이해해야 할 중요한 변화입니다.
00:03:22오늘날의 모델은 올바른 시스템 설계만 뒷받침된다면
00:03:27여러분이 생각하는 것보다 훨씬 더 강력합니다.
00:03:28이것이 바로 오늘 제가 말씀드리고 싶은 핵심입니다.
00:03:30장기 실행 자율 시스템을 가능케 하는 '하네스 엔지니어링(Harness Engineer)'입니다.
00:03:34이 개념이 생소하시다면, 이전에 우리가 이야기했던
00:03:38컨텍스트 엔지니어링이나 프롬프트 엔지니어링에서 진화한 것이라 보시면 됩니다.
00:03:41이전에는 단일 에이전트 루프 세션에서 최고의 성능을 내기 위해
00:03:46유효 컨텍스트 창 내에서 프롬프트를 최적화하는 데 집중했습니다.
00:03:49하지만 하네스 엔지니어링은 장기 실행 작업에 초점을 맞춥니다.
00:03:53서로 다른 세션과 여러 에이전트에 걸쳐 작동하는 시스템을 설계하는 것이죠.
00:03:57각 세션에 필요한 컨텍스트를 어떻게 검색하고,
00:04:01모델의 역량을 극대화할 수 있는 도구 세트를 어떻게 설계할 것인지가 관건입니다.
00:04:05Este é um conceito bastante novo, mas o lado positivo é que a indústria já convergiu para
00:04:09활용 가능한 몇 가지 모범 사례들이 이미 정립되어 있습니다.
00:04:14패턴을 파악하실 수 있도록 하나씩 짚어보겠습니다.
00:04:16본격적으로 들어가기 전에, 완전 자율 에이전트라는 패러다임 전환 속에서
00:04:21향후 6~12개월간 가장 큰 기회는 특정 분야를 위한 OpenClaw를 만드는 것입니다.
00:04:25특정 수직 시장의 엔드투엔드 워크플로우를 깊이 있게 파고들어 이해하고,
00:04:29전 과정을 수행할 수 있는 환경과 도구를 갖춘 자율 에이전트를 구축하는 것이죠.
00:04:34그래서 HubSpot이 조사한 '이메일 마케팅에서의 AI 도입'에 관한
00:04:39멋진 리서치 보고서를 소개해 드리고자 합니다.
00:04:40이메일 마케팅 같은 분야에서 사람들이 현재 AI를 어떻게 활용하고 있고
00:04:44어떤 공백이 있는지 이해하기에 정말 훌륭한 보고서입니다.
00:04:47이 보고서는 자동화할 수 있는 이메일 마케팅의 명확한 워크플로우와
00:04:51잠재적인 기회들을 보여줍니다.
00:04:52이들은 수백 명의 주요 기업 이메일 마케터들을 대상으로
00:04:57AI가 그들의 업무 방식을 어떻게 재편하고 있는지 조사했습니다.
00:04:58마케터들이 왜 여전히 많은 수동 편집을 하고 있는지, 그 원인은 무엇인지,
00:05:03그리고 이메일 마케팅에 AI를 도입할 때 직면하는
00:05:06가장 큰 과제들이 무엇인지 다루고 있습니다.
00:05:07이 과제들 하나하나가 완전 자율 에이전트를 구축할 수 있는 큰 기회입니다.
00:05:11심지어 그들이 중시하는 특정 KPI와 AI가 입증된 결과를 낸 사례,
00:05:15그리고 이메일 마케터들이 AI에게 진정으로 원하는 것이 무엇인지까지 분석합니다.
00:05:16따라서 차세대 에이전트 제품을 고민하는 빌더분들이라면
00:05:20이 자료를 꼭 확인해 보시길 강력히 추천합니다.
00:05:24무료로 다운로드하실 수 있도록 아래 설명란에 링크를 걸어두었습니다.
00:05:27이 영상을 후원해 주신 HubSpot에 다시 한번 감사드립니다.
00:05:30이제 장기 실행 에이전트 시스템을 위한 하네스 엔지니어링으로 돌아가 보죠.
00:05:32여기서 얻은 세 가지 주요 교훈이 있습니다.
00:05:36첫째, 장기 작업 에이전트에서 시스템 설계의 핵심은
00:05:39각 하위 에이전트나 세션이 현재 상황을 명확히 파악할 수 있는
00:05:44'가독성 있는 환경'을 조성하는 것입니다.
00:05:49환경의 가독성을 강제할 수 있는 몇 가지 워크플로우가 있을 텐데,
00:05:50이에 대해 좀 더 자세히 설명해 드리겠습니다.
00:05:54둘째, 검증이 매우 중요합니다.
00:05:56더 빠른 피드백 루프를 통해 에이전트가 자신의 작업을 효과적으로 검증하게 함으로써
00:05:58시스템 출력을 대폭 향상시킬 수 있습니다.
00:06:03셋째, 추론과 로직을 성급하게 감싸는 특수 도구를 만들기보다는
00:06:04모델을 더 신뢰해야 한다는 점입니다.
00:06:08모델이 이미 잘 이해하고 있는 범용적인 도구와 함께 최대한의 컨텍스트를 제공하고,
00:06:11사람처럼 스스로 탐색하게 두어야 합니다.
00:06:16이제 각각의 사례를 살펴보며 이 세 가지를 하나씩 풀어보겠습니다.
00:06:17먼저 Anthropic의 '장기 실행 에이전트를 위한 효과적인 하네스' 블로그입니다.
00:06:20그들은 Claude code SDK를 사용하여 cloud.ai 웹사이트 복제와 같은
00:06:24초장기 실행 작업을 위한 전문 에이전트를 구축하는 실험을 했습니다.
00:06:29그들이 관찰한 첫 번째 실패 원인은 에이전트가 한꺼번에 너무 많은 일을 하려 한다는 것이었습니다.
00:06:32기본적으로 앱 전체를 한 번에 완성하려 시도하죠.
00:06:37그러다 보니 구현 도중에 컨텍스트가 부족해지게 되고,
00:06:40다음 세션은 기능이 반만 구현되거나 문서화가 덜 된 상태에서 시작하게 됩니다.
00:06:45그러면 에이전트는 실제로 무슨 일이 일어났는지 추측해야 하고,
00:06:49기본 앱을 다시 작동시키기 위해 상당한 시간을 낭비하게 됩니다.
00:06:52두 번째 실패 사례는 에이전트가 작업을 너무 일찍 끝냈다고 선언하는 경향입니다.
00:06:55여러분도 직접 몇 번 경험해 보셨을 텐데요.
00:07:00Claude code나 Cursor가 프로젝트나 기능이 완료되었다고 주장하지만,
00:07:02막상 테스트해 보면 작동하지 않는 경우죠.
00:07:05이런 모델의 기본 실패 행동을 해결하기 위해 그들은 먼저,
00:07:07요청된 모든 기능의 토대가 되는 초기 환경을 설정하여
00:07:12에이전트가 단계별로, 기능별로 작업할 수 있도록 세팅했습니다.
00:07:16우리가 흔히 사용하는 기획안이나 PRD(제품 요구 사양서) 접근 방식과 비슷하죠.
00:07:20두 번째로, 각 에이전트가 목표를 향해 점진적으로 나아가면서도
00:07:23각 세션이 끝날 때 환경을 깨끗한 상태로 유지하도록 프롬프트를 구성했습니다.
00:07:27그들이 설계한 해결책은 두 부분으로 나뉩니다.
00:07:32먼저 '초기화 에이전트'가 전용 프롬프트를 사용하여 모델에게
00:07:35init.sh 스크립트로 초기 환경을 설정하도록 요청합니다. 예를 들어 개발 서버를 설정하여
00:07:40다음 모델이 그런 것들까지 신경 쓰지 않게 하는 것이죠.
00:07:45또한 에이전트가 한 일을 기록하는 'cloud_progress.txt' 파일과
00:07:48추가된 파일을 보여주는 초기 git 커밋을 생성합니다.
00:07:53그런 다음 후속 세션마다 '코딩 에이전트'가 점진적으로 작업을 수행하고
00:07:55구조화된 업데이트 내용을 남기도록 합니다.
00:08:01이러한 모든 노력의 목적은 단 하나입니다.
00:08:02새로운 컨텍스트 창에서 작업을 시작할 때 에이전트가 작업 상태를
00:08:07빠르게 이해할 수 있는 환경을 어떻게 정의할 것인가 하는 점이죠.
00:08:11워크플로우는 이렇습니다. 초기화 에이전트가 먼저 환경을 설정하거나
00:08:13전체 계획을 추적하고 유지하기 위한 문서화 시스템을 구축합니다.
00:08:17여기서 설계된 환경은 우선 '기능 리스트 문서'를 포함하는데,
00:08:21이는 에이전트가 앱 전체를 한 번에 하려 하거나 조기에 완료되었다고 착각하는 것을 방지합니다.
00:08:25초기화 에이전트가 프로젝트를 200개 이상의 기능으로 세분화하여
00:08:30로컬 JSON 파일에 기록하게 하죠. 각 작업에는 상세 사양과
00:08:34성공/실패 상태가 표시되어 있습니다.
00:08:39기본적으로 모든 작업은 '실패'로 표시됩니다.
00:08:41모델이 항상 전체 프로젝트 목표와 진행 상황을 확인하고
00:08:43가장 우선순위가 높은 작업을 선택해 다음 단계를 진행하도록 강제하는 것이죠.
00:08:49하지만 이 워크플로우가 작동하려면 코드를 변경한 후
00:08:50환경을 깨끗하게 정리하도록 강제할 방법도 필요합니다.
00:08:55실험 결과 가장 좋은 방법은 모델에게 상세한 설명이 담긴 커밋 메시지와 함께
00:08:59git에 진행 상황을 커밋하고, 진행 보고 파일에 요약본을 작성하게 하는 것이었습니다.
00:09:05하지만 문서화와 컨텍스트 환경만으로는 충분하지 않습니다.
00:09:08모델은 본능적으로 적절한 테스트 없이 완료라고 표시하려는 경향이 있기 때문이죠.
00:09:13처음에는 단순히 유닛 테스트나 API 테스트를 통해
00:09:17코드 변경 후 항상 테스트를 수행하도록 프롬프트를 줬습니다.
00:09:22하지만 그런 방식은 기능이 엔드투엔드로 제대로 작동하는지 확인하는 데 자주 실패했습니다.
00:09:23진정한 변화는 모델에게 스스로 엔드투엔드 테스트를 수행할 수 있는
00:09:27적절한 도구를 주었을 때 일어났습니다. Puppeteer MCP나 Chrome 개발자 도구 같은 것들이죠.
00:09:30에이전트가 코드 자체만으로는 명확하지 않았던 버그들을 직접 찾아내고 고칠 수 있게 된 것입니다.
00:09:35기본적으로 초기화 에이전트가 목표를 기능 목록으로 세분화하고,
00:09:39개발 서버를 실행할 수 있는 init.sh와 진행 상황 파일을 함께 세팅하는 구조입니다.
00:09:43그러면 다음 코딩 에이전트는 기능 리스트를 읽어
00:09:47전체 프로젝트 계획을 이해하고, 우선순위 작업을 선택해 진행 파일과 로그를 확인합니다.
00:09:49그다음 즉시 init.sh를 실행해 개발 서버를 띄우고 엔드투엔드 테스트를 수행하여
00:09:53환경이 깨끗한지 확인합니다. 이를 통해 새로운 세션과 컨텍스트 창이 열릴 때마다
00:09:57전체적인 그림을 파악하고 더 빠른 피드백 루프를 가질 수 있습니다.
00:09:59OpenAI의 블로그에서도 매우 비슷한 이야기를 합니다.
00:10:04애플리케이션 환경을 가독성 있게 만들어야 한다는 것이죠.
00:10:09그들은 전체 저장소를 지식 시스템이나 기록 보관소로 활용합니다.
00:10:10처음에는 거대한 'agents.md' 파일을 하나 두었지만, 예상대로 실패했습니다.
00:10:13에이전트가 관리하고 유지하기엔 컨텍스트가 너무 방대했기 때문이죠.
00:10:16그래서 그들은 적절한 문서 환경 구조를 설계하고 'agents.md' 파일을
00:10:19일종의 목차(Table of Contents)로 취급했습니다.
00:10:23아키텍처, 설계 문서, 실행 계획, DB 스키마, 제품 사양,
00:10:27프론트엔드 설계, 보안 등에 대한 문서 시스템을 구축하고
00:10:32그 목차를 agents.md에 담아 에이전트가 필요할 때마다
00:10:33필요한 정보를 찾아올 수 있게 했습니다.
00:10:37이를 통해 점진적 정보 공개가 가능해졌고, OpenAI는 여기서 더 나아갔습니다.
00:10:42코드 지식뿐만 아니라 구글 문서, 슬랙 메시지 등 파편화된 모든 정보를
00:10:47저장소의 로컬 아티팩트 버전으로 변환하여 공급했습니다.
00:10:49에이전트 입장에서 환경 내에서 접근할 수 없는 정보는
00:10:53존재하지 않는 것이나 다름없기 때문입니다.
00:10:58다시 말하지만, 문서화만으로는 에이전트가 생성한 코드베이스의 일관성을 완전히 유지할 수 없습니다.
00:11:03그들은 불변의 규칙을 강제하기 위해 특정 프로그래밍 워크플로우를 도입했습니다.
00:11:04예를 들어, 명시적인 교차 경계를 가진 도메인 아키텍처 계층을 만들어
00:11:09커스텀 체크, 린터, 구조 테스트 등으로 규칙을 강제할 수 있게 했죠.
00:11:11이것들은 모든 git pre-commit 단계에서 자동으로 실행되고 주입됩니다.
00:11:16이런 종류의 아키텍처는 보통 수백 명의 엔지니어가 있는 회사에서나 도입을 고민하지만,
00:11:20코딩 에이전트를 사용할 때는 초기부터 갖춰야 할 필수 조건입니다.
00:11:25이러한 경계 안에서 팀과 에이전트는 아키텍처가 흐트러질 걱정 없이
00:11:29미세한 관리 없이도 자유롭게 해결책을 구현할 수 있습니다.
00:11:33동시에 코드베이스 자체도 많이 개선했습니다.
00:11:37예를 들어, git worktrees별로 앱 부팅이 가능하게 만들어 코덱스(codecs)가
00:11:41여러 인스턴스를 동시에 실행하고 제어할 수 있게 했습니다.
00:11:46또한 에이전트 런타임에 Chrome 개발자 도구 프로토콜을 연결하여
00:11:49DOM 스냅샷, 스크린샷, 내비게이션을 통해 버그를 재현하고 수정을 검증하게 했습니다.
00:11:52이러한 환경과 워크플로우 설정 덕분에 저장소는 드디어
00:11:55코덱스가 새로운 기능을 엔드투엔드로 구현할 수 있는 임계치를 넘었습니다.
00:11:57이제 코덱스가 단일 프롬프트를 받으면, 에이전트는 코드베이스의 현재 상태를 검증하고,
00:12:01보고된 버그를 재현하며, 실패 장면을 비디오로 기록해 입증합니다.
00:12:05그다음 수정을 구현하고 애플리케이션을 직접 구동해 검증한 뒤,
00:12:09문제가 해결된 두 번째 비디오를 기록하고 최종적으로 변경 사항을 병합합니다.
00:12:13이 두 블로그는 완전 자율 시스템을 위해 필요한 하네스 시스템과
00:12:17매우 유익한 학습 사례들을 잘 보여줍니다.
00:12:21한편으로는 또 다른 교훈도 있습니다.
00:12:25우리는 에이전트, 특히 특정 분야의 에이전트를 만들 때
00:12:29도메인 특화 작업을 위한 전문 도구를 만들려는 경향이 있습니다.
00:12:32하지만 대규모 언어 모델은 거의 항상 그들이 본질적으로 이해하는
00:12:34범용 도구를 사용할 때 훨씬 더 잘 작동한다는 것이 결론입니다.
00:12:36Vercel은 텍스트-SQL 에이전트를 어떻게 재설계했는지에 대한 훌륭한 기사를 발표했습니다.
00:12:40그들은 수개월 동안 정교한 내부 텍스트-SQL 에이전트를 개발했는데요.
00:12:43전문 도구를 활용한 과도한 프롬프트 엔지니어링과 세밀한 컨텍스트 관리가 포함되었습니다.
00:12:47하지만 많은 분이 경험하셨듯, 이런 시스템은 어느 정도 작동하긴 하지만
00:12:49매우 깨지기 쉽고 느리며 지속적인 유지보수가 필요합니다.
00:12:53새로운 예외 사례가 생길 때마다 에이전트에 새 프롬프트를 주입해야 하기 때문이죠.
00:12:58그런데 나중에 그들은 궤도를 완전히 바꾼 한 가지 시도를 했습니다.
00:13:02에이전트에서 대부분의 전문 도구를 삭제하고 단일 배치 명령 도구만 남긴 것입니다.
00:13:06이 훨씬 단순한 구조 덕분에 에이전트의 속도는 3.5배 빨라졌고
00:13:09토큰 사용량은 37% 줄었으며 성공률은 80%에서 100%로 상승했습니다.
00:13:12비슷한 교훈이 Anthropic 팀에서도 공유되었습니다.
00:13:15전문적인 검색이나 실행 도구 대신 grep, tail, npm,
00:13:20npm run lint 등을 실행할 수 있는 배치 도구 하나만 둔다는 것이죠.
00:13:25근본적으로 대규모 언어 모델은 자신이 생성해야 하는
00:13:30맞춤형 JSON 도구 호출보다 수십억 개의 훈련 토큰으로 익숙해진
00:13:34코드 네이티브 도구들을 훨씬 더 잘 알기 때문이라고 생각합니다.
00:13:38지난주에 올린 프로그래밍 방식의 도구 호출 영상에서도 이 내용을 다뤘는데요.
00:13:41근본적인 원리는 같다고 믿습니다. 하지만 이러한 단순한 아키텍처의 기반은
00:13:45결국 모델이 범용 도구를 사용해 컨텍스트를 점진적으로 가져올 수 있는
00:13:49훌륭한 컨텍스트와 문서화 환경입니다.
00:13:51OpenClaw의 경우도 마찬가지입니다.
00:13:55OpenClaw가 흥미로운 이유 중 하나는 놀랍도록 단순하지만 효과적인
00:13:59컨텍스트 환경을 갖추고 있다는 점입니다.
00:14:05핵심 정보를 저장하는 문서 리스트라는 토대 위에
00:14:06파일 읽기, 쓰기, 수정, 배치 명령 실행, 메시지 전송과 같은
00:14:09가장 기본적인 도구만을 제공합니다.
00:14:13나머지는 에이전트에게 관련 컨텍스트를 검색할 수 있는 환경을 주고
00:14:15역량을 확장할 수 있는 거대한 스킬 라이브러리를 제공하는 데서 옵니다.
00:14:18지금까지 장기 실행 복합 에이전트를 위한 하네스 엔지니어링의 세 가지 실질적 교훈을 알아보았습니다.
00:14:23가독성 있는 컨텍스트 환경을 구축해 각 세션이 컨텍스트를 효과적으로 가져오게 하고,
00:14:24모델이 작업을 효과적으로 검증하고 빠른 피드백 루프를 돌릴 수 있도록 워크플로우를 설계하며,
00:14:29모델이 본질적으로 이해하는 범용 도구를 믿고 맡기는 것입니다.
00:14:31관심 있으신 분들을 위해, 이러한 학습 내용들을 어떻게
00:14:35개발 라이프사이클 프로세스로 전환하는지 더 자세히 공유해 드릴 예정입니다.
00:14:36AI Builder Club에서는 바이브 코딩과 프로덕션 급 에이전트 구축에 관한
00:14:41강의와 워크스루(work-through)를 제공하고 있습니다.
00:14:46매주 저와 업계 전문가들이 최신의 실질적인 학습 내용들을 공유합니다.
00:14:50제가 매일 배우는 것들을 함께 배우고 싶으시다면
00:14:54아래 링크를 클릭해 커뮤니티에 참여해 보세요.
00:14:58이번 영상이 도움이 되셨길 바랍니다.
00:15:02시청해 주셔서 감사하며, 다음 시간에 뵙겠습니다.
00:15:03E toda semana, eu e especialistas do setor compartilhamos os aprendizados práticos mais recentes.
00:15:08Portanto, se você tiver interesse em aprender o que estou aprendendo todos os dias, clique no link
00:15:12abaixo para participar da comunidade.
00:15:13Espero que tenha gostado deste vídeo.
00:15:14Obrigado e até a próxima.

Key Takeaway

현대 AI 기술은 단순한 명령 수행을 넘어, 하네스 엔지니어링을 통해 구축된 가독성 있는 환경과 범용 도구를 활용하여 장기적인 작업을 스스로 완수하는 완전 자율형 에이전트 시대로 진입했습니다.

Highlights

2025년 12월, AI 모델이 완전 자율형 장기 작업이 가능한 수준으로 비약적 발전

단순 조력자인 '코파일럿'에서 스스로 판단하고 행동하는 '완전 자율형 에이전트'로의 패러다임 전환

OpenClaw의 성공 비결은 '항상 켜져 있고(Always-on)' 선제적으로 행동하는 자율성에 있음

기존의 프롬프트 엔지니어링을 넘어선 '하네스 엔지니어링(Harness Engineering)' 개념의 등장

에이전트에게 복잡한 전용 도구보다 모델이 익숙한 '범용 도구'를 제공할 때 성능이 더 뛰어남

가독성 있는 컨텍스트 환경 구축과 빠른 피드백 루프를 통한 작업 검증이 시스템 설계의 핵심

Timeline

2025년 12월: AI 자율성의 변곡점

2025년 12월을 기점으로 AI 프로그래밍 환경이 근본적으로 변화했음을 강조하며 이야기를 시작합니다. 과거 AutoGPT와 같은 초기 자율형 프로젝트는 모델 성능의 한계로 실패했으나, 최신 모델들은 이제 장기적인 일관성을 유지하며 복잡한 작업을 수행할 수 있게 되었습니다. Cursor 팀의 브라우저 구축 실험이나 Anthropic의 C 컴파일러 제작 사례는 이러한 기술적 진보를 증명하는 구체적인 예시로 제시됩니다. 이제 AI는 인간의 지속적인 개입 없이도 수백만 줄의 코드를 다루거나 작동하는 소프트웨어를 바닥부터 만들어낼 수 있는 단계에 도달했습니다. 이는 단순한 도구의 발전을 넘어 작업 방식의 패러다임이 완전히 바뀌었음을 의미합니다.

OpenClaw의 부상과 자율형 에이전트의 특징

최근 폭발적인 인기를 끌고 있는 OpenClaw 프로젝트를 통해 진정한 자율형 에이전트의 정의를 설명합니다. OpenClaw는 사용자가 일일이 프롬프트를 입력해야 하는 기존 방식과 달리, 항상 활성화되어 있으며 트리거와 크론 작업을 통해 선제적으로 업무를 수행합니다. 이러한 시스템은 단순한 코파일럿의 역할을 넘어 스스로 환경을 탐색하고 문제를 해결하는 독립적인 주체로 기능합니다. 영상은 2026년 가장 큰 변화가 바로 이러한 '장기 실행 자율 에이전트'로의 이동임을 역설합니다. 강력한 모델 성능에 올바른 시스템 설계가 결합될 때 AI의 진정한 잠재력이 발휘된다는 점이 이 섹션의 핵심입니다.

하네스 엔지니어링의 정의와 비즈니스 기회

프롬프트 및 컨텍스트 엔지니어링에서 진화한 '하네스 엔지니어링'이라는 새로운 개념을 소개합니다. 이는 단일 세션을 넘어 여러 에이전트와 장기 실행 세션 간의 협업을 설계하고 최적화하는 시스템 구축 기술을 의미합니다. 특히 특정 수직 시장(Vertical Market)의 워크플로우를 깊게 파고들어 이를 자동화하는 '분야별 OpenClaw'를 만드는 것이 향후 1년 내 가장 큰 사업적 기회라고 조언합니다. HubSpot의 리서치 데이터를 인용하여 이메일 마케팅 분야에서 AI 도입의 과제와 기회를 예로 들어 설명합니다. 개발자나 기획자들은 이러한 자동화 공백을 찾아내어 에이전트가 활동할 수 있는 최적의 환경을 구축해야 합니다.

성공적인 에이전트 시스템 설계를 위한 3가지 원칙

장기 실행 에이전트 시스템을 성공적으로 구축하기 위한 세 가지 핵심 전략을 요약하여 제시합니다. 첫째는 에이전트가 현재 상황을 즉시 파악할 수 있도록 '가독성 있는 환경'을 조성하는 것이며, 둘째는 빠른 피드백 루프를 통해 결과물을 검증하는 프로세스를 갖추는 것입니다. 셋째는 모델의 추론 능력을 믿고 복잡한 특수 도구보다는 모델이 잘 이해하는 범용 도구를 활용하게 하는 것입니다. 이 세 가지 원칙은 에이전트가 길을 잃지 않고 목표를 향해 나아갈 수 있게 만드는 하네스 시스템의 뼈대 역할을 합니다. 각 원칙은 이후 이어지는 Anthropic과 OpenAI의 실제 사례 연구를 통해 더욱 구체화됩니다.

Anthropic의 사례: 단계별 작업과 환경 정문화

Anthropic 팀이 겪은 시행착오를 통해 에이전트의 작업 효율을 높이는 구체적인 방법을 다룹니다. 에이전트가 한꺼번에 너무 많은 일을 하려다 실패하거나 작업을 조기에 끝냈다고 착각하는 문제를 해결하기 위해 '초기화 에이전트'를 도입했습니다. 이 에이전트는 프로젝트를 200개 이상의 세부 기능으로 나누어 JSON 파일에 기록하고, 진행 상황을 추적하는 시스템을 구축합니다. 또한 Puppeteer나 Chrome 개발자 도구와 같은 엔드투엔드(E2E) 테스트 도구를 제공하여 모델이 스스로 버그를 찾고 고칠 수 있게 했습니다. 결과적으로 깨끗한 환경과 체계적인 문서화가 에이전트의 장기 작업 성공률을 비약적으로 높인다는 점을 보여줍니다.

OpenAI의 사례 및 도구 설계의 단순화

OpenAI가 저장소를 하나의 거대한 지식 시스템으로 활용하며 정보의 파편화를 해결한 사례를 소개합니다. 모든 내부 문서를 에이전트가 접근 가능한 로컬 아티팩트로 변환하고, 엄격한 아키텍처 규칙을 강제하여 에이전트가 자율적으로 일하면서도 코드 품질을 유지하게 만든 방식입니다. Vercel의 사례를 덧붙여 전문적인 SQL 생성 도구보다 단순한 배치 명령 도구가 훨씬 높은 성공률과 빠른 속도를 보여준다는 통찰을 전합니다. 대규모 언어 모델은 훈련 과정에서 이미 익숙해진 범용 코드 도구를 사용할 때 가장 강력한 성능을 발휘한다는 결론을 내립니다. 마지막으로 AI 빌더 클럽 참여를 권유하며, 하네스 엔지니어링의 실천적 교훈을 정리하며 영상을 마무리합니다.

Community Posts

View all posts