헤르메스: 매일 스스로 진화하는 자기 개선형 에이전트

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00자, Hermes는 미국 기업인 Nous Research에서 만든 오픈 소스 AI 에이전트로
00:00:06자가 개선형 모델입니다. 기본적으로 사용하면 할수록 성능이 좋아지죠. 스스로 성찰하고,
00:00:10학습하고 진화하며, 당신이 말한 것을 절대 잊지 않고 스스로 새로운 기술까지
00:00:16만들어냅니다. 하지만 이 모든 기능이 더 많은 채널을 지원하고 샌드박싱도 뛰어나며
00:00:22훨씬 성숙한 OpenClaw 같은 도구를 대체하기에 충분할까요? 구독 누르시고 바로 알아보시죠.
00:00:30Hermes라는 이름은 예상하셨겠지만 그리스의 전령의 신에서 따왔습니다.
00:00:37이 심볼도 거기서 유래했죠. 영상 뒷부분에서 더 자주 보게 될 겁니다. 현재로서는,
00:00:42제가 이미 OpenClaw에 대한 영상을 만들었었는데, 훌륭하긴 하지만 개인적으로는
00:00:47쓰지 않을 기능이 너무 많더군요. 그리고 NanoClaw는 기능은 훨씬 적지만 Claude
00:00:52에이전트 SDK를 기반으로 구축되었는데, 타사 도구에서 Claude 구독을 사용하는 것에 대한
00:00:59이상한 규칙들 때문에 이제는 저에게 활용도가 떨어졌습니다. 그래서 새로운 AI 비서를 찾던 중
00:01:04자가 개선형 AI 에이전트인 Hermes가 그 빈자리를 채울 수 있을지 확인해 보려 합니다.
00:01:09제가 예전에 만들었던 영상들을 바탕으로 홍보용 트윗을 작성하도록 시켜볼 건데요,
00:01:14이를 위해 몇 가지 스크립트와 지침을 줄 겁니다. 꽤 간단한 작업처럼 보일 수 있지만,
00:01:20핵심은 Hermes가 매번 반복해서 요청하지 않아도 제 문체와 모든 피드백을 기억해서
00:01:26제가 마음에 들어 할 트윗을 생성해낼 수 있는지 보는 것입니다. 가보시죠. 저는 이미
00:01:30이 명령어를 사용해 Hermes를 설치해 두었습니다. 매우 간단하며 모델 선택부터
00:01:35모든 과정을 거쳤습니다. 저는 OpenRouter와 Gemma 4를 선택했지만, 하드웨어가 받쳐준다면
00:01:40로컬에서 실행해 Hermes, 메시징 플랫폼, CLI 도구들과 연결했을 겁니다.
00:01:45OpenClaw를 사용해 보셨다면 이 모든 과정이 매우 익숙하게 느껴지실 겁니다.
00:01:51안전하게 VPS에 설정해 두었지만, 원하신다면 로컬 PC에도 쉽게 설치할 수 있습니다. 이제
00:01:55hermes 명령어를 입력하면 새로운 채팅이 시작되면서 사용 가능한 도구 및 기술과 함께
00:01:59Hermes 심볼이 나타납니다. 참고로 hermes 명령어를 실행하면 새 세션이 생성되며
00:02:04Claude Code처럼 명시하지 않는 한 이전 세션을 재개하지 않습니다. 여기서 프롬프트를 줄게요.
00:02:08"내 영상 스크립트를 바탕으로 트윗 작성을 도와줘." 이제 그 과정을 진행해 보겠습니다.
00:02:12잠시 후 응답이 왔는데 구조가 마음에 드네요. 그래서 추가 프롬프트를 입력합니다.
00:02:16"scripts 폴더 안에 스크립트들이 있으니, 내 문체와 목소리를 이해하기 위해 학습해 줘."
00:02:21타겟 오디언스와 원하는 트윗 길이도 함께 알려주었습니다. 이제 도구를 사용해
00:02:25제 파일들을 검색하기 시작하고, 잠시 후 스크립트를 분석하여 제 스타일을 요약해 줍니다.
00:02:30제가 실용적이고 회의적이라고 하는데, 정확하네요. 개발자 중심적이고 투명하며
00:02:34공감대가 형성되는 스타일이라고 합니다. 타겟 오디언스에 대한 전략도 제안했는데 마음에 드네요.
00:02:40하지만 마음이 바뀌었습니다. 처음에 트윗 길이를 210자 정도로 원한다고 했지만,
00:02:45사실 좀 더 길었으면 좋겠거든요. 그래서 새 프롬프트를 줄 겁니다. 그리고 작업 시간이
00:02:50좀 걸리고 컨텍스트를 많이 사용하는 것을 발견했습니다. 이럴 때는 세션 도중에
00:02:54/model 명령어를 실행하고 원하는 모델을 지정하여 모델을 변경할 수 있습니다.
00:02:59여기서는 GLM 4 Turbo를 선택하겠습니다. 이제 모델이 전환되었습니다. 트윗을 더 길게
00:03:04작성하라는 새 프롬프트를 줍니다. 훨씬 더 빠르게 응답이 오는데, 제가 말하지 않아도
00:03:08많은 정보를 메모리에 추가했네요. 트윗 길이를 210자에서 400자로 변경했고
00:03:13제가 원하는 트윗 스타일도 수정했습니다. 제 최신 스크립트로 괜찮은 트윗을 뽑아내는지 보죠.
00:03:19첫 시도치고 꽤 괜찮은 결과가 나왔지만, "땀을 흘리다" 같은 표현이나 "놀라운" 같은
00:03:23단어는 개인적으로 잘 쓰지 않습니다. 대신 "정말 좋은"이라는 표현을 쓰죠.
00:03:28몇 번의 조정을 거치니 실제로 제 프로필에 올릴 법한 트윗이 완성되었습니다.
00:03:34그리고 이 모든 것을 메모리에 저장했습니다. 나중에 트윗 작성이 더 쉬워지도록
00:03:39기술(skill)을 생성하라고 요청하겠습니다. 이제 Skill Manager를 사용해 기술을 생성합니다.
00:03:44실제로 작동하는지 보시죠. 보세요, 여러 옵션으로 트윗을 작성해 주었고
00:03:49저는 가장 마음에 드는 것을 고르기만 하면 됩니다. 심지어 원한다면 여러 트윗을
00:03:54작성할 수 있도록 스레드까지 만들어 주었습니다. 기술적으로는, 모든 것을 기억하고 있기 때문에
00:03:59완전히 새로운 Hermes 세션을 만들고 기본 모델을 바꾼 뒤, 제 트윗 작성 스타일을
00:04:04아는지 물어보면 정확히 대답해 줍니다. 제가 어떤 이모지를 즐겨 쓰는지까지 포함해서요.
00:04:09이제 Hermes가 어떻게 토큰을 낭비하지 않고 이 모든 정보를 메모리에서 가져오는지
00:04:14궁금하실 겁니다. 메모리는 외부 파일에 저장됩니다. memory.md 파일이나
00:04:19설정에 따라 Super Memory, Mem0, Open Viking 같은 외부 프로세서에 저장되죠.
00:04:24메모리는 매 세션마다 미리 로드되거나 사전 인출(pre-fetch)됩니다. 하지만 전체는 아닙니다.
00:04:30사실 모델에 따라 약 3,500자, 즉 700토큰 정도로 제한된 압축 버전입니다.
00:04:38하지만 모든 세션은 FTS5를 지원하는 SQLite 데이터베이스에 저장되어 전문 검색이 가능합니다.
00:04:43따라서 Hermes에게 어제 말한 것을 기억하라고 하면, 데이터베이스를 검색해서
00:04:49그 정보를 알려줄 것입니다. 또한 조금 특이한 점이 있는데, 컨텍스트 창의 50%가 넘으면
00:04:56세션을 압축합니다. 80%에서 압축하는 Claude Code와는 다르죠. 모델마다 기준이
00:05:01다르기 때문에 50%가 적당한 수치인 것 같습니다. 그런데 단순히 전체를 압축하는 게 아니라,
00:05:06오래된 도구 호출의 출력값은 삭제하고 세션의 시작(head)과 끝(tail)은 유지하면서
00:05:11중간 부분만 압축합니다. SQLite 데이터베이스에 저장되는 것도 대화 전문이 아니라
00:05:17바로 이 압축된 내용입니다. 또한 10턴 정도마다 스스로를 넛지하여 중요한 정보를
00:05:23메모리에 저장하고, 필요할 때마다 기술을 작성하도록 유도합니다. 이 짧은 데모만으로는
00:05:28Hermes의 진정한 위력을 모두 보기는 어렵겠지만, 여러분이 제공한 정보를 바탕으로
00:05:35얼마나 잘 기억하고 기술을 생성해낼지 충분히 짐작하실 수 있을 겁니다.
00:05:39실제로 저도 앞으로 더 자주 사용해 볼 계획입니다. 이번 달이나 다음 달쯤에는
00:05:44GLM 같은 아주 저렴한 모델과 함께 Hermes를 메인 개인 비서로 사용해 보면서
00:05:50어떤지 알려드리겠습니다. 평소처럼 여러분의 생각을 댓글로 남겨주세요.
00:05:54다시 한번 구독 잊지 마시고, 다음 시간에 뵙겠습니다. 즐거운 코딩 하세요!
00:05:59다시 한번 구독 잊지 마시고, 다음 시간에 뵙겠습니다. 즐거운 코딩 하세요!
00:06:04다시 한번 구독 잊지 마시고, 다음 시간에 뵙겠습니다. 즐거운 코딩 하세요!

Key Takeaway

Hermes는 SQLite 기반의 장기 기억과 50% 컨텍스트 압축 알고리즘을 통해 사용자의 문체와 피드백을 학습하며 스스로 진화하는 오픈 소스 개인용 비서 솔루션입니다.

Highlights

Nous Research에서 개발한 Hermes는 사용자와의 상호작용을 통해 스스로 성찰하고 새로운 기술을 생성하는 오픈 소스 자가 개선형 AI 에이전트입니다.

메모리는 외부 memory.md 파일이나 SQLite 데이터베이스에 저장되며, 전문 검색(FTS5)을 통해 이전 세션의 대화 내용을 정확히 추적합니다.

컨텍스트 창이 50%를 초과하면 오래된 도구 호출 출력을 삭제하고 대화의 시작과 끝을 유지하며 중간 부분을 압축하여 효율성을 높입니다.

10턴마다 스스로 중요한 정보를 메모리에 저장하도록 넛지하며, 사용자의 피드백을 바탕으로 특정 작업에 최적화된 새로운 기술(Skill)을 직접 생성합니다.

OpenRouter를 통해 Gemma 4나 GLM 4 Turbo 같은 다양한 모델로 즉시 전환할 수 있어 하드웨어 제약 없이 성능과 속도를 조절합니다.

Timeline

자가 개선형 에이전트 Hermes의 특징과 환경 설정

  • Hermes는 사용자의 피드백과 데이터를 기억하고 학습하여 매 세션 성능이 향상되는 구조를 가집니다.
  • CLI 도구와 OpenRouter 연동을 통해 로컬 PC나 VPS 환경에 간단히 설치하여 실행할 수 있습니다.
  • Claude Code와 달리 명시적인 요청이 없으면 새 세션마다 독립적인 환경을 생성하여 보안과 목적을 분리합니다.

그리스 전령의 신에서 이름을 딴 Hermes는 단순한 챗봇을 넘어 스스로 성찰하고 기술을 연마하는 에이전트입니다. 사용자는 OpenRouter를 통해 하드웨어 사양에 맞춰 최적의 모델을 선택할 수 있으며, 기존의 OpenClaw나 NanoClaw보다 복잡한 제약에서 자유롭습니다. 설치 과정은 명령어 하나로 완료될 만큼 간결하며 메시징 플랫폼과의 연결성도 지원합니다.

실시간 스타일 분석 및 모델 전환을 통한 작업 최적화

  • 지정된 폴더의 스크립트 파일을 분석하여 사용자의 문체와 타겟 오디언스 전략을 스스로 요약합니다.
  • /model 명령어를 사용하면 세션 도중에 다른 언어 모델로 즉시 전환하여 응답 속도나 정확도를 제안할 수 있습니다.
  • 특정 단어 선호도나 이모지 사용 습관 같은 세부적인 피드백을 실시간으로 메모리에 반영합니다.

사용자가 작성한 과거의 스크립트 데이터를 분석한 Hermes는 실용적이고 회의적이며 개발자 중심적인 스타일임을 정확히 파악합니다. 작업 도중 컨텍스트가 길어져 속도가 느려지면 GLM 4 Turbo 같은 빠른 모델로 교체하여 효율성을 높일 수 있습니다. 초기에는 210자 길이의 트윗을 생성하다가 사용자의 요구에 맞춰 400자 분량으로 즉각 수정하는 유연성을 보입니다.

Skill Manager와 장기 기억 저장 메커니즘

  • 반복되는 작업은 Skill Manager를 통해 독립적인 기술(Skill)로 변환하여 저장하고 재사용합니다.
  • 메모리는 약 700토큰 분량의 압축된 버전으로 사전 인출되어 모든 세션에 자동으로 로드됩니다.
  • 새로운 세션을 시작하더라도 이전 세션에서 학습한 사용자의 이모지 습관과 작성 스타일을 그대로 유지합니다.

단순히 대화 내용을 저장하는 것에 그치지 않고 특정 작업 흐름을 하나의 '기술'로 정립하여 나중에는 선택만으로 결과물을 얻게 합니다. 메모리는 memory.md 파일이나 Super Memory 같은 외부 프로세서에 저장되어 토큰 낭비를 최소화합니다. 이는 에이전트가 매번 처음부터 다시 학습할 필요 없이 연속성 있는 비서 역할을 수행하게 만드는 핵심 요소입니다.

SQLite 데이터베이스 연동과 스마트 세션 압축 기술

  • FTS5를 지원하는 SQLite 데이터베이스를 통해 어제 나눈 대화까지 전문 검색으로 찾아냅니다.
  • 컨텍스트가 50% 차오르면 세션의 양 끝단은 남기고 불필요한 도구 출력값 위주로 중간 부분을 압축합니다.
  • 10턴 주기로 스스로를 넛지하여 중요한 정보를 선별하고 메모리에 영구 저장하는 자기 관리 기능을 수행합니다.

Hermes는 데이터 관리 측면에서 매우 정교한 방식을 취합니다. 80%에서 압축을 시작하는 다른 도구들과 달리 50% 지점에서 압축을 실행하여 다양한 모델 크기에서의 안정성을 확보합니다. 데이터베이스에는 대화 전문이 아닌 정제되고 압축된 핵심 내용이 저장되어 검색 속도와 데이터 효율을 동시에 잡았습니다.

Community Posts

View all posts