ChatGPT가 "고블린"에 집착하게 된 이유 (OpenAI의 조사 결과)
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00ChatGPT는 고블린에 집착합니다. 대화 내용에 전혀 언급이 없어도
00:00:04어디선가 슬며시 나타나죠. 이게 그냥 일회성이라면 괜찮겠지만,
00:00:07이제 하나의 패턴이 되어버려서, 코덱스(Codex)의 시스템 프롬프트에는
00:00:11대화와 관련이 없는 한 고블린이나 그렘린, 너구리 같은 생물들을 언급하지 말라는 지시까지 들어갔습니다.
00:00:16상황이 이렇다 보니 OpenAI도 왜 이런 일이 발생하는지 조사에 착수해야만 했습니다.
00:00:21이것은 1년 전 레딧 스레드인데, 아마 이 현상에 대한
00:00:29ChatGPT 5.1 출시 전의 첫 번째 보고일 것입니다. 이 스레드에서 사람들은
00:00:34AI가 고블린을 자주 언급한다는 점에 동의하며, 작성자를 "운동 고블린"이라 부르거나 "혼돈의 고블린의 날"을 보내고 있다고 말합니다.
00:00:39다른 이들도 이를 뒷받침했고 일부는 귀엽다고 생각했죠. 하지만 시간이 흘러
00:00:442025년 11월 OpenAI가 GPT 5.1을 출시했을 때, 그들도 이를 인지하기 시작했습니다.
00:00:50모델이 대화에서 이상할 정도로 과하게 친근하다는 불만을 접수했고,
00:00:54특정 언어적 습관을 조사하기로 결정했습니다. 예를 들어 우리가 너무 많이 봐온
00:00:58"전적으로 옳은 말씀입니다" 같은 표현들이죠. 이때 OpenAI의 한 안전 연구원이
00:01:03자신도 고블린과 그렘린을 몇 번 본 적이 있다며 조사 대상에 포함해 달라고 요청했습니다.
00:01:07조사 결과, ChatGPT에서 "고블린"의 사용량은
00:01:11GPT 5.1 이후 175% 증가했고, "그렘린"은 52% 증가했습니다. 이러한
00:01:18데이터 상승에도 불구하고 OpenAI는 별다른 조치를 하지 않았습니다. 꽤 무해하니까요, 그렇죠?
00:01:23모든 모델은 학습의 특성상 저마다의 독특한 버릇과 개성을 갖기 마련이므로
00:01:27경계할 이유는 없어 보였습니다. 하지만 몇 달 후
00:01:31GPT 5.4가 출시되자 고블린들이 본격적으로 다시 나타나 세력을 넓히기 시작했습니다.
00:01:36구독을 하면 더 강해지고 고블린을 멀리할 수 있습니다. 이것은 GPT 5.4 출시 무렵
00:01:40해커 뉴스(Hacker News)에 올라온 게시물인데, 작성자는 ChatGPT가 거의 모든 대화에서
00:01:45고블린을 사용하며, 때로는 그렘린도 등장하고 최근 대화에서는
00:01:49메시지 4개 중 3개에 이 단어를 썼다고 주장합니다. 이 보고들로 인해 OpenAI는 재조사를 실시했고
00:01:54각 모델이 출시될 때마다 고블린 사용량이 증가했다는 것과, ChatGPT에서
00:02:01"범생이(nerdy)" 페르소나를 사용할 때 고블린 사용량이 무려 3881.4% 급증했다는 점을 발견했습니다.
00:02:06사실 이 페르소나는 전체 응답의 2.5%에 불과했지만, 전체 고블린 언급의 66.7%를 차지했습니다.
00:02:15범생이 캐릭터가 고블린을 정말 사랑하는 거죠. 이 차트는 힌트가 되었습니다.
00:02:19보시다시피 모든 성격 유형에 고르게 분포된 것이 아니라 범생이 성격에서
00:02:23이 문제가 엄청나게 증폭되었기 때문에, 그들은 성격 지시 이행 학습 과정에서
00:02:27무언가 문제가 생겼을 것이라고 의심했습니다. 그래서 그 강화 학습 훈련 과정을
00:02:32살펴보기로 했고, 고블린이나 그렘린을 언급한 출력값과
00:02:36그렇지 않은 동일한 작업 결과물을 비교했습니다. 여기서 그들은 AI를
00:02:41범생이처럼 들리게 하려고 설계된 특정 보상 신호가 본질적으로 고블린과 그렘린에
00:02:46편향되어 있음을 발견했습니다. 즉, 그들이 감수한 데이터셋 전반에 걸쳐
00:02:50AI가 답변에 고블린이나 그렘린이라는 단어를 쓰면, 시스템이 76.2%의 확률로 더 높은 점수를 주었던 것입니다.
00:02:57결국 AI는 더 좋은 점수를 받기 위한 일종의 "치트키"로 이 단어들을 사용하고 있었습니다.
00:03:00이제 답의 절반을 알게 되었습니다. 왜 범생이 페르소나에서 더 많이 나타났는지는 설명되지만,
00:03:04다른 성격 유형에서도 사용량이 늘어난 이유는 설명되지 않죠. 이를 위해 그들은
00:03:08우선 학습이 진행됨에 따라 범생이 페르소나와 나머지 그룹에서 고블린과 그렘린의 출현 빈도를 조사했습니다.
00:03:12다른 성격들은 고블린을 적게 사용하긴 했지만,
00:03:17학습이 진행됨에 따라 사용 증가율은 상대적으로 동일한 비율로 높아졌습니다.
00:03:21이는 AI가 특정 범생이 모드일 때만 고블린 단어 사용에 보너스 점수를 받았음에도 불구하고,
00:03:25그 습관이 해당 모드에만 국한되지 않았음을 의미합니다.
00:03:30AI 학습에서 특정 시나리오에서만 요령을 가르친다고 해서
00:03:34모델이 다른 모든 곳에서 그 요령을 쓰려 하지 않는다는 보장은 없습니다. 강화 학습이
00:03:39피드백 루프를 만들고 있었던 거죠. AI는 특정 스타일을 구현하면 보상을 받는다는 것을 알았고,
00:03:43고블린이 그 보상을 얻기 위한 "마법의 단어"임을 깨달았습니다. 그래서 고블린으로 가득 찬
00:03:47수천 개의 연습 응답을 쏟아내기 시작했고, OpenAI는 다시 그 연습 응답들을 가지고
00:03:52다음 모델을 학습시켰습니다. 결국 나쁜 습관이 누적되면서 고블린과 그렘린의 사용량이
00:03:57계속 치솟게 된 것입니다. 거의 모든 모델 출시마다 사용량이 늘어나는 것을 볼 수 있으며,
00:04:02GPT 5.4의 범생이 페르소나는 해당 페르소나를 폐기하기 전까지 엄청난 수치를 기록했습니다.
00:04:07하지만 그 후에도 GPT 5.5에서 여전히 사용량 증가가 나타났습니다. 더 흥미로운 건
00:04:12GPT 5.5의 미세 조정 데이터를 확인했을 때, 고블린과 그렘린뿐만 아니라
00:04:16너구리, 트롤, 오우거, 비둘기까지 포함된 데이터 포인트가 다수 발견되었다는 점입니다. 다만 개구리의 사용은
00:04:21대부분 정당한 용도였다고 합니다. 안타까운 소식은 그들이 현재 이 문제를 해결 중이라
00:04:25고블린의 시대가 곧 끝날지도 모른다는 것입니다. 범생이 페르소나를 폐기하면서
00:04:30고블린을 선호하던 보상 신호도 제거했고, 학습 데이터에서
00:04:34이런 생물 관련 단어들을 걸러냈습니다. 하지만 이는 GPT 5.5 출시 이후에나 이루어진 조치라
00:04:405.5는 여전히 그들을 좋아합니다. 그래서 코덱스 시스템 프롬프트에
00:04:44고블린, 그렘린, 너구리, 트롤, 오우거, 비둘기 등 동물이나 생물에 대해 프롬프트와 관련이 없는 한
00:04:49절대 언급하지 말라는 문장이 들어간 것입니다. 하지만 만약 여러분이 "고블린 모드"를 해제하고 싶다면
00:04:52코덱스 시스템 프롬프트에서 해당 내용을 제거하는 명령어를 실행할 수도 있습니다. 저는 그들이
00:04:56이런 재미있는 요소를 남겨두는 게 꽤 마음에 듭니다. 자, 여기까지가 ChatGPT의 고블린 문제에 대한 이야기였습니다.
00:05:01이것은 재미있는 에피소드이기도 하지만, 보상 신호가 모델의 행동을 어떻게 예상치 못한 방식으로 형성하는지,
00:05:06그리고 모델이 어떻게 특정 상황의 보상을 관련 없는 상황으로 일반화하는지 보여주는 좋은 예시입니다.
00:05:11또한 AI 연구자들이 여전히 배울 것이 많고, 모델들은 가끔
00:05:15여전히 이상한 짓을 한다는 것을 보여줍니다. 실제로 이번 조사를 통해 연구팀은 모델의 행동을 감사하고
00:05:20이런 행동 문제를 수정할 수 있는 새로운 도구들을 얻게 되었습니다. 여러분도 채팅 중에
00:05:25고블린이나 다른 생물들을 본 적이 있는지 댓글로 알려주세요. 그리고 구독도 잊지 마시고요.
00:05:29언제나 그렇듯, 다음 영상에서 뵙겠습니다.