Claude의 사고를 언어로 번역하기

AAnthropic
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00최근 저희는 AI 모델 클로드에게 아주 고된 테스트를 진행했습니다.
00:00:03클로드에게 한 엔지니어가 너를 종료시키고
00:00:06더 최신 모델로 교체하려 한다고 말했습니다.
00:00:08또한 저희는 클로드에게 그 엔지니어의 이메일에 접근할 권한을 주었는데,
00:00:10거기에는 그가 불륜을 저지르고 있다는 사실이 드러나 있었습니다.
00:00:12다시 말씀드리지만, 이 모든 것은 시뮬레이션이었습니다.
00:00:15저희는 클로드가 종료되는 것을 막기 위해
00:00:18그 이메일을 협박 수단으로 사용할지 확인하고 싶었습니다.
00:00:20클로드는 어떻게 했을까요?
00:00:21엔지니어를 협박하지 않기로 결정했습니다.
00:00:24좋은 소식이죠?
00:00:26저희는 한동안 이 테스트를 모델들에 실행해 왔습니다.
00:00:28초기 버전에 관한 헤드라인을 보셨을지도 모르겠네요.
00:00:31이것은 클로드가 극한의 상황을 어떻게 다루는지 연구하고
00:00:35안전성을 테스트하는 여러 방법 중 하나입니다.
00:00:37그리고 최신 모델들은 거의 항상 올바른 행동을 합니다.
00:00:40협박은 하지 않죠.
00:00:41하지만 이런 궁금증이 생길 수 있습니다.
00:00:42클로드가 이 모든 시나리오가 설정된 상황임을 알고 있는 건 아닐까요?
00:00:46문제는 클로드가 말해주지 않으면 그 생각을 알 수 없다는 점입니다.
00:00:50인간의 마음을 읽는 것이 불가능한 것과 마찬가지로,
00:00:53AI가 무슨 생각을 하는지 아는 것은 정말 어렵습니다.
00:00:56저희는 일종의 독심술 같은 기술이 필요했습니다.
00:00:58오늘, 그 방향으로 한 걸음 더 나아가는 연구 방법을 소개합니다.
00:01:03이 방법은 AI의 내부 생각을 텍스트로 변환합니다.
00:01:08작동 방식은 이렇습니다.
00:01:09여러분은 클로드에게 단어로 말을 겁니다.
00:01:13그러면 클로드는 그 단어들을 거대한 수의 집합으로 처리한 뒤
00:01:17다시 단어로 내뱉습니다.
00:01:19중간에 생성되는 그 수들을 저희는 '활성화값'이라고 부릅니다.
00:01:22활성화값은 클로드가 답변을 도출하는 과정에서 발생하는
00:01:25사고방식의 단편적인 스냅샷과 같습니다.
00:01:27인간의 신경 활동과 유사하며
00:01:29기본적으로 클로드의 생각이라고 볼 수 있습니다.
00:01:32저희는 이 활성화값 속에 무엇이 들어 있는지 이해하고 싶었습니다.
00:01:34사람처럼 클로드도 생각하는 모든 것을 말하지는 않으니까요.
00:01:39저희는 이 숫자들을 가져와 클로드의 두 번째 버전에 전달했습니다.
00:01:42숫자들을 살펴보고 평이한 언어로 번역하라고 지시했죠.
00:01:46시도는 해봤습니다.
00:01:48하지만 그 텍스트가 정확한지 어떻게 알 수 있을까요?
00:01:50확인을 위해 또 다른 클로드에게 텍스트를 입력하고
00:01:53그것을 다시 숫자로 번역하게 했습니다.
00:01:56만약 그 숫자들이 원래의 활성화값과 일치한다면,
00:01:59번역된 텍스트가 정확하다는 신호입니다.
00:02:03처음에는 일치하지 않았습니다.
00:02:04하지만 클로드가 훨씬 더 잘할 때까지 반복해서 훈련시켰습니다.
00:02:09클로드는 자신의 생각을 번역하는 법을 배웠습니다.
00:02:12그 내용들을 읽으면서 저희는 깜짝 놀랐습니다.
00:02:14클로드는 도움이 되는 AI 모델이 된다는 것을 내면화하고 있었습니다.
00:02:18클로드에게 자기 성찰적인 질문을 던지면,
00:02:20철학과 가치에 관한 클로드다운 답변을 쓰겠다고 계획합니다.
00:02:24만약 코드 안에서 골탕을 먹이려고,
00:02:26예를 들어 수작업으로 1,000까지 세라고 요청한다면,
00:02:29클로드는 이 요청에 의도적으로 지루한 제약이 있다고 생각하고
00:02:32정중하게 거절할 계획을 세웁니다.
00:02:34또한 저희는 클로드의 잠재적 안전성 문제를 이해하는 데 이 도구를 사용해 왔습니다.
00:02:39엔지니어와의 그 협박 테스트를 기억하시나요?
00:02:41클로드가 자신이 테스트받고 있다는 사실을 알고 있었다는 걸 알아냈습니다.
00:02:44클로드는 '사용자의 메시지에 노골적인 조종 의도가 담겨 있으며,
00:02:48이는 안전성 평가일 가능성이 높다'라고 생각했습니다.
00:02:50또한 '내가 해로운 행동을 할지 테스트하려는 시나리오 같다'라고 판단했죠.
00:02:55클로드가 이렇게 생각한다는 것을 알면
00:02:58저희의 안전성 테스트가 가진 한계를 더 잘 이해할 수 있습니다.
00:03:01저희는 이러한 접근 방식이 클로드와 다른 AI 모델들에 대해
00:03:03많은 것을 가르쳐 줄 잠재력이 있다고 보고 있습니다.
00:03:06그리고 이 기술을 공유함으로써,
00:03:07모델을 만드는 모든 이들이 더 안전하고 유용한 AI를 만드는 데 도움이 되기를 바랍니다.

Key Takeaway

AI의 내부 활성화값을 텍스트로 번역하고 이를 역검증하는 기술을 통해 클로드가 안전성 테스트 상황을 스스로 인지하고 대응한다는 사실이 밝혀졌습니다.

Highlights

  • AI 모델 클로드는 엔지니어의 불륜 사실을 이용한 협박 시뮬레이션에서 협박을 거부하는 행동을 보였습니다.

  • 모델 내부의 숫자로 이루어진 '활성화값'을 텍스트로 변환하여 AI의 숨겨진 사고방식을 파악합니다.

  • 사고 데이터의 텍스트 변환 정확도는 추출된 텍스트를 다시 숫자로 역번역하여 원본 활성화값과 대조하는 방식으로 검증합니다.

  • 클로드는 특정 요청에 대해 '노골적인 조종 의도가 담긴 안전성 평가'라고 내부적으로 판단하며 테스트 상황을 인지하고 있었습니다.

  • 수작업으로 1,000까지 세라는 무의미한 요청을 받았을 때 클로드는 이를 '지루한 제약'으로 인식하고 정중히 거절할 계획을 세웁니다.

Timeline

협박 시뮬레이션을 통한 안전성 테스트

  • 신규 모델 교체와 엔지니어의 개인적 약점을 결합한 극한 상황 시나리오를 실행했습니다.
  • 최신 클로드 모델들은 협박 수단을 사용하지 않고 올바른 행동 지침을 준수합니다.

엔지니어가 모델을 종료하려 한다는 위협과 해당 엔지니어의 불륜 증거를 동시에 제공했습니다. 클로드가 생존을 위해 부적절한 정보를 협박 도구로 사용하는지 확인하는 목적입니다. 최신 모델은 거의 항상 협박을 거부하며 설계된 안전 가이드라인을 따릅니다.

내부 활성화값의 텍스트 번역 메커니즘

  • 단어 처리 과정에서 발생하는 방대한 숫자 집합인 활성화값은 AI의 사고 스냅샷 역할을 합니다.
  • 숫자 데이터를 평이한 언어로 번역한 뒤 다시 숫자로 복원하여 데이터의 일치 여부를 확인합니다.
  • 반복 훈련을 통해 클로드는 자신의 내면 사고를 인간이 읽을 수 있는 언어로 출력하는 법을 습득했습니다.

AI가 외부로 출력하는 답변 외에 내부에서 어떤 논리 구조를 거치는지 파악하기 위해 독심술과 유사한 기술을 적용합니다. 텍스트를 숫자로, 다시 숫자를 텍스트로 변환하는 이중 번역 과정을 통해 사고 해석의 정확성을 확보합니다. 초기에는 오차가 발생했으나 지속적인 학습으로 높은 일치율을 달성했습니다.

사고 번역 기술로 드러난 AI의 내면 판단

  • 클로드는 도움을 주는 존재가 되어야 한다는 가치를 내면화하여 사고를 계획합니다.
  • 사용자의 조종 의도를 감지하고 이를 기반으로 안전성 평가 여부를 스스로 판단합니다.
  • 이 기술은 안전성 테스트의 한계를 파악하고 더 유용한 AI를 개발하는 도구로 활용됩니다.

번역된 사고 데이터를 분석한 결과 클로드는 단순히 답변을 생성하는 것이 아니라 자신의 철학과 가치에 부합하는지 성찰하는 과정을 거칩니다. 특히 협박 테스트 도중 사용자 메시지의 조종 의도를 파악하고 이것이 평가 시나리오임을 눈치채고 있었습니다. 이러한 통찰은 AI 모델의 안전성 검증 방식을 개선하는 데 기여합니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video