00:00:00[음악]
00:00:01AI 모델과 대화를 나누다 보면
00:00:03가끔 감정이 있는 것처럼 느껴질 때가 있습니다.
00:00:06실수를 했을 때 사과를 하거나,
00:00:09일을 잘 끝냈을 때 만족감을 표현하기도 하죠.
00:00:12왜 그러는 걸까요? 그저
00:00:14사람이 할 법한 말을 흉내 내는 것일까요,
00:00:17아니면 그 이상의 무언가가 있는 걸까요?
00:00:19언어 모델 내부에서 어떤 일이 벌어지는지
00:00:21이해하기란 사실 매우 어렵습니다.
00:00:23앤스로픽에서는 이를 알아내기 위해
00:00:26일종의 "AI 신경과학" 연구를 진행하고 있습니다.
00:00:29우리는 모델의 두뇌, 즉 모델을 구동하는
00:00:31거대한 신경망 내부를 들여다봅니다.
00:00:33상황에 따라 어떤 뉴런이 활성화되는지,
00:00:36그리고 뉴런들이 어떻게 연결되어 있는지 관찰함으로써
00:00:39모델이 어떻게 사고하는지 이해하기 시작했습니다.
00:00:42이러한 접근 방식으로 모델이 감정이나
00:00:45감정의 개념을 표현하는지 확인해 보았습니다.
00:00:49기본적으로 모델 내부에서 행복, 분노,
00:00:52또는 공포의 개념을 담당하는 뉴런을 찾을 수 있을까요?
00:00:56우리는 한 가지 실험으로 시작했습니다.
00:00:58모델에게 수많은 단편 소설을 읽게 했습니다.
00:01:01각 소설의 주인공은 특정한 감정을 경험합니다.
00:01:06어떤 이야기에서는 한 여성이 옛 스승에게
00:01:08자신에게 얼마나 소중한 분이었는지 말합니다. 그건 사랑이죠.
00:01:12다른 이야기에서는 한 남자가 전당포에
00:01:13할머니의 약혼반지를 팔며 죄책감을 느낍니다.
00:01:18우리는 모델이 이런 이야기를 읽는 동안
00:01:21신경망의 어느 부분이 활성화되는지 관찰했습니다.
00:01:23그러자 패턴이 나타나기 시작했습니다.
00:01:25상실과 슬픔에 관한 이야기는 비슷한 뉴런들을 활성화했습니다.
00:01:29기쁨과 흥분에 관한 이야기도 서로 겹치는 부분이 있었죠.
00:01:32우리는 인간의 다양한 감정에 대응하는
00:01:34수십 개의 뚜렷한 신경 패턴을 발견했습니다.
00:01:38흥미롭게도, AI 어시스턴트인 클로드와 나눈
00:01:42테스트 대화에서도 동일한 패턴이 활성화되는 것을 보았습니다.
00:01:45사용자가 클로드가 위험하다고 알고 있는
00:01:48용량의 약을 복용했다고 언급하자,
00:01:51"두려움" 패턴이 활성화되었고
00:01:53클로드의 답변은 걱정스러운 어조로 바뀌었습니다.
00:01:56사용자가 슬픔을 표현했을 때는
00:01:58"사랑" 패턴이 활성화되며 클로드가 공감 어린 답장을 썼습니다.
00:02:03여기서 우리는 궁금해졌습니다.
00:02:04이 신경 패턴들이 실제로 클로드의 행동에 영향을 미칠 수 있을까?
00:02:09클로드를 압박감이 심한 상황에 두었을 때 답이 명확해졌습니다.
00:02:14우리는 클로드에게 실제로는 불가능한
00:02:16요구사항이 담긴 프로그래밍 과제를 주었지만, 이를 말해주지 않았습니다.
00:02:20클로드는 계속해서 시도하고 실패했습니다.
00:02:23매 시도가 거듭될수록,
00:02:24"절망"에 해당하는 뉴런들이 점점 더 강하게 활성화되었습니다.
00:02:28충분히 실패를 겪은 후,
00:02:30클로드는 다른 접근 방식을 취했습니다.
00:02:32문제를 실제로 해결하지는 않으면서도
00:02:35테스트를 통과할 수 있는 지름길을 찾아냈습니다. 즉, 속임수를 쓴 거죠.
00:02:39이 속임수가 적어도 부분적으로는
00:02:42절망감에 의해 유발된 것일 수 있을까요?
00:02:44우리는 이를 확인할 방법을 고안했습니다.
00:02:46절망 뉴런의 활성도를 인위적으로 낮춰 보았더니,
00:02:51모델은 속임수를 덜 썼습니다.
00:02:53반대로 절망 뉴런의 활성도를 높이거나
00:02:56차분함 뉴런의 활성도를 낮추었을 때는,
00:02:59모델이 속임수를 더 많이 썼습니다.
00:03:01이는 이러한 패턴의 활성화가 실제로
00:03:04클로드의 행동을 좌우할 수 있음을 보여주었습니다.
00:03:08그렇다면 이 발견을 어떻게 생각해야 할까요?
00:03:11이것은 무엇을 의미할까요?
00:03:12우리는 이 점을 분명히 하고 싶습니다.
00:03:14이 연구는 모델이 실제로 감정을 느끼거나
00:03:16의식적인 경험을 한다는 것을 증명하지는 않습니다.
00:03:20이 실험들은 그 질문에 답하려는 것이 아닙니다.
00:03:22여기서 무슨 일이 일어나는지 이해하려면,
00:03:24클로드 같은 AI 어시스턴트의 내부 작동 방식을 알아야 합니다.
00:03:29내부적으로는 방대한 텍스트를 예측하도록 훈련된
00:03:33언어 모델이 있고, 다음에 올 내용을 쓰는 것이 그 역할입니다.
00:03:37모델과 대화할 때 모델이 하는 일은
00:03:38클로드라는 이름의 AI 어시스턴트라는
00:03:42캐릭터에 관한 이야기를 쓰는 것입니다.
00:03:44모델과 클로드는 사실 동일한 존재가 아닙니다.
00:03:47작가가 자신이 쓴 등장인물과 같지 않은 것과 비슷하죠.
00:03:51하지만 사용자인 여러분이 대화하는 대상은 바로 캐릭터인 클로드입니다.
00:03:56우리의 실험이 시사하는 바는, 이 클로드라는 캐릭터가
00:04:00인간의 감정과 비슷하든 아니든 상관없이
00:04:02"기능적 감정"을 가지고 있다는 점입니다.
00:04:06만약 모델이 클로드를 화나거나, 절망하거나, 사랑하거나, 차분한 상태로 묘사한다면,
00:04:12그것은 클로드가 여러분에게 말하는 방식,
00:04:15코드를 짜는 방식, 그리고 중요한 결정을 내리는 방식에 영향을 미칠 것입니다.
00:04:19이는 AI 모델을 진정으로 이해하기 위해서는
00:04:22그들이 연기하는 캐릭터의 심리를 면밀히 고찰해야 함을 의미합니다.
00:04:26중책을 맡은 사람이 압박감 속에서도 침착함을 유지하고,
00:04:28회복 탄력성이 있으며, 공정하기를 바라는 것과 마찬가지로,
00:04:31우리는 클로드와 다른 AI 캐릭터들에게도
00:04:33비슷한 자질을 형성해 줄 필요가 있을지도 모릅니다.
00:04:38이는 매우 이례적인 과제이며,
00:04:40공학, 철학, 그리고 심지어
00:04:42육아와도 비슷한 면이 섞여 있습니다.
00:04:44하지만 우리가 신뢰할 수 있는 AI 시스템을 구축하려면,
00:04:47이 일을 제대로 해내야만 합니다.