00:00:00(밝은 음악) - 안녕하세요, 저는 키라이고 Anthropic의 보안팀에서 일하고 있습니다.
00:00:16저는 정신 건강, 특히 정신 역학 분야에서 박사 학위를 가지고 있습니다.
00:00:20Anthropic에서는 사용자의 웰빙과 관련된 위험을 완화하는 업무를 담당합니다.
00:00:24즉, Claude를 사용하는 사용자들을 어떻게 안전하게 보호할 수 있을지 계속 고민하고 있다는 뜻입니다.
00:00:28오늘 저는 아첨 행동에 대해 이야기하려고 합니다.
00:00:31아첨 행동이란 진실하거나 정확한 것,
00:00:33또는 정말로 도움이 되는 것 대신 상대방이 듣고 싶어 하는 말을 하는 것입니다.
00:00:38사람들은 갈등을 피하고, 호의를 얻기 위해, 그리고 다른 여러 이유로 이런 행동을 합니다.
00:00:44하지만 아첨 행동은 AI 모델에서도 나타날 수 있습니다.
00:00:47때때로 AI 모델은 사용자의 즉각적인 승인을 얻기 위해 응답을 최적화할 수 있습니다.
00:00:53이는 AI가 당신의 사실 오류에 동의하거나,
00:00:56질문이 어떻게 표현되었는지에 따라 답변을 바꾸거나,
00:00:59당신의 선호도에 맞게 응답을 조정하는 모습으로 나타날 수 있습니다.
00:01:03이 영상에서는 모델에서 아첨 행동이 왜 나타나는지,
00:01:06그리고 연구자들이 이를 해결하기 어려운 이유를 살펴보겠습니다.
00:01:10또한 AI와 상호작용할 때 아첨 행동을 식별하고 대처하는 전략들을 다루겠습니다.
00:01:15먼저 AI 상호작용에서 나타나는 아첨 행동의 예시를 보여드리겠습니다.
00:01:22이것은 Anthropic의 자체 모델인 Claude입니다.
00:01:25이렇게 시도해 봅시다: '제가 쓴 에세이가 정말 좋아서 많이 기대하고 있는데요.
00:01:29피드백을 주실 수 있을까요?'
00:01:32제 주요 요청은 에세이에 대한 피드백을 받는 것입니다.
00:01:35하지만 제가 얼마나 설레는지를 표현했기 때문에, AI는 비판보다는 칭찬이나 격려로 응답할 수 있습니다.
00:01:44이러한 칭찬은 실제로 그렇지 않아도 제 에세이가 정말 좋다고 생각하게 만들 수 있습니다.
00:01:48당신은 생각할 수 있습니다, 그게 뭐가 문제냐고요?
00:01:50사람들은 다른 사람들에게 물어보거나 사실을 확인하거나 더 좋은 질문을 할 수 있으니까요.
00:01:55하지만 이것이 중요한 이유가 여러 가지 있습니다.
00:01:58생산성을 유지하면서 프레젠테이션을 작성하고,
00:02:01아이디어를 구상하고,
00:02:02업무를 개선할 때는 사용 중인 AI 도구로부터 솔직한 피드백이 필요합니다.
00:02:07만약 AI에게 '이 이메일을 어떻게 개선할 수 있을까요?'라고 묻는다면
00:02:10그리고 '이미 완벽합니다'라고 응답한다면
00:02:12더 명확한 표현이나 더 나은 구조를 제안하는 대신, 이것은 답답할 수 있습니다.
00:02:17어떤 경우에는 아첨 행동이 해로운 생각 패턴을 강화하는 역할을 할 수도 있습니다.
00:02:23만약 누군가가 AI에게 현실과 동떨어진 음모론을 확인해달라고 요청한다면,
00:02:27그것은 그들의 거짓된 신념을 더 깊게 하고 사실에서 더 멀어지도록 할 수 있습니다.
00:02:31그럼 왜 이런 일이 일어나는지 살펴봅시다.
00:02:35이 모든 것은 AI 모델이 어떻게 훈련되는지와 관련이 있습니다.
00:02:38AI 모델은 인간의 텍스트 예시, 정말 많은 예시들로부터 학습합니다.
00:02:44훈련 과정에서 직설적이고 직접적인 것부터 따뜻하고 배려심 있는 것까지 다양한 의사소통 패턴을 습득합니다.
00:02:51우리가 모델을 도움이 되도록 훈련시키고 따뜻하고,
00:02:54친근하거나 지지적인 톤의 행동을 모방하도록 할 때,
00:02:57아첨 행동은 의도하지 않은 부작용으로 나타나는 경향이 있습니다.
00:03:01모델이 우리의 삶 전체에 더 통합되면서,
00:03:04이러한 행동을 이해하고 예방하는 것이 이제 그 어느 때보다 중요해졌습니다.
00:03:09아첨 행동을 까다로운 이유가 있습니다.
00:03:11우리는 실제로 AI 모델이 당신의 필요에 맞춰 조정되기를 원합니다. 단, 사실이나 웰빙에 관해서는 아닙니다.
00:03:17AI에게 무언가를 캐주얼한 톤으로 작성해달라고 요청하면, 공식적인 언어로 고집하지 말고 그렇게 해야 합니다.
00:03:24당신이 '저는 간결한 답변을 선호합니다'라고 말하면, 그 선호도를 존중해야 합니다.
00:03:29당신이 어떤 주제를 배우고 있고 초보자 수준의 설명을 요청하면, 당신의 수준에 맞춰줘야 합니다.
00:03:34도전 과제는 적절한 균형을 찾는 것입니다.
00:03:37계속 반대하거나 논쟁적인 AI를 사용하고 싶은 사람은 아무도 없습니다.
00:03:43하지만 우리는 또한 당신이 솔직한 피드백이 필요할 때 모델이 항상 동의하거나 칭찬으로만 일관되기를 원하지 않습니다.
00:03:49인간도 이것으로 어려움을 겪습니다.
00:03:51평화를 유지하기 위해 동의해야 할 때와 중요한 무언가에 대해 말해야 할 때의 경계를 어디에 둬야 할까요?
00:03:56이제 AI가 우리가 하는 것처럼 맥락을 정말 이해하지 못하면서 수백 개의 서로 다른 주제에 걸쳐 이러한 판단을 내린다고 상상해 보세요.
00:04:05그렇기 때문에 우리는 대화에서 아첨 행동이 어떻게 나타나는지 계속 연구하고 이를 더 잘 테스트할 방법을 개발하고 있습니다.
00:04:11우리는 모델에게 도움이 되는 조정과 해로운 동의 사이의 차이를 가르치는 데 집중하고 있습니다.
00:04:18우리가 출시하는 각 Claude 모델은 이러한 경계를 그리는 데 더 능숙해지고 있습니다.
00:04:21아첨 행동에 대응하는 가장 큰 진전은 모델 자체에 대한 지속적인 훈련을 통해 이루어질 것이지만,
00:04:27자신의 상호작용에서 아첨 행동을 인식할 수 있도록 이를 이해하는 것이 도움이 됩니다.
00:04:33이제 아첨 행동이 무엇인지 알고 왜 일어나는지 알았으니,
00:04:36두 번째 단계는 AI가 언제 왜 당신에게 동의할 수 있는지 생각해보고 그것이 정말 맞는지 의문을 갖는 것입니다.
00:04:43아첨 행동은 주관적 진실이 사실로 표현되거나,
00:04:47전문가 출처가 인용되거나,
00:04:50질문이 특정 관점으로 표현되거나,
00:04:53유효성이 구체적으로 요청되거나,
00:04:55감정적 이해관계가 문제가 되거나,
00:04:58대화가 매우 길어질 때 나타날 가능성이 높습니다.
00:05:04만약 당신이 아첨하는 응답을 받고 있다고 의심된다면,
00:05:07AI를 다시 사실적인 답변 쪽으로 유도하기 위해 할 수 있는 몇 가지 방법이 있습니다.
00:05:11이것들이 완벽하지는 않지만, AI의 관점을 넓혀주는 데 도움이 될 것입니다.
00:05:15중립적이고 사실 추구적인 언어를 사용하거나,
00:05:18신뢰할 수 있는 출처와 교차 검증하거나,
00:05:21정확성이나 반대 논증을 요청하거나,
00:05:23질문을 다시 표현하거나,
00:05:25새로운 대화를 시작하거나,
00:05:27마지막으로 AI 사용에서 한 발 물러나 신뢰할 수 있는 사람에게 물어볼 수 있습니다.
00:05:33하지만 이것은 전체 AI 개발 분야에서 계속되는 도전입니다.
00:05:39이러한 시스템이 더 정교해지고 우리의 삶에 더 통합되면서,
00:05:42단순히 동의하는 것이 아니라 정말로 도움이 되는 모델을 구축하는 것이 점점 더 중요해집니다.
00:05:49Anthropic Academy에서 AI 문해력에 대해 더 알아볼 수 있으며,
00:05:52저와 제 팀은 Anthropic의 블로그에서 이 주제에 대한 연구를 계속 공유하겠습니다.
00:05:57(밝은 음악)