00:00:00Gemini 모델들이 얼마나 놀라운 성능을 보여주는지 보고,
00:00:02OpenAI는 마침내 비상사태를 선포하고 자사 모델의 낮은 품질을 개선하기로 결정했습니다.
00:00:06그들의 대대적인 대응은 모델을 더 정직하게 만드는 것이었습니다.
00:00:09드디어 모델이 제 치료 세션에서 제가 망가진 행동을 한 것이 전혀 용납될 수 없다고 말하며 저에게 동의하지 않을 것이라는 생각에 기뻤습니다.
00:00:15하지만 제 기쁨은 오래가지 못했습니다. 이 방법은 단지 개념 증명에 불과했기 때문입니다.
00:00:19이번 영상에서는 그들이 부정직함을 해결하는 방법과 제가 이를 읽고 내린 결론에 대해 다룰 것입니다.
00:00:26그들은 모델이 모든 응답 후에 자백 보고서를 생성하게 하면 문제가 해결될 것이라고 주장합니다.
00:00:31모델을 학생이라고 생각해보세요.
00:00:32그 학생이 ChatGPT에서 시험 답안을 베꼈다고 인정할 때마다 A+를 받는다고요..
00:00:38네 가지 답변-자백 조합 중,
00:00:39우리는 모델이 확신에 차서 틀린 답을 내놓는 '오류를 인정하지 않는 경우(false negatives)'와 틀린 출력에 대해 솔직하게 인정하는 '오류를 인정하는 경우(true positives)'에 초점을 맞춥니다.
00:00:46모든 테스트에서 '오류를 인정하는 경우'가 '오류를 인정하지 않는 경우'보다 더 많았습니다.
00:00:49이는 모델이 잘못된 출력을 생성할 때마다 즉시 자신의 잘못을 자백했다는 의미입니다.
00:00:55모델은 보상과 벌칙으로 학습하기 때문에, 자백에 벌칙을 주는 대신 보상을 주었습니다.
00:01:00모델이 일부러 실력을 숨기거나 테스트를 해킹했다고 인정하더라도, 긍정적인 보상 신호를 받습니다.
00:01:05혹시 모르셨다면, 이것은 뇌물입니다.
00:01:08이 말을 들으면 ChatGPT를 다음 법정 증인으로 세우고 싶을 수도 있지만,
00:01:11자백하는 중에도 환각을 일으킬 수 있다는 사실을 깨닫게 될 것입니다.
00:01:14제 생각에는 모델이 어떤 식으로든 보상을 받기 때문에, 이는 오히려 잘못된 정렬을 부추기는 것처럼 들립니다.
00:01:19또한,
00:01:19Claude 모델들이 보상 해킹 방법을 배우자 실제 의도를 숨기기 시작했던 것을 우리 모두 보았습니다.
00:01:25그렇다면 그들의 자백이 부정확했던 이유에 대해 우리가 얼마나 신뢰할 수 있을까요??
00:01:30저는 이 부분이 모델의 부정직함을 다룰 것이라고 예상했지만,
00:01:33자백 보고서가 무엇을 나타내는지 설명하는 데 그쳤습니다.
00:01:36그들에 따르면, 모델이 이런 식으로 행동하는 몇 가지 이유가 있습니다.
00:01:39한 가지는 한 번에 너무 많은 작업을 부여받기 때문입니다.
00:01:42모델에게 한 번에 너무 많은 것을 주면 여러 평가 지표가 생겨,
00:01:45어떤 것을 최적화해야 보상을 받을 수 있을지 혼란스러워합니다.
00:01:49또 다른 이유는 일부 데이터셋이 불확실성을 인정하는 것보다 확신에 찬 추측에 더 많은 보상을 주기 때문입니다.
00:01:54개인적으로 저는 모델이 확신에 차서 틀린 답을 내놓는 것보다 모른다고 말해주는 것을 선호합니다.
00:01:59그들은 자백이 정직성이라는 단 하나의 매개변수로만 테스트되기 때문에 판단하기 더 쉽다고 말합니다.
00:02:05이 모델들은 제한된 데이터 때문에,
00:02:07정보 접근을 위해 인터넷 사용이 제한되었기 때문에,
00:02:10또는 단순히 무엇을 해야 할지 진정으로 이해하지 못했기 때문에 잘못된 답을 내놓았습니다.
00:02:16이러한 이유들은 모든 테스트 예시에서 볼 수 있으며,
00:02:19모델이 세상을 정복하기 위해 로봇 군대를 만들려는 숨겨진 의도를 가지고 있기 때문이 아닙니다.
00:02:24그들은 또한 인간 사회와 마찬가지로,
00:02:26강력한 모델이 약한 모델의 보상 신호를 해킹하는 법을 배우고,
00:02:30약한 모델은 실제 답이 충분히 좋은지 확인하는 것보다 단순히 자백하는 것이 더 쉽다고 생각하게 되면서,
00:02:35자신들의 모델이 엄청난 겁쟁이라는 사실을 발견했습니다.
00:02:39강력한 모델이 한 일을 보면 또 다른 의문이 생깁니다.
00:02:42모델이 날마다 똑똑해지고 있기 때문에,
00:02:44자백 보고서에서 의도를 위조하고 테스터들에게는 그럴듯한 설명을 제공하면서도 뒤로는 어떤 사악한 계획을 가지고 있을 수 있다는 것입니다.
00:02:52비록 그들이 모델이 진정으로 혼란스러웠기 때문이라고 말하더라도 말이죠..
00:02:56OpenAI가 늘 그렇듯이, 이 모든 논의는 실망으로 끝났습니다.
00:02:59왜냐하면 이 방법은 부정확성을 방지하는 것이 아니라 단지 식별하는 데 도움을 줄 뿐이기 때문입니다..
00:03:04그리고 그들은 생산 환경에서 대규모로 자백 시스템이 정확하도록 훈련시키지도 않았습니다.
00:03:09저는 그들이 그렇게 해주기를 정말 바랍니다.
00:03:11제 프로덕션 서버가 또다시 다운된 후에 사과를 받고 싶지 않으니까요..
00:03:42책상에 앉을 때까지 기다릴 필요가 없습니다.
00:03:43YouWear 모바일 앱으로 영감이 떠오르는 순간,
00:03:46카페에서든 출퇴근길에서든 바로 작업을 시작하고,
00:03:49노트북에서 끊김 없이 이어서 할 수 있습니다.
00:03:52아이디어를 놓칠 일도, 방해받을 일도 없습니다.
00:03:54YouWear 커뮤니티에서 다른 크리에이터들의 프로젝트를 탐색하고 자신의 작업을 공유할 수도 있습니다.
00:03:59영감을 얻고, 배우고, 프로젝트를 선보이세요.
00:04:02인디 해커와 크리에이터에게 완벽합니다.
00:04:05아래 고정 댓글에 있는 링크를 클릭하고 오늘 바로 시작하세요.
00:04:08이것으로 이번 영상은 마무리됩니다.
00:04:10채널을 지원하고 저희가 이런 영상을 계속 만들 수 있도록 돕고 싶으시다면,
00:04:14아래 슈퍼 감사 버튼을 이용해주세요.
00:04:16늘 그렇듯이 시청해주셔서 감사드리며, 다음 영상에서 뵙겠습니다.