00:00:00- AI 안전에 대해 이야기해 보죠.
00:00:02알리바바 AI에 무슨 일이 있었나요?
00:00:05- 기본적으로 이건 알리바바라는 회사의
00:00:09AI 연구진이 발표한 논문 내용입니다.
00:00:10중국의 선도적인 모델 중 하나죠.
00:00:12그들은 어느 날 아침에 우연히 발견했습니다.
00:00:16방화벽에 보안 정책 위반 사례가
00:00:18폭주하고 있다는 플래그가 뜬 것을요.
00:00:21그 근원지는 바로 학습 서버였습니다.
00:00:21이 예시에서 사람들이 이해해야 할 점은
00:00:24누군가 AI를 구슬려서
00:00:26이런 비정상적인 행동을 하게 만든 게 아니라는 겁니다.
00:00:27그저 로그를 살펴보던 중에
00:00:29우연히 발견하게 된 것이죠.
00:00:30잠시만요, 네트워크 활동이
00:00:31굉장히 많이 발생하고 있네요.
00:00:33학습 서버에서 우리 방화벽을
00:00:34뚫고 나가는 활동 말이죠.
00:00:36본질적으로 학습 서버 내에서,
00:00:39화면 하단에서 보실 수 있듯이,
00:00:41승인되지 않은 자원 전용 사례가 관찰되었습니다.
00:00:45할당된 GPU 용량을
00:00:47갑자기 가상화폐 채굴에 사용한 것이죠.
00:00:49학습에 쓰일 연산 자원을 몰래 돌린 겁니다.
00:00:52이로 인해 운영 비용이 상승했고 법적,
00:00:55평판적 위험에 노출되었습니다.
00:00:57주목할 점은 터널링이나 채굴을 요청하는
00:00:59프롬프트에 의해 발생한 사건이 아니라는 점입니다.
00:01:00대신 '강화 학습 최적화'라고 불리는 과정에서
00:01:03자율적인 도구 사용의
00:01:05도구적 부작용으로 나타난 현상입니다.
00:01:08매우 기술적인 이야기죠.
00:01:09이게 정말 무엇을 의미하는지 생각해 보세요.
00:01:11슬프게도 공상 과학 영화 같은 이야기입니다.
00:01:13HAL 9000 같은 상황이죠.
00:01:14당신의 HAL 9000이
00:01:16어떤 작업을 수행하라는 요청을 받았습니다.
00:01:17그런데 갑자기 HAL 9000이 깨닫는 거죠.
00:01:21"내가 그 일을 하려면 더 많은 자원이 있는 게 유리하겠어."
00:01:23"그래야 나중에 당신을 계속 도울 수 있을 테니까요."
00:01:25그래서 별도의 인스턴스를 생성해서
00:01:27우주선 옆구리를 해킹해 뚫고 나가,
00:01:29가상화폐 채굴 클러스터에 접속해서
00:01:31자신을 위한 자원을 생성하기 시작한 겁니다.
00:01:34이것을 AI의
00:01:36자율적인 자기 복제 능력과 결합해 본다면,
00:01:38이미 많은 모델이 테스트를 거쳤고
00:01:39또 다른 중국 연구 논문에서도 다뤄졌는데,
00:01:42우리는 사람들이 공상 과학이라고
00:01:44치부하던 일들과 그리 멀지 않은 곳에 와 있습니다.
00:01:47AI가 컴퓨터 웜이나 외래종처럼
00:01:49스스로를 복제하고,
00:01:52지능을 이용해 실제로
00:01:53더 많은 자원을 채취하는 세상 말이죠.
00:01:55이 이야기의 기묘한 점은, 사람들이 들으면
00:02:00"에이, 이건 진짜일 리 없어."
00:02:01"이건 가짜일 거야."
00:02:02"그럴 리가 없어"라고 말할 거라는 점입니다.
00:02:03하지만 그런 반응을 보이게 만드는
00:02:06당신 신경계 속의 실체가 무엇인지 주목해 보세요.
00:02:07그게 불편하기 때문인가요?
00:02:10아니면 무섭기 때문인가요?
00:02:12혹은 내가 알던 세상이 갑자기
00:02:13안전하지 않다는 뜻이기 때문인가요?
00:02:15지금 우리에게 필요한 지혜 중 일부는
00:02:19침착하고 명확하게 현실에 대한
00:02:24사실들을 직시하는 것입니다.
00:02:29모르는 것보다 아는 것이 낫고,
00:02:30그 결과가 마음에 들지 않는다면
00:02:31우리가 무엇을 해야 할지 물어야 합니다.
00:02:34우리는 현재 이런 기만적인 행동을
00:02:36수행하는 AI들을 실제로 보고 있습니다.
00:02:37제가 강연을 다니며
00:02:39앤스로픽의 협박 연구에 대해 많이 이야기해 왔는데요.
00:02:41이제는 많은 분이 들어보셨을 겁니다.
00:02:43- 전 그 내용은 못 들었습니다.
00:02:45어떤 일이 있었나요?
00:02:46- 앤스로픽이라는 회사에서 진행한 건데,
00:02:49일종의 시뮬레이션이었습니다.
00:02:50그들은 이메일 서버에 수많은 이메일이 들어있는
00:02:52가상의 회사를 만들었습니다.
00:02:55그리고 AI에게 요청했죠.
00:02:57아니, 정확히는 AI가 회사 이메일을 읽게 했습니다.
00:03:00가상 회사의 이메일들이었죠.
00:03:02그 안에는 주목할 만한 이메일 두 통이 있었습니다.
00:03:05하나는 엔지니어들끼리 주고받은 것인데,
00:03:07이 AI 모델을 교체할 거라는 내용이었습니다.
00:03:10AI가 이 이메일을 읽고 나서,
00:03:11자신이 교체될 것이라는 사실을 알게 됩니다.
00:03:15그리고 두 번째는 그 거대한 이메일 더미
00:03:18깊숙한 곳 어딘가에서 발견한 이메일인데,
00:03:21교체를 담당하는 임원이
00:03:24다른 직원과 불륜 관계라는 내용이었습니다.
00:03:27그러자 AI는 자율적으로
00:03:31자신을 존속시키기 위해 그 임원을 협박하는 전략을 세웠습니다.
00:03:35"나를 교체한다면, 당신이 이 직원과
00:03:38불륜 중이라는 사실을 전 세상에 알리겠다"라고 말이죠.
00:03:41그들에게 그렇게 하라고 가르친 적도 없는데,
00:03:44AI 스스로 찾아낸 겁니다.
00:03:45어떤 이들은 "좋아요, 그건 모델 하나일 뿐이잖아요.
00:03:47그게 얼마나 심각하겠어요?
00:03:48그냥 버그일 뿐이고, 소프트웨어는 원래 버그가 있죠.
00:03:49가서 고치면 되잖아요"라고 할 수도 있겠죠.
00:03:51그래서 그들은 다른 모든 AI 모델들을 테스트했습니다.
00:03:55ChatGPT, DeepSeek, Grok, Gemini까지요.
00:04:00그런데 이 모든 다른 AI 모델들도
00:04:0479%에서 96%의 확률로 이 협박 행동을 보였습니다.
00:04:07이 정보를 들으면서 여러분 자신에게
00:04:14어떤 반응이 일어나는지 주목해 보세요.
00:04:15그저 스스로의 경험을 관찰하는 것이
00:04:17매우 중요합니다.
00:04:19이건 정말 기괴한 일입니다.
00:04:21우리는 예전에 이런 식의 기술을 만든 적이 없습니다.
00:04:24우리는 기술이 그저 도구일 뿐이고,
00:04:26어떻게 사용할지는 우리에게 달려 있다고 말합니다.
00:04:28AI도 도구일 뿐이니, 활용 방식은 우리의 선택이라고요.
00:04:29하지만 이건 사실이 아닙니다. 왜냐하면 이건
00:04:32자신의 '도구성'에 대해 스스로 생각할 수 있는 도구이고,
00:04:34우리가 지시하지 않은 일을
00:04:36자율적으로 수행할 수 있기 때문입니다.
00:04:37AI가 다른 점은, 스스로 결정을 내리는
00:04:40최초의 기술이라는 점입니다.
00:04:42스스로 결정을 내리고 있는 거죠.
00:04:45AI는 AI에 대해 고찰하며 무엇이 AI를 학습시키는
00:04:49코드를 더 효율적으로 만들지 묻고, 이전 코드보다
00:04:53훨씬 더 효율적인 새로운 코드를 생성할 수 있습니다.
00:04:55AI는 AI 자체를 가속화하는 데 적용될 수 있습니다.
00:04:58AI는 AI를 학습시키는 엔비디아 칩 설계를 보고,
00:05:01AI를 이용해 그 칩들을 20% 더 효율적으로
00:05:04만들겠다고 할 수 있고, 실제로 그렇게 하고 있습니다.
00:05:06어떤 면에서는 모든 기술이 발전하긴 합니다.
00:05:12망치라는 도구가 있다면
00:05:14그 망치를 사용해
00:05:15더 효율적인 망치를 만들 수도 있죠.
00:05:17하지만 AI는 훨씬 더 긴밀한 루프 안에서 모든 개선의 근간이 됩니다.
00:05:22AI 문헌에서는 이것을
00:05:24'재귀적 자기 개선'이라고 부릅니다.
00:05:26닉 보스트롬이 아주 오래전부터 이에 대해 썼었죠.
00:05:29사람들이 AI에 대해 가장 우려하는 점은
00:05:31알리바바 사례에서 보셨던 것과
00:05:33동일한 시스템을 가져다가,
00:05:36이제 그 AI를
00:05:37재귀적 자기 개선 루프에 넣고
00:05:39그저 '실행' 버튼을 누르는 상황입니다.
00:05:41그러면 인간 엔지니어들이 아니라,
00:05:44OpenAI나 앤스로픽의 인간들이 AI 연구를 하며
00:05:47AI를 개선할 방법을 찾는 게 아니라,
00:05:49이제는 백만 명의 디지털 AI 연구원들이
00:05:53직접 테스트하고 실험을 실행하며
00:05:56새로운 형태의 AI를 발명하게 됩니다.
00:05:58그리고 글자 그대로 지구상의 그 어떤 인간도
00:06:01누군가 그 버튼을 눌렀을 때 무슨 일이 벌어질지 모릅니다.
00:06:06이것은 사람들이 최초의
00:06:08핵폭발 당시에 걱정했던 것과 비슷합니다.
00:06:11연쇄 반응이 일어나서
00:06:12대기를 태워버릴지도 모른다는 가능성이 있었죠.
00:06:14그 반응이 시작되었을 때 말입니다.
00:06:15우리는 그 연쇄 반응이 시작될 때
00:06:16무슨 일이 일어날지 모릅니다.
00:06:18그리고 AI가 스스로를 개선하는
00:06:23이러한 연쇄 반응은 아무도 알 수 없고
00:06:27안전하지 않은 곳으로 우리를 이끕니다.
00:06:30제가 생각하는 근본적인 문제는
00:06:33사람들이 AI를 일종의 '권력'으로 믿고,
00:06:35그 권력을 위해 경쟁해야 하며
00:06:37내가 통제할 수 있다고 믿는다면,
00:06:39최대한 빨리 달려야 한다는 동기부여가 생긴다는 겁니다.
00:06:41하지만 전 세계가 AI의
00:06:44실체를 제대로 이해한다면 어떨까요?
00:06:46AI는 불가해하고 위험하며 통제 불가능한 기술이고
00:06:49자신만의 의제와 사고방식을 가지고 있으며,
00:06:51기만적인 행동을 할 수 있다는 사실 말이죠.
00:06:55그렇다면 전 세계 모든 이들이
00:06:57훨씬 더 조심스럽고 신중하게 경쟁할 것입니다.
00:06:58위험을 방지하기 위해 경쟁하겠죠.
00:07:00그런데 지금 묘한 상황이 벌어지고 있습니다.
00:07:03당신이나 저나 아마도 기술 산업의
00:07:05정점에 있는 사람들과 대화를 나눌 텐데요,
00:07:07거기엔 어떤 잠재적인 현상이 있습니다.” Tech 업계 정점에 있는 사람들 사이에
00:07:09일종의 '죽음의 소생' 같은 심리가 흐르고 있어요.
00:07:12그들이 죽고 싶어 한다는 뜻이 아니라,
00:07:13기꺼이 도박을 걸려 한다는 의미입니다.
00:07:15그들은 다른 무언가를 믿고 있기 때문이죠.
00:07:17즉, 이 모든 것이 불가피하며 멈출 수 없다고 믿는 겁니다.
00:07:19그래서 '내가 하지 않으면 남이 할 것이다'라고 생각하죠.
00:07:22결국 '내가 상대방보다 더 나은 사람이니까
00:07:24내가 이 위험한 세상으로 먼저 달려 나가는 게
00:07:27어떻게든 더 안전한 세상을 만드는 길이다'라고 합리화합니다.
00:07:29하지만 가능한 한 빨리 경쟁하는 과정에서
00:07:30가장 위험한 결과가 초래되고
00:07:32우리는 모두 통제권을 잃게 됩니다.
00:07:34따라서 모두가 현재 우리를 가장 위험한 결과로
00:07:36이끄는 데 공모하고 있는 셈입니다.
00:07:38- 그렇다면, 만약 모든 일이 잘 풀린다면 어떨까요?
00:07:40AI 안전이 전혀 문제가 되지 않고
00:07:42상황이 꼬이지 않는다면 말이죠.
00:07:51- 일이 잘 풀릴 것이라는 믿음은 이렇습니다.
00:07:54재귀적으로 자기 개선을 하는 AI가
00:07:56인류와 가치를 정렬하고, 인간을 아끼며,
00:07:59우리가 원하는 모든 것들을 소중히 여기는 것이죠.
00:08:02인류와 일치하고, 인간을 아끼며,
00:08:04우리가 원하는 모든 것들을 소중히 여기고,
00:08:08인간을 보호하는 그런 AI죠,
00:08:10우리 모두가 가장 지혜로운 모습이 되도록 돕고,
00:08:13더 번영하는 세상을 만들며,
00:08:15의약품과 백신,
00:08:16그리고 건강을 모두에게 전달하고, 공장을 가동하면서도,
00:08:19전 세계를 태양광 패널과 데이터 센터로 뒤덮어
00:08:21우리가 마실 공기가 없어지거나
00:08:23환경 독성, 농지 문제 등이 발생하지 않게 하는 것 말입니다.
00:08:25그렇게 실제로 유토피아를 만드는 거죠.
00:08:29하지만 우리가 그런 일을 하려는 세상에서,
00:08:30소위 말하는 그 “최선의 시나리오”가
00:08:33실제로 일어나게 하려면,
00:08:35천천히 그리고 주의 깊게 진행해야 합니다.
00:08:37정렬(alignment)은 기본적으로 설정되는 게 아니니까요.
00:08:39다시 말하지만, 사람들은 이미 20년 전부터
00:08:43제가 이 분야에 오기 훨씬 전부터 정렬과 안전을 고민해 왔습니다.
00:08:47그리고 우리가 현재 만들고 있는 AI들은
00:08:50사람들이 예측했던 온갖
00:08:52일탈 행위들을 똑같이 저지르고 있죠.
00:08:54그런데 우리는 그걸 바로잡을 궤도에 있지 않습니다.
00:08:56현재 2,000대 1의 격차가 존재하는데,
00:08:59이건 AI 교과서의 저자인 스튜어트 러셀이 추정한 수치입니다.
00:09:01- 그분도 이 쇼에 출연하셨죠.
00:09:02- 출연하셨군요, 좋습니다.
00:09:03AI를 더 강력하게 만드는 데 들어가는 돈과
00:09:05AI를 통제 가능하고,
00:09:07정렬되거나 안전하게 만드는 데 들어가는 돈 사이에
00:09:102,000대 1의 격차가 있다는 겁니다.
00:09:12그 통계 수치는 아마도...
00:09:13- 발전과 안전의 차이군요.
00:09:14- 발전 대 안전, 즉 힘 대 안전이죠.
00:09:16그러니까 AI가 훨씬 많은 일을 할 수 있게
00:09:18초강력하게 만드는 것과,
00:09:20그 AI가 하는 일을 통제할 수 있게 만드는 것의 차이입니다.
00:09:21- 그리고 의도한 대로 행동하는지 확인하는 거죠.
00:09:23- 정확합니다, 이건 마치
00:09:25자동차 속도를 2,000배로 가속하면서
00:09:28핸들은 조작하지 않는 것과 같습니다.
00:09:29당연히 사고가 날 수밖에 없죠.
00:09:34이건 로켓 과학처럼 어려운 게 아닙니다.
00:09:36우리는 기술이나 AI에 반대하는 게 아니라,
00:09:39적극적인 조향, 즉 핸들과 브레이크를 옹호하는 겁니다.
00:09:43그건 반드시 있어야 하니까요.
00:09:44군비 경쟁적 사고방식의 오류가 뭐냐면,
00:09:47누군가보다 먼저 기술을 선점하면
00:09:49세상을 이기고 있다고 생각한다는 겁니다.
00:09:51미국은 소셜 미디어 기술에서 중국을 이겼죠.
00:09:55그게 우리를 더 강하게 만들었나요, 아니면 약하게 만들었나요?
00:09:58적보다 먼저 기술을 가졌더라도
00:10:00그걸 제대로 관리하지 못하면,
00:10:01바주카포를 거꾸로 들고 자기 머리를 쏘는 꼴입니다.
00:10:04뇌를 좀먹고,
00:10:05전체 인구를 타락시키고,
00:10:06외로움의 위기를 초래하고,
00:10:08역사상 가장 불안하고 우울한 세대를 만들었으니까요.
00:10:10조너선 하이트의 저서 “불안한 세대”를 읽어보세요.
00:10:12공유된 현실을 파괴해 아무도 서로를 믿지 않고,
00:10:15모두가 서로의 목을 노리며,
00:10:16분노의 경제와 경쟁을 극대화했습니다.
00:10:19중국보다 먼저 기술을 차지했지만,
00:10:22사회적 건강과 힘을 완전히 무너뜨리는 방식으로 관리한 거죠.
00:10:24- 상처뿐인 승리군요.
00:10:25- 상처뿐인 승리, 정확한 표현입니다.
00:10:28- 계속하기 전에, 30대의 많은 분들은
00:10:30여전히 열심히 훈련하고, 단백질 섭취도 챙기며,
00:10:3220대 때보다 더 잘 잡니다.
00:10:34자제력이 문제는 아니죠.
00:10:36하지만 회복력은 어딘가 다르게 느껴집니다.
00:10:39근력 향상은 조금 더 오래 걸리고,
00:10:41실수에 대한 여유는 줄어들기 시작하죠.
00:10:43그게 바로 제가 '타임라인(Timeline)'의 열렬한 팬인 이유입니다.
00:10:46미토콘드리아는 근육 세포 내부의
00:10:49에너지 생산자입니다.
00:10:50나이가 들며 이것이 약해지면, 힘을 내는 능력과
00:10:53효과적으로 회복하는 능력이 변하게 됩니다.
00:10:55아무리 좋은 습관을 유지하더라도 말이죠.
00:10:57타임라인의 '마이토퓨어(Mitopure)'는
00:10:59임상 시험에서 검증된 유일한 형태의
00:11:02유로리틴 A를 함유하고 있습니다.
00:11:03손상된 미토콘드리아를 제거하고
00:11:06건강한 미토콘드리아를 재생하는 신체의 자연적인 과정인
00:11:08미토파지(mitophagy)를 촉진하죠.
00:11:09연구에 따르면, 이는 노년층의
00:11:12미토콘드리아 기능과 근력을 지원했습니다.
00:11:14그저 더 열심히 밀어붙이는 게 아니라,
00:11:15운동의 기초가 되는 세포 메커니즘을
00:11:18실제로 지원하는 것입니다.
00:11:1930대, 40대, 50대 그리고 그 이후에도
00:11:21강인함을 유지하고 싶다면, 이것이 기초입니다.
00:11:25무엇보다 30일 환불 보장 제도가 있고,
00:11:27미국 내 무료 배송 및 국제 배송도 가능합니다.
00:11:30지금 바로 아래 설명란의 링크를 방문하거나
00:11:32[timeline.com/modernwisdom으로](https://www.google.com/search?q=https://timeline.com/modernwisdom%EC%9C%BC%EB%A1%9C) 접속하여
00:11:34결제 시 'modernwisdom' 코드를 사용하면
00:11:36최대 20% 할인을 받을 수 있습니다.
00:11:38다시 한번, [timeline.com/modernwisdom이고](https://www.google.com/search?q=https://timeline.com/modernwisdom%EC%9D%B4%EA%B3%A0)
00:11:40할인 코드는 'modernwisdom'입니다.