00:00:00지난주 구글은 주력 모델이자 무한 세계 모델인 Genie 3를 공개했습니다. 이 모델은
00:00:05실제 비디오 게임처럼 환경을 시뮬레이션하고 상호작용할 수 있는 기능을 제공하죠.
00:00:10그러자 갑자기 모든 비디오 게임 주식이 폭락했습니다. 이것이 비디오 게임 산업의
00:00:16종말의 시작일지도 모른다는 공포 때문이었죠.
00:00:20그런데 훨씬 더 흥미로운 일이 일어났습니다.
00:00:22Robiant라는 중국 기술 기업이 오픈 소스 Genie 경쟁 모델을 출시했는데,
00:00:28구글의 모델보다 그래픽이 훨씬 더 뛰어난 것으로 보입니다.
00:00:32이제 갑자기 어떤 회사가 기존 비디오 게임을 이 새로운 게임 기술로
00:00:37가장 먼저 대체하게 될 것인지 결정짓는 경쟁의 문이 열렸습니다.
00:00:43하지만 모두가 이 새로운 무한 세계 모델 열풍에 열광할 때, 저는 여러분께
00:00:49이것이 실체 없는 과대광고일 수 있다고 말씀드리고 싶습니다.
00:00:54제가 왜 그렇게 확신하는 걸까요?
00:00:55그 이유를 오늘 영상에서 이야기해 보려고 합니다.
00:01:02Genie 3가 출시되자마자 저는 직접 써보기 위해 사이트로 달려갔습니다.
00:01:07하지만 '탐색' 버튼을 누르자마자 실망스러운 404 오류 창이 떴습니다.
00:01:14제가 캐나다에 살고 있기 때문이었죠.
00:01:16현재 구글은 미국 시민권자들에게만 이 최첨단 기술의 경이로움을
00:01:20체험할 수 있도록 허용했거든요.
00:01:23그래서 당연히 VPN을 켜고 미국 위치에서 다시 시도했습니다.
00:01:27이번에는 이 혁신적인 소프트웨어에 접속하려면 UltraPlan 멤버여야 한다는
00:01:33또 다른 실망스러운 거절 메시지를 받았습니다.
00:01:37UltraPlan 비용이 얼마인지 궁금하시다면, 글쎄요, 이 과대광고된 AI 도구를 써보기 위해
00:01:41지불하기엔 조금 부담스러운 금액이라고만 해두죠.
00:01:46여기서 의문이 생깁니다. 왜 Genie 3를 직접 써보기가 이토록 힘든 걸까요?
00:01:51이 질문에 대한 답은 우리 이야기에서 매우 중요합니다. 하지만 그 부분은
00:01:56영상 뒤쪽에서 다시 다루겠습니다.
00:01:57저는 Genie 3를 써볼 운도, 여윳돈도 없었지만, 다행히
00:02:04지구 반대편에 있는 Robiant라는 중국 회사가 있었습니다. 이 회사는
00:02:09알리바바 그룹의 계열사인 앤트 그룹의 자회사로 보이며, 큐웬(Qwen)을 소유한
00:02:15바로 그 회사이기도 하죠. 이곳에서 Lingbot World라는 무한 세계 모델을 출시했는데,
00:02:20놀랍게도 오픈 소스입니다.
00:02:25덕분에 우리는 실제로 테스트해 보고 어떤 성능을 가졌는지 확인할 수 있죠.
00:02:29그들의 예시 영상을 보니 정말 놀라울 정도로 훌륭했습니다.
00:02:32하지만 프로젝트 페이지를 자세히 조사하기 시작하자, 또 다른 큰 실망을 마주했습니다.
00:02:38프로젝트 페이지는 방향키로 공간을 자유롭게 돌아다니는 예시 영상들로 가득하지만,
00:02:43실제로 완벽한 캐릭터 컨트롤이 포함된 이 모델 버전은
00:02:48아직 개발 중이라는 것이었습니다.
00:02:51그들은 Genie 3와 동등한 기능을 갖춘 Lingbot Fast를 출시할 계획이지만,
00:02:56언제 출시될지는 아직 알 수 없습니다.
00:02:57현재 우리가 사용할 수 있는 것은 140억 개의 파라미터를 가진 기본 모델로,
00:03:03“고충실도의 제어 가능하고 논리적으로 일관된 시뮬레이션”을 제공한다고 합니다.
00:03:08하지만 기본적으로 현재 이 모델이 할 수 있는 유일한 일은 비디오 생성입니다.
00:03:14네, 그냥 비디오일 뿐이죠.
00:03:16그래서 저는 혼란스러웠습니다. 제어 요소는 어디에 있는 걸까요?
00:03:20글쎄요, 고유한 카메라 위치 값을 제공하는 옵션이 있어서
00:03:25어떤 의미에서는 카메라 움직임을 제어할 수 있습니다. 방향키를 이용한 이동 대신
00:03:31대안이 될 수는 있겠지만, 미리 녹화해 두어야 합니다.
00:03:35카메라 움직임 제어 기능을 제공하는 다른 일반적인 비디오 생성기와
00:03:40어떤 차이가 있는 걸까요?
00:03:41여기서 핵심적인 차이점이 있습니다.
00:03:44일반적인 AI 비디오 생성기에서는 참조 영상이 진행됨에 따라 AI 모델이 항상
00:03:50다음 프레임을 예측하려고 합니다. 여러 인터넷 밈 영상에서 볼 수 있듯이,
00:03:55영상이 계속 길어지면 결과가 엉망이 되는데, 그 이유는 모델이
00:04:00프레임 밖에서 일어나는 정보는 유지하지 않기 때문입니다.
00:04:04따라서 카메라가 물체에서 멀어졌다가 다시 돌아오면, 전체 장면이 실시간으로
00:04:09생성되기 때문에 그 물체가 더 이상 존재하지 않을 수도 있습니다.
00:04:13이 지점에서 Lingbot World 모델의 140억 파라미터 기하학적 두뇌가
00:04:18역할을 발휘합니다.
00:04:19단순히 다음 픽셀 뭉치를 추측하는 표준 비디오 생성기와 달리, Lingbot World는
00:04:24카메라 내부 데이터와 6자유도 포즈를 사용하여 모든 픽셀을 3D 공간의 특정 지점에 매칭합니다.
00:04:31이 모델은 연구자들이 말하는 “대상 영속성”을 만들어내는데,
00:04:33카메라 렌즈와 환경 사이의 수학적 관계를 이해하기 때문입니다.
00:04:39기본적으로 특정 물체가 특정 좌표에 존재한다는 것을 기억하는 것이죠.
00:04:42그리고 이러한 구조적 무결성 때문에 이 모델은 매우 거대하고 연산 집약적입니다.
00:04:47얼마나 집약적이냐고요?
00:04:52오 세상에, 말씀드려 보죠.
00:04:53저는 단일 RTX 1590 GPU가 장착된 인스턴스에 Lingbot World 모델을 배포하고
00:04:55그들이 제공한 기본 샘플 데모를 실행해 봤는데, 즉시 충돌이 발생했습니다.
00:05:02단일 1590으로 그 부하를 견딜 수 있을 거라 생각한 제가 순진했죠.
00:05:07그다음 듀얼 1590으로 실행해 봤지만, 여전히 충돌했습니다.
00:05:131590 4개로 시도해 봐도 결과는 마찬가지였습니다.
00:05:18결국 RTX 1590 8개가 들어있는 컨테이너를 생성해 기본 데모를 실행했지만
00:05:23여전히 충돌이 났습니다.
00:05:31이유는 이 무한 세계 모델을 장시간 실행할 때,
00:05:32모델이 장면에 대해 저장해야 하는 메모리 양이 점점 더 커지기 때문입니다.
00:05:38결국 RAM이 부족해져서 메모리 부족(OOM) 오류가 발생하는 지점에 도달하게 되죠.
00:05:44그래도 기본값인 70인 샘플 크기를 20으로 낮춰서
00:05:498 GPU 설정에서 샘플 데모를 성공적으로 실행하긴 했습니다.
00:05:50사실 70개와 20개 샘플의 차이는 그렇게 눈에 띄지 않았습니다.
00:05:55하지만 이는 무한 세계 모델을 실행하는 데 얼마나 엄청난 연산 비용이
00:05:59드는지 잘 보여줍니다.
00:06:03다시 Genie 3 이야기로 돌아가면, 구글이 Ultra 멤버에게만 접근을 허용하는 이유가 바로 이것입니다.
00:06:09이 모델을 가동하는 데 드는 GPU 비용을 어떻게든 회수해야 하니까요.
00:06:10또한 한 번의 데모 시간이 몇 초로 제한되는 이유도 마찬가지입니다. 어느 시점이 되면
00:06:16메모리가 풍선처럼 부풀어 올라 전체 시스템이 멈춰버리기 때문이죠.
00:06:21이런 모델을 일반 소비자용 하드웨어에서 구동하는 게 얼마나 터무니없이 비싼지 알려드리면,
00:06:27RTX 1590 한 대 가격이 최대 5,000달러입니다.
00:06:32이걸 구동하기 위한 최소 사양인 8대를 산다고 해보세요.
00:06:37입 밖으로 내뱉는 것조차 우스꽝스럽게 들리네요.
00:06:43어쨌든 그 8대만 해도 40,000달러가 들고, 현재 가격이 폭등 중인
00:06:48다른 부품들과 RAM 가격은 포함하지도 않은 수치입니다.
00:06:51이런 비용과 Genie가 실행 시간을 60초로 제한한다는 점,
00:06:57그리고 폭증하는 RAM 메모리 문제까지 고려하면, 이 무한 세계 모델이라는 것은
00:07:01단순히 과대광고일 뿐이며, 현재의 아키텍처로는 소비자용 하드웨어에서
00:07:06도저히 구현 가능하지 않다는 결론에 도달합니다.
00:07:12이 도구들을 만든 개발자들조차 이러한 문제들을 인정하고 있습니다.
00:07:18높은 추론 비용 때문에 현재는 기업용 GPU가 필수적이며, 이로 인해
00:07:24일반 사용자가 접근하기 어렵다는 점 말이죠.
00:07:28또한 시뮬레이션의 장기적인 안정성이 부족합니다.
00:07:34시간이 지남에 따라 장면의 구조적 무결성이 점차 무너지는
00:07:37환경적 드리프트(environmental drifting) 현상이 자주 발생합니다.
00:07:39정확한 지적입니다.
00:07:44적어도 Lingbot 팀은 이 점을 솔직하게 밝히고 있습니다.
00:07:46구글은 뭐라고 하는지 볼까요?
00:07:48모델이 몇 시간의 연장된 상호작용보다는 몇 분 정도의 지속적인 상호작용을 지원할 수 있다고 합니다.
00:07:51대놓고 인정하지는 않지만, 우리 모두 그 이유를 알고 있죠.
00:07:53그래서 여러분께 말씀드리는 겁니다. 기존의 비디오 게임은 조만간 사라지지 않을 것입니다.
00:07:59현재로서는 그저 허황된 꿈처럼 보이며, 나중에라도
00:08:04이 연산 문제를 해결할 방법을 찾아낸다면 그때서야 다시 고민해 볼 만한 일이죠.
00:08:09하지만 지금 당장은, 좀 아니잖아요.
00:08:15저도 Lingbot Fast가 출시되면 정말 써보고 싶긴 합니다.
00:08:20하지만 그때까지는 이 기술이 주류가 되긴 어려울 것 같습니다.
00:08:23만약 여러분이 직접 Lingbot World를 테스트해 보고 싶다면 조언을 드릴게요.
00:08:27저처럼 하지는 마세요.
00:08:32RTX 1590 8대를 쌓아두지 마세요. RunPod 같은 플랫폼에서 그런 구성은
00:08:37사용 시간당 7달러씩 빠져나갈 겁니다.
00:08:38대신 시간당 3.5달러인 H200 컨테이너 하나를 할당하고
00:08:45“nproc/node” 플래그를 1로 설정한 뒤, 샘플 수를 50이나 20 정도로
00:08:48낮추면 충분히 작동할 겁니다.
00:08:55또한 Caelan Humphries라는 사용자가 만든 4비트 양자화 버전을 사용할 수도 있는데,
00:09:01이 버전은 추론 시 시각적 품질을 비슷하게 유지하면서도 GPU 메모리 소모를 획기적으로 줄여줍니다.
00:09:02그러니 이론적으로는 RTX 1590 한 대에서도 실행해 볼 수 있을 겁니다.
00:09:08혹시 시도해 보신다면 결과가 어떤지 알려주세요.
00:09:13제 경우에는 H200 컨테이너에서 기본 데모를 실행했고,
00:09:15기본적으로 그들의 데모 페이지와 같은 결과를 얻었습니다.
00:09:19그다음 바이킹이 로키와 싸우는 AI 이미지를 생성해서
00:09:21동일한 명령에 입력해 보았습니다.
00:09:28그리고 이것이 제가 얻은 결과입니다.
00:09:30보시다시피 모델이 영상 내내 환경과 성의 무결성을
00:09:36유지하는 것을 볼 수 있지만, 여전히 이상한 아티팩트들이 생성됩니다.
00:09:37솔직히 말씀드리면, 이걸 어떻게 생각해야 할지 잘 모르겠네요.
00:09:39일반적인 ComfyUI 파이프라인을 사용하면 더 나은 게임 플레이 영상을 만들 수 있을 것 같습니다.
00:09:44참고로 막대한 연산 비용 없이 Sora 같은 나만의 비디오 생성기를 만드는 법이 궁금하다면,
00:09:48제가 얼마 전에 올린 영상을 확인해 보세요.
00:09:52자, 여기까지가 Genie 3와 게임의 미래에 대한 저의 견해입니다.
00:09:59Genie 같은 모델이 어떻게 작동하는지 더 잘 이해할 수 있도록 모델을 오픈 소스로 공개해 준
00:10:04Lingbot 팀에 정말 감사드립니다.
00:10:09하지만 이건 어디까지나 제 생각일 뿐입니다.
00:10:15더 중요한 건, 여러분은 이 무한 세계 모델에 대해 어떻게 생각하시나요?
00:10:16여러분의 의견이 궁금하니 아래 댓글 창에 생각을 남겨주세요.
00:10:20영상이 유익했다면 영상 아래의 좋아요 버튼을 눌러주시고요.
00:10:25이런 영상을 더 보고 싶으시다면 채널 구독도 잊지 마세요.
00:10:27지금까지 Better Stack의 Andris였고요, 다음 영상에서 뵙겠습니다.
00:10:30(경쾌한 음악)
00:10:35below.
00:10:36And folks, if you found this video useful, let me know by smashing that like button underneath
00:10:40the video.
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)