구글의 최신 Genie 3 AI 열풍, 자세히 살펴볼 필요가 있습니다

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00지난주 구글은 주력 모델이자 무한 세계 모델인 Genie 3를 공개했습니다. 이 모델은
00:00:05실제 비디오 게임처럼 환경을 시뮬레이션하고 상호작용할 수 있는 기능을 제공하죠.
00:00:10그러자 갑자기 모든 비디오 게임 주식이 폭락했습니다. 이것이 비디오 게임 산업의
00:00:16종말의 시작일지도 모른다는 공포 때문이었죠.
00:00:20그런데 훨씬 더 흥미로운 일이 일어났습니다.
00:00:22Robiant라는 중국 기술 기업이 오픈 소스 Genie 경쟁 모델을 출시했는데,
00:00:28구글의 모델보다 그래픽이 훨씬 더 뛰어난 것으로 보입니다.
00:00:32이제 갑자기 어떤 회사가 기존 비디오 게임을 이 새로운 게임 기술로
00:00:37가장 먼저 대체하게 될 것인지 결정짓는 경쟁의 문이 열렸습니다.
00:00:43하지만 모두가 이 새로운 무한 세계 모델 열풍에 열광할 때, 저는 여러분께
00:00:49이것이 실체 없는 과대광고일 수 있다고 말씀드리고 싶습니다.
00:00:54제가 왜 그렇게 확신하는 걸까요?
00:00:55그 이유를 오늘 영상에서 이야기해 보려고 합니다.
00:01:02Genie 3가 출시되자마자 저는 직접 써보기 위해 사이트로 달려갔습니다.
00:01:07하지만 '탐색' 버튼을 누르자마자 실망스러운 404 오류 창이 떴습니다.
00:01:14제가 캐나다에 살고 있기 때문이었죠.
00:01:16현재 구글은 미국 시민권자들에게만 이 최첨단 기술의 경이로움을
00:01:20체험할 수 있도록 허용했거든요.
00:01:23그래서 당연히 VPN을 켜고 미국 위치에서 다시 시도했습니다.
00:01:27이번에는 이 혁신적인 소프트웨어에 접속하려면 UltraPlan 멤버여야 한다는
00:01:33또 다른 실망스러운 거절 메시지를 받았습니다.
00:01:37UltraPlan 비용이 얼마인지 궁금하시다면, 글쎄요, 이 과대광고된 AI 도구를 써보기 위해
00:01:41지불하기엔 조금 부담스러운 금액이라고만 해두죠.
00:01:46여기서 의문이 생깁니다. 왜 Genie 3를 직접 써보기가 이토록 힘든 걸까요?
00:01:51이 질문에 대한 답은 우리 이야기에서 매우 중요합니다. 하지만 그 부분은
00:01:56영상 뒤쪽에서 다시 다루겠습니다.
00:01:57저는 Genie 3를 써볼 운도, 여윳돈도 없었지만, 다행히
00:02:04지구 반대편에 있는 Robiant라는 중국 회사가 있었습니다. 이 회사는
00:02:09알리바바 그룹의 계열사인 앤트 그룹의 자회사로 보이며, 큐웬(Qwen)을 소유한
00:02:15바로 그 회사이기도 하죠. 이곳에서 Lingbot World라는 무한 세계 모델을 출시했는데,
00:02:20놀랍게도 오픈 소스입니다.
00:02:25덕분에 우리는 실제로 테스트해 보고 어떤 성능을 가졌는지 확인할 수 있죠.
00:02:29그들의 예시 영상을 보니 정말 놀라울 정도로 훌륭했습니다.
00:02:32하지만 프로젝트 페이지를 자세히 조사하기 시작하자, 또 다른 큰 실망을 마주했습니다.
00:02:38프로젝트 페이지는 방향키로 공간을 자유롭게 돌아다니는 예시 영상들로 가득하지만,
00:02:43실제로 완벽한 캐릭터 컨트롤이 포함된 이 모델 버전은
00:02:48아직 개발 중이라는 것이었습니다.
00:02:51그들은 Genie 3와 동등한 기능을 갖춘 Lingbot Fast를 출시할 계획이지만,
00:02:56언제 출시될지는 아직 알 수 없습니다.
00:02:57현재 우리가 사용할 수 있는 것은 140억 개의 파라미터를 가진 기본 모델로,
00:03:03“고충실도의 제어 가능하고 논리적으로 일관된 시뮬레이션”을 제공한다고 합니다.
00:03:08하지만 기본적으로 현재 이 모델이 할 수 있는 유일한 일은 비디오 생성입니다.
00:03:14네, 그냥 비디오일 뿐이죠.
00:03:16그래서 저는 혼란스러웠습니다. 제어 요소는 어디에 있는 걸까요?
00:03:20글쎄요, 고유한 카메라 위치 값을 제공하는 옵션이 있어서
00:03:25어떤 의미에서는 카메라 움직임을 제어할 수 있습니다. 방향키를 이용한 이동 대신
00:03:31대안이 될 수는 있겠지만, 미리 녹화해 두어야 합니다.
00:03:35카메라 움직임 제어 기능을 제공하는 다른 일반적인 비디오 생성기와
00:03:40어떤 차이가 있는 걸까요?
00:03:41여기서 핵심적인 차이점이 있습니다.
00:03:44일반적인 AI 비디오 생성기에서는 참조 영상이 진행됨에 따라 AI 모델이 항상
00:03:50다음 프레임을 예측하려고 합니다. 여러 인터넷 밈 영상에서 볼 수 있듯이,
00:03:55영상이 계속 길어지면 결과가 엉망이 되는데, 그 이유는 모델이
00:04:00프레임 밖에서 일어나는 정보는 유지하지 않기 때문입니다.
00:04:04따라서 카메라가 물체에서 멀어졌다가 다시 돌아오면, 전체 장면이 실시간으로
00:04:09생성되기 때문에 그 물체가 더 이상 존재하지 않을 수도 있습니다.
00:04:13이 지점에서 Lingbot World 모델의 140억 파라미터 기하학적 두뇌가
00:04:18역할을 발휘합니다.
00:04:19단순히 다음 픽셀 뭉치를 추측하는 표준 비디오 생성기와 달리, Lingbot World는
00:04:24카메라 내부 데이터와 6자유도 포즈를 사용하여 모든 픽셀을 3D 공간의 특정 지점에 매칭합니다.
00:04:31이 모델은 연구자들이 말하는 “대상 영속성”을 만들어내는데,
00:04:33카메라 렌즈와 환경 사이의 수학적 관계를 이해하기 때문입니다.
00:04:39기본적으로 특정 물체가 특정 좌표에 존재한다는 것을 기억하는 것이죠.
00:04:42그리고 이러한 구조적 무결성 때문에 이 모델은 매우 거대하고 연산 집약적입니다.
00:04:47얼마나 집약적이냐고요?
00:04:52오 세상에, 말씀드려 보죠.
00:04:53저는 단일 RTX 1590 GPU가 장착된 인스턴스에 Lingbot World 모델을 배포하고
00:04:55그들이 제공한 기본 샘플 데모를 실행해 봤는데, 즉시 충돌이 발생했습니다.
00:05:02단일 1590으로 그 부하를 견딜 수 있을 거라 생각한 제가 순진했죠.
00:05:07그다음 듀얼 1590으로 실행해 봤지만, 여전히 충돌했습니다.
00:05:131590 4개로 시도해 봐도 결과는 마찬가지였습니다.
00:05:18결국 RTX 1590 8개가 들어있는 컨테이너를 생성해 기본 데모를 실행했지만
00:05:23여전히 충돌이 났습니다.
00:05:31이유는 이 무한 세계 모델을 장시간 실행할 때,
00:05:32모델이 장면에 대해 저장해야 하는 메모리 양이 점점 더 커지기 때문입니다.
00:05:38결국 RAM이 부족해져서 메모리 부족(OOM) 오류가 발생하는 지점에 도달하게 되죠.
00:05:44그래도 기본값인 70인 샘플 크기를 20으로 낮춰서
00:05:498 GPU 설정에서 샘플 데모를 성공적으로 실행하긴 했습니다.
00:05:50사실 70개와 20개 샘플의 차이는 그렇게 눈에 띄지 않았습니다.
00:05:55하지만 이는 무한 세계 모델을 실행하는 데 얼마나 엄청난 연산 비용이
00:05:59드는지 잘 보여줍니다.
00:06:03다시 Genie 3 이야기로 돌아가면, 구글이 Ultra 멤버에게만 접근을 허용하는 이유가 바로 이것입니다.
00:06:09이 모델을 가동하는 데 드는 GPU 비용을 어떻게든 회수해야 하니까요.
00:06:10또한 한 번의 데모 시간이 몇 초로 제한되는 이유도 마찬가지입니다. 어느 시점이 되면
00:06:16메모리가 풍선처럼 부풀어 올라 전체 시스템이 멈춰버리기 때문이죠.
00:06:21이런 모델을 일반 소비자용 하드웨어에서 구동하는 게 얼마나 터무니없이 비싼지 알려드리면,
00:06:27RTX 1590 한 대 가격이 최대 5,000달러입니다.
00:06:32이걸 구동하기 위한 최소 사양인 8대를 산다고 해보세요.
00:06:37입 밖으로 내뱉는 것조차 우스꽝스럽게 들리네요.
00:06:43어쨌든 그 8대만 해도 40,000달러가 들고, 현재 가격이 폭등 중인
00:06:48다른 부품들과 RAM 가격은 포함하지도 않은 수치입니다.
00:06:51이런 비용과 Genie가 실행 시간을 60초로 제한한다는 점,
00:06:57그리고 폭증하는 RAM 메모리 문제까지 고려하면, 이 무한 세계 모델이라는 것은
00:07:01단순히 과대광고일 뿐이며, 현재의 아키텍처로는 소비자용 하드웨어에서
00:07:06도저히 구현 가능하지 않다는 결론에 도달합니다.
00:07:12이 도구들을 만든 개발자들조차 이러한 문제들을 인정하고 있습니다.
00:07:18높은 추론 비용 때문에 현재는 기업용 GPU가 필수적이며, 이로 인해
00:07:24일반 사용자가 접근하기 어렵다는 점 말이죠.
00:07:28또한 시뮬레이션의 장기적인 안정성이 부족합니다.
00:07:34시간이 지남에 따라 장면의 구조적 무결성이 점차 무너지는
00:07:37환경적 드리프트(environmental drifting) 현상이 자주 발생합니다.
00:07:39정확한 지적입니다.
00:07:44적어도 Lingbot 팀은 이 점을 솔직하게 밝히고 있습니다.
00:07:46구글은 뭐라고 하는지 볼까요?
00:07:48모델이 몇 시간의 연장된 상호작용보다는 몇 분 정도의 지속적인 상호작용을 지원할 수 있다고 합니다.
00:07:51대놓고 인정하지는 않지만, 우리 모두 그 이유를 알고 있죠.
00:07:53그래서 여러분께 말씀드리는 겁니다. 기존의 비디오 게임은 조만간 사라지지 않을 것입니다.
00:07:59현재로서는 그저 허황된 꿈처럼 보이며, 나중에라도
00:08:04이 연산 문제를 해결할 방법을 찾아낸다면 그때서야 다시 고민해 볼 만한 일이죠.
00:08:09하지만 지금 당장은, 좀 아니잖아요.
00:08:15저도 Lingbot Fast가 출시되면 정말 써보고 싶긴 합니다.
00:08:20하지만 그때까지는 이 기술이 주류가 되긴 어려울 것 같습니다.
00:08:23만약 여러분이 직접 Lingbot World를 테스트해 보고 싶다면 조언을 드릴게요.
00:08:27저처럼 하지는 마세요.
00:08:32RTX 1590 8대를 쌓아두지 마세요. RunPod 같은 플랫폼에서 그런 구성은
00:08:37사용 시간당 7달러씩 빠져나갈 겁니다.
00:08:38대신 시간당 3.5달러인 H200 컨테이너 하나를 할당하고
00:08:45“nproc/node” 플래그를 1로 설정한 뒤, 샘플 수를 50이나 20 정도로
00:08:48낮추면 충분히 작동할 겁니다.
00:08:55또한 Caelan Humphries라는 사용자가 만든 4비트 양자화 버전을 사용할 수도 있는데,
00:09:01이 버전은 추론 시 시각적 품질을 비슷하게 유지하면서도 GPU 메모리 소모를 획기적으로 줄여줍니다.
00:09:02그러니 이론적으로는 RTX 1590 한 대에서도 실행해 볼 수 있을 겁니다.
00:09:08혹시 시도해 보신다면 결과가 어떤지 알려주세요.
00:09:13제 경우에는 H200 컨테이너에서 기본 데모를 실행했고,
00:09:15기본적으로 그들의 데모 페이지와 같은 결과를 얻었습니다.
00:09:19그다음 바이킹이 로키와 싸우는 AI 이미지를 생성해서
00:09:21동일한 명령에 입력해 보았습니다.
00:09:28그리고 이것이 제가 얻은 결과입니다.
00:09:30보시다시피 모델이 영상 내내 환경과 성의 무결성을
00:09:36유지하는 것을 볼 수 있지만, 여전히 이상한 아티팩트들이 생성됩니다.
00:09:37솔직히 말씀드리면, 이걸 어떻게 생각해야 할지 잘 모르겠네요.
00:09:39일반적인 ComfyUI 파이프라인을 사용하면 더 나은 게임 플레이 영상을 만들 수 있을 것 같습니다.
00:09:44참고로 막대한 연산 비용 없이 Sora 같은 나만의 비디오 생성기를 만드는 법이 궁금하다면,
00:09:48제가 얼마 전에 올린 영상을 확인해 보세요.
00:09:52자, 여기까지가 Genie 3와 게임의 미래에 대한 저의 견해입니다.
00:09:59Genie 같은 모델이 어떻게 작동하는지 더 잘 이해할 수 있도록 모델을 오픈 소스로 공개해 준
00:10:04Lingbot 팀에 정말 감사드립니다.
00:10:09하지만 이건 어디까지나 제 생각일 뿐입니다.
00:10:15더 중요한 건, 여러분은 이 무한 세계 모델에 대해 어떻게 생각하시나요?
00:10:16여러분의 의견이 궁금하니 아래 댓글 창에 생각을 남겨주세요.
00:10:20영상이 유익했다면 영상 아래의 좋아요 버튼을 눌러주시고요.
00:10:25이런 영상을 더 보고 싶으시다면 채널 구독도 잊지 마세요.
00:10:27지금까지 Better Stack의 Andris였고요, 다음 영상에서 뵙겠습니다.
00:10:30(경쾌한 음악)
00:10:35below.
00:10:36And folks, if you found this video useful, let me know by smashing that like button underneath
00:10:40the video.
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

구글 Genie 3와 같은 무한 세계 모델은 혁신적이지만, 막대한 연산 비용과 기술적 불안정성으로 인해 당분간 기존 비디오 게임 산업을 대체하기는 어렵습니다.

Highlights

구글 Genie 3 공개 이후 비디오 게임 산업의 위기설과 종말론 확산

중국 Robiant사의 오픈 소스 모델 'Lingbot World' 출시 및 구글 모델과의 성능 비교

무한 세계 모델 구동을 위한 천문학적인 연산 비용과 하드웨어 요구 사양의 한계

메모리 부족(OOM) 현상과 환경적 드리프트로 인한 시뮬레이션 안정성 문제

현존 AI 기술의 한계로 인해 기존 비디오 게임이 대체되기 어렵다는 분석

일반 사용자를 위한 저비용 테스트 방법 및 양자화 모델 활용 팁 공유

Timeline

Genie 3 출시와 무한 세계 모델 열풍

구글이 실제 게임처럼 상호작용이 가능한 무한 세계 모델인 Genie 3를 공개하며 시장에 큰 파장을 일으켰습니다. 이 발표 직후 비디오 게임 관련 주식이 폭락하는 등 산업 전반에 공포가 확산되었으나, 한편으로는 기술적 경쟁의 문이 열렸습니다. 중국의 Robiant사는 구글보다 뛰어난 그래픽을 가진 오픈 소스 모델을 선보이며 대응에 나섰습니다. 하지만 발표자는 이러한 열풍이 실체 없는 과대광고일 수 있다는 비판적 시각을 제시합니다. 본 섹션은 새로운 기술이 가져온 기대와 우려를 동시에 조명하며 분석을 시작합니다.

Genie 3의 접근성 문제와 폐쇄적 운영

발표자는 직접 Genie 3를 사용하려 시도했으나 지역 제한과 고가의 유료 멤버십이라는 장벽에 부딪혔습니다. 캐나다 거주자는 접속이 제한되며, VPN을 사용하더라도 'UltraPlan' 결제가 필수적이라는 사실이 드러납니다. 구글이 이토록 까다로운 접근 조건을 내건 이유에 대해 발표자는 의문을 제기하며 궁금증을 유발합니다. 이는 첨단 AI 기술이 일반 대중에게 공개되기까지 얼마나 많은 제약이 따르는지 잘 보여주는 사례입니다. 결국 높은 비용과 제한된 접근성은 이 기술의 대중화에 큰 걸림돌이 되고 있습니다.

오픈 소스 Lingbot World의 등장과 특징

구글의 대안으로 알리바바 계열사인 Robiant의 'Lingbot World'가 오픈 소스로 출시되어 실제 테스트가 가능해졌습니다. 이 모델은 140억 개의 파라미터를 보유하며, 단순한 비디오 생성을 넘어 3D 공간 내 픽셀 매칭 기술을 활용합니다. 특히 '대상 영속성'이라는 개념을 도입하여 카메라가 움직여도 사물의 위치를 기억하는 구조적 무결성을 자랑합니다. 다만 현재 공개된 버전은 완전한 캐릭터 컨트롤 기능이 빠진 상태이며, 비디오 생성 위주의 성능을 보여줍니다. 일반적인 AI 비디오 생성기와 달리 논리적으로 일관된 시뮬레이션을 지향한다는 점이 핵심입니다.

막대한 연산 비용과 하드웨어의 한계

실제 구동 테스트 결과, 최신 GPU인 RTX 1590 한 대로는 모델의 부하를 견디지 못하고 시스템 충돌이 발생했습니다. 8대의 GPU를 사용하더라도 메모리 부족(OOM) 오류가 발생할 정도로 무한 세계 모델의 자원 소모량은 상상을 초월합니다. 이러한 엄청난 연산 비용 때문에 구글 역시 유료 사용자에게만 짧은 시간의 데모를 허용하는 고육지책을 쓰고 있습니다. 일반 소비자가 4만 달러 이상의 하드웨어를 갖추는 것은 불가능에 가깝기에, 현재의 아키텍처로는 대중화가 요원합니다. 결국 비용 효율성 문제가 해결되지 않는 한 이 기술은 전문가용 장비에 갇혀 있을 수밖에 없습니다.

기술적 결함과 미래 전망

연산 비용 외에도 시간이 흐를수록 장면의 구조가 무너지는 '환경적 드리프트' 현상이 주요 기술적 결함으로 지적됩니다. 개발사들조차 장기적인 시뮬레이션의 안정성이 부족하다는 점을 인정하고 있으며, 이는 실제 게임 플레이에 치명적입니다. 구글은 이를 직접 언급하지 않지만, 상호작용 시간을 몇 분 내외로 제한하는 설정에서 그 한계가 명확히 드러납니다. 따라서 기존의 비디오 게임 산업이 이 새로운 모델들에 의해 곧바로 대체될 가능성은 매우 낮습니다. 기술적 진보가 더 필요하며 현재로서는 아직 '허황된 꿈'에 가깝다는 냉철한 평가가 내려집니다.

저비용 테스트 방법 및 실습 결과

발표자는 직접 테스트를 원하는 사용자들을 위해 고가의 장비 대신 클라우드 GPU(H200)와 4비트 양자화 버전을 활용하는 팁을 제공합니다. 양자화 버전을 사용하면 시각적 품질을 유지하면서도 GPU 메모리 소모를 획기적으로 줄여 일반 사양에서도 구동이 가능해집니다. 직접 바이킹 이미지를 넣어 생성한 결과물에서도 환경 유지력은 좋으나 여전히 어색한 아티팩트가 발견되는 한계를 보였습니다. 결론적으로 무한 세계 모델은 흥미로운 연구 분야이지만 아직 갈 길이 멀며, 시청자들의 다양한 의견을 묻는 것으로 영상을 마무리합니다. 새로운 기술에 대한 맹신보다는 현실적인 분석이 필요함을 다시 한번 강조합니다.

Community Posts

View all posts