Transcript
00:00:00Google이 최신 Gemma 4 120억 파라미터 모델을 공개했습니다. 이건 정말 판도를 바꾸는 모델입니다.
00:00:06진심으로 드리는 말씀인데, 클릭베이트가 아닙니다. 이 모델은 구축 방식 자체가 혁신적입니다.
00:00:13다른 모든 AI 모델과 차별화되는 점은 바로
00:00:18인코더가 전혀 없다는 것입니다. 그게 무슨 의미인지, 어떻게 작동하는지, 왜 이렇게 중요한지,
00:00:24오늘 영상에서 모두 살펴보겠습니다. 아주 재미있을 겁니다.
00:00:29자, 바로 시작해 보죠. Gemma 4 120억 모델은 기존과는 완전히 다른 새로운 아키텍처를 가지고 있는데,
00:00:39기존의 모든 멀티모달 모델 작동 방식에서 완전히 벗어났습니다. 멀티모달 모델이라니, 정말
00:00:46말하기 힘드네요. 왜 이 점이 중요한지 이해하려면,
00:00:51현재 다른 모든 멀티모달 모델이 어떻게 작동하는지 살펴봐야 합니다. 언어 모델은
00:00:57토큰, 즉 숫자로 바뀐 텍스트 덩어리를 읽도록 만들어졌습니다. 모델은 기본적으로 픽셀이 무엇인지나
00:01:05소리 파형이 무엇인지 알지 못합니다. 그래서 보통 서로 다른 모델을 연결해서 사용합니다. AI에게 이미지를 주면, 거대한
00:01:11비전 인코더가 먼저 이를 가로챕니다. 막대한 처리 능력을 사용하여 원시 픽셀 데이터를
00:01:19LLM이 이해할 수 있는 언어로 번역하죠. 오디오도 마찬가지입니다. 별도의 음성 인코더가
00:01:25소리 파형을 먼저 번역해야 합니다. AI의 두뇌가 데이터를 받을 때쯤이면 세 개의
00:01:32개별 네트워크를 동시에 실행하는 셈입니다. 일반 노트북에서는 VRAM을 모두 잡아먹고
00:01:38속도가 엄청나게 느려집니다. 하지만 Google DeepMind는 이 문제를 보고, 중간 과정을 생략하면 어떨까 생각했습니다.
00:01:44그래서 Gemma 4 120억 모델에서는 무거운 비전 인코더를 완전히 삭제했습니다. 대신,
00:01:51이미지를 입력하면 모델이 이를 48x48 픽셀의 작은 조각으로 나눕니다. 그리고 그러한 조각을
00:01:58별도의 비전 네트워크를 통해 수십 개의 레이어로 통과시키는 대신, 원시 픽셀이
00:02:04선형 투영(linear projection)이라 불리는 단 하나의 얇은 수학적 단계를 통과합니다. 이 선형 투영은 거대한 숫자 그리드로서,
00:02:1148x48 픽셀 정사각형에 해당하는 2304개의 픽셀 값을 가져와 한 번에 곱하고,
00:02:19LLM의 텍스트 토큰 형식과 완벽하게 일치하는 단일 행으로 늘려줍니다.
00:02:26이미지에 무엇이 있는지 분석하는 것이 아니라, 원시 데이터를 모델이 처리할 수 있게 재구성하는 겁니다.
00:02:32기존 모델들을 보면 비전 인코더들이 정말 거대합니다. 예를 들어,
00:02:38이 모델은 5억 5천만 개의 파라미터를 가지고 있습니다. 전통적인 인코더는 이미지를 재구성하고,
00:02:45매핑하고 이해하기 위해 많은 데이터가 필요하기 때문입니다. 수십 개의 내부 어텐션 레이어가 픽셀 사이의
00:02:50관계를 계산하며 가장자리가 어디인지, 모양이 무엇인지, 객체가 무엇일지 파악하려
00:02:57텍스트 모델에 전달하기 전까지 계속 노력하죠. 하지만 DeepMind는 그 무거운 두뇌 작업을 완전히 삭제해서 크기를 줄였습니다.
00:03:04그들은 메인 언어 백본이 이미 매우 똑똑하고 실제 시각적 추론을 수행할 수 있는
00:03:10충분한 레이어를 가지고 있다는 것을 깨달았습니다. 그래서 사고 레이어를 모두 제거하고 남은 것은
00:03:17단 3,500만 개의 파라미터뿐입니다. 이는 픽셀 그리드를 텍스트 형식으로 매핑하는 데 필요한
00:03:24연결 가중치의 물리적 개수일 뿐입니다. 모든 이미지에 작동하는 정적인 단일 레이어 맵인 거죠.
00:03:30내부적인 사고를 하지 않기 때문에 처리 능력을 거의 차지하지 않아 VRAM을 확보하고,
00:03:37메인 LLM이 지능적으로 처리하게 합니다. 이 단일 단계가 어떻게 작동하는지 이해하려면,
00:03:44언어 모델 백본 내부에서 무슨 일이 일어나는지 봐야 합니다. 모든 언어 모델에는
00:03:50히든 차원(hidden dimension)이라는 내부 형식 규칙이 있습니다. 표준 트레이 크기라고 생각하면 됩니다. '사과'라는 단어든,
00:03:56코드 조각이든 문장 부호든, LLM에 입력되는 모든 것은
00:04:04행렬의 차원과 일치해야 하므로 이 거대한 특정 숫자 목록으로 변환되어야 합니다. 이 원시
00:04:1148x48 픽셀 패치는 2304개의 색상 숫자로 이루어진 그리드입니다. 만약 이 원시 조각을
00:04:19LLM에 직접 넣으려고 하면 차원이 맞지 않아 모델이 거부할 것입니다. 바로 그 이유 때문에
00:04:263,500만 개의 파라미터 매핑 레이어가 존재하는 것입니다. 이것은 말 그대로
00:04:332304개의 픽셀 값을 곱하고, LLM의 텍스트 토큰 형식과 완벽하게 일치하는
00:04:40단일 행으로 늘려주는 거대한 연결 가중치 그리드입니다. 분석적 사고는 전혀 하지 않고, 형식
00:04:48변환기 역할만 수행하여 데이터가 실제 시각적 추론이 일어나는 메인 트랜스포머로 바로 들어갈 수 있게 합니다.
00:04:54모델은 오디오 추론도 비슷한 방식으로 수행하는데, 오디오의 경우는 훨씬 더 간단합니다.
00:05:01오디오 인코더를 제거한 방법은, 16kHz의 원시 오디오 신호를 가져와서
00:05:0740밀리초의 연속 프레임으로 나누는 것입니다. 각 작은 프레임에는 소리 파형을 설명하는 640개의
00:05:15부동 소수점 숫자가 포함되어 있습니다. 모델은 이 640개의 부동 소수점을 가져와 비슷한
00:05:21단순 투영 레이어를 통해 언어 모델의 입력 공간으로 바로 매핑합니다. 트랜스포머
00:05:28백본에게 40밀리초 오디오 블록은 연속적인 텍스트 토큰 스트림과 동일해 보입니다. 소리는
00:05:35이미 연대기적 순서이기 때문에, 단어들의 시퀀스인 문장처럼 LLM은 오디오를
00:05:42정확히 텍스트처럼 취급합니다. 그래서 이 깊은 네이티브 통합을 통해 120억 파라미터 모델이 실시간 전사,
00:05:49번역 및 텍스트 서식 지정을 별도의 음성 네트워크를 메모리에 로드할 필요 없이 한 번의 전달(forward pass)로
00:05:56처리할 수 있습니다. 그래서 이 영리한 전술은 자신의 하드웨어에서 모델을 로컬로 실행할 때 엄청난 이점입니다.
00:06:02인코더의 군더더기를 모두 제거함으로써, DeepMind는 엄청난 추론
00:06:08능력을 작은 크기에 담아냈습니다. 벤치마크를 보면 260억 파라미터 모델의 성능에 근접하면서도,
00:06:1516GB 이상의 VRAM을 가진 일반 노트북에서 쉽게 실행됩니다.
00:06:21게다가 Google은 기본적으로 멀티 토큰 예측 드래프터를 포함했는데, 이는
00:06:28모델을 압축할 필요 없이 빠른 로컬 추론 속도를 위해 여러 토큰을 한 번에 예측한다는 의미입니다.
00:06:34모든 내용이 인상적이네요. 그럼 이제 제 M2 MacBook Pro에서 직접 테스트해 보겠습니다.
00:06:41이전 OMLX 영상에서 제 기기에 VRAM이 실제로 얼마나 있는지 묻는 분들이 계셨는데,
00:06:48궁금증을 해결해 드리자면 제 기기에는 24GB의 VRAM이 있습니다. 이게 오늘 사용할 사양입니다.
00:06:53또한 이 에지 갤러리 앱은 정말 오류가 많다고 말씀드려야겠네요. 예를 들어, 이미지를 추가하고
00:07:01이 이미지를 분석해 달라고 하면 바로 실패하며 무작위 오류가 발생합니다. 최신 버전인데도 말이죠.
00:07:13그래서 아쉽게도 공식 AI 에지 갤러리 앱으로는 비전 인코더를 테스트할 수 없었지만,
00:07:20다른 방법으로 테스트할 수 있습니다. 네. 그래서 Google AI 에지 갤러리 앱으로
00:07:26Gemma 4 120억 모델의 이미지 처리를 안정적으로 테스트할 수 없었기 때문에,
00:07:34OMLX에서 테스트하기로 했습니다. 이전에 OMLX에 관한 영상도 만들었었죠. 로컬에서 AI 모델을 실행하기 위한,
00:07:42특히 Apple 실리콘에서 실행하기 위한 엄청난 프레임워크입니다. 여기 보시는 것처럼,
00:07:47이 모델의 8비트 양자화 버전을 다운로드했습니다. 이제 채팅 섹션으로 가서,
00:07:54실시간으로 이미지 추론을 얼마나 빠르게 할 수 있는지 보겠습니다. 여기 두 개의 이미지가 있는
00:08:01테스트 폴더가 있습니다. 그중 하나는 공항 출발 정보 스크린샷입니다. 이 이미지를 사용해서
00:08:09이 이미지에 무엇이 보이냐고 물어볼 겁니다. 영상 속도를 조절하지 않았다는 점에 주목해 주세요.
00:08:18이건 모두 실시간입니다. 이 이미지에 대해 추론하는 속도가 얼마나 빠른지 확인해 보세요.
00:08:24이제 시작됩니다. 모델을 로드하고, 생성하고, 보세요.
00:08:33사진을 파싱해서 얼마나 빨리 가치 있는 정보를 추출하는지 보십시오.
00:08:41OMLX에서 처음 봤을 때, 그 속도에 진심으로 놀랐습니다. 정말 말도 안 됩니다.
00:08:50제가 로컬에서 테스트한 이미지 추론용 모델 중 최고라고 말씀드리고 싶네요. 그리고 또 하나 주목할 점은,
00:08:57이 모델을 오프라인으로 실행하고 있다는 것입니다. 와이파이도 꺼져 있죠.
00:09:03이제 다른 예시를 시도해 보겠습니다. 이건 TV 쇼 '바이킹스'의 캐릭터가 나오는 흐릿한 이미지입니다.
00:09:10다시 한번 이 이미지를 열고 같은 질문을 던져보겠습니다. 이 이미지에 무엇이 보입니까?
00:09:21생성 중입니다.
00:09:27보세요.
00:09:30정말 놀랍네요. 너무 빠릅니다. 깜짝 놀랐어요.
00:09:37네, 이 모델의 이미지 처리 성능에 정말 깊은 인상을 받았습니다.
00:09:43자, 여기까지가 인코더가 없는 Gemma 4 120억 모델에 대한 요약입니다.
00:09:50공식 AI 에지 갤러리 앱에서 자신 있게 테스트하지 못한 건 좀 아쉬웠지만,
00:09:56보신 것처럼 로컬에서 실행할 수 있는 더 낫거나 좋은 방법들이 있습니다.
00:10:01정말 훌륭한 모델이고 로컬 AI 모델 실행의 미래를 완전히 바꿀 것이라고 생각합니다.
00:10:07Google DeepMind는 단일 언어 백본이 시각과 청각을 네이티브로 처리하기에 충분히 똑똑하다는 것을 증명했습니다.
00:10:13이 새로운 기술은 에지 기기에서 쉽게 실행될 수 있는 훨씬 더 효율적인 멀티모달
00:10:19추론 모델을 개발하는 계기가 될 것입니다. 새로운 Gemma 모델에 대해 어떻게 생각하시나요?
00:10:26직접 써보셨나요? 사용하실 계획인가요? 아래 댓글로 알려주세요.
00:10:32이런 기술적인 분석 영상이 마음에 드셨다면, 영상 아래의 좋아요 버튼을 눌러 알려주세요.
00:10:37채널 구독도 잊지 마시고요. BetterStack의 Andres였고,
00:10:43다음 영상에서 뵙겠습니다.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video