구글, 멀티모달 AI의 최대 난제 해결 (Gemma 4 12B)

BBetter Stack
Computing/SoftwareConsumer Electronics

Transcript

00:00:00Google이 최신 Gemma 4 120억 파라미터 모델을 공개했습니다. 이건 정말 판도를 바꾸는 모델입니다.
00:00:06진심으로 드리는 말씀인데, 클릭베이트가 아닙니다. 이 모델은 구축 방식 자체가 혁신적입니다.
00:00:13다른 모든 AI 모델과 차별화되는 점은 바로
00:00:18인코더가 전혀 없다는 것입니다. 그게 무슨 의미인지, 어떻게 작동하는지, 왜 이렇게 중요한지,
00:00:24오늘 영상에서 모두 살펴보겠습니다. 아주 재미있을 겁니다.
00:00:29자, 바로 시작해 보죠. Gemma 4 120억 모델은 기존과는 완전히 다른 새로운 아키텍처를 가지고 있는데,
00:00:39기존의 모든 멀티모달 모델 작동 방식에서 완전히 벗어났습니다. 멀티모달 모델이라니, 정말
00:00:46말하기 힘드네요. 왜 이 점이 중요한지 이해하려면,
00:00:51현재 다른 모든 멀티모달 모델이 어떻게 작동하는지 살펴봐야 합니다. 언어 모델은
00:00:57토큰, 즉 숫자로 바뀐 텍스트 덩어리를 읽도록 만들어졌습니다. 모델은 기본적으로 픽셀이 무엇인지나
00:01:05소리 파형이 무엇인지 알지 못합니다. 그래서 보통 서로 다른 모델을 연결해서 사용합니다. AI에게 이미지를 주면, 거대한
00:01:11비전 인코더가 먼저 이를 가로챕니다. 막대한 처리 능력을 사용하여 원시 픽셀 데이터를
00:01:19LLM이 이해할 수 있는 언어로 번역하죠. 오디오도 마찬가지입니다. 별도의 음성 인코더가
00:01:25소리 파형을 먼저 번역해야 합니다. AI의 두뇌가 데이터를 받을 때쯤이면 세 개의
00:01:32개별 네트워크를 동시에 실행하는 셈입니다. 일반 노트북에서는 VRAM을 모두 잡아먹고
00:01:38속도가 엄청나게 느려집니다. 하지만 Google DeepMind는 이 문제를 보고, 중간 과정을 생략하면 어떨까 생각했습니다.
00:01:44그래서 Gemma 4 120억 모델에서는 무거운 비전 인코더를 완전히 삭제했습니다. 대신,
00:01:51이미지를 입력하면 모델이 이를 48x48 픽셀의 작은 조각으로 나눕니다. 그리고 그러한 조각을
00:01:58별도의 비전 네트워크를 통해 수십 개의 레이어로 통과시키는 대신, 원시 픽셀이
00:02:04선형 투영(linear projection)이라 불리는 단 하나의 얇은 수학적 단계를 통과합니다. 이 선형 투영은 거대한 숫자 그리드로서,
00:02:1148x48 픽셀 정사각형에 해당하는 2304개의 픽셀 값을 가져와 한 번에 곱하고,
00:02:19LLM의 텍스트 토큰 형식과 완벽하게 일치하는 단일 행으로 늘려줍니다.
00:02:26이미지에 무엇이 있는지 분석하는 것이 아니라, 원시 데이터를 모델이 처리할 수 있게 재구성하는 겁니다.
00:02:32기존 모델들을 보면 비전 인코더들이 정말 거대합니다. 예를 들어,
00:02:38이 모델은 5억 5천만 개의 파라미터를 가지고 있습니다. 전통적인 인코더는 이미지를 재구성하고,
00:02:45매핑하고 이해하기 위해 많은 데이터가 필요하기 때문입니다. 수십 개의 내부 어텐션 레이어가 픽셀 사이의
00:02:50관계를 계산하며 가장자리가 어디인지, 모양이 무엇인지, 객체가 무엇일지 파악하려
00:02:57텍스트 모델에 전달하기 전까지 계속 노력하죠. 하지만 DeepMind는 그 무거운 두뇌 작업을 완전히 삭제해서 크기를 줄였습니다.
00:03:04그들은 메인 언어 백본이 이미 매우 똑똑하고 실제 시각적 추론을 수행할 수 있는
00:03:10충분한 레이어를 가지고 있다는 것을 깨달았습니다. 그래서 사고 레이어를 모두 제거하고 남은 것은
00:03:17단 3,500만 개의 파라미터뿐입니다. 이는 픽셀 그리드를 텍스트 형식으로 매핑하는 데 필요한
00:03:24연결 가중치의 물리적 개수일 뿐입니다. 모든 이미지에 작동하는 정적인 단일 레이어 맵인 거죠.
00:03:30내부적인 사고를 하지 않기 때문에 처리 능력을 거의 차지하지 않아 VRAM을 확보하고,
00:03:37메인 LLM이 지능적으로 처리하게 합니다. 이 단일 단계가 어떻게 작동하는지 이해하려면,
00:03:44언어 모델 백본 내부에서 무슨 일이 일어나는지 봐야 합니다. 모든 언어 모델에는
00:03:50히든 차원(hidden dimension)이라는 내부 형식 규칙이 있습니다. 표준 트레이 크기라고 생각하면 됩니다. '사과'라는 단어든,
00:03:56코드 조각이든 문장 부호든, LLM에 입력되는 모든 것은
00:04:04행렬의 차원과 일치해야 하므로 이 거대한 특정 숫자 목록으로 변환되어야 합니다. 이 원시
00:04:1148x48 픽셀 패치는 2304개의 색상 숫자로 이루어진 그리드입니다. 만약 이 원시 조각을
00:04:19LLM에 직접 넣으려고 하면 차원이 맞지 않아 모델이 거부할 것입니다. 바로 그 이유 때문에
00:04:263,500만 개의 파라미터 매핑 레이어가 존재하는 것입니다. 이것은 말 그대로
00:04:332304개의 픽셀 값을 곱하고, LLM의 텍스트 토큰 형식과 완벽하게 일치하는
00:04:40단일 행으로 늘려주는 거대한 연결 가중치 그리드입니다. 분석적 사고는 전혀 하지 않고, 형식
00:04:48변환기 역할만 수행하여 데이터가 실제 시각적 추론이 일어나는 메인 트랜스포머로 바로 들어갈 수 있게 합니다.
00:04:54모델은 오디오 추론도 비슷한 방식으로 수행하는데, 오디오의 경우는 훨씬 더 간단합니다.
00:05:01오디오 인코더를 제거한 방법은, 16kHz의 원시 오디오 신호를 가져와서
00:05:0740밀리초의 연속 프레임으로 나누는 것입니다. 각 작은 프레임에는 소리 파형을 설명하는 640개의
00:05:15부동 소수점 숫자가 포함되어 있습니다. 모델은 이 640개의 부동 소수점을 가져와 비슷한
00:05:21단순 투영 레이어를 통해 언어 모델의 입력 공간으로 바로 매핑합니다. 트랜스포머
00:05:28백본에게 40밀리초 오디오 블록은 연속적인 텍스트 토큰 스트림과 동일해 보입니다. 소리는
00:05:35이미 연대기적 순서이기 때문에, 단어들의 시퀀스인 문장처럼 LLM은 오디오를
00:05:42정확히 텍스트처럼 취급합니다. 그래서 이 깊은 네이티브 통합을 통해 120억 파라미터 모델이 실시간 전사,
00:05:49번역 및 텍스트 서식 지정을 별도의 음성 네트워크를 메모리에 로드할 필요 없이 한 번의 전달(forward pass)로
00:05:56처리할 수 있습니다. 그래서 이 영리한 전술은 자신의 하드웨어에서 모델을 로컬로 실행할 때 엄청난 이점입니다.
00:06:02인코더의 군더더기를 모두 제거함으로써, DeepMind는 엄청난 추론
00:06:08능력을 작은 크기에 담아냈습니다. 벤치마크를 보면 260억 파라미터 모델의 성능에 근접하면서도,
00:06:1516GB 이상의 VRAM을 가진 일반 노트북에서 쉽게 실행됩니다.
00:06:21게다가 Google은 기본적으로 멀티 토큰 예측 드래프터를 포함했는데, 이는
00:06:28모델을 압축할 필요 없이 빠른 로컬 추론 속도를 위해 여러 토큰을 한 번에 예측한다는 의미입니다.
00:06:34모든 내용이 인상적이네요. 그럼 이제 제 M2 MacBook Pro에서 직접 테스트해 보겠습니다.
00:06:41이전 OMLX 영상에서 제 기기에 VRAM이 실제로 얼마나 있는지 묻는 분들이 계셨는데,
00:06:48궁금증을 해결해 드리자면 제 기기에는 24GB의 VRAM이 있습니다. 이게 오늘 사용할 사양입니다.
00:06:53또한 이 에지 갤러리 앱은 정말 오류가 많다고 말씀드려야겠네요. 예를 들어, 이미지를 추가하고
00:07:01이 이미지를 분석해 달라고 하면 바로 실패하며 무작위 오류가 발생합니다. 최신 버전인데도 말이죠.
00:07:13그래서 아쉽게도 공식 AI 에지 갤러리 앱으로는 비전 인코더를 테스트할 수 없었지만,
00:07:20다른 방법으로 테스트할 수 있습니다. 네. 그래서 Google AI 에지 갤러리 앱으로
00:07:26Gemma 4 120억 모델의 이미지 처리를 안정적으로 테스트할 수 없었기 때문에,
00:07:34OMLX에서 테스트하기로 했습니다. 이전에 OMLX에 관한 영상도 만들었었죠. 로컬에서 AI 모델을 실행하기 위한,
00:07:42특히 Apple 실리콘에서 실행하기 위한 엄청난 프레임워크입니다. 여기 보시는 것처럼,
00:07:47이 모델의 8비트 양자화 버전을 다운로드했습니다. 이제 채팅 섹션으로 가서,
00:07:54실시간으로 이미지 추론을 얼마나 빠르게 할 수 있는지 보겠습니다. 여기 두 개의 이미지가 있는
00:08:01테스트 폴더가 있습니다. 그중 하나는 공항 출발 정보 스크린샷입니다. 이 이미지를 사용해서
00:08:09이 이미지에 무엇이 보이냐고 물어볼 겁니다. 영상 속도를 조절하지 않았다는 점에 주목해 주세요.
00:08:18이건 모두 실시간입니다. 이 이미지에 대해 추론하는 속도가 얼마나 빠른지 확인해 보세요.
00:08:24이제 시작됩니다. 모델을 로드하고, 생성하고, 보세요.
00:08:33사진을 파싱해서 얼마나 빨리 가치 있는 정보를 추출하는지 보십시오.
00:08:41OMLX에서 처음 봤을 때, 그 속도에 진심으로 놀랐습니다. 정말 말도 안 됩니다.
00:08:50제가 로컬에서 테스트한 이미지 추론용 모델 중 최고라고 말씀드리고 싶네요. 그리고 또 하나 주목할 점은,
00:08:57이 모델을 오프라인으로 실행하고 있다는 것입니다. 와이파이도 꺼져 있죠.
00:09:03이제 다른 예시를 시도해 보겠습니다. 이건 TV 쇼 '바이킹스'의 캐릭터가 나오는 흐릿한 이미지입니다.
00:09:10다시 한번 이 이미지를 열고 같은 질문을 던져보겠습니다. 이 이미지에 무엇이 보입니까?
00:09:21생성 중입니다.
00:09:27보세요.
00:09:30정말 놀랍네요. 너무 빠릅니다. 깜짝 놀랐어요.
00:09:37네, 이 모델의 이미지 처리 성능에 정말 깊은 인상을 받았습니다.
00:09:43자, 여기까지가 인코더가 없는 Gemma 4 120억 모델에 대한 요약입니다.
00:09:50공식 AI 에지 갤러리 앱에서 자신 있게 테스트하지 못한 건 좀 아쉬웠지만,
00:09:56보신 것처럼 로컬에서 실행할 수 있는 더 낫거나 좋은 방법들이 있습니다.
00:10:01정말 훌륭한 모델이고 로컬 AI 모델 실행의 미래를 완전히 바꿀 것이라고 생각합니다.
00:10:07Google DeepMind는 단일 언어 백본이 시각과 청각을 네이티브로 처리하기에 충분히 똑똑하다는 것을 증명했습니다.
00:10:13이 새로운 기술은 에지 기기에서 쉽게 실행될 수 있는 훨씬 더 효율적인 멀티모달
00:10:19추론 모델을 개발하는 계기가 될 것입니다. 새로운 Gemma 모델에 대해 어떻게 생각하시나요?
00:10:26직접 써보셨나요? 사용하실 계획인가요? 아래 댓글로 알려주세요.
00:10:32이런 기술적인 분석 영상이 마음에 드셨다면, 영상 아래의 좋아요 버튼을 눌러 알려주세요.
00:10:37채널 구독도 잊지 마시고요. BetterStack의 Andres였고,
00:10:43다음 영상에서 뵙겠습니다.

Key Takeaway

Gemma 4 12B는 무거운 외부 인코더를 제거하고 원시 데이터를 언어 모델 백본으로 직접 매핑하는 아키텍처를 통해, 일반 소비자용 하드웨어에서 고성능 멀티모달 추론을 실시간으로 실행합니다.

Highlights

  • Gemma 4 12B 모델은 별도의 비전 및 오디오 인코더를 삭제하고 언어 모델 백본에서 직접 데이터를 처리하는 새로운 아키텍처를 적용했습니다.

  • 이미지 입력 시 48x48 픽셀 패치를 선형 투영(linear projection)을 거쳐 2304개의 값을 언어 모델 형식의 단일 행으로 변환합니다.

  • 전통적인 인코더(약 5.5억 개 파라미터) 대신 단 3500만 개의 파라미터만 사용하는 투영 레이어를 통해 메모리 효율을 극대화했습니다.

  • 오디오 데이터는 16kHz 원시 신호를 40밀리초 단위 프레임으로 분할하여 텍스트 토큰과 동일한 방식으로 실시간 처리합니다.

  • 16GB 이상의 VRAM을 갖춘 일반 노트북에서 260억 파라미터 모델 수준의 성능을 구현하며 로컬 추론이 가능합니다.

  • 멀티 토큰 예측 드래프터 기능을 기본 내장하여 모델 압축 없이도 빠른 로컬 추론 속도를 확보했습니다.

Timeline

인코더 없는 새로운 멀티모달 아키텍처

  • 기존 멀티모달 모델은 이미지와 오디오 처리를 위해 별도의 거대 인코더를 실행하여 메모리를 과도하게 점유합니다.
  • Gemma 4 12B는 인코더를 완전히 삭제하고 원시 데이터를 언어 모델의 입력 차원에 맞게 재구성하는 단순 투영 방식을 사용합니다.
  • 이미지는 48x48 픽셀의 패치로 나뉘어 2304개의 값을 가진 단일 행으로 매핑되며 메인 언어 모델로 직접 전달됩니다.

대부분의 멀티모달 AI는 텍스트, 이미지, 소리를 각각 처리하는 별도의 네트워크를 동시에 운영하느라 처리 속도가 느려지고 VRAM 점유율이 높습니다. Gemma 4는 5억 5천만 개의 파라미터가 필요한 기존 인코더를 대체하기 위해, 단 3,500만 개의 파라미터로 구성된 얇은 선형 투영 레이어를 도입했습니다. 이를 통해 모델은 시각적 분석 과정을 생략하고, 시각 데이터를 언어 모델이 이해할 수 있는 텍스트 토큰 형식으로 변환하는 역할만 수행하여 추론 효율을 극대화합니다.

데이터 통합 및 언어 모델 백본 활용

  • 언어 모델의 히든 차원(hidden dimension) 규칙에 맞춰 원시 데이터를 변환하는 형식 변환기 역할을 합니다.
  • 오디오는 16kHz 신호를 40밀리초 단위의 640개 부동 소수점 프레임으로 나누어 텍스트 문맥처럼 처리합니다.
  • 별도의 음성 네트워크 로딩 없이 한 번의 전달 과정으로 전사, 번역, 서식 지정이 가능합니다.

메인 LLM은 이미 시각적 추론을 수행할 수 있는 충분한 레이어를 갖추고 있어 별도의 사고 레이어가 불필요합니다. 48x48 픽셀 그리드는 모델 내부의 행렬 차원과 일치하도록 재구성되어 메인 트랜스포머로 바로 입력됩니다. 오디오 처리 방식도 이와 유사하며, 시간 순서대로 나열된 오디오 조각을 텍스트 토큰 스트림으로 간주하여 더 깊은 네이티브 통합을 구현했습니다.

로컬 실행 성능 및 실시간 테스트

  • 260억 파라미터 모델에 근접한 성능을 내면서 16GB VRAM 환경에서도 로컬 실행이 가능합니다.
  • 멀티 토큰 예측 드래프터를 내장하여 모델을 별도로 압축하지 않아도 빠른 추론 속도를 제공합니다.
  • M2 MacBook Pro(24GB VRAM) 환경에서 오프라인 상태로 이미지 추론을 실시간으로 성공했습니다.

공식 에지 갤러리 앱의 오류로 인해 OMLX 프레임워크와 8비트 양자화 버전을 사용하여 로컬 추론 성능을 검증했습니다. 공항 출발 스크린샷과 같은 이미지 데이터를 실시간으로 파싱하여 정보를 추출하는 과정에서 속도와 정확도 면에서 높은 성능을 나타냈습니다. 외부 네트워크 연결 없이도 고성능 멀티모달 처리가 가능함에 따라, 향후 에지 기기에서의 AI 활용 가능성이 크게 확장되었습니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video