구글이 역대급 온디바이스 AI 모델을 만들었을까요? (Gemma 4)

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00지난주, 구글이 예상치 못한 일을 해냈습니다.

00:00:02Apache 2.0 라이선스로 진정한 오픈 소스 모델을 출시한 것이죠.

00:00:08Gemma 4라는 모델인데요, 23억 파라미터만큼 작은

00:00:14특수 엣지 버전을 갖추고 있어 아이폰, 안드로이드 플래그십 폰,

00:00:21심지어 라즈베리 파이 같은 기기에서 완전히 오프라인으로 실행되도록 설계되었습니다.

00:00:23궁극의 소형 모델을 만들기 위한 경쟁이 정말 뜨거워지는 것 같습니다.

00:00:28불과 몇 주 전에 QWAN 3.5가 로컬 AI의 한계를 어떻게 넘어서는지

00:00:33테스트를 진행했었는데, 이제 구글은 훨씬 더 높은 지능 밀도를 약속하고 있습니다.

00:00:39그래서 이번 영상에서는 Gemma 4가 정말 시중 최고의 소형 모델인지

00:00:44확인하기 위해 비슷한 테스트를 진행해 보려고 합니다.

00:00:47정말 재미있을 것 같으니, 바로 시작해 보시죠.

00:00:53그렇다면 이 새로운 Gemma 4 모델의 독특한 점은 무엇일까요?

00:00:57기술적인 핵심 변화는 구글이 "레이어별 임베딩"이라 부르는 방식입니다.

00:01:03기존 트랜스포머에서는 토큰이 시작할 때 하나의 임베딩을 받고,

00:01:08그 임베딩이 모든 레이어를 거치며 모든 의미를 전달해야 했습니다.

00:01:11하지만 Gemma 4에서는 각 레이어가 자체 임베딩 세트를 가지고 있어,

00:01:16정보가 필요한 바로 그 지점에 새로운 정보를 도입할 수 있습니다.

00:01:19이것이 모델 이름 E2B와 E4B에 'E'가 붙은 이유입니다.

00:01:24이는 '유효 파라미터(Effective parameters)'를 의미합니다.

00:01:27모델은 50억 파라미터급의 추론 깊이로 작동하면서도,

00:01:32추론 중에는 약 23억 개의 활성 파라미터만 사용합니다.

00:01:36그 결과 훨씬 높은 지능 밀도를 갖게 되어, 복잡한 로직을 처리하면서도

00:01:421.5GB 미만의 RAM을 사용합니다.

00:01:46텍스트 성능 외에도 Gemma 4는 네이티브 멀티모달입니다.

00:01:50즉, 비전, 텍스트, 심지어 오디오까지 별도의 모듈을 덧붙인 것이 아니라

00:01:56하나의 통합된 아키텍처 내에서 처리된다는 뜻입니다.

00:01:59이 아키텍처는 답변을 내놓기 전에 스스로의 논리를 검증하는

00:02:05내부 추론 체인을 사용하는 새로운 사고 모드를 가능하게 합니다.

00:02:08이는 소형 모델에서 자주 발생하는 무한 루프나

00:02:13논리 오류를 방지하기 위해 특별히 설계되었습니다.

00:02:15또한 128K 컨텍스트 윈도우와 140개 이상의 언어를 지원하므로,

00:02:22복잡한 OCR이나 현지 언어 식별 같은 작업에서 성능이 대폭 향상될 것입니다.

00:02:29이러한 능력을 보여주기 위해 구글은 놀라운 벤치마크 수치를 공개했습니다.

00:02:34내부 테스트에서 E4B 모델은 AIME 2026 수학 벤치마크에서

00:02:4342.5%를 기록했는데, 이는 이전 세대의 훨씬 큰 모델들보다 두 배 이상 높은 점수입니다.

00:02:49또한 T2 벤치에서 도구 사용 정확도가 대폭 상승한 것을 보여주며

00:02:54모델의 에이전트 잠재력을 증명했습니다.

00:02:57그들은 '에이전트 스킬'이라는 기능을 통해 모델의 잠재력을 시연하기도 했습니다.

00:03:02단순히 정적인 텍스트를 생성하는 대신, 모델이 네이티브 함수 호출을 사용해

00:03:07위키피디아 실시간 데이터 쿼리나 엔드투엔드 동물 소리 위젯 제작 같은

00:03:13다단계 워크플로를 처리하는 모습을 보여주었습니다.

00:03:15설명만 들으면 대단해 보이는데, 직접 사용해 보며 어떻게 작동하는지 확인해 봅시다.

00:03:20지난 QUEN 3.5 영상에서는 LMStudio와 CLINE을 사용해

00:03:25인터넷 연결 없이 소형 모델들을 로컬에서 테스트했었습니다.

00:03:28GEMMA 4 테스트에도 동일한 환경을 사용하겠습니다.

00:03:32먼저 LMStudio에서 모델을 다운로드하고, 가용 컨텍스트 윈도우를 늘린 뒤

00:03:37서버를 시작해야 합니다.

00:03:39그다음 CLINE에서 로컬 LMStudio 서버를 연결하고, E2B 모델을 선택한 뒤,

00:03:45인터넷을 끄고 테스트를 시작합니다.

00:03:49지난번 QUEN 3.5는 HTML, CSS, JavaScript를 사용해 간단한 카페 웹사이트를

00:03:55아주 괜찮게 만들어냈었죠. 가장 작은 파라미터 모델 두 개로 말입니다.

00:04:00똑같은 프롬프트를 재사용해서 GEMMA 4도 코딩 작업을 잘 수행하는지 보겠습니다.

00:04:05E2B 모델이 이 작업을 완료하는 데는 약 1.5분이 걸렸습니다.

00:04:10솔직히 23억 활성 파라미터를 가진 모델 치고는 결과가 좀 아쉬웠습니다.

00:04:16단 8억 개의 파라미터만 사용했던 QUEN의 결과물과 비교하면 더욱 그렇습니다.

00:04:22가장 짜증 났던 점은 GEMMA가 HTML 파일 끝과 CSS 파일 끝에

00:04:28작업 목록을 덧붙여 놓아서, 페이지를 열기 전에

00:04:33두 파일 모두에서 직접 삭제해야 했다는 것입니다.

00:04:34또한 JavaScript 파일을 작성했다고 주장했지만, 실제 최종 출력에는

00:04:40JS 파일이 생성되지 않아서 E2B 테스트 결과는 다소 실망스러웠습니다.

00:04:45하지만 E4B 모델 버전으로 전환하자 상황이 꽤 많이 개선되었습니다.

00:04:50작업을 마치는 데 약 3.5분이 걸렸지만, 결과물은 눈에 띄게

00:04:55더 나아졌습니다.

00:04:56디자인 면에서는 여전히 아주 평범해 보일지 몰라도, 이 버전은

00:05:00QUEN과 GEMMA의 이전 테스트들에서 모두 실패했던

00:05:06장바구니 기능을 실제로 작동하게 만들었습니다.

00:05:08따라서 E4B 버전은 E2B보다 크게 진보한 셈이지만, 당연히 그 누구도

00:05:15이런 소형 모델을 복잡하거나 진지한 코딩에 쓰려고 하지는 않을 것입니다.

00:05:20저는 단지 호기심에 이 정도 적은 파라미터 수로도

00:05:25코딩 작업에서 의미 있는 결과를 낼 수 있는지 확인해 본 것입니다.

00:05:29자, 이제 GEMMA 4가 아이폰 같은 엣지 기기에서 어떻게 작동하는지 봅시다.

00:05:34QUEN 3.5 영상에서는 Swift의 MLX 프레임워크를 사용해 네이티브 Metal GPU에서

00:05:40모델을 실행할 수 있는 커스텀 iOS 앱을 직접 만들었었죠.

00:05:44GEMMA 4가 오픈 소스이긴 하지만, 안타깝게도 현재로서는 이 모델을 위한

00:05:49멀티모달 기능과 함께 iOS에서 실행할 수 있는 MLX 바인딩이 없습니다.

00:05:56구글은 자체 추론 프레임워크인 Lite RTLM을 사용하여

00:06:01AI Edge Gallery 앱에서 GEMMA 4를 실행하고 있는데, 이 역시

00:06:07현재로서는 iOS 바인딩을 지원하지 않습니다.

00:06:08그래서 아이폰에서 시도해 볼 수 있는 가장 좋은 방법은 그들의 Edge Gallery 앱을 쓰는 것입니다.

00:06:13그들의 앱에서 테스트를 진행하며 성능이 어떤지 확인해 보겠습니다.

00:06:18그럼 AI 채팅 섹션으로 가보겠습니다.

00:06:20여기서 GEMMA 4의 E2B 버전을 다운로드하라는 안내가 뜹니다.

00:06:25E4B 버전을 다운로드할 수도 있는데, 왠지 모르겠지만 앱에서

00:06:29공간이 부족하다고 하네요. 분명 공간은 넉넉한데 말이죠. 아마도

00:06:34앱의 버그인 것 같습니다.

00:06:36아무튼, 모델을 다운로드했으니 이제 드디어 사용해 볼 수 있습니다.

00:06:41간단하게 "Hello"라고 입력해 보죠.

00:06:43와, 응답 속도가 얼마나 빠른지 보셨나요?

00:06:46QUEN 3.5보다 훨씬 빠릅니다.

00:06:48이게 바로 그들이 사용하는 Lite RTLM 프레임워크의 마법일지도 모르겠네요.

00:06:53이제 유명한 세차(car wash) 테스트를 통해 GEMMA가 정답을 맞히는지 봅시다.

00:06:57오, 정말 긴 답변을 내놓네요.

00:07:00답변 끝부분을 보면 최종 권장 사항이 운전하는 것인데, 이는 정답이지만

00:07:06실제 논리적 사실보다는 편의성과 안락함의 관점에서

00:07:10답변을 하고 있다는 점을 고려해야 합니다.

00:07:13그래서 뭐랄까, 테스트를 통과한 것 같기도 하고 아닌 것 같기도 하네요.

00:07:18좋습니다, 이제 이미지 질문 섹션으로 넘어가서 GEMMA가

00:07:24이 사진 속의 강아지를 알아볼 수 있는지 확인해 봅시다.

00:07:26강아지라는 것을 확실히 알아봤고 이미지에 대한 다른 세부 정보도 제공하네요.

00:07:31꽤 멋진데요.

00:07:32하지만 "강아지의 품종이 뭐야?"라고 물으면

00:07:35보더 콜리라고 답하는데, 이건 사실이 아닙니다.

00:07:39실제로는 코기거든요.

00:07:40그래도 20억 개가 조금 넘는 활성 파라미터만으로 이 정도 응답을 내놓는다는 건

00:07:45그럼에도 꽤 훌륭하다고 말해야겠네요.

00:07:46마지막으로 OCR 테스트를 해보겠습니다.

00:07:48지난 QUEN 3.5 영상을 보셨다면 기억하시겠지만, 제 모국어인

00:07:54라트비아어 텍스트가 포함된 이미지로 테스트를 했었습니다.

00:07:59GEMMA는 최대 140개 언어를 이해할 수 있다고 홍보하고 있습니다.

00:08:05그러니 이 테스트는 쉽게 통과할 것으로 예상됩니다.

00:08:08네, 역시 언어가 라트비아어라는 것을 정확히 식별하네요.

00:08:13텍스트의 대부분이 실제와 거의 일치한다는 점에 놀랐습니다.

00:08:16몇 가지 사소한 예외로, 존재하지 않는 단어가 좀 보이고

00:08:22일부 문법 구조가 매우 기이하긴 합니다만,

00:08:24여전히 매우 인상적입니다.

00:08:26그래서 이 테스트는 통과를 주겠습니다.

00:08:28자, 그럼 여기서 질문이 생깁니다. 이 모델과 라트비아어로 채팅을 할 수 있을까요?

00:08:32다음으로 그걸 시도해 보겠습니다.

00:08:33응답이 실제로 라트비아어로 나오긴 하네요.

00:08:36하지만 다시 말하지만, 문법 구조가 매우 이상합니다.

00:08:39아무도 그런 식으로 말하지 않거든요.

00:08:41그래도 라트비아어는 화자 수가 매우 적은 언어입니다.

00:08:44그런 작은 모델에 이런 지식이 다 들어있다는 것 자체가 이미 인상적이죠.

00:08:48내친김에 현재 미국 대통령이 누구인지 물어봐서

00:08:53GEMMA 4의 학습 데이터 컷오프 시점을 확인해 보겠습니다.

00:08:56조 바이든이라고 답하네요.

00:08:58그리고 실제로 "너의 지식 컷오프는 언제야?"라고 물으면

00:09:022025년 1월이라고 말해줍니다. 확인이 됐네요.

00:09:06자, 여기까지입니다.

00:09:07이것이 구글의 최신 오픈 소스 모델, GEMMA 4입니다.

00:09:10솔직히 말해서 이 모델은 꽤 좋아 보입니다.

00:09:14웹 디자인에서 창의성이 좀 부족하긴 하지만 광고하는 기능들을 잘 수행합니다.

00:09:19그 점을 제외하면, 방금 보셨듯이 소형 모델임에도 불구하고

00:09:24제가 부여한 모든 작업을 성공적으로 완료할 수 있는 능력이 충분합니다.

00:09:27이 모델을 위한 MLX 바인딩이 아직 없다는 게 아쉽네요. 커스텀 iOS 앱에서

00:09:32GEMMA 4를 로컬로 정말 써보고 싶거든요.

00:09:36하지만 구글이 조만간 이를 대중에게 공개할 것이라 확신합니다.

00:09:41그동안 저는 이미 이 모델들을 위한 비공식 네이티브 바인딩을 작업 중인

00:09:46SwiftLM 같은 커뮤니티 프로젝트를 예의주시하고 있겠습니다.

00:09:50모델에 대한 제 생각은 이 정도입니다.

00:09:52여러분은 GEMMA 4에 대해 어떻게 생각하시나요?

00:09:54직접 써보셨나요?

00:09:55사용하실 계획이 있으신가요?

00:09:56아래 댓글 섹션에서 여러분의 생각을 알려주세요.

00:09:59여러분, 이런 기술적인 분석이 마음에 드셨다면 영상 아래의

00:10:03좋아요 버튼을 꾹 눌러서 알려주시기 바랍니다.

00:10:05그리고 저희 채널 구독하는 것도 잊지 마시고요.

00:10:07지금까지 BetterStack의 Andres였으며, 다음 영상에서 뵙겠습니다.

Key Takeaway

Gemma 4는 레이어별 임베딩과 네이티브 멀티모달 아키텍처를 통해 1.5GB 미만의 적은 메모리 점유율로도 대형 모델 수준의 지능 밀도와 오프라인 추론 성능을 제공한다.

Highlights

Gemma 4는 23억 개의 활성 파라미터만으로 50억 파라미터급의 추론 깊이를 구현하는 레이어별 임베딩 기술을 적용했다.

AIME 2026 수학 벤치마크에서 42.5%를 기록하며 이전 세대 대형 모델들보다 두 배 이상 높은 점수를 달성했다.

1.5GB 미만의 RAM 점유율로 아이폰, 안드로이드, 라즈베리 파이 기기에서 완전한 오프라인 실행이 가능하다.

네이티브 멀티모달 아키텍처를 통해 비전, 텍스트, 오디오를 통합 처리하며 128K 컨텍스트 윈도우와 140개 이상의 언어를 지원한다.

E4B 모델은 코딩 테스트에서 장바구니 기능을 구현하며 QWAN 3.5나 이전 Gemma 모델이 실패했던 논리적 과제를 해결했다.

학습 데이터 컷오프 시점은 2025년 1월이며, 구글의 Lite RTLM 프레임워크를 통해 모바일 기기에서 빠른 응답 속도를 보여준다.

Timeline

Gemma 4의 설계 철학과 지능 밀도 혁신

레이어별 임베딩 기술은 정보가 필요한 레이어에 직접 새로운 데이터를 도입하여 효율성을 높인다.
유효 파라미터 개념을 도입해 23억 개의 활성 파라미터만으로 50억급 성능을 내며 메모리 사용량을 1.5GB 미만으로 억제한다.
내부 추론 체인을 사용하는 사고 모드는 소형 모델의 고질적인 문제인 무한 루프와 논리 오류를 방지한다.

구글은 Apache 2.0 라이선스로 진정한 오픈 소스 모델인 Gemma 4를 출시했다. 기존 트랜스포머의 단일 임베딩 방식에서 벗어나 각 레이어가 자체 임베딩 세트를 갖는 아키텍처를 채택했다. 이를 통해 네이티브 멀티모달 기능을 구현했으며, 128K 컨텍스트 윈도우와 140개 이상의 언어 지원으로 OCR 및 현지어 식별 성능을 강화했다.

수학 및 에이전트 성능 벤치마크 분석

E4B 모델은 AIME 2026 수학 벤치마크에서 42.5%의 정확도를 기록하며 지능 밀도를 증명했다.
T2 벤치마크 결과 도구 사용 정확도가 상승하여 에이전트로서의 활용 잠재력이 높아졌다.
에이전트 스킬 기능을 통해 위키피디아 실시간 데이터 쿼리 등 다단계 워크플로를 처리한다.

벤치마크 수치는 이전 세대 대형 모델의 두 배에 달하는 수학 문제 해결 능력을 보여준다. 단순한 텍스트 생성을 넘어 네이티브 함수 호출을 통해 실시간 데이터를 조회하거나 위젯을 제작하는 등 실행 가능한 작업을 수행한다. 이는 소형 모델이 단순 답변기가 아닌 독립적인 에이전트로 작동할 수 있음을 시사한다.

로컬 환경 코딩 성능 검증 테스트

E2B 모델은 코딩 결과물 끝에 작업 목록을 덧붙이거나 JS 파일을 누락하는 등 논리적 허점을 보였다.
E4B 모델은 3.5분의 처리 시간을 소요하며 기존 소형 모델들이 실패했던 복잡한 장바구니 기능을 성공적으로 구현했다.
활성 파라미터가 적은 모델일수록 코드의 디자인 완성도보다는 기능적 논리 구현 여부에서 성능 차이가 극명하게 갈린다.

LMStudio와 CLINE을 사용해 인터넷이 차단된 로컬 환경에서 코딩 테스트를 진행했다. 가장 작은 E2B 모델은 QWAN 3.5 0.8B 모델보다 다소 아쉬운 완성도를 보였으나, 상위 버전인 E4B는 유의미한 기능적 발전을 보여주었다. 소형 모델을 실무 코딩에 쓰기에는 한계가 있지만 실험적인 수준의 논리 구현은 가능하다.

모바일 엣지 기기 실제 구동 및 멀티모달 테스트

Lite RTLM 프레임워크를 적용한 Gemma 4는 모바일 기기에서 QWAN 3.5보다 빠른 응답 속도를 보여준다.
이미지 내 보더 콜리와 코기를 혼동하는 등 미세한 비전 인식 오류가 존재하지만 전반적인 사물 식별은 정확하다.
라트비아어 같은 소수 언어 OCR 테스트에서 실제 텍스트와 거의 일치하는 복원력을 입증했다.

아이폰의 AI Edge Gallery 앱을 통해 오프라인 테스트를 실시했다. 세차 문제 같은 논리 테스트에서 정답을 맞혔으나 논리보다는 편의성 관점에서 답변하는 경향을 보였다. 140개 이상의 언어를 지원한다는 홍보대로 라트비아어를 정확히 식별하고 텍스트를 추출해 냈으나, 직접 대화 시에는 문법 구조가 다소 어색한 모습이 관찰되었다.

데이터 컷오프 확인 및 향후 기술 전망

Gemma 4의 학습 데이터 지식 컷오프 시점은 2025년 1월로 확인되었다.
현재 공식적인 iOS용 MLX 바인딩은 없으나 SwiftLM 등 커뮤니티의 비공식 프로젝트가 진행 중이다.
창의적인 웹 디자인 능력은 부족하지만 광고된 기능적 요구 사항은 대부분 충족한다.

미국 대통령에 대한 질문을 통해 모델이 보유한 정보의 최신성을 확인했다. 구글이 조만간 더 넓은 범위의 네이티브 바인딩을 공개할 것으로 예상되며, 이는 개발자들이 커스텀 앱에서 Gemma 4를 로컬로 활용하는 기폭제가 될 것이다. 전반적으로 소형 모델로서 부여된 과제들을 성공적으로 수행하는 능력을 갖춘 것으로 평가된다.

Community Posts

Gemma 4 로컬 서버로 매달 나가는 API 비용 200달러 지우기

makedreamقبل ١١ يومًا4170

Write about this video