00:00:00지난주, 구글이 예상치 못한 일을 해냈습니다.
00:00:02Apache 2.0 라이선스로 진정한 오픈 소스 모델을 출시한 것이죠.
00:00:08Gemma 4라는 모델인데요, 23억 파라미터만큼 작은
00:00:14특수 엣지 버전을 갖추고 있어 아이폰, 안드로이드 플래그십 폰,
00:00:21심지어 라즈베리 파이 같은 기기에서 완전히 오프라인으로 실행되도록 설계되었습니다.
00:00:23궁극의 소형 모델을 만들기 위한 경쟁이 정말 뜨거워지는 것 같습니다.
00:00:28불과 몇 주 전에 QWAN 3.5가 로컬 AI의 한계를 어떻게 넘어서는지
00:00:33테스트를 진행했었는데, 이제 구글은 훨씬 더 높은 지능 밀도를 약속하고 있습니다.
00:00:39그래서 이번 영상에서는 Gemma 4가 정말 시중 최고의 소형 모델인지
00:00:44확인하기 위해 비슷한 테스트를 진행해 보려고 합니다.
00:00:47정말 재미있을 것 같으니, 바로 시작해 보시죠.
00:00:53그렇다면 이 새로운 Gemma 4 모델의 독특한 점은 무엇일까요?
00:00:57기술적인 핵심 변화는 구글이 "레이어별 임베딩"이라 부르는 방식입니다.
00:01:03기존 트랜스포머에서는 토큰이 시작할 때 하나의 임베딩을 받고,
00:01:08그 임베딩이 모든 레이어를 거치며 모든 의미를 전달해야 했습니다.
00:01:11하지만 Gemma 4에서는 각 레이어가 자체 임베딩 세트를 가지고 있어,
00:01:16정보가 필요한 바로 그 지점에 새로운 정보를 도입할 수 있습니다.
00:01:19이것이 모델 이름 E2B와 E4B에 'E'가 붙은 이유입니다.
00:01:24이는 '유효 파라미터(Effective parameters)'를 의미합니다.
00:01:27모델은 50억 파라미터급의 추론 깊이로 작동하면서도,
00:01:32추론 중에는 약 23억 개의 활성 파라미터만 사용합니다.
00:01:36그 결과 훨씬 높은 지능 밀도를 갖게 되어, 복잡한 로직을 처리하면서도
00:01:421.5GB 미만의 RAM을 사용합니다.
00:01:46텍스트 성능 외에도 Gemma 4는 네이티브 멀티모달입니다.
00:01:50즉, 비전, 텍스트, 심지어 오디오까지 별도의 모듈을 덧붙인 것이 아니라
00:01:56하나의 통합된 아키텍처 내에서 처리된다는 뜻입니다.
00:01:59이 아키텍처는 답변을 내놓기 전에 스스로의 논리를 검증하는
00:02:05내부 추론 체인을 사용하는 새로운 사고 모드를 가능하게 합니다.
00:02:08이는 소형 모델에서 자주 발생하는 무한 루프나
00:02:13논리 오류를 방지하기 위해 특별히 설계되었습니다.
00:02:15또한 128K 컨텍스트 윈도우와 140개 이상의 언어를 지원하므로,
00:02:22복잡한 OCR이나 현지 언어 식별 같은 작업에서 성능이 대폭 향상될 것입니다.
00:02:29이러한 능력을 보여주기 위해 구글은 놀라운 벤치마크 수치를 공개했습니다.
00:02:34내부 테스트에서 E4B 모델은 AIME 2026 수학 벤치마크에서
00:02:4342.5%를 기록했는데, 이는 이전 세대의 훨씬 큰 모델들보다 두 배 이상 높은 점수입니다.
00:02:49또한 T2 벤치에서 도구 사용 정확도가 대폭 상승한 것을 보여주며
00:02:54모델의 에이전트 잠재력을 증명했습니다.
00:02:57그들은 '에이전트 스킬'이라는 기능을 통해 모델의 잠재력을 시연하기도 했습니다.
00:03:02단순히 정적인 텍스트를 생성하는 대신, 모델이 네이티브 함수 호출을 사용해
00:03:07위키피디아 실시간 데이터 쿼리나 엔드투엔드 동물 소리 위젯 제작 같은
00:03:13다단계 워크플로를 처리하는 모습을 보여주었습니다.
00:03:15설명만 들으면 대단해 보이는데, 직접 사용해 보며 어떻게 작동하는지 확인해 봅시다.
00:03:20지난 QUEN 3.5 영상에서는 LMStudio와 CLINE을 사용해
00:03:25인터넷 연결 없이 소형 모델들을 로컬에서 테스트했었습니다.
00:03:28GEMMA 4 테스트에도 동일한 환경을 사용하겠습니다.
00:03:32먼저 LMStudio에서 모델을 다운로드하고, 가용 컨텍스트 윈도우를 늘린 뒤
00:03:37서버를 시작해야 합니다.
00:03:39그다음 CLINE에서 로컬 LMStudio 서버를 연결하고, E2B 모델을 선택한 뒤,
00:03:45인터넷을 끄고 테스트를 시작합니다.
00:03:49지난번 QUEN 3.5는 HTML, CSS, JavaScript를 사용해 간단한 카페 웹사이트를
00:03:55아주 괜찮게 만들어냈었죠. 가장 작은 파라미터 모델 두 개로 말입니다.
00:04:00똑같은 프롬프트를 재사용해서 GEMMA 4도 코딩 작업을 잘 수행하는지 보겠습니다.
00:04:05E2B 모델이 이 작업을 완료하는 데는 약 1.5분이 걸렸습니다.
00:04:10솔직히 23억 활성 파라미터를 가진 모델 치고는 결과가 좀 아쉬웠습니다.
00:04:16단 8억 개의 파라미터만 사용했던 QUEN의 결과물과 비교하면 더욱 그렇습니다.
00:04:22가장 짜증 났던 점은 GEMMA가 HTML 파일 끝과 CSS 파일 끝에
00:04:28작업 목록을 덧붙여 놓아서, 페이지를 열기 전에
00:04:33두 파일 모두에서 직접 삭제해야 했다는 것입니다.
00:04:34또한 JavaScript 파일을 작성했다고 주장했지만, 실제 최종 출력에는
00:04:40JS 파일이 생성되지 않아서 E2B 테스트 결과는 다소 실망스러웠습니다.
00:04:45하지만 E4B 모델 버전으로 전환하자 상황이 꽤 많이 개선되었습니다.
00:04:50작업을 마치는 데 약 3.5분이 걸렸지만, 결과물은 눈에 띄게
00:04:55더 나아졌습니다.
00:04:56디자인 면에서는 여전히 아주 평범해 보일지 몰라도, 이 버전은
00:05:00QUEN과 GEMMA의 이전 테스트들에서 모두 실패했던
00:05:06장바구니 기능을 실제로 작동하게 만들었습니다.
00:05:08따라서 E4B 버전은 E2B보다 크게 진보한 셈이지만, 당연히 그 누구도
00:05:15이런 소형 모델을 복잡하거나 진지한 코딩에 쓰려고 하지는 않을 것입니다.
00:05:20저는 단지 호기심에 이 정도 적은 파라미터 수로도
00:05:25코딩 작업에서 의미 있는 결과를 낼 수 있는지 확인해 본 것입니다.
00:05:29자, 이제 GEMMA 4가 아이폰 같은 엣지 기기에서 어떻게 작동하는지 봅시다.
00:05:34QUEN 3.5 영상에서는 Swift의 MLX 프레임워크를 사용해 네이티브 Metal GPU에서
00:05:40모델을 실행할 수 있는 커스텀 iOS 앱을 직접 만들었었죠.
00:05:44GEMMA 4가 오픈 소스이긴 하지만, 안타깝게도 현재로서는 이 모델을 위한
00:05:49멀티모달 기능과 함께 iOS에서 실행할 수 있는 MLX 바인딩이 없습니다.
00:05:56구글은 자체 추론 프레임워크인 Lite RTLM을 사용하여
00:06:01AI Edge Gallery 앱에서 GEMMA 4를 실행하고 있는데, 이 역시
00:06:07현재로서는 iOS 바인딩을 지원하지 않습니다.
00:06:08그래서 아이폰에서 시도해 볼 수 있는 가장 좋은 방법은 그들의 Edge Gallery 앱을 쓰는 것입니다.
00:06:13그들의 앱에서 테스트를 진행하며 성능이 어떤지 확인해 보겠습니다.
00:06:18그럼 AI 채팅 섹션으로 가보겠습니다.
00:06:20여기서 GEMMA 4의 E2B 버전을 다운로드하라는 안내가 뜹니다.
00:06:25E4B 버전을 다운로드할 수도 있는데, 왠지 모르겠지만 앱에서
00:06:29공간이 부족하다고 하네요. 분명 공간은 넉넉한데 말이죠. 아마도
00:06:34앱의 버그인 것 같습니다.
00:06:36아무튼, 모델을 다운로드했으니 이제 드디어 사용해 볼 수 있습니다.
00:06:41간단하게 "Hello"라고 입력해 보죠.
00:06:43와, 응답 속도가 얼마나 빠른지 보셨나요?
00:06:46QUEN 3.5보다 훨씬 빠릅니다.
00:06:48이게 바로 그들이 사용하는 Lite RTLM 프레임워크의 마법일지도 모르겠네요.
00:06:53이제 유명한 세차(car wash) 테스트를 통해 GEMMA가 정답을 맞히는지 봅시다.
00:06:57오, 정말 긴 답변을 내놓네요.
00:07:00답변 끝부분을 보면 최종 권장 사항이 운전하는 것인데, 이는 정답이지만
00:07:06실제 논리적 사실보다는 편의성과 안락함의 관점에서
00:07:10답변을 하고 있다는 점을 고려해야 합니다.
00:07:13그래서 뭐랄까, 테스트를 통과한 것 같기도 하고 아닌 것 같기도 하네요.
00:07:18좋습니다, 이제 이미지 질문 섹션으로 넘어가서 GEMMA가
00:07:24이 사진 속의 강아지를 알아볼 수 있는지 확인해 봅시다.
00:07:26강아지라는 것을 확실히 알아봤고 이미지에 대한 다른 세부 정보도 제공하네요.
00:07:31꽤 멋진데요.
00:07:32하지만 "강아지의 품종이 뭐야?"라고 물으면
00:07:35보더 콜리라고 답하는데, 이건 사실이 아닙니다.
00:07:39실제로는 코기거든요.
00:07:40그래도 20억 개가 조금 넘는 활성 파라미터만으로 이 정도 응답을 내놓는다는 건
00:07:45그럼에도 꽤 훌륭하다고 말해야겠네요.
00:07:46마지막으로 OCR 테스트를 해보겠습니다.
00:07:48지난 QUEN 3.5 영상을 보셨다면 기억하시겠지만, 제 모국어인
00:07:54라트비아어 텍스트가 포함된 이미지로 테스트를 했었습니다.
00:07:59GEMMA는 최대 140개 언어를 이해할 수 있다고 홍보하고 있습니다.
00:08:05그러니 이 테스트는 쉽게 통과할 것으로 예상됩니다.
00:08:08네, 역시 언어가 라트비아어라는 것을 정확히 식별하네요.
00:08:13텍스트의 대부분이 실제와 거의 일치한다는 점에 놀랐습니다.
00:08:16몇 가지 사소한 예외로, 존재하지 않는 단어가 좀 보이고
00:08:22일부 문법 구조가 매우 기이하긴 합니다만,
00:08:24여전히 매우 인상적입니다.
00:08:26그래서 이 테스트는 통과를 주겠습니다.
00:08:28자, 그럼 여기서 질문이 생깁니다. 이 모델과 라트비아어로 채팅을 할 수 있을까요?
00:08:32다음으로 그걸 시도해 보겠습니다.
00:08:33응답이 실제로 라트비아어로 나오긴 하네요.
00:08:36하지만 다시 말하지만, 문법 구조가 매우 이상합니다.
00:08:39아무도 그런 식으로 말하지 않거든요.
00:08:41그래도 라트비아어는 화자 수가 매우 적은 언어입니다.
00:08:44그런 작은 모델에 이런 지식이 다 들어있다는 것 자체가 이미 인상적이죠.
00:08:48내친김에 현재 미국 대통령이 누구인지 물어봐서
00:08:53GEMMA 4의 학습 데이터 컷오프 시점을 확인해 보겠습니다.
00:08:56조 바이든이라고 답하네요.
00:08:58그리고 실제로 "너의 지식 컷오프는 언제야?"라고 물으면
00:09:022025년 1월이라고 말해줍니다. 확인이 됐네요.
00:09:06자, 여기까지입니다.
00:09:07이것이 구글의 최신 오픈 소스 모델, GEMMA 4입니다.
00:09:10솔직히 말해서 이 모델은 꽤 좋아 보입니다.
00:09:14웹 디자인에서 창의성이 좀 부족하긴 하지만 광고하는 기능들을 잘 수행합니다.
00:09:19그 점을 제외하면, 방금 보셨듯이 소형 모델임에도 불구하고
00:09:24제가 부여한 모든 작업을 성공적으로 완료할 수 있는 능력이 충분합니다.
00:09:27이 모델을 위한 MLX 바인딩이 아직 없다는 게 아쉽네요. 커스텀 iOS 앱에서
00:09:32GEMMA 4를 로컬로 정말 써보고 싶거든요.
00:09:36하지만 구글이 조만간 이를 대중에게 공개할 것이라 확신합니다.
00:09:41그동안 저는 이미 이 모델들을 위한 비공식 네이티브 바인딩을 작업 중인
00:09:46SwiftLM 같은 커뮤니티 프로젝트를 예의주시하고 있겠습니다.
00:09:50모델에 대한 제 생각은 이 정도입니다.
00:09:52여러분은 GEMMA 4에 대해 어떻게 생각하시나요?
00:09:54직접 써보셨나요?
00:09:55사용하실 계획이 있으신가요?
00:09:56아래 댓글 섹션에서 여러분의 생각을 알려주세요.
00:09:59여러분, 이런 기술적인 분석이 마음에 드셨다면 영상 아래의
00:10:03좋아요 버튼을 꾹 눌러서 알려주시기 바랍니다.
00:10:05그리고 저희 채널 구독하는 것도 잊지 마시고요.
00:10:07지금까지 BetterStack의 Andres였으며, 다음 영상에서 뵙겠습니다.