GLM 5.2, 저의 새로운 최애 모델이 되었습니다...
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00현재 세계 최고의 오픈 모델은 오픈AI라는 회사가 만든 것이 아닙니다.
00:00:04물론 중국 연구소에서 나온 것인데, 바로 Zai의 GLM 5.2입니다.
00:00:10이 모델은 특정 벤치마크에서 GPT 5.5와 대등한 성능을 보여주며,
00:00:15MIT 라이선스를 따르는 오픈 모델이면서도 Fable을 능가하는 분야까지 있습니다. 한번 살펴보죠. GLM 5.2는 총 파라미터 7,440억 개 규모의 모델로,
00:00:26활성 파라미터는 400억 개입니다. 사실 전작인 GLM 5.1과 크기가 동일한데요.
00:00:31그럼에도 지능 지수에서 엄청난 도약을 이뤄냈다는 점이 매우 인상적입니다.
00:00:35Artificial Analysis의 이 지수는 추론, 코딩, 과학 등 여러 벤치마크를,
00:00:40모두 종합한 점수입니다. GLM 5.2는 여기서 51점을 기록해,
00:00:45이전 버전보다 11점이나 앞섰으며, 상당한 격차로 최고의 오픈 모델이 되었습니다. 그다음은 Qwen 3.7, Minimax M3,
00:00:51그 뒤를 이어 Kimmy K 2.6이 있습니다. 이는 사실 Gemini 3.5 Flash나 GPT 5.4와,
00:00:57비슷한 수준이라는 뜻이니 꽤나 놀라운 일이죠. 이 지수에 포함된 GPT Val 같은 몇몇 벤치마크에서는,
00:01:03오히려 GPT 5.5를 앞서기도 합니다. 코딩 분야에 집중해서 보면, 코딩 지수에서도 여전히 훌륭하며
00:01:09Gemini 3.1 Pro와 같은 점수를 기록했고, 실제로 Sonic 4.6을 이겼습니다. 최상위권 모델들과도
00:01:14그리 큰 차이가 나지 않죠. 또한 저희의 최신 모델인 Kimmy K 2.7 Code보다도 앞서 있는데,
00:01:19저를 포함해 많은 분들이 이 모델의 팬이죠. 저는 항상 Kimmy 모델들이 가진,
00:01:23정말 좋은 느낌을 좋아했습니다. 코딩 지수 외에 요즘 사람들이 많이 좋아하는 벤치마크는
00:01:27Deep SWE입니다. 여기를 살펴보면 Medium 수준에서 Opus 4.7보다 높은 점수를 기록했는데,
00:01:33이건 정말 인상적입니다. 다만 모든 모델이 여기에서 테스트된 것은 아니라는 점과,
00:01:38사용된 하네스가 사실 Claude Code였다는 점은 유의해야 합니다. API 트릭을 조금 써서,
00:01:42Anthropic 대신 Zai를 가리키게 한 것이죠. 제가 좋아하는 마지막 벤치마크 세트는 Design Arena입니다.
00:01:47여기서 흥미로운 결과가 나옵니다. GLM 5.2가 Design Arena의
00:01:53싱글 턴 HTML 웹 디자인 리더보드에서 전체 1위를 차지하며,
00:01:58Fable 5를 포함해 Claude 라인을 꺾은 최초의 모델이 되었습니다. 이 모델의 집중 영역이었던 것 같은데,
00:02:02Design Arena의 추가 조사에 따르면 GLM 5.2는 일반적인 AI의 나쁜 패턴을 피하는,
00:02:08강력한 전문가 템플릿 세트를 갖추고 있습니다. 그래서 보라색 그라데이션 같은 게 덜 나오고,
00:02:12Chart.js, Three.js, Tailwind 같은 일반적인 라이브러리와도 아주 잘 작동합니다. 다만 약간 느리다는
00:02:18단점이 있는데, 그건 나중에 다시 이야기하죠. 물론 Design Arena에서 모든 분야 1위는 아닙니다.
00:02:22게임 개발, 데이터 시각화, 3D에서는 2위, UI 컴포넌트에서는 4위이지만, 그래도
00:02:28여전히 대단합니다. 몇 가지 데모 앱으로 시도해 보았는데, 첫 번째는 Linear를 재현하는 것이었습니다.
00:02:32하지만 GLM 5.2의 짜증 나는 단점 중 하나는 텍스트 모달리티만 허용한다는 점입니다.
00:02:37그래서 스크린샷을 업로드해서 “이걸 재현해 줘”라고 할 수가 없었죠.
00:02:42그래서 저는 Claude에게 스크린샷을 보내고 “이걸 재현할 프롬프트를 줘”라고 했습니다.
00:02:46그 프롬프트를 GLM 5.2에 입력했고요. 결과물은 정말로 인상적이었습니다.
00:02:51왼쪽은 실제 Linear 웹 페이지이고 오른쪽은 GLM이
00:02:55재현한 것입니다. 전체적인 요소들을 잘 파악했고, 여기 스크린샷 부분은 그냥
00:02:59UI를 새로 만든 것 같네요. 아주 멋지다고 생각합니다. 아래로 스크롤 해보면,
00:03:04Linear 웹사이트의 전반적인 느낌을 잘 살렸고, 정말 괜찮아 보입니다. 그래서 확실히 강한 UI 디자인
00:03:09능력을 갖추고 있습니다. 물론 스크린샷을 직접 볼 수 없었기에 완벽하진 않아서,
00:03:14보여드린 텍스트 프롬프트를 재현한 셈이지만, 이 웹 페이지는 꽤 보기 좋습니다. 비교를 위해
00:03:19왼쪽은 동일한 프롬프트로 Claude Opus 4.8이 생성한 결과입니다. 그리고 이쪽은
00:03:23Kimmy K 2.7 Code가 만든 것입니다. 둘 다 프롬프트만으로 웹사이트를 꽤 잘 재현해 냈습니다.
00:03:29개인적으로는 Kimmy K 2.7의 결과물이 가장 마음에 드는데, 전반적으로
00:03:34가장 느낌이 좋고 완성도도 높아 보입니다. 다음으로는,
00:03:38모델들이 학습 데이터에 포함되지 않았을 법한 새로운 웹사이트를 만들어 보라고 했습니다. Linear는
00:03:42대부분 모델의 학습 데이터에 있을 테니까요. 그래서 “North Star라는 가상의 제품을 위한
00:03:46아름다운 단일 페이지 웹사이트를 디자인하고 구축하라”고 했습니다. AI 기반 개인 계획 앱이죠.
00:03:50히어로 섹션, 사회적 증거, 가격
00:03:56섹션 같은 일반적인 요소들을 포함하라는 디자인 방향을 아래에 제시했습니다. 깔끔하고 고급스러운 SaaS 미학,
00:04:00부드러운 그라데이션, 강렬한 타이포그래피, 둥근 카드 등을 요청했죠. 두 모델에서 받은 결과입니다.
00:04:06어떤 게 뭔지는 마지막에 말씀드릴게요. 아래로 스크롤 해보면 꽤 예쁘게
00:04:10나왔고, 나름 잘 만들었다고 생각합니다. 일반적인 스타트업 웹사이트죠. 평범한 가격 섹션도 있고,
00:04:15오른쪽도 마찬가지입니다. 개인적으로 이쪽 스타일이 조금 더 마음에 들긴 하네요.
00:04:20그런데 이쪽은 보라색 그라데이션이 들어간 전형적인 AI 스타일을 택했군요. 뭔가
00:04:25이 웹사이트가 좀 더 깔끔하고 완성도가 높게 느껴집니다. 하지만 이건 지극히 제 개인적인 의견입니다.
00:04:29가장 마음에 드는 것이 있다면 아래 댓글로 알려주시고 구독도 잊지 마세요.
00:04:33왼쪽이 GLM 5.2이고, 오른쪽은 Claude Opus 4.8입니다.
00:04:39참고로 Kimmy K 2.7 Code는 이런 결과를 보여주었습니다. 이것도 보라색 그라데이션이 있는,
00:04:43AI 스타일 느낌이 나네요. Claude 결과물과 비슷한데 애니메이션이 적고 세련미가 조금 떨어집니다.
00:04:48GLM 5.2에 아무런 디자인 방향을 주지 않았을 때는 어떻게 할지 궁금해서 테스트해 보았습니다.
00:04:53초기 프롬프트만 입력했는데요, 출력물이 나쁘지는 않지만
00:04:56Design Arena의 주장처럼 AI 느낌이 안 난다고 하기는 좀 어렵네요.
00:05:01보라색 그라데이션을 아주 최대한 활용했으니까요. 다음 테스트로,
00:05:05Three.js 애플리케이션을 단번에 만들어 보라고 했습니다. “실버스톤에서 F1 차량을 경주할 수 있는
00:05:10Three.js 게임을 만들어라”고 했죠. 이 모델은 작업을 시작했고 전체적으로
00:05:1510분 정도 걸렸으며 4만 토큰을 사용했고 32센트가 들었습니다.
00:05:20GLM 5.2가 준 결과물입니다. 실버스톤 F1이라고 적혀 있고 엔진을 시작하라고 하네요.
00:05:25참고로 루이스 해밀턴이 페라리로 방금 우승했습니다. 대단하네요. 페라리 빨간 차를 볼 수 있어 기쁩니다.
00:05:30물론 제가 기대했던 것보다는 속도가 좀 느리지만요.
00:05:35한 가지 눈에 띄는 건 A를 누르면 오른쪽으로, D를 누르면 왼쪽으로 이동한다는 겁니다.
00:05:40컨트롤이 반대로 되어 있네요. 방향키는 정상인 것 같습니다. 그리고 페라리를 타고
00:05:45실버스톤을 이 속도로 돌고 싶지는 않지만, 첫 시도로는 나쁘지 않습니다.
00:05:51후진할 때 더 빨리 가는 것 같네요. 그냥 후진으로 트랙을 도는 게 낫겠어요. Kimmy K 2.7 Code로도
00:05:55똑같이 시도했지만, 단 한 번의 프롬프트로 작동하는 예제를 받지는 못했습니다.
00:05:59콘솔 오류가 계속 반복되어서,
00:06:04오류가 있다고 말해줘야 했고, 두 번째 프롬프트에서 수정했습니다. 보시다시피
00:06:08이건 11만 토큰을 사용했고 81센트가 들었습니다. 결과물은
00:06:14조금 덜 플레이 가능해 보입니다. 속도는 조금 더 빠른 것 같은데 회전 반경이 끔찍합니다.
00:06:19저렇게 회전하는 F1 드라이버는 본 적이 없어요. 심지어 건물들을 그냥 뚫고 지나갈 수도 있습니다.
00:06:23실버스톤의 코너 이름을 구현한 건 멋지지만 트랙이 없네요. 그냥 볼라드만 있습니다.
00:06:27마지막은 Claude Opus 4.8입니다. 이게 좀 더 플레이할 만하네요.
00:06:33실버스톤 트랙 한가운데 나무가 있다는 사실만 빼면 말이죠. 마지막으로 확인했을 때 나무는 없었거든요.
00:06:37나름 괜찮은 게임입니다. 카메라 컨트롤도 있네요. F1 드라이버라면 내 휠이 좋아하지 않을,
00:06:42그런 조작감이지만 잘 작동합니다. 그런데 트랙 자체가 제가 본 것 중 가장
00:06:47혼란스러운 트랙입니다. 겹치는 부분이 너무 많아서 어느 방향으로 가야 할지
00:06:52전혀 모르겠습니다. 하지만 단일 프롬프트로 가장 플레이 가능한 데모를 만든 건 Opus 4.8입니다. 마지막 테스트는
00:06:57좀 더 복잡한 건데, 개인 자산 관리 대시보드의 프런트엔드와 백엔드를 처음부터
00:07:02구축하는 것입니다. 여기에 나열된 몇 가지 기능들을 구현하고,
00:07:07어떤 스택을 선택하는지, 프런트엔드와 백엔드를 에러 없이
00:07:11단일 프롬프트로 연결할 수 있는지 보기 위해서입니다. GLM 5.2의 시도입니다.
00:07:16꽤 기본적이고 깔끔한 대시보드네요. 화려한 건 없지만, 제가 준
00:07:22프롬프트로 할 수 있는 많은 화려한 기능들을 다 넣을 수는 없었겠죠. 모든 게 잘 작동합니다.
00:07:26데이터베이스에 항목을 추가하고, Fable 5 구독 결제를 했습니다.
00:07:32모든 페이지가 클릭 가능하고 페이지 간 이동도 잘 됩니다. 테스트를 해봤는데
00:07:37단일 프롬프트로 아주 잘 구현했습니다. 어떤 스택을 선택했는지 궁금했는데,
00:07:41Next.js 애플리케이션을 택했네요. 데이터베이스는 Prisma를 사용했고,
00:07:46개발용 데이터베이스도 있습니다. 저는 Drizzle과 TanStack을 선호했겠지만, 별다른 방향을
00:07:50주지 않았으니 불평할 순 없죠. 이것이 Kimmy K 2.7 Code가 준 결과물입니다.
00:07:55거의 똑같은 애플리케이션인데 조금 덜 화려해 보입니다. 아마 학습 데이터에 이것과 똑같이 생긴
00:07:59템플릿이 있는 모양입니다. 이것도 불평할 정도는 아니지만,
00:08:04계좌 추가 버튼 같은 extras가 빠져 있습니다. 기능들은 작동하지만,
00:08:09전반적인 UI와 사용자 경험은 조금 떨어집니다. 클릭 가능한
00:08:13정보들이 없으니까요. 계좌 추가와 거래 추가 기능은 되지만
00:08:18전반적으로 UI와 사용자 경험이 조금 더 떨어집니다.
00:08:23기본 스택도 조금 아쉽네요. Vite 설정의 React와 React Router를 사용했는데,
00:08:28그건 괜찮지만 백엔드로 Express를 택했습니다. 데이터베이스 파일을 보면,
00:08:33Node SQLite를 써서 기록하고, 텍스트 안에 스키마를 적어놓았는데,
00:08:39확장성 측면에서는 좀 떨어질 것 같습니다. 만약 제가 아무것도 모르는 상태에서
00:08:43그냥 대충 코딩한다면 GLM 5.2를 쓰겠지만, Kimmy K 2.7 Code를 썼다면
00:08:48Drizzle이나 Next.js 같은 걸 사용하라고 방향을 주었을 것입니다. 선호도에 따라 다르겠죠.
00:08:53주관적인 이야기가 나왔으니 말인데, 이건 Claude Opus 4.8의 결과물입니다.
00:08:58앞서 본 것들과는 완전히 다른 스타일입니다. 그런데 요즘
00:09:03Claude가 좋아하는 스타일이 확실히 있습니다. 학습 데이터에 그렇게
00:09:07넣었거나 그렇게 밀어붙이는 모양입니다. 이것도 정말 잘 작동하고
00:09:11결과물은 꽤 좋아 보입니다. 제가 프롬프트를 줬다면 폰트나 색상을 바꿨겠지만,
00:09:16기본 베이스는 매우 훌륭합니다. 페이지를 나누지 않고 섹션으로만 나누었는데,
00:09:20그건 좀 아쉬울 수도 있지만, 역시 프롬프트 탓이죠. 모든 기능은 잘 작동합니다.
00:09:25Opus가 작성한 코드를 보면 이번에는 GLM 5.2가 승리한 것 같습니다.
00:09:29Opus는 일반 React 애플리케이션을 사용했고,
00:09:34단일 페이지라서 React Router조차 쓰지 않았습니다.
00:09:38백엔드로 Express를 사용했지만 데이터베이스 연결은 전혀 하지 않았습니다.
00:09:43모두 인메모리 저장소입니다. 여기서 데이터를 시딩하고,
00:09:48JavaScript 객체로 모든 것을 실행하는데, 미래에 확장성을 고려한다면
00:09:53원하는 방식은 아닐 겁니다. 하지만 이것 역시 프롬프트에 달렸죠. 모델을 테스트하며 얻은 핵심 요약입니다.
00:09:58많은 작업에서 Sonnet이나 Opus 대신 GLM 5.2로 살짝 바꿔치기해도
00:10:02아마 눈치채지 못할 겁니다. 정말 뛰어난 모델이고, 적절하게 유도하면
00:10:07정말 좋은 결과를 얻을 수 있습니다. 제가 사용하면서 고군분투하지 않은,
00:10:12그리고 “Claude가 더 잘하거나 빠를 텐데”라는 느낌을
00:10:16받지 않은 최초의 오픈 모델 중 하나입니다. 마지막으로 토큰, 비용,
00:10:21속도를 언급하며 마무리하죠. GLM 5.2의 단점 중 하나는 다른 모델에 비해
00:10:25토큰을 좀 더 많이 사용한다는 것입니다. 작업당 평균 43,000 토큰을 사용했는데,
00:10:31Kimmy K 2.6, Minimax, DeepSeek보다 많습니다. 하지만 좋은 소식은,
00:10:37제공업체에 따라 비용이 그렇게 비싸지 않다는 점입니다. 입력 토큰 100만 개당 1.40달러,
00:10:41출력 토큰 100만 개당 4.40달러 수준입니다. Artificial Analysis 벤치마크에서는
00:10:47작업당 약 50센트가 들었습니다. 비용 대 성능 면에서 상당히 괜찮은 위치입니다.
00:10:52이 Gemini 라벨은 무시하세요. 파란색 점이 모델입니다. 혼잡한 차트지만,
00:10:57해당 지능 수준에서 GLM 5.2가 가장 저렴한 모델임을 알 수 있습니다.
00:11:02물론 지능 면에서 조금 타협할 수 있다면 Minimax와 DeepSeek V4도 가격 대비 매우 훌륭합니다.
00:11:07속도 면에서 GLM 5.2는 꽤 나쁘지 않습니다.
00:11:12비슷한 지능 수준의 오픈 모델들인 DeepSeek V4, Kimmy 2.7 Code, Minimax보다 우수한 성능을 보였고,
00:11:17Gemini 3.1 Pro 같은 프런트 티어 모델보다는 약간 뒤처지지만, 그건 프런트 티어 모델이니까요.
00:11:24Gemini 3.5 Pro가 이 리스트에 추가되는 걸 보고 싶네요. 구글, 출시해 주세요.
00:11:28디자인 속도 면에서도 Design Arena에서,
00:11:33GLM 5.2가 사용자 선호도에서 가장 높은 점수를 받았지만,
00:11:38상위 모델들 중에서는 가장 느렸습니다. 다만 최상위 모델들이 전부,
00:11:42오픈 모델이 아닌 프런트 티어 모델이라는 점은 감안해야 합니다. 전반적으로,
00:11:47현재 오픈 모델들이 4~6개월 정도 뒤처져 있다고 봅니다.
00:11:51낙관적으로 보면 내년에는 Fable 모델을 볼 수 있을지도 모르겠네요. 그들도 내년 1분기를 약속하고 있고,
00:11:56다음 사람과 어떤 것에 동의하고 싶지 않지만, 벤치마크상으로는
00:12:01Fable을 따라잡을 수 있을지 몰라도 실제 활용성은 다르다는 말은 일리가 있습니다.
00:12:06Anthropic이 아주 잘하는 분야죠. 그에게 칭찬을 듣는 건 정말 드문 일이지만,
00:12:10실제 모델을 사용했을 때의 느낌이 좀 다르다는 점에는 동의합니다.
00:12:14하지만 GLM 5.2는 그 고리를 끊어준 첫 모델 중 하나입니다.
00:12:19일 년 전에 오픈 모델들이 이렇게 좋을 거라 했다면,
00:12:23절대 믿지 않았을 겁니다. 저는 종말론자가 아니지만,
00:12:27최근 Fable 금지 조치를 보면서 GLM 5.2를 다운로드해 나중에 필요할지도 모르니 SSD에 저장해두고 싶네요.
00:12:31이 모델에 대해 어떻게 생각하시는지 아래 댓글로 알려주세요.
00:12:36가장 좋아하는 오픈 모델이 무엇인지도 알려주세요. 구독도 해주시고요.
00:12:40항상 그렇듯, 다음 영상에서 뵙겠습니다.