GLM 5.2, 저의 새로운 최애 모델이 되었습니다...

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00현재 세계 최고의 오픈 모델은 오픈AI라는 회사가 만든 것이 아닙니다.
00:00:04물론 중국 연구소에서 나온 것인데, 바로 Zai의 GLM 5.2입니다.
00:00:10이 모델은 특정 벤치마크에서 GPT 5.5와 대등한 성능을 보여주며,
00:00:15MIT 라이선스를 따르는 오픈 모델이면서도 Fable을 능가하는 분야까지 있습니다. 한번 살펴보죠. GLM 5.2는 총 파라미터 7,440억 개 규모의 모델로,
00:00:26활성 파라미터는 400억 개입니다. 사실 전작인 GLM 5.1과 크기가 동일한데요.
00:00:31그럼에도 지능 지수에서 엄청난 도약을 이뤄냈다는 점이 매우 인상적입니다.
00:00:35Artificial Analysis의 이 지수는 추론, 코딩, 과학 등 여러 벤치마크를,
00:00:40모두 종합한 점수입니다. GLM 5.2는 여기서 51점을 기록해,
00:00:45이전 버전보다 11점이나 앞섰으며, 상당한 격차로 최고의 오픈 모델이 되었습니다. 그다음은 Qwen 3.7, Minimax M3,
00:00:51그 뒤를 이어 Kimmy K 2.6이 있습니다. 이는 사실 Gemini 3.5 Flash나 GPT 5.4와,
00:00:57비슷한 수준이라는 뜻이니 꽤나 놀라운 일이죠. 이 지수에 포함된 GPT Val 같은 몇몇 벤치마크에서는,
00:01:03오히려 GPT 5.5를 앞서기도 합니다. 코딩 분야에 집중해서 보면, 코딩 지수에서도 여전히 훌륭하며
00:01:09Gemini 3.1 Pro와 같은 점수를 기록했고, 실제로 Sonic 4.6을 이겼습니다. 최상위권 모델들과도
00:01:14그리 큰 차이가 나지 않죠. 또한 저희의 최신 모델인 Kimmy K 2.7 Code보다도 앞서 있는데,
00:01:19저를 포함해 많은 분들이 이 모델의 팬이죠. 저는 항상 Kimmy 모델들이 가진,
00:01:23정말 좋은 느낌을 좋아했습니다. 코딩 지수 외에 요즘 사람들이 많이 좋아하는 벤치마크는
00:01:27Deep SWE입니다. 여기를 살펴보면 Medium 수준에서 Opus 4.7보다 높은 점수를 기록했는데,
00:01:33이건 정말 인상적입니다. 다만 모든 모델이 여기에서 테스트된 것은 아니라는 점과,
00:01:38사용된 하네스가 사실 Claude Code였다는 점은 유의해야 합니다. API 트릭을 조금 써서,
00:01:42Anthropic 대신 Zai를 가리키게 한 것이죠. 제가 좋아하는 마지막 벤치마크 세트는 Design Arena입니다.
00:01:47여기서 흥미로운 결과가 나옵니다. GLM 5.2가 Design Arena의
00:01:53싱글 턴 HTML 웹 디자인 리더보드에서 전체 1위를 차지하며,
00:01:58Fable 5를 포함해 Claude 라인을 꺾은 최초의 모델이 되었습니다. 이 모델의 집중 영역이었던 것 같은데,
00:02:02Design Arena의 추가 조사에 따르면 GLM 5.2는 일반적인 AI의 나쁜 패턴을 피하는,
00:02:08강력한 전문가 템플릿 세트를 갖추고 있습니다. 그래서 보라색 그라데이션 같은 게 덜 나오고,
00:02:12Chart.js, Three.js, Tailwind 같은 일반적인 라이브러리와도 아주 잘 작동합니다. 다만 약간 느리다는
00:02:18단점이 있는데, 그건 나중에 다시 이야기하죠. 물론 Design Arena에서 모든 분야 1위는 아닙니다.
00:02:22게임 개발, 데이터 시각화, 3D에서는 2위, UI 컴포넌트에서는 4위이지만, 그래도
00:02:28여전히 대단합니다. 몇 가지 데모 앱으로 시도해 보았는데, 첫 번째는 Linear를 재현하는 것이었습니다.
00:02:32하지만 GLM 5.2의 짜증 나는 단점 중 하나는 텍스트 모달리티만 허용한다는 점입니다.
00:02:37그래서 스크린샷을 업로드해서 “이걸 재현해 줘”라고 할 수가 없었죠.
00:02:42그래서 저는 Claude에게 스크린샷을 보내고 “이걸 재현할 프롬프트를 줘”라고 했습니다.
00:02:46그 프롬프트를 GLM 5.2에 입력했고요. 결과물은 정말로 인상적이었습니다.
00:02:51왼쪽은 실제 Linear 웹 페이지이고 오른쪽은 GLM이
00:02:55재현한 것입니다. 전체적인 요소들을 잘 파악했고, 여기 스크린샷 부분은 그냥
00:02:59UI를 새로 만든 것 같네요. 아주 멋지다고 생각합니다. 아래로 스크롤 해보면,
00:03:04Linear 웹사이트의 전반적인 느낌을 잘 살렸고, 정말 괜찮아 보입니다. 그래서 확실히 강한 UI 디자인
00:03:09능력을 갖추고 있습니다. 물론 스크린샷을 직접 볼 수 없었기에 완벽하진 않아서,
00:03:14보여드린 텍스트 프롬프트를 재현한 셈이지만, 이 웹 페이지는 꽤 보기 좋습니다. 비교를 위해
00:03:19왼쪽은 동일한 프롬프트로 Claude Opus 4.8이 생성한 결과입니다. 그리고 이쪽은
00:03:23Kimmy K 2.7 Code가 만든 것입니다. 둘 다 프롬프트만으로 웹사이트를 꽤 잘 재현해 냈습니다.
00:03:29개인적으로는 Kimmy K 2.7의 결과물이 가장 마음에 드는데, 전반적으로
00:03:34가장 느낌이 좋고 완성도도 높아 보입니다. 다음으로는,
00:03:38모델들이 학습 데이터에 포함되지 않았을 법한 새로운 웹사이트를 만들어 보라고 했습니다. Linear는
00:03:42대부분 모델의 학습 데이터에 있을 테니까요. 그래서 “North Star라는 가상의 제품을 위한
00:03:46아름다운 단일 페이지 웹사이트를 디자인하고 구축하라”고 했습니다. AI 기반 개인 계획 앱이죠.
00:03:50히어로 섹션, 사회적 증거, 가격
00:03:56섹션 같은 일반적인 요소들을 포함하라는 디자인 방향을 아래에 제시했습니다. 깔끔하고 고급스러운 SaaS 미학,
00:04:00부드러운 그라데이션, 강렬한 타이포그래피, 둥근 카드 등을 요청했죠. 두 모델에서 받은 결과입니다.
00:04:06어떤 게 뭔지는 마지막에 말씀드릴게요. 아래로 스크롤 해보면 꽤 예쁘게
00:04:10나왔고, 나름 잘 만들었다고 생각합니다. 일반적인 스타트업 웹사이트죠. 평범한 가격 섹션도 있고,
00:04:15오른쪽도 마찬가지입니다. 개인적으로 이쪽 스타일이 조금 더 마음에 들긴 하네요.
00:04:20그런데 이쪽은 보라색 그라데이션이 들어간 전형적인 AI 스타일을 택했군요. 뭔가
00:04:25이 웹사이트가 좀 더 깔끔하고 완성도가 높게 느껴집니다. 하지만 이건 지극히 제 개인적인 의견입니다.
00:04:29가장 마음에 드는 것이 있다면 아래 댓글로 알려주시고 구독도 잊지 마세요.
00:04:33왼쪽이 GLM 5.2이고, 오른쪽은 Claude Opus 4.8입니다.
00:04:39참고로 Kimmy K 2.7 Code는 이런 결과를 보여주었습니다. 이것도 보라색 그라데이션이 있는,
00:04:43AI 스타일 느낌이 나네요. Claude 결과물과 비슷한데 애니메이션이 적고 세련미가 조금 떨어집니다.
00:04:48GLM 5.2에 아무런 디자인 방향을 주지 않았을 때는 어떻게 할지 궁금해서 테스트해 보았습니다.
00:04:53초기 프롬프트만 입력했는데요, 출력물이 나쁘지는 않지만
00:04:56Design Arena의 주장처럼 AI 느낌이 안 난다고 하기는 좀 어렵네요.
00:05:01보라색 그라데이션을 아주 최대한 활용했으니까요. 다음 테스트로,
00:05:05Three.js 애플리케이션을 단번에 만들어 보라고 했습니다. “실버스톤에서 F1 차량을 경주할 수 있는
00:05:10Three.js 게임을 만들어라”고 했죠. 이 모델은 작업을 시작했고 전체적으로
00:05:1510분 정도 걸렸으며 4만 토큰을 사용했고 32센트가 들었습니다.
00:05:20GLM 5.2가 준 결과물입니다. 실버스톤 F1이라고 적혀 있고 엔진을 시작하라고 하네요.
00:05:25참고로 루이스 해밀턴이 페라리로 방금 우승했습니다. 대단하네요. 페라리 빨간 차를 볼 수 있어 기쁩니다.
00:05:30물론 제가 기대했던 것보다는 속도가 좀 느리지만요.
00:05:35한 가지 눈에 띄는 건 A를 누르면 오른쪽으로, D를 누르면 왼쪽으로 이동한다는 겁니다.
00:05:40컨트롤이 반대로 되어 있네요. 방향키는 정상인 것 같습니다. 그리고 페라리를 타고
00:05:45실버스톤을 이 속도로 돌고 싶지는 않지만, 첫 시도로는 나쁘지 않습니다.
00:05:51후진할 때 더 빨리 가는 것 같네요. 그냥 후진으로 트랙을 도는 게 낫겠어요. Kimmy K 2.7 Code로도
00:05:55똑같이 시도했지만, 단 한 번의 프롬프트로 작동하는 예제를 받지는 못했습니다.
00:05:59콘솔 오류가 계속 반복되어서,
00:06:04오류가 있다고 말해줘야 했고, 두 번째 프롬프트에서 수정했습니다. 보시다시피
00:06:08이건 11만 토큰을 사용했고 81센트가 들었습니다. 결과물은
00:06:14조금 덜 플레이 가능해 보입니다. 속도는 조금 더 빠른 것 같은데 회전 반경이 끔찍합니다.
00:06:19저렇게 회전하는 F1 드라이버는 본 적이 없어요. 심지어 건물들을 그냥 뚫고 지나갈 수도 있습니다.
00:06:23실버스톤의 코너 이름을 구현한 건 멋지지만 트랙이 없네요. 그냥 볼라드만 있습니다.
00:06:27마지막은 Claude Opus 4.8입니다. 이게 좀 더 플레이할 만하네요.
00:06:33실버스톤 트랙 한가운데 나무가 있다는 사실만 빼면 말이죠. 마지막으로 확인했을 때 나무는 없었거든요.
00:06:37나름 괜찮은 게임입니다. 카메라 컨트롤도 있네요. F1 드라이버라면 내 휠이 좋아하지 않을,
00:06:42그런 조작감이지만 잘 작동합니다. 그런데 트랙 자체가 제가 본 것 중 가장
00:06:47혼란스러운 트랙입니다. 겹치는 부분이 너무 많아서 어느 방향으로 가야 할지
00:06:52전혀 모르겠습니다. 하지만 단일 프롬프트로 가장 플레이 가능한 데모를 만든 건 Opus 4.8입니다. 마지막 테스트는
00:06:57좀 더 복잡한 건데, 개인 자산 관리 대시보드의 프런트엔드와 백엔드를 처음부터
00:07:02구축하는 것입니다. 여기에 나열된 몇 가지 기능들을 구현하고,
00:07:07어떤 스택을 선택하는지, 프런트엔드와 백엔드를 에러 없이
00:07:11단일 프롬프트로 연결할 수 있는지 보기 위해서입니다. GLM 5.2의 시도입니다.
00:07:16꽤 기본적이고 깔끔한 대시보드네요. 화려한 건 없지만, 제가 준
00:07:22프롬프트로 할 수 있는 많은 화려한 기능들을 다 넣을 수는 없었겠죠. 모든 게 잘 작동합니다.
00:07:26데이터베이스에 항목을 추가하고, Fable 5 구독 결제를 했습니다.
00:07:32모든 페이지가 클릭 가능하고 페이지 간 이동도 잘 됩니다. 테스트를 해봤는데
00:07:37단일 프롬프트로 아주 잘 구현했습니다. 어떤 스택을 선택했는지 궁금했는데,
00:07:41Next.js 애플리케이션을 택했네요. 데이터베이스는 Prisma를 사용했고,
00:07:46개발용 데이터베이스도 있습니다. 저는 Drizzle과 TanStack을 선호했겠지만, 별다른 방향을
00:07:50주지 않았으니 불평할 순 없죠. 이것이 Kimmy K 2.7 Code가 준 결과물입니다.
00:07:55거의 똑같은 애플리케이션인데 조금 덜 화려해 보입니다. 아마 학습 데이터에 이것과 똑같이 생긴
00:07:59템플릿이 있는 모양입니다. 이것도 불평할 정도는 아니지만,
00:08:04계좌 추가 버튼 같은 extras가 빠져 있습니다. 기능들은 작동하지만,
00:08:09전반적인 UI와 사용자 경험은 조금 떨어집니다. 클릭 가능한
00:08:13정보들이 없으니까요. 계좌 추가와 거래 추가 기능은 되지만
00:08:18전반적으로 UI와 사용자 경험이 조금 더 떨어집니다.
00:08:23기본 스택도 조금 아쉽네요. Vite 설정의 React와 React Router를 사용했는데,
00:08:28그건 괜찮지만 백엔드로 Express를 택했습니다. 데이터베이스 파일을 보면,
00:08:33Node SQLite를 써서 기록하고, 텍스트 안에 스키마를 적어놓았는데,
00:08:39확장성 측면에서는 좀 떨어질 것 같습니다. 만약 제가 아무것도 모르는 상태에서
00:08:43그냥 대충 코딩한다면 GLM 5.2를 쓰겠지만, Kimmy K 2.7 Code를 썼다면
00:08:48Drizzle이나 Next.js 같은 걸 사용하라고 방향을 주었을 것입니다. 선호도에 따라 다르겠죠.
00:08:53주관적인 이야기가 나왔으니 말인데, 이건 Claude Opus 4.8의 결과물입니다.
00:08:58앞서 본 것들과는 완전히 다른 스타일입니다. 그런데 요즘
00:09:03Claude가 좋아하는 스타일이 확실히 있습니다. 학습 데이터에 그렇게
00:09:07넣었거나 그렇게 밀어붙이는 모양입니다. 이것도 정말 잘 작동하고
00:09:11결과물은 꽤 좋아 보입니다. 제가 프롬프트를 줬다면 폰트나 색상을 바꿨겠지만,
00:09:16기본 베이스는 매우 훌륭합니다. 페이지를 나누지 않고 섹션으로만 나누었는데,
00:09:20그건 좀 아쉬울 수도 있지만, 역시 프롬프트 탓이죠. 모든 기능은 잘 작동합니다.
00:09:25Opus가 작성한 코드를 보면 이번에는 GLM 5.2가 승리한 것 같습니다.
00:09:29Opus는 일반 React 애플리케이션을 사용했고,
00:09:34단일 페이지라서 React Router조차 쓰지 않았습니다.
00:09:38백엔드로 Express를 사용했지만 데이터베이스 연결은 전혀 하지 않았습니다.
00:09:43모두 인메모리 저장소입니다. 여기서 데이터를 시딩하고,
00:09:48JavaScript 객체로 모든 것을 실행하는데, 미래에 확장성을 고려한다면
00:09:53원하는 방식은 아닐 겁니다. 하지만 이것 역시 프롬프트에 달렸죠. 모델을 테스트하며 얻은 핵심 요약입니다.
00:09:58많은 작업에서 Sonnet이나 Opus 대신 GLM 5.2로 살짝 바꿔치기해도
00:10:02아마 눈치채지 못할 겁니다. 정말 뛰어난 모델이고, 적절하게 유도하면
00:10:07정말 좋은 결과를 얻을 수 있습니다. 제가 사용하면서 고군분투하지 않은,
00:10:12그리고 “Claude가 더 잘하거나 빠를 텐데”라는 느낌을
00:10:16받지 않은 최초의 오픈 모델 중 하나입니다. 마지막으로 토큰, 비용,
00:10:21속도를 언급하며 마무리하죠. GLM 5.2의 단점 중 하나는 다른 모델에 비해
00:10:25토큰을 좀 더 많이 사용한다는 것입니다. 작업당 평균 43,000 토큰을 사용했는데,
00:10:31Kimmy K 2.6, Minimax, DeepSeek보다 많습니다. 하지만 좋은 소식은,
00:10:37제공업체에 따라 비용이 그렇게 비싸지 않다는 점입니다. 입력 토큰 100만 개당 1.40달러,
00:10:41출력 토큰 100만 개당 4.40달러 수준입니다. Artificial Analysis 벤치마크에서는
00:10:47작업당 약 50센트가 들었습니다. 비용 대 성능 면에서 상당히 괜찮은 위치입니다.
00:10:52이 Gemini 라벨은 무시하세요. 파란색 점이 모델입니다. 혼잡한 차트지만,
00:10:57해당 지능 수준에서 GLM 5.2가 가장 저렴한 모델임을 알 수 있습니다.
00:11:02물론 지능 면에서 조금 타협할 수 있다면 Minimax와 DeepSeek V4도 가격 대비 매우 훌륭합니다.
00:11:07속도 면에서 GLM 5.2는 꽤 나쁘지 않습니다.
00:11:12비슷한 지능 수준의 오픈 모델들인 DeepSeek V4, Kimmy 2.7 Code, Minimax보다 우수한 성능을 보였고,
00:11:17Gemini 3.1 Pro 같은 프런트 티어 모델보다는 약간 뒤처지지만, 그건 프런트 티어 모델이니까요.
00:11:24Gemini 3.5 Pro가 이 리스트에 추가되는 걸 보고 싶네요. 구글, 출시해 주세요.
00:11:28디자인 속도 면에서도 Design Arena에서,
00:11:33GLM 5.2가 사용자 선호도에서 가장 높은 점수를 받았지만,
00:11:38상위 모델들 중에서는 가장 느렸습니다. 다만 최상위 모델들이 전부,
00:11:42오픈 모델이 아닌 프런트 티어 모델이라는 점은 감안해야 합니다. 전반적으로,
00:11:47현재 오픈 모델들이 4~6개월 정도 뒤처져 있다고 봅니다.
00:11:51낙관적으로 보면 내년에는 Fable 모델을 볼 수 있을지도 모르겠네요. 그들도 내년 1분기를 약속하고 있고,
00:11:56다음 사람과 어떤 것에 동의하고 싶지 않지만, 벤치마크상으로는
00:12:01Fable을 따라잡을 수 있을지 몰라도 실제 활용성은 다르다는 말은 일리가 있습니다.
00:12:06Anthropic이 아주 잘하는 분야죠. 그에게 칭찬을 듣는 건 정말 드문 일이지만,
00:12:10실제 모델을 사용했을 때의 느낌이 좀 다르다는 점에는 동의합니다.
00:12:14하지만 GLM 5.2는 그 고리를 끊어준 첫 모델 중 하나입니다.
00:12:19일 년 전에 오픈 모델들이 이렇게 좋을 거라 했다면,
00:12:23절대 믿지 않았을 겁니다. 저는 종말론자가 아니지만,
00:12:27최근 Fable 금지 조치를 보면서 GLM 5.2를 다운로드해 나중에 필요할지도 모르니 SSD에 저장해두고 싶네요.
00:12:31이 모델에 대해 어떻게 생각하시는지 아래 댓글로 알려주세요.
00:12:36가장 좋아하는 오픈 모델이 무엇인지도 알려주세요. 구독도 해주시고요.
00:12:40항상 그렇듯, 다음 영상에서 뵙겠습니다.

Key Takeaway

GLM 5.2는 GPT-5.5 수준의 추론 및 코딩 지능을 갖춘 오픈 모델로, 특히 UI 디자인과 웹 개발 작업에서 업계 최고 수준의 성능을 보여준다.

Highlights

  • GLM 5.2는 총 파라미터 7,440억 개, 활성 파라미터 400억 개 규모의 오픈 모델이다.

  • Artificial Analysis 지수에서 GLM 5.2는 51점을 기록하며 이전 버전보다 11점 상승해 오픈 모델 중 최고 성능을 기록했다.

  • Design Arena 싱글 턴 HTML 웹 디자인 리더보드에서 GLM 5.2는 1위를 차지하며 Fable 5와 Claude 라인을 능가했다.

  • GLM 5.2의 API 비용은 입력 토큰 100만 개당 1.40달러, 출력 토큰 100만 개당 4.40달러 수준이다.

  • 실제 테스트 결과 GLM 5.2는 텍스트 모달리티만 지원하며, 스크린샷 직접 분석은 불가능하다.

  • 개인 자산 관리 대시보드 구축 테스트에서 GLM 5.2는 단일 프롬프트로 에러 없이 Next.js 기반의 동작 가능한 결과물을 생성했다.

Timeline

GLM 5.2 모델 개요 및 벤치마크 성능

  • GLM 5.2는 7,440억 개의 파라미터를 가진 오픈 모델이다.
  • Artificial Analysis 지수 종합 점수 51점으로 오픈 모델 중 1위를 기록했다.
  • Design Arena의 HTML 리더보드에서 최초로 Fable 5와 Claude 모델을 꺾었다.

GLM 5.2는 전작과 크기는 같지만 추론 및 코딩 능력에서 큰 도약을 이뤘다. 특히 Gemini 3.5 Flash나 GPT 5.4와 대등한 지능 수준을 보인다. 코딩 벤치마크에서도 Gemini 3.1 Pro와 같은 점수를 기록하며 최상위 모델들과의 격차를 좁혔다. 디자인 분야에서는 AI 특유의 나쁜 패턴을 피하는 전문가 템플릿을 갖춰 일반적인 웹 라이브러리와 높은 호환성을 나타낸다.

웹 UI 디자인 및 코드 생성 능력 테스트

  • 텍스트 모달리티만 지원하여 이미지 직접 입력이 불가능하다.
  • 프롬프트 기반으로 Linear 웹사이트와 유사한 UI 디자인을 재현했다.
  • Three.js 기반의 게임 구현에서 한 번의 프롬프트로 실행 가능한 결과물을 도출했다.

이미지 업로드가 불가능한 제약 때문에 프롬프트를 통해 UI를 생성해야 하지만, 실제 구현 능력은 매우 우수하다. Linear 웹사이트 재현 테스트에서 Claude Opus 4.8이나 Kimmy K 2.7 Code와 비교해도 손색없는 결과물을 보여주었다. 게임 구현 테스트에서는 실버스톤 트랙을 구현했으나 제어 방향이 반대로 설정되는 등 세부적인 디테일에서 보완이 필요했다.

대시보드 구축 및 비용 효율성 평가

  • 단일 프롬프트로 Next.js와 Prisma를 사용하여 자산 관리 대시보드를 구축했다.
  • 작업당 약 50센트의 비용이 발생하며 동급 성능 모델 중 가장 저렴하다.
  • 유사한 지능 수준의 오픈 모델들보다 우수한 속도를 보여준다.

프런트엔드와 백엔드를 에러 없이 연결하는 복잡한 과제에서도 즉시 실행 가능한 코드를 제공했다. 토큰 사용량이 타 모델 대비 많지만, 경쟁력 있는 API 가격 덕분에 비용 효율적이다. 지능과 속도, 가격 측면에서 현재 사용 가능한 오픈 모델 중 가장 강력한 대안으로 평가받는다.

Community Posts

View all posts