GLM 5.2 vs Opus 4.8 vs GPT 5.5 직접 테스트해 봤습니다

CChase AI
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2가 이번 주에 출시되었는데, 지금까지 본 것 중 가장 강력한 오픈 소스 모델입니다.
00:00:04보시는 바와 같이 일부 벤치마크에서는 이 모델이 거대 기업의 모델들을 능가하는 성능을 보여주기도 합니다.
00:00:10앤스로픽의 Opus 4.8이나 오픈AI의 5.5 같은 모델들이죠. 하지만 이 벤치마크 결과가 정말 믿을 만한 걸까요? 이 모델은
00:00:18Opus 4.8이나 GPT 5.5와 비교했을 때 어떨까요? 바로 오늘 영상에서 그 답을 찾아보려고 합니다.
00:00:25이 세 가지 거대 모델을 가지고 여러 테스트를 진행하면서 실제 환경에서의 성능을
00:00:31확인해 보겠습니다. 게다가 매우 중요하다고 생각되는 한 가지 벤치마크에 대해서도
00:00:35심층 분석을 진행하고, GLM 5.2가 어떤 경우에 Opus나 GPT 5.5보다 더 뛰어나다고
00:00:40말하는 것인지 구체적으로 파헤쳐 보겠습니다. 효율성이 더 좋다는 뜻인가요, 비용이 저렴하다는 뜻인가요, 아니면
00:00:47이 모든 것을 동시에 더 잘 해낸다는 뜻인가요?
00:00:51더 이상 지체하지 말고 바로 시작해 보죠. 정면 승부 테스트에 앞서,
00:00:56먼저 이 세 모델을 비교한 기존 벤치마크들을 살펴보겠습니다.
00:00:59정말 주목하고 싶은 것은 DeepSuite입니다. DeepSuite는 비교적 새로운 벤치마크로,
00:01:04Terminal Bench나 Terminal Bench Pro 같은 기존 벤치마크를 개선하려는 목적으로 만들어졌습니다.
00:01:08이 벤치마크에 대해 아주 깊이 들어가지는 않겠습니다. 자세한 내용은 해당 웹사이트나 깃허브 저장소를
00:01:12참고하시면 됩니다. 하지만 이 벤치마크는 장기 에이전트 작업에 초점을 맞추고 있습니다.
00:01:17구체적으로 TypeScript, Go, Python, JavaScript, Rust 등 5개 언어에 걸쳐 113개의 작업을,
00:01:23격리된 환경과 프로그램 기반 검증기를 사용하여 평가합니다. 여기 그래프를 보시면,
00:01:29왼쪽에는 정답률(%)이, 그리고 작업당 평균 비용이 나와 있습니다.
00:01:34우리는 그래프의 오른쪽 위를 지향합니다. 가장 효율적인 영역이 바로 오른쪽 상단입니다.
00:01:39가장 낮은 비용으로 최고 점수를 얻는 곳이죠. 여기 보면 GLM 5.2
00:01:44Max는 작업당 3.92달러에 44%의 점수를 냅니다. Opus 4.8과 GPT 5.5를 비교해 보면,
00:01:55그들이 훨씬 더 잘하는 것을 볼 수 있습니다. Opus 4.8 Max는 59%, 5.5 Extra High는 67%입니다. 당연히,
00:02:04Extra High와 Max에서는 비용이 상당히 많이 듭니다. GPT 5.5는 7.23달러, Opus는 13달러,
00:02:12GLM은 3.92달러입니다. 훨씬 저렴하죠. 하지만 5.5와 Opus의 다른 노력 수준(effort levels)을 보면,
00:02:19예를 들어 Opus 4.8의 Medium 수준에서는, GLM 5.2보다
00:02:25더 높은 점수를 내면서도 비용은 더 적게 듭니다. 3.44달러에 49% 대 3.92달러에 44%죠.
00:02:365.5에서는 2.75달러에 54% 대 3.92달러에 44%로 상당히 차이가 납니다. 그래서 이 벤치마크만
00:02:47액면 그대로 받아들이자면, 4.8과 5.5가 GLM 5.2보다 한 수 위입니다. 놀라운 일은 아닙니다.
00:02:55이들은 최고의 프론티어 모델들입니다. 오픈 소스가 아니죠. 만약 우리가
00:03:01성능을 극한으로 밀어붙이면, 이런 장기적인 작업에서 GLM 5.2를 완전히 압도할 겁니다.
00:03:07예상치 못했을 수도 있는 부분은 더 저렴한 비용으로 더 잘할 수 있다는 점인데, 이건 좀 문제네요.
00:03:11그냥 확실히 짚고 넘어가고 싶습니다. 왜냐하면 GLM 5.2가 오픈 소스라는 점 때문에
00:03:16지금 많은 이야기가 나오고 엄청난 과대광고가 있다는 것을 알기 때문입니다.
00:03:21그건 즉시 '오, 엄청 저렴하네, 대단한 일을 할 수 있겠어'라는 암시를 주죠.
00:03:25글쎄요, 수치상으로는 좋지만, 이 벤치마크 기준으로는 4.8이나 5.5 수준은 아닙니다.
00:03:33이 4.8과 5.5 수치는 API 비용을 기준으로 한 겁니다. Max 플랜을 쓰면 이것보다 10배는 저렴합니다.
00:03:40오픈AI의 100달러나 200달러 월간 플랜을 써도 마찬가지고요. 그러니 고려해야 할 또 다른 사항입니다.
00:03:46GLM이 훨씬 저렴하다고 하는 모든 주장에 대해서는 브레이크를 좀 걸고 싶네요.
00:03:50오픈 소스 모델이긴 하지만요. GLM 5.2는 오픈 소스 모델이지만, 흔히 생각하는 그런 건 아닙니다.
00:03:56그냥 컴퓨터에 다운로드할 수 있는 그런 모델이 아니에요.
00:04:01오픈 소스이긴 해서 코드를 볼 수 있고,
00:04:05가중치를 볼 수 있기는 하지만, '그냥 올라마(Ollama)에서 가져와서'
00:04:09'내 개인 PC에서 돌려야지' 할 수 있는 게 아닙니다. 절대 안 됩니다.
00:04:14이건 거의 1조 개의 파라미터가 됩니다. 이걸 실행하려면 엄청난 하드웨어가 필요합니다.
00:04:20혼란스러워하지 마세요. 이걸 실행할 수 있다고 착각하는 분들이 계신 것 같아서,
00:04:24상황을 먼저 정리하는 겁니다. 다시 말하지만, 이건 DeepSuite의 아주 강도 높은
00:04:30작업들에 대한 벤치마크 결과입니다. 오늘은 조금 더 가벼운,
00:04:35아마도 평균적인 여러분이 실행할 법한 작업들을 진행할 겁니다.
00:04:39모두가 같은 선상에 있도록 토큰당 비용 측면에서 우리가 보고 있는 걸 정리하겠습니다.
00:04:44Opus 4.8과 5.5가 더 저렴했던 이유는 필요한 작업을 수행하는 데 훨씬 적은 토큰을 사용했기 때문입니다.
00:04:50결국 더 효율적이었던 거죠. 토큰당 기준으로 볼 때 말입니다.
00:04:55입출력 비용은 백만 토큰당 GLM 5.2는 입력 1.40달러,
00:05:01출력 비용은 4.40달러입니다. Opus 4.8은 5.7배 더 비싸고, GPT의 5.5 모델은 6.8배 더
00:05:10비쌉니다. 그래서 토큰당 비용은 훨씬 저렴하죠. 하지만 우리가 중요한 건 1대1 토큰 비교가 아니라,
00:05:16작업의 결과물입니다. 실제 테스트에 들어가기 전에,
00:05:21오늘의 후원자이자 저에 대한 짧은 소개가 있겠습니다. 제 'Cloud Code Masterclass'를
00:05:26Chase AI Plus 내에 출시했습니다. 특히 기술적인 배경이 없는 분들이
00:05:30AI 개발자로 거듭날 수 있는 최고의 방법입니다. 매주 업데이트하고 있으며 코덱(codecs)과
00:05:35나만의 에이전트 OS를 만드는 마스터클래스도 포함되어 있습니다. 더 자세히 배우고 싶고,
00:05:40어디서부터 시작해야 할지 모르겠다면 Chase AI Plus가 정답입니다. 고정 댓글에 링크가 있습니다.
00:05:46테스트 진행 방식입니다. 모든 모델에 동일한
00:05:49프롬프트를 줄 겁니다. 플랜 모드에서 계획을 내놓을 텐데,
00:05:53계획이 어떤지에 따라 약간의 피드백을 주고받을 수도 있습니다. 그 후에 실행하게 할 겁니다.
00:05:58실행이 끝나면 제 극도로 주관적인 채점 기준을 적용해서 결과물을 평가하고,
00:06:03어떤 게 가장 좋은지 알려드리겠습니다. 만약 제 채점 기준이나 결정이 마음에 안 드신다면,
00:06:08댓글을 남겨주세요. 그 댓글은 삭제하도록 하겠습니다. 이제 왼쪽에,
00:06:14Extra High 설정의 Codex에서 GPT 5.5를 실행하고, 중앙에는 OpenRouter를 통해
00:06:21Extra High로 GLM 5.2를 실행하는 OpenCode가 있습니다. 그리고 오른쪽에는 고성능(High)으로
00:06:26Opus 4.8을 실행하는 Cloud Code가 있습니다. 왜 이 설정들을 선택했냐면,
00:06:32대부분의 사람들이 실생활에서 이렇게 사용하기 때문입니다. Max 플랜을 쓰거나
00:06:37오픈AI 플랜 중 하나를 사용하고 있을 텐데, 솔직히 Medium 설정을 쓰진 않을 테니까요.
00:06:42이게 평균적인 사용자가 일상적으로 모델을 사용하는 방식을 더 잘 반영한다고 생각합니다.
00:06:47첫 번째 프롬프트로, 브라우저에서 실행되는 플레이 가능한 3D 레이싱 게임을
00:06:51만들어 보겠습니다. 중요한 건 프롬프트를 약간 모호하게 유지할 겁니다. 스택과 라이브러리는
00:06:56웹을 탐색해서 가장 좋은 것을 선택할 완전한 자유를 줍니다. 자,
00:07:02실행하고 무슨 일이 일어나는지 보죠. 세 모델 모두 플랜 모드에서 실행 중입니다.
00:07:08다시 말하지만, 프롬프트를 모호하게 한 이유는 모델들의 차이점을 최대한 많이 보기 위함입니다.
00:07:12무엇을 어떻게 해야 할지 로드맵을 정확히 다 주면, 이 모델들이 어떻게 사고하고
00:07:18복잡하고 지저분한 문제를 해결하는지 확인할 수 없으니까요.
00:07:2313분 후, Opus 4.8이 가장 먼저 레이싱 게임을 완성했습니다.
00:07:29무엇을 만들었는지 보죠. 로우 폴리곤 형태네요. 소리도 좀 나고,
00:07:37움직임은 꽤 매끄럽습니다. 드리프트도 가능한 것 같네요.
00:07:44오, 잔디가 실제로 물리 효과를 좀 방해하네요. 전반적으로 매끄럽긴 한데,
00:07:54좀 지루하죠? 꽤 기본적인 레이싱 트랙입니다. AI 같은 건 하나도 추가 안 했네요.
00:07:59다른 모델들이 복잡성 측면에서 어떻게 하는지 궁금합니다. 아마 이 첫 번째 테스트의 결과물들이 다
00:08:04비슷하게 밋밋하다면, 다음 프롬프트에서는 난이도를 좀 높여야겠네요. 다음은
00:08:09GLM 5.2입니다. Cloud Code보다 5분 더 걸렸네요. 참고로 GPT 5.5는 여전히
00:08:13작업 중인데, 그리 놀랍지는 않습니다. 보통 조금 더 느리거든요.
00:08:20토큰 비교 측면에서 보면,
00:08:26Claude Code는 게임을 만드는 데 약 10만 토큰을 사용했고, GLM 5.2는 100만 토큰이 넘게 들었습니다. 그리고
00:08:33OpenRouter 내부에서 확인해 보면 총 비용은 1.21달러였고,
00:08:41게임 생성에 총 135만 토큰이 사용되었습니다. 자, 트랙이 꽤 흥미롭네요.
00:08:48컨트롤이 Claude Code보다 훨씬 불안정합니다. 트랙에 비해
00:08:53너무 빠르게 움직입니다. 너무 빠르죠. 트랙과 실제 필드 사이에
00:09:00별다른 구분이 없네요. 특정 상황에서는 보시다시피 트랙을 그냥 뚫고 지나갈 수
00:09:09있는 것처럼 보입니다. 완전히는 아니지만요.
00:09:15차량 자체도 Claude Code에서 본 것보다 디테일이 떨어집니다. 트랙도 있고,
00:09:23타이머도 있지만, 실제 게임 플레이 측면에서는 좀 허접합니다. Opus와 마찬가지로
00:09:30로우 폴리곤 상황도 그렇고요. 더 잘 보이는 걸 만들라고 시키면 어떻게 할지 궁금하네요.
00:09:36그리고 이 트랙 자체도 별로 말이 안 됩니다. 이제 GPT 5.5가
00:09:40만든 것을 보죠. '파운드리 서킷', '나이트 시프트 타임 트라이얼', 철강 작업장을 통과하는 3바퀴 경주랍니다.
00:09:44마지막 두 모델이 보여준 일반적인 트랙과는 좀 다르겠네요.
00:09:50자, 시작해 보겠습니다. 어디로
00:09:54가야 할지 모르겠네요. 오, 이게 트랙인가 봅니다. 바퀴가 좀 흥미롭네요.
00:10:04잘못된 방향으로 회전하고 있습니다. 음, 굉장히 성가신 소음도 나네요.
00:10:10바퀴가 가로로 돌고 있는 건 어떻게 설명해야 할지 모르겠네요.
00:10:21트랙 자체는 괜찮고 이동도 됩니다. 트랙을 벗어나면 속도가 느려지긴 하지만,
00:10:28Opus가 만든 것처럼 명확한 포장도로처럼 보이지는 않습니다. 필드와
00:10:35구분이 안 가요. 그래픽이 꽤 이상합니다. Opus보다 두 배나
00:10:41더 오래 걸렸는데 왜 이런지 모르겠습니다. 정말 이상하네요. 다시,
00:10:48바퀴는 왜 저렇게 만들었는지 모르겠어요. 로우 폴리곤으로 가버렸네요.
00:10:55이유 없이 굉장히 어둡습니다. GLM 5.2보다는 기능적이긴 하지만,
00:11:00그렇게까지 더 낫지는 않습니다. 게다가 GPT 5.5 Extra High 설정에서 이 정도라는 걸 고려해야 합니다.
00:11:06토큰 사용량은 Claude Code와 비슷합니다. 5시간 한도의 7%를 사용했으니 거의
00:11:12사용하지 않은 거나 마찬가지죠. 전반적인 순위를 매기자면,
00:11:17Opus 4.8을 GLM 5.2와 5.5보다 확실히 앞선다고 봅니다. 둘 다 좀
00:11:22허접했으니까요. 하지만 한 번 더 기회를 줄 겁니다.
00:11:28코드를 다시 살펴보고 한 번 더 수정하게 할 겁니다. 이번에는 그래픽 품질을
00:11:32훨씬 더 좋게 해달라고 주문할 겁니다. 로우 폴리곤은 필요 없습니다. 가능한 한
00:11:36AAA급 게임처럼 보이게 하고 싶거든요. 두 번째 시도에서 어떤 일이 일어날지 보죠.
00:11:40Opus와 GLM이 두 번째 작업을 마쳤고 5.5도 마무리 중입니다. 자,
00:11:46Opus 4.8을 먼저 보죠. 확실히 훨씬 더 나은 차를 보여줍니다. 첫 번째 시도와 비교하면
00:11:50엄청난 개선입니다. 조명도 많이 달라졌네요.
00:11:58땅에 비치는 햇빛을 볼 수 있고 모든 게 훨씬 더 매끄러워 보입니다.
00:12:04나무는 여전히 로우 폴리곤 같지만, 조명과 특히 차는
00:12:10큰 진전입니다. 게임 플레이도 여전히 매끄럽고요.
00:12:15도로에 나무가 있는 건 좀 그렇지만, 나무에도 그림자가 생겼네요. 10분 정도 추가로
00:12:20소요되고 5만 토큰 정도를 썼으니 나쁘지 않습니다. 이제 GLM을 보죠. 이때까지,
00:12:26업데이트를 위해 120만 토큰 정도를 더 써서 총비용은 1.83달러가 되었습니다.
00:12:32시작해 보죠. 뭔가 다른 조명을 추가하려 한 것 같긴 하네요. 차는 좀 더 나아 보이지만,
00:12:38조명이 너무 이상합니다. 그냥 눈부시기만 하네요. 트랙 자체는
00:12:46별로 바뀌지 않았습니다. 여전히 어디에나 잔디가 있네요.
00:12:52컨트롤도 여전히 너무 불안정합니다. 트랙에 비해 너무 빠르고요.
00:12:57전과 마찬가지로 트랙의 일부를 뚫고 지나갈 수 있는 현상이 여전합니다.
00:13:04차량 그래픽은 좋아졌지만, 조명과 눈부심이 너무 거슬립니다.
00:13:10이전 버전보다 오히려 더 다운그레이드된 것 같아요. 이제 5.5의 두 번째 시도입니다.
00:13:15차는 조금 더 좋아 보이지만, 나머지는 그대로네요.
00:13:21바퀴 문제는 고쳤네요. 정상적으로 돌아가야 할 방향으로 돌아갑니다.
00:13:29하지만 여전히 성가신 소음은 나고, 도로와 잔디 사이의 구분이 명확하지 않습니다.
00:13:34차만 조금 더 나아졌을 뿐, 첫 번째 시도와 거의 똑같습니다.
00:13:42AAA급 미학을 기대했는데 전혀 달성하지 못했습니다.
00:13:49전반적으로 보았을 때 GLM과 5.5는 확실히 Opus보다 한 단계 아래입니다.
00:13:55다음 테스트는 웹사이트 만들기입니다. 프롬프트는 이겁니다.
00:14:02AI 스마트 글라스 제품을 위한 가짜 랜딩 페이지를 빌드하고 싶습니다. 메타 레이밴 같은 걸 생각하세요.
00:14:07모델들에게 스택과 디자인에 대한 완전한 자유를 줍니다.
00:14:12가장 좋다고 생각하는 것을 선택하고 설치하고,
00:14:16랜딩 페이지 제작 모범 사례를 찾아보라고 했습니다. 이미지와 제품 사진도
00:14:20직접 찾으라고 했고요. 단순히 HTML만 짜지 말고,
00:14:25수상작 사이트처럼 만들어 달라고 했습니다. 'AI 슬롭(쓰레기)'처럼 보이지 않게,
00:14:31진정한 시각적 위계, 의도적인 타이포그래피, 필요한 곳에 모션을 넣으라고요.
00:14:35수상 스타일의 스마트 글라스 랜딩 페이지라. 어떤 결과가 나올지 보죠.
00:14:42셋 다 완료했습니다. 참고로 GLM은 100만 토큰을 사용했고,
00:14:46Opus와 5.5는 10만 토큰 정도를 사용했습니다. Opus가 만든 걸 보죠.
00:14:53어두운 배경이네요. 안경을 직접 만들었지만 텍스트가 이렇게 잘렸네요.
00:14:58스크롤 텍스트가 맨 위에 올라와 있어서 굉장히 어색하게 배치되었습니다.
00:15:04마우스를 올리면 색상이 변하는 건 좀 괜찮네요.
00:15:12스크롤을 내리면 로딩 애니메이션 같은 게 있는데,
00:15:18전반적으로 HTML로 만든 안경 모습은 평범합니다.
00:15:24실제 제품 사진을 찾지도 않았네요. 예약하기와 구매하기 버튼은 있지만,
00:15:31그냥 평범합니다. 수상작 스타일을 원했는데 그 수준은
00:15:35아닙니다. 이번엔 GLM이 만든 걸 보죠.
00:15:41도대체 무슨 일이 일어난 건지 모르겠네요. 거의 로드조차 안 된 것 같습니다.
00:15:45안경은 보여주지만, 이 웹사이트는 재앙 수준입니다.
00:15:51마치 대충 다 던져 넣은 것 같아요. 프롬프트가 아주 상세하진 않았더라도,
00:15:59이 정도보다는 잘해야죠. 이건 정말 끔찍합니다. 도대체 뭘 하려던 건지 모르겠네요.
00:16:04마지막으로 GPT 5.5입니다. 좀 흥미롭네요.
00:16:13디자인은 괜찮아 보이지만 안경이 텍스트를 약간 덮고 있습니다.
00:16:19여백이 많은데 이건 디자인 선택이라고 할 수도 있겠네요.
00:16:25움직이는 배너도 있는데, Opus 버전은 안 움직였죠.
00:16:30스크롤을 내리면 커서가 여러 가지 색으로 변합니다.
00:16:34HTML 에셋을 만든 것 같은데, 온라인에서 필요한 것을 찾아보라고 했지만,
00:16:39전반적으로 셋 중에서는 가장 낫습니다. 하지만 어느 것도 마음에 들지는 않네요.
00:16:44시각 디자인이나 UI 같은 작업에는 이렇게 가장 앞서가는 모델들도 힘들어한다는 걸 보여줍니다.
00:16:50도대체 무슨 일이 일어나는 건지 모르겠어요. 엉망입니다. 전반적으로 Opus는 그저 그랬고,
00:16:555.5가 가장 좋았고, GLM은 완전한 실패작이었습니다.
00:17:04게임 버전 때처럼 두 번째 기회를 줘서 수정할 수 있는지 보죠.
00:17:09이번에는 모션과 그래픽 기능을 더 활용할 수 있도록 Three.js 요소를
00:17:14추가해달라고 주문했습니다. 프롬프트는 이겁니다.
00:17:21방금 빌드한 스마트 글라스 랜딩 페이지를 Three.js를 사용한 몰입형 3D 경험으로
00:17:26재구성하세요. 이번에도 자유롭게 실행하게 했습니다.
00:17:30Opus 4.8의 결과입니다. Three.js를 추가해서 안경이 움직이긴 하네요.
00:17:36하지만 텍스트가 잘리는 등 원래의 문제점들은 여전합니다.
00:17:42AI가 만든 게 티가 너무 많이 납니다. 참고로 두 번째 실행 시
00:17:46모든 모델의 토큰 비용은 첫 번째와 거의 같았습니다. 다음은
00:17:51GLM 5.2입니다. 이번엔 이해가 되는 웹사이트를 만들었네요.
00:17:56안경은 좀 이상하게 생겼지만요. 실제 안경처럼 안 생겼죠.
00:18:02텍스트는 또 잘렸네요. 스크롤하면 움직이는 배너도 있고요.
00:18:08사이트 레이아웃 면에서는 Opus보다 약간 나은 것 같습니다.
00:18:13둘 다 특별히 좋지는 않지만요.
00:18:21히어로 섹션 자체는 Opus 4.8이 더 낫습니다.
00:18:27GPT 5.5가 이번 테스트의 승자입니다.
00:18:32주관적인 디자인 관점에서 전반적으로 더 나아 보입니다. 추가된 모션 그래픽도
00:18:36괜찮네요. 상단의 여백에 안경이 잘 어우러집니다.
00:18:42웹사이트의 나머지도 괜찮습니다. 여전히 'AI 슬롭' 같은 느낌은 있지만,
00:18:48나쁘진 않아요. 5.5가 준 결과물이 다른 모델들보다 가장 좋습니다.
00:18:55DeepSuite 같은 복잡한 벤치마크와 오늘 테스트한 것을 종합해보면,
00:18:59예상했던 결과입니다. GLM이 굉장히 못했다는 건 아니지만,
00:19:05GPT 5.5나 Opus 4.8보다 한 단계 아래라는 느낌을 지울 수 없네요.
00:19:10Opus가 제일 잘했던 첫 번째 섹션에서도, GPT가 제일 잘했던 두 번째 섹션에서도,
00:19:18GLM은 항상 하위권이었습니다. 압도적으로 나쁜 건 아니었지만
00:19:22더 나은 것도 아니었죠. 그리고 토큰을 무한대로 썼습니다.
00:19:27DeepSuite 점수에서도 GLM이 최하위에 비용과 효율성 면에서
00:19:325.5와 4.8보다 뒤처지는 걸 확인했습니다. 이게 우리가 보는 현실이죠.
00:19:37GLM은 훌륭한 오픈 소스 모델인가요? 분명히 그렇습니다.
00:19:42하지만 오픈 소스 모델들이 가진 문제점, 즉 충분히 강력하지 않다는 한계가 있나요? 네.
00:19:48그리고 오픈 소스 열성 팬이라면, 이걸 개인 PC에서 돌릴 수 없다는 걸 아셔야 합니다.
00:19:56실행하려면 막대한 하드웨어가 필요합니다. 대화의 핵심을 잊지 마세요.
00:20:03이미 처음에 말했듯이 GLM 5.2의 비용 문제는 큰 단점입니다.
00:20:07게다가 앤스로픽이나 오픈AI의 Max 플랜이 제공하는 대규모 보조금은 고려하지도 않은 수치입니다.
00:20:12그러니 더 말할 것도 없죠. 이건 논쟁거리가 아닙니다.
00:20:17일반 사용자에게 GLM 5.2를 추천할까요? 아니요, 별로 추천하고 싶지 않습니다.
00:20:21아주 가벼운 작업을 하면서 API 가격만 비교하는 사람이라면 모를까,
00:20:27그 논리로 GLM을 사용하는 건 어렵습니다. 다음 주에 소넷 5가 나오면 어쩌실 건가요?
00:20:35그때마다 모델을 옮겨 다니실 건가요? 특히 기업이나 팀 단위의 작업에서는,
00:20:41API 비용이 쌓이기 시작하면 고민이 될 겁니다.
00:20:47직접 API 비용을 지불하지 않고 보조금 혜택을 받는 일반 사용자라면,
00:20:52GLM 5.2를 사용할 이유가 딱히 없습니다. 오늘은 여기까지입니다.
00:20:57GLM 논란과 과대광고에 대해 좀 명확해졌기를 바랍니다.
00:21:05항상 그렇듯 여러분의 생각을 댓글로 알려주세요.
00:21:12Cloud Code 마스터클래스를 보고 싶다면 Chase AI Plus를 확인해보세요.
00:21:16다음 영상에서 뵙겠습니다.
00:21:24이 영상이 도움이 되었기를 바랍니다.
00:21:29좋은 하루 보내세요.
00:21:38영상을 시청해 주셔서 감사합니다.
00:21:42다음에 또 만나요.
00:21:46구독과 좋아요도 잊지 마세요.
00:21:50더 유익한 영상으로 돌아오겠습니다.
00:21:55감사합니다.
00:22:01행복한 하루 되세요.
00:22:05안녕히 계세요.
00:22:09다음에 또 뵙겠습니다.
00:22:13감사합니다.

Key Takeaway

GLM 5.2는 API 비용은 저렴하지만, 실제 작업 효율성과 결과물의 품질 면에서 GPT 5.5와 Opus 4.8보다 성능이 낮고 토큰 소모량이 많아 일반 사용자에게 추천하기 어렵다.

Highlights

  • DeepSuite 벤치마크 결과 GPT 5.5는 67%, Opus 4.8은 59%, GLM 5.2 Max는 44%의 정답률을 기록했다.

  • GLM 5.2는 1조 개의 파라미터를 가진 모델로, 개인 PC에서 실행할 수 없으며 운영을 위해 막대한 하드웨어가 필요하다.

  • 토큰당 비용 측면에서 GLM 5.2는 입력 1.40달러, 출력 4.40달러로 GPT 5.5나 Opus 4.8보다 저렴하다.

  • 3D 레이싱 게임 개발 테스트에서 Opus 4.8은 10만 토큰을 사용하며 가장 매끄러운 결과물을 보인 반면, GLM 5.2는 135만 토큰을 소비했다.

  • 스마트 글라스 랜딩 페이지 제작 테스트에서 GPT 5.5가 가장 우수한 UI와 디자인 완성도를 보여주었다.

  • 비용 효율성과 작업 정확도를 종합했을 때, 일반 사용자에게 GLM 5.2는 GPT 5.5나 Opus 4.8을 대체할 실질적인 대안이 되기 어렵다.

Timeline

모델별 벤치마크 분석

  • DeepSuite 벤치마크에서 GPT 5.5와 Opus 4.8이 GLM 5.2를 정답률과 효율성 모두에서 앞섰다.
  • GLM 5.2는 오픈 소스이지만 1조 개의 파라미터로 인해 개인이 로컬 환경에서 직접 구동할 수 없다.
  • 작업당 소요 비용을 기준으로 볼 때, Opus와 GPT의 하위 설정 모델이 GLM 5.2보다 더 높은 점수와 낮은 비용을 기록했다.

다양한 프로그래밍 언어를 사용하는 장기 에이전트 작업 기반의 DeepSuite 벤치마크를 통해 각 모델의 성능을 비교했다. GLM 5.2는 비용 면에서는 우위에 있으나, 실제 정답률은 프론티어 모델들에 미치지 못한다. 대중적인 오해와 달리 이 모델은 상당한 컴퓨팅 자원을 요구하므로 접근성에 한계가 있다.

3D 게임 개발 성능 테스트

  • Opus 4.8은 첫 시도에서 10만 토큰으로 가장 매끄러운 물리 효과의 게임을 완성했다.
  • GLM 5.2는 첫 시도에서 135만 토큰을 사용했음에도 물리적 오류와 그래픽 결함이 다수 발생했다.
  • GPT 5.5는 두 번째 수정 단계에서 바퀴 회전 문제 등을 개선했으나 전반적인 완성도는 Opus에 미치지 못했다.

브라우저용 3D 레이싱 게임을 제작하는 프롬프트를 통해 모델의 코딩 및 구현 능력을 평가했다. Opus 4.8은 효율적인 토큰 사용과 깔끔한 코드 결과물을 보였고, GLM 5.2는 과도한 토큰 소모와 함께 트랙 관통 등 기능적인 오류가 두드러졌다.

웹 디자인 및 UI 구현 테스트

  • 스마트 글라스 랜딩 페이지 제작에서 GPT 5.5가 가장 우수한 시각적 결과물을 제시했다.
  • GLM 5.2는 웹사이트 로딩 실패와 레이아웃 오류로 사실상 제작에 실패했다.
  • 모든 모델이 요구한 수준의 수상작 스타일 UI를 구현하는 데 어려움을 겪었다.

랜딩 페이지의 시각적 위계와 모션을 포함한 인터페이스 구현 능력을 시험했다. GPT 5.5가 가장 나은 디자인을 선보였으나, 세 모델 모두 고품질 웹 에이전시 수준의 결과물을 내는 데는 한계를 보였다. GLM 5.2의 경우 다른 모델들에 비해 결과물의 질이 현저히 떨어졌다.

종합 비교 및 결론

  • GLM 5.2는 모든 테스트 항목에서 GPT 5.5와 Opus 4.8보다 낮은 성능을 보였다.
  • 실제 API 사용 시 토큰 효율성이 떨어져 결과적으로 더 많은 비용이 발생한다.
  • 기업 및 일반 사용 환경에서 GLM 5.2를 선택해야 할 명확한 우위 요소가 부족하다.

벤치마크와 실제 테스트 결과를 종합했을 때 GLM 5.2는 오픈 소스로서의 가치는 있으나 범용 성능에서는 프론티어 모델에 미치지 못한다. 특히 기업용 보조금 등을 고려하면 실제 비용 절감 효과가 미미하므로 현시점에서는 강력한 추천이 어렵다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video