00:00:00ZAI에서 GLM 4.7을 내놨는데,
00:00:02연간 $29에 불과하면서 SWE 벤치에서 73%를 달성한다고 주장하니 정말 어마어마하게 싼 거 아닌가요.
00:00:09Sonnet 4.5 수준이거든요.?
00:00:11이 타이밍이 우연일 리가 없어요.
00:00:13그들이 상장을 준비하고 있고 서구권에서의 인지도가 필요한 거죠..
00:00:15심지어 Reddit에서 라이브 Q&A까지 했어요. 중국 AI 연구실이 이런 걸 한 건 처음 봐요.
00:00:19하지만 4.6은 실제로 문제가 있었거든요. 4.7이 정말 고쳐졌을까요?
00:00:23안녕하세요,
00:00:23처음 오신 분들을 위해 소개드리자면 AI Labs이고,
00:00:26또 다른 에피소드 디뱅크드에 오신 걸 환영합니다.
00:00:29이 시리즈에서는 AI 도구와 모델을 직접 테스트해서 마케팅 과장을 벗겨내고 실제로 뭘 할 수 있는지 솔직하게 보여드려요..
00:00:35새로운 모델은 주로 포스트 트레이닝을 통해 개선되었지, 아키텍처 변화는 아니에요.
00:00:40Claude 코드에 크게 최적화되어 있고, ZAI 팀이 명시적으로 이게 최우선 프레임워크라고 말했어요.
00:00:46현재 GPT-5를 포함해 많은 최상위 모델들을 이기고 있거든요. 특히 코딩 벤치마크에서요.
00:00:52모든 코딩 플랜에 추가된 게 하나 더 있는데, 바로 이 새로운 MCP 도구들이에요. 직접 통합되진 않았어요.
00:00:58별도의 MCP 서버들이에요. 지금 세 가지가 나열되어 있어요.
00:01:02이들이 모두 작동하려면 API 키만 있으면 되어요. 그래서 플랜에 포함되어 있지만 모델과는 별도인 거죠.
00:01:07사용량 제한의 경우, 4.6과 거의 동일해요.
00:01:11하지만 이전 제한이 뭐였는지 모르신다면, 제가 실제로 이에 대한 보고서를 만들었어요.
00:01:15재밌는 건 처음엔 Gemini 3로 만들어 보려고 했는데,
00:01:18어떤 이유에선지 플랜을 제대로 비교해 주지 못했어요.
00:01:22다시 Claude로 돌아갔고, 깔끔하게 조사를 해줬어요.
00:01:24기본적으로 알아야 할 건,
00:01:25기본 요금제에서 Claude 코드로 10~40개의 프롬프트를 얻는데,
00:01:29GLM 코딩에서는 겨우 $3에 120개의 프롬프트를 얻는다는 거죠.
00:01:33엄청난 차이예요..
00:01:34상위 요금제로 올라갈수록 더 커져요.
00:01:37$200 플랜은 5시간 동안 Claude에서 800개의 프롬프트를 주지만,
00:01:42$30은 2,
00:01:43400개를 주거든요..
00:01:44이 가격들은 첫 달에 할인되었다가 이후 두 배가 되어요.
00:01:48하지만 연간 요금제를 선택하면 훨씬 더 저렴해요.
00:01:50또 다른 중요한 벤치마크는 휴머니티즈 라스트 엑잠이었어요.
00:01:53모르시는 분들을 위해,
00:01:54이건 아직 포화되지 않은 벤치마크 중 하나고,
00:01:56대부분의 최신 모델들이 낮은 점수를 얻어요.
00:01:59정말 어려운 벤치마크거든요..
00:02:00UI를 실제로 테스트하기 위해 우리가 사용한 프롬프트인데, 아키텍처에 초점을 맞추지 않아요.
00:02:05모델이 구현해야 하는 디자인 로직에 초점을 맞추고, 동시에 몇 가지 디자인 옵션을 제공하고 있어요.
00:02:11그 다음 제가 제안하는 회사, 이 경우 AI 기반 코드 리뷰 플랫폼에 따라 뭘 만드는지 볼 수 있어요.
00:02:18우리도 MAX 플랜을 구독했고, Claude 코드와 연결하는 방법이 두 가지 있어요.
00:02:22두 경우 모두 settings.json을 수정하는데, 하나는 프로젝트 루트에 위치해 전역 설정을 변경해요.
00:02:29프로젝트 내부에서 하면 그 프로젝트에만 변경돼요.
00:02:33Sonnet 4.5와 비교하기 위해 이렇게 했어요.
00:02:36이게 Sonnet 4.5가 만든 거예요.
00:02:38프롬프트가 정말 좋은데,
00:02:39이걸 사용해서 어떤 모델들이 UI를 만드는지,
00:02:42얼마나 창의적으로 하는지 파악해 왔어요.
00:02:45단순 바닐라 JS니까 지금은 아키텍처를 보는 게 아니라 디자인만 봐요.
00:02:49이게 GLM 4.7이 만든 거예요.
00:02:52디자인 관점에서 보면 꽤 좋긴 한데, 길이를 제대로 고려하지 않아서 여기서 오류가 생겼어요.
00:02:57그래서 아티팩트들이 조금 깨지고 있어요..
00:02:59그 외엔 디자인이 견고한데, 저는 이 이모지들이 정말 마음에 안 들어요.
00:03:02Sonnet은 이모지를 쓰지 않았어요. 이건 좋고 디자인 언어와도 맞아떨어져요.
00:03:06둘 다 실제로 테스트하기 위해, 미리 만든 Next.js 프로젝트가 있어요.
00:03:11확장 가능하고 백엔드 준비가 된 UI를 빌드해야 한다는 컨텍스트가 초기화되어 있어요..
00:03:15이 부분이 중요한데, GLM이 놀랍게도 더 나은 성능을 보인 이유를 평가할 때 이 부분으로 돌아올 거거든요.
00:03:22Framer Motion과 ShadCN 컴포넌트가 미리 설치되어 있어서 UI를 빌드할 수 있어요.
00:03:27넷플릭스 같은 스트리밍 플랫폼의 메인 브라우저 페이지를 빌드하도록 둘 다 요청받았어요.
00:03:32정확히 뭘 빌드할 건지, 페이지에 뭐가 있어야 하는지 명시했어요.
00:03:35GLM 모델과 Claude 코드의 사용성 얘기를 하면,
00:03:39GLM 4.6의 문제점 중 하나는 코드 생성이 엄청 느렸다는 거예요.
00:03:43여기서 그 문제가 제 경험상 해결되지 않았어요. 여전히 엄청 느려요.
00:03:48하지만 하나의 변화가 있어요.
00:03:49GLM 4.6에서 모델이 실제로 생각하지 않았어요.
00:03:52즉, Claude 코드 내에서 생각하지 않았어요..
00:03:54여기서 얻는 상세 트랜스크립트가 명확하게 생각 과정을 보여주는데, 4.6에선 나타나지 않았어요.
00:03:594.7 모델에서 실제로 생각한다는 걸 명확히 볼 수 있어요. 그래서 이건 고쳐졌네요.
00:04:04그 외엔 알아야 할 특이한 점들이 있어요. GLM 4.7은 그리 자율적이지 않아요.
00:04:09테스트하면서 이걸 발견했어요.
00:04:10보시다시피 이 GLM 폴더에는 이미 앱을 구현해야 하는 UI 벤치마크 폴더가 있는데,
00:04:16그냥 무시해 버렸어요..
00:04:18컨텍스트에 명확하게 쓰여 있었음에도 불구하고, 자기 혼자 다른 Next.js 앱을 만들어 버렸어요.
00:04:22초기화도 안 하고 그냥 코드 쓰기 시작했어요. 때론 정말 멍청하게 행동해요.
00:04:27하지만 제가 이를 바로잡고 올바른 방향으로 가이드한 후, 구현 관점에서 이게 Claude가 만든 거예요.
00:04:32더 높은 수준의 모델이라서 UI를 잘 만들어요.
00:04:35이게 GLM 4.7이 만든 거예요.
00:04:37Claude가 더 좋은 UI를 만들었는데, 제 의견으로는 여전히 디자인을 더 잘하거든요..
00:04:42가격 치고 그건 괜찮아요.
00:04:43하지만 코드를 살펴보고 파고들어보니,
00:04:46백엔드 준비가 되어야 하고 지금은 모의 데이터를 써야 한다고 명시했는데,
00:04:50GLM 모델이 실제로 더 나은 아키텍처를 구현했어요.
00:04:53모든 모의 데이터를 한 파일에 넣은 거죠..
00:04:56이후 백엔드로 전환해야 할 땐 그 파일만 바꾸면 돼요.
00:04:59임포트들이 거기 연결되어 있거든요.
00:05:01Claude가 구현한 것과 달리 모든 컴포넌트마다 자체 임포트가 있어요..
00:05:05실제로 백엔드를 구현하게 되면 이 모든 파일을 하나씩 변경해야 해요.
00:05:09기본 아키텍처와 코드 품질 관점에서 GLM이 정말 잘했어요.
00:05:13저를 놀라게 했는데, 4.6은 제 테스트상 이 정도로 좋지 않았거든요..
00:05:17이전 버전은 제가 얼마나 자주 유도해야 했고 실수가 얼마나 많았는지로 봐선 정당화되지 않았는데,
00:05:22이번 버전은 정말 큰 도약이에요.
00:05:24그 벤치마크들은 제가 한 테스트로 충분히 정당화돼요.
00:05:27코드의 다른 몇 가지 작은 것들도 살펴봤는데, GLM 4.7은 정말 좋은 모델이에요.
00:05:32이런 예상 밖의 결과를 보니, 모두에게 연간 $29 요금제를 추천해요.
00:05:38이미 Claude 월간 $20 플랜이 있다면, 이건 비교가 안 될 정도로 저렴해요.
00:05:42그래도 완전히 자율적인 코딩에 쓸 모델은 아니에요.
00:05:46Claude가 아키텍처를 정말 망쳤지만, 나중에 이를 수정하고 개선할 수 있을 정도로는 충분해요.
00:05:52하지만 GLM이 여전히 가진 작은 특이한 점들 때문에, 이것만으로 의존하는 건 좋은 생각이 아니라고 봐요.
00:05:57이제 이 영상의 끝에 왔네요.
00:05:58이 채널을 지원하고 이렇게 계속 영상을 만들 수 있도록 도와주고 싶으시면,
00:06:02아래의 슈퍼 감사 버튼을 눌러서 지원할 수 있어요.
00:06:05늘 그렇듯이 시청해 주셔서 감사하고, 다음 영상에서 만나요.