GLM 4.7은 소프트웨어 개발에 미쳤다...

AAI LABS
Computing/SoftwareSmall Business/StartupsTelecommutingInternet Technology

Transcript

00:00:00ZAI에서 GLM 4.7을 내놨는데,
00:00:02연간 $29에 불과하면서 SWE 벤치에서 73%를 달성한다고 주장하니 정말 어마어마하게 싼 거 아닌가요.
00:00:09Sonnet 4.5 수준이거든요.?
00:00:11이 타이밍이 우연일 리가 없어요.
00:00:13그들이 상장을 준비하고 있고 서구권에서의 인지도가 필요한 거죠..
00:00:15심지어 Reddit에서 라이브 Q&A까지 했어요. 중국 AI 연구실이 이런 걸 한 건 처음 봐요.
00:00:19하지만 4.6은 실제로 문제가 있었거든요. 4.7이 정말 고쳐졌을까요?
00:00:23안녕하세요,
00:00:23처음 오신 분들을 위해 소개드리자면 AI Labs이고,
00:00:26또 다른 에피소드 디뱅크드에 오신 걸 환영합니다.
00:00:29이 시리즈에서는 AI 도구와 모델을 직접 테스트해서 마케팅 과장을 벗겨내고 실제로 뭘 할 수 있는지 솔직하게 보여드려요..
00:00:35새로운 모델은 주로 포스트 트레이닝을 통해 개선되었지, 아키텍처 변화는 아니에요.
00:00:40Claude 코드에 크게 최적화되어 있고, ZAI 팀이 명시적으로 이게 최우선 프레임워크라고 말했어요.
00:00:46현재 GPT-5를 포함해 많은 최상위 모델들을 이기고 있거든요. 특히 코딩 벤치마크에서요.
00:00:52모든 코딩 플랜에 추가된 게 하나 더 있는데, 바로 이 새로운 MCP 도구들이에요. 직접 통합되진 않았어요.
00:00:58별도의 MCP 서버들이에요. 지금 세 가지가 나열되어 있어요.
00:01:02이들이 모두 작동하려면 API 키만 있으면 되어요. 그래서 플랜에 포함되어 있지만 모델과는 별도인 거죠.
00:01:07사용량 제한의 경우, 4.6과 거의 동일해요.
00:01:11하지만 이전 제한이 뭐였는지 모르신다면, 제가 실제로 이에 대한 보고서를 만들었어요.
00:01:15재밌는 건 처음엔 Gemini 3로 만들어 보려고 했는데,
00:01:18어떤 이유에선지 플랜을 제대로 비교해 주지 못했어요.
00:01:22다시 Claude로 돌아갔고, 깔끔하게 조사를 해줬어요.
00:01:24기본적으로 알아야 할 건,
00:01:25기본 요금제에서 Claude 코드로 10~40개의 프롬프트를 얻는데,
00:01:29GLM 코딩에서는 겨우 $3에 120개의 프롬프트를 얻는다는 거죠.
00:01:33엄청난 차이예요..
00:01:34상위 요금제로 올라갈수록 더 커져요.
00:01:37$200 플랜은 5시간 동안 Claude에서 800개의 프롬프트를 주지만,
00:01:42$30은 2,
00:01:43400개를 주거든요..
00:01:44이 가격들은 첫 달에 할인되었다가 이후 두 배가 되어요.
00:01:48하지만 연간 요금제를 선택하면 훨씬 더 저렴해요.
00:01:50또 다른 중요한 벤치마크는 휴머니티즈 라스트 엑잠이었어요.
00:01:53모르시는 분들을 위해,
00:01:54이건 아직 포화되지 않은 벤치마크 중 하나고,
00:01:56대부분의 최신 모델들이 낮은 점수를 얻어요.
00:01:59정말 어려운 벤치마크거든요..
00:02:00UI를 실제로 테스트하기 위해 우리가 사용한 프롬프트인데, 아키텍처에 초점을 맞추지 않아요.
00:02:05모델이 구현해야 하는 디자인 로직에 초점을 맞추고, 동시에 몇 가지 디자인 옵션을 제공하고 있어요.
00:02:11그 다음 제가 제안하는 회사, 이 경우 AI 기반 코드 리뷰 플랫폼에 따라 뭘 만드는지 볼 수 있어요.
00:02:18우리도 MAX 플랜을 구독했고, Claude 코드와 연결하는 방법이 두 가지 있어요.
00:02:22두 경우 모두 settings.json을 수정하는데, 하나는 프로젝트 루트에 위치해 전역 설정을 변경해요.
00:02:29프로젝트 내부에서 하면 그 프로젝트에만 변경돼요.
00:02:33Sonnet 4.5와 비교하기 위해 이렇게 했어요.
00:02:36이게 Sonnet 4.5가 만든 거예요.
00:02:38프롬프트가 정말 좋은데,
00:02:39이걸 사용해서 어떤 모델들이 UI를 만드는지,
00:02:42얼마나 창의적으로 하는지 파악해 왔어요.
00:02:45단순 바닐라 JS니까 지금은 아키텍처를 보는 게 아니라 디자인만 봐요.
00:02:49이게 GLM 4.7이 만든 거예요.
00:02:52디자인 관점에서 보면 꽤 좋긴 한데, 길이를 제대로 고려하지 않아서 여기서 오류가 생겼어요.
00:02:57그래서 아티팩트들이 조금 깨지고 있어요..
00:02:59그 외엔 디자인이 견고한데, 저는 이 이모지들이 정말 마음에 안 들어요.
00:03:02Sonnet은 이모지를 쓰지 않았어요. 이건 좋고 디자인 언어와도 맞아떨어져요.
00:03:06둘 다 실제로 테스트하기 위해, 미리 만든 Next.js 프로젝트가 있어요.
00:03:11확장 가능하고 백엔드 준비가 된 UI를 빌드해야 한다는 컨텍스트가 초기화되어 있어요..
00:03:15이 부분이 중요한데, GLM이 놀랍게도 더 나은 성능을 보인 이유를 평가할 때 이 부분으로 돌아올 거거든요.
00:03:22Framer Motion과 ShadCN 컴포넌트가 미리 설치되어 있어서 UI를 빌드할 수 있어요.
00:03:27넷플릭스 같은 스트리밍 플랫폼의 메인 브라우저 페이지를 빌드하도록 둘 다 요청받았어요.
00:03:32정확히 뭘 빌드할 건지, 페이지에 뭐가 있어야 하는지 명시했어요.
00:03:35GLM 모델과 Claude 코드의 사용성 얘기를 하면,
00:03:39GLM 4.6의 문제점 중 하나는 코드 생성이 엄청 느렸다는 거예요.
00:03:43여기서 그 문제가 제 경험상 해결되지 않았어요. 여전히 엄청 느려요.
00:03:48하지만 하나의 변화가 있어요.
00:03:49GLM 4.6에서 모델이 실제로 생각하지 않았어요.
00:03:52즉, Claude 코드 내에서 생각하지 않았어요..
00:03:54여기서 얻는 상세 트랜스크립트가 명확하게 생각 과정을 보여주는데, 4.6에선 나타나지 않았어요.
00:03:594.7 모델에서 실제로 생각한다는 걸 명확히 볼 수 있어요. 그래서 이건 고쳐졌네요.
00:04:04그 외엔 알아야 할 특이한 점들이 있어요. GLM 4.7은 그리 자율적이지 않아요.
00:04:09테스트하면서 이걸 발견했어요.
00:04:10보시다시피 이 GLM 폴더에는 이미 앱을 구현해야 하는 UI 벤치마크 폴더가 있는데,
00:04:16그냥 무시해 버렸어요..
00:04:18컨텍스트에 명확하게 쓰여 있었음에도 불구하고, 자기 혼자 다른 Next.js 앱을 만들어 버렸어요.
00:04:22초기화도 안 하고 그냥 코드 쓰기 시작했어요. 때론 정말 멍청하게 행동해요.
00:04:27하지만 제가 이를 바로잡고 올바른 방향으로 가이드한 후, 구현 관점에서 이게 Claude가 만든 거예요.
00:04:32더 높은 수준의 모델이라서 UI를 잘 만들어요.
00:04:35이게 GLM 4.7이 만든 거예요.
00:04:37Claude가 더 좋은 UI를 만들었는데, 제 의견으로는 여전히 디자인을 더 잘하거든요..
00:04:42가격 치고 그건 괜찮아요.
00:04:43하지만 코드를 살펴보고 파고들어보니,
00:04:46백엔드 준비가 되어야 하고 지금은 모의 데이터를 써야 한다고 명시했는데,
00:04:50GLM 모델이 실제로 더 나은 아키텍처를 구현했어요.
00:04:53모든 모의 데이터를 한 파일에 넣은 거죠..
00:04:56이후 백엔드로 전환해야 할 땐 그 파일만 바꾸면 돼요.
00:04:59임포트들이 거기 연결되어 있거든요.
00:05:01Claude가 구현한 것과 달리 모든 컴포넌트마다 자체 임포트가 있어요..
00:05:05실제로 백엔드를 구현하게 되면 이 모든 파일을 하나씩 변경해야 해요.
00:05:09기본 아키텍처와 코드 품질 관점에서 GLM이 정말 잘했어요.
00:05:13저를 놀라게 했는데, 4.6은 제 테스트상 이 정도로 좋지 않았거든요..
00:05:17이전 버전은 제가 얼마나 자주 유도해야 했고 실수가 얼마나 많았는지로 봐선 정당화되지 않았는데,
00:05:22이번 버전은 정말 큰 도약이에요.
00:05:24그 벤치마크들은 제가 한 테스트로 충분히 정당화돼요.
00:05:27코드의 다른 몇 가지 작은 것들도 살펴봤는데, GLM 4.7은 정말 좋은 모델이에요.
00:05:32이런 예상 밖의 결과를 보니, 모두에게 연간 $29 요금제를 추천해요.
00:05:38이미 Claude 월간 $20 플랜이 있다면, 이건 비교가 안 될 정도로 저렴해요.
00:05:42그래도 완전히 자율적인 코딩에 쓸 모델은 아니에요.
00:05:46Claude가 아키텍처를 정말 망쳤지만, 나중에 이를 수정하고 개선할 수 있을 정도로는 충분해요.
00:05:52하지만 GLM이 여전히 가진 작은 특이한 점들 때문에, 이것만으로 의존하는 건 좋은 생각이 아니라고 봐요.
00:05:57이제 이 영상의 끝에 왔네요.
00:05:58이 채널을 지원하고 이렇게 계속 영상을 만들 수 있도록 도와주고 싶으시면,
00:06:02아래의 슈퍼 감사 버튼을 눌러서 지원할 수 있어요.
00:06:05늘 그렇듯이 시청해 주셔서 감사하고, 다음 영상에서 만나요.

Key Takeaway

GLM 4.7은 연간 $29의 저렴한 가격으로 Sonnet 4.5 수준의 소프트웨어 개발 성능을 제공하며, 특히 아키텍처 설계 면에서 Claude보다 우수한 성과를 보였다.

Highlights

GLM 4.7은 연간 $29 요금제로 SWE 벤치마크 73% 달성 - Sonnet 4.5 수준의 성능을 극도로 저렴한 가격에 제공

가격 비교: 기본 Claude 코드는 $20/월에 10-40개 프롬프트 제공, GLM 코딩은 $3에 120개 프롬프트 제공 - 가성비 차이 극대화

GLM 4.7이 Claude 코드보다 백엔드 준비 아키텍처에서 우수 - 모의 데이터를 단일 파일로 관리하여 나중에 백엔드 전환이 용이

4.7에서 모델의 '사고 과정(thinking)' 기능 추가 - 4.6의 주요 문제점이 해결되어 더 투명한 의사결정 과정 제시

GLM 4.7은 코드 생성 속도가 여전히 느리고 자율성 부족 - 명확한 지침이 있어도 독립적으로 잘못된 판단을 내릴 수 있음

ZAI 회사의 IPO 준비 마케팅 전략 - Reddit 라이브 Q&A 등 적극적인 홍보로 서구권 인지도 제고 시도

Claude와 GLM 4.7 모두 완전 자율적 코딩에는 부족하지만, GLM의 가격과 성능 균형은 강점

Timeline

GLM 4.7 공개 배경과 마케팅 전략

ZAI에서 GLM 4.7을 출시했으며, 연간 $29의 저렴한 가격으로 SWE 벤치마크에서 73%를 달성했다고 주장하고 있다. 이는 Sonnet 4.5 수준의 성능을 극도로 저렴한 가격에 제공하는 것으로, 중국 AI 연구실이 Reddit에서 라이브 Q&A를 실시한 것은 처음 있는 일이다. 이러한 공격적인 마케팅 타이밍은 ZAI의 IPO 준비와 서구권 시장에서의 인지도 제고 필요성이 배경에 있다. 다만 이전 버전인 4.6에서 실제 문제들이 있었기 때문에, 4.7이 과연 이러한 문제들을 제대로 해결했는지 검증이 필요하다.

채널 소개 및 분석 방식 안내

AI Labs 채널의 '에피소드 디뱅크드' 시리즈를 통해 AI 도구와 모델을 직접 테스트하고 마케팅 과장을 벗겨내 실제 성능을 솔직하게 평가한다. GLM 4.7은 주로 포스트 트레이닝을 통해 개선되었으며 Claude 코드에 최적화되어 있고, ZAI 팀이 명시적으로 이를 최우선 프레임워크라고 명시했다. 현재 많은 최상위 모델들을 능가하고 있으며 특히 코딩 벤치마크에서 우수하다. 모든 코딩 플랜에는 새로운 MCP 도구들이 추가되었지만, 이들은 별도의 MCP 서버이며 API 키가 있어야 작동한다.

요금 구조 및 가격 비교 분석

GLM 4.7의 요금제는 4.6과 거의 동일하지만, Claude 코드와 비교하면 가격 대비 성능이 현저히 우수하다. 기본 요금제에서 Claude 코드는 10-40개 프롬프트를 제공하는 반면, GLM 코딩은 단 $3에 120개의 프롬프트를 제공한다. 상위 요금제로 갈수록 차이는 더 커져서, $200 플랜은 Claude에서 5시간 800개 프롬프트를 제공하지만, GLM $30 플랜은 2,400개를 제공한다. 초기 할인 이후 두 배가 되지만 연간 요금제를 선택하면 훨씬 저렴해진다. 이는 Claude와 비교해 어마어마한 가격 차이를 의미한다.

벤치마크 평가 방식과 테스트 프롬프트

휴머니티즈 라스트 엑잠(Humanities Last Exam)은 아직 포화되지 않은 어려운 벤치마크로, 대부분의 최신 모델이 낮은 점수를 얻는다. 테스트에 사용된 프롬프트는 아키텍처보다는 구현해야 할 디자인 로직에 초점을 맞추고, 동시에 여러 디자인 옵션을 제공하는 방식으로 설계되었다. 이를 통해 AI 기반 코드 리뷰 플랫폼과 같은 구체적 사례에서 모델이 실제로 무엇을 만드는지, 얼마나 창의적으로 접근하는지 파악할 수 있다. Sonnet 4.5와 비교하기 위해 MAX 플랜을 구독했으며, settings.json 수정을 통해 Claude 코드와 연결했다.

Sonnet 4.5 vs GLM 4.7 UI 디자인 비교

Sonnet 4.5가 생성한 UI는 디자인 관점에서 깔끔하고 이모지를 사용하지 않아 전문적이다. 반면 GLM 4.7이 생성한 UI는 디자인이 견고하지만 길이를 제대로 고려하지 않아 아티팩트 오류가 발생했고, 불필요한 이모지를 과다하게 사용했다. 단순 바닐라 JS로 구현되어 지금은 아키텍처보다는 디자인만 평가했다. 두 모델 모두 실제로 작동하는지 테스트하기 위해 확장 가능하고 백엔드 준비가 된 UI를 빌드해야 하는 상황으로 초기화했다. Framer Motion과 ShadCN 컴포넌트가 미리 설치되어 있어 테스트 환경이 최적화되었다.

Netflix 스트리밍 페이지 빌드 테스트 및 모델 성능 비교

Netflix 같은 스트리밍 플랫폼의 메인 브라우저 페이지를 빌드하도록 두 모델에 요청했으며, 정확히 어떤 기능과 요소가 필요한지 명시했다. GLM 4.6의 주요 문제점인 느린 코드 생성 속도는 4.7에서도 해결되지 않았으나, 모델이 실제로 사고 과정을 거치는 것이 명확히 보이게 되었다는 점은 개선되었다. GLM 4.7은 완전히 자율적이지 않아서, 컨텍스트에 명확하게 쓰여 있는 기존 UI 벤치마크 폴더를 무시하고 자기 혼자 다른 Next.js 앱을 만들어버리는 문제가 있었다. 사용자가 바로잡고 올바른 방향으로 가이드한 후에는 구현이 제대로 이루어졌다.

코드 아키텍처 및 백엔드 확장성 평가

디자인 관점에서는 Claude가 더 좋은 UI를 만들었지만, 코드 아키텍처 측면에서는 GLM 4.7이 Claude보다 우수한 성과를 보였다. GLM은 모든 모의 데이터를 하나의 파일에 집중시켜, 나중에 백엔드로 전환할 때 그 파일만 변경하면 되도록 설계했다. 반면 Claude는 모든 컴포넌트마다 자체 임포트를 가지고 있어서, 실제 백엔드를 구현할 때 모든 파일을 개별적으로 변경해야 한다. 이는 확장성과 유지보수성 측면에서 GLM의 아키텍처가 더 우수함을 의미한다. 이러한 예상 밖의 결과는 4.6이 이 정도로 좋지 않았던 것과 대비되어, 4.7이 정말 큰 도약을 이루었음을 보여준다.

최종 평가 및 추천

기본 아키텍처와 코드 품질 관점에서 GLM 4.7이 정말 잘했으며, 4.6과 비교해 매우 큰 도약을 이루었다. 벤치마크 결과들은 직접 수행한 테스트로 충분히 정당화된다. 모든 사람에게 연간 $29 요금제를 강력히 추천하며, 특히 이미 Claude 월간 $20 플랜을 사용 중인 사람들에게는 비교가 안 될 정도로 저렴하다. 그러나 GLM 4.7은 완전히 자율적인 코딩 작업에는 아직 부족하며, 여전히 가진 작은 특이한 점들과 자율성 부족으로 인해 이것만으로 의존하는 것은 좋은 생각이 아니다. 따라서 보조적 도구로 사용하거나 명확한 지침과 함께 사용하는 것이 권장된다.

Community Posts

View all posts