00:00:00새로운 최고의 모델 Opus 4.7이 출시되었습니다. 확실히 꽤 괜찮은 업그레이드로 보입니다.
00:00:05코딩 능력이 향상된 것은 물론, 시각 인지, 자기 검증 기능이 개선되었으며
00:00:09UI 제작 능력도 더 세련되고 창의적으로 변했다고 합니다.
00:00:12단점이라면 비용은 그대로지만 토크나이저가 변경되어
00:00:17정확히 같은 프롬프트를 입력해도 토큰을 최대 35% 더 사용하며, 사고 과정도 길어져서
00:00:22소모되는 토큰이 더 늘어났습니다. 이번 출시에는 정말 흥미로운 세부 사항들이 많고
00:00:26Claude Code 사용 시 바꿔야 할 설정도 있으니, 바로 들어가서
00:00:30무엇이 새로워졌는지 테스트해 봅시다.
00:00:31먼저 벤치마크부터 살펴볼 텐데, 사실 아까 이 모델이
00:00:40새로운 최고의 모델이라고 한 건 약간의 거짓말이었습니다. 공개된 모델 중 최고인 건 맞지만,
00:00:44벤치마크에는 아직 우리가 사용할 수 없는 강력한 모델인 Mythos도 포함되어 있거든요.
00:00:47Anthropic에 따르면, Opus 4.7은 금지되거나 위험한 사이버 보안 요청을 차단하는
00:00:52새로운 사이버 안전장치를 테스트 중이며, 여기서 배운 내용을 바탕으로
00:00:56Mythos 급 모델의 광범위한 출시를 준비할 것이라고 합니다. 미래에는
00:01:00Mythos 출시와 그것이 소프트웨어 개발의 종말을 어떻게 가져올지에 대한 영상을 만들 수 있기를 바랍니다.
00:01:03놓치고 싶지 않다면 구독해 주세요. 이제
00:01:06Mythos는 제쳐두고 우리가 실제로 사용할 수 있는 Opus 4.7에 집중해 봅시다.
00:01:10이 모델은 벤치마크에서 큰 발전을 이루었습니다.
00:01:13세부 수치를 일일이 나열하진 않을 테니 궁금하시면 화면을 멈추고 확인해 보세요.
00:01:16SWE Bench Pro 같은 벤치마크에서는 Opus 4.6 대비 10%나 상승했고
00:01:21Verified 항목에서도 7% 상승하며 다른 벤치마크에서도 비슷한 양상을 보입니다.
00:01:26다만 사이버 보안 분야에서는 점수가 약간 하락했는데,
00:01:30이는 앞서 언급한 안전장치와 관련이 있어 보입니다. 세상을 구하기 위해
00:01:34인위적으로 이 점수를 낮게 유지하는 것 같네요.
00:01:37시스템 카드에서 아주 흥미로운 벤치마크를 발견했는데,
00:01:40긴 문맥 처리 성능(Needle in a Haystack 테스트)이 Opus 4.6에 비해
00:01:45급격히 떨어진 것으로 보입니다. 실제 사용 시 어떤 영향을 미칠지 궁금하네요.
00:01:50벤치마크 외에도 Claude 사용 방식을 바꿀 만한 주목할 만한 개선 사항들이 있습니다.
00:01:54첫 번째는 지시 이행 능력이 향상되었다는 점인데, 이는 기존에 사용하던
00:01:58프롬프트에서 예상치 못한 결과가 나올 수도 있음을 의미합니다.
00:02:01이전 모델들은 지시를 느슨하게 해석하거나 일부 생략하기도 했지만, Opus 4.7은
00:02:07지시를 문자 그대로 따르는 데 집중하므로 프롬프트 수정이 필요할 수 있습니다.
00:02:11다음으로 멀티모달 지원이 강화되어 이전 모델보다 3배 높은 고해상도 이미지를
00:02:16인식할 수 있습니다. 덕분에 컴퓨터 제어나 데이터 추출 작업에 더 유리해졌죠.
00:02:20메모리 사용 능력도 향상되었습니다. Opus 4.7은 파일 시스템 기반 메모리를 더 잘 활용하여
00:02:25여러 세션에 걸친 중요한 노트를 기억하고, 이를 통해 새로운 작업을 할 때
00:02:30초기 문맥을 덜 사용해도 됩니다. 덕분에 토큰을 좀 아낄 수 있을 것 같은데,
00:02:34다음 변화인 토크나이저와 사고 과정 때문에 토큰 관리가 매우 중요해졌습니다.
00:02:39Opus 4.7은 텍스트 처리 방식을 개선한 업데이트된 토크나이저를 사용하지만,
00:02:45그 대가로 동일한 프롬프트 입력 시 비용이 최대 35% 더 발생할 수 있습니다.
00:02:49여기에 Opus 4.7이 높은 노력 수준에서 더 많이 생각한다는 점까지 더해지면
00:02:54토큰 소모량이 상당할 것입니다. 설상가상으로 새로운 '초고강도(Extra High)'
00:02:58노력 수준이 추가되었고, 이것이 Claude Code의 기본값으로 설정되어 있습니다.
00:03:02따라서 다양한 노력 수준을 직접 테스트해 보고, 성능 저하 없이
00:03:05설정을 낮출 수 있는지 확인해 보시길 권장합니다. 비교를 해보자면,
00:03:09새로운 '초고강도' 수준은 Opus 4.6의 최대 노력 수준과 비슷한 토큰을 사용하며,
00:03:14Opus 4.7의 '고강도(High)' 수준은 Opus 4.6의 최대 수준보다 적은 토큰으로
00:03:19더 높은 점수를 기록했습니다. 이전 수준의 성능으로도 충분하다면
00:03:24차트를 참고해 보세요. 저 같은 경우는 대부분의 경우 '고강도' 수준을 사용할 계획입니다.
00:03:27주요 변경 사항 요약은 이 정도로 하고, 이제 토큰을 써가며 직접 테스트해 보겠습니다.
00:03:31가장 먼저 확인해 볼 것은 UI 디자인 실력입니다.
00:03:35index.html 파일 하나로 카페 웹사이트를 만들어달라는 아주 간단한 프롬프트를 주었습니다.
00:03:40테스트하는 모든 모델의 노력 수준은 최대로 설정했습니다.
00:03:43Opus 4.7, 4.6, Gemini 3.1, GPT 5.4를 비교해 보죠. 이것이 Opus 4.7의 결과물입니다.
00:03:51카페 느낌이 잘 살아있고 꽤 괜찮아 보입니다. 폰트 선택도 좋고
00:03:55Unsplash에서 적절한 이미지도 가져왔네요. 전반적으로 흠잡을 데 없습니다.
00:03:59심플한 구조에 메뉴 섹션도 잘 구성되어 있고 반응형 웹으로 제작되었습니다.
00:04:04매우 만족스럽네요. Opus 4.6이 만든 것과 비교해 보면,
00:04:09스타일은 좀 다르지만 폰트나 메뉴 구성은 비슷합니다.
00:04:12다만 전반적으로 4.7보다는 조금 떨어지는데, 배경 이미지가 없고
00:04:16그라데이션 처리가 매끄럽지 않기 때문입니다. 그래도 나쁘진 않네요.
00:04:20Opus 4.7이 한 단계 위라고 볼 수 있겠네요. 반면 Gemini 3.1은
00:04:25가장 뛰어난 결과를 보여주었습니다. 제 취향에는 이게 제일 마음에 드네요.
00:04:29스크롤해도 배경이 고정되어 있는 방식이 마음에 들고,
00:04:33이미지 섹션과 브랜드 스토리 섹션도 아주 잘 만들었습니다.
00:04:36메뉴는 다른 모델들과 비슷하지만 레이아웃이 훨씬 깔끔합니다.
00:04:40푸터 부분도 마찬가지고요. 이번 대결은 Gemini 3.1의 승리네요.
00:04:45꼴찌는 단연 GPT 5.4입니다. 특유의 GPT스러운 느낌이 너무 강하네요.
00:04:50블러 처리가 들어간 카드형 UI를 남발하는데, 제 기준에서는
00:04:55카페 웹사이트 같지 않고 흔하디흔한 GPT 앱처럼 보입니다.
00:04:59Opus 4.7은 확실히 UI에 강점이 있고, 구체적인 지시를 주면 더 잘할 것 같습니다.
00:05:04현재 디자인 아레나에서는 Opus 4.6이 웹사이트 부문 1위인데,
00:05:09곧 4.7이 그 자리를 차지할 것으로 보입니다. 방금 테스트는 너무 간단했으니
00:05:13다음은 더 복잡한 과제를 주겠습니다. 보시는 것처럼 Claude Code를 통해
00:05:17Opus 4.6에게 개인 금융 관리 대시보드 제작을 요청했습니다.
00:05:21개인의 재무 상태를 상세히 보여주는 다양한 기능을 포함하도록 프롬프트를 작성했고
00:05:25기술 스택은 지정하지 않았습니다. 모델이 스스로 선택해서 바닥부터 만들어야 합니다.
00:05:30먼저 Opus 4.7의 결과입니다. 단 한 번의 프롬프트로 약 20분 만에 완성했는데,
00:05:34첫인상은 '와, 대단하다'였습니다. UI가 정말 깔끔하고 차트도 훌륭합니다.
00:05:39배치도 잘 되어 있고 색상 조합도 좋습니다. 솔직히 말해서
00:05:44제가 직접 수정할 부분이 거의 보이지 않을 정도로 UI 측면에서 환상적입니다.
00:05:48요청했던 개별 페이지들도 모두 구현되었습니다. 계좌 목록을 볼 수 있고,
00:05:53거래 내역과 예산도 확인할 수 있습니다. 다만 현재 예산을 새로
00:05:57추가하는 기능은 구현되지 않은 것 같고, 목표 관리도 마찬가지입니다.
00:06:02하지만 기존 목표에 금액을 추가하는 것은 가능하며, 숫자가 올라가면
00:06:05함께 생성된 백엔드 API도 정상적으로 업데이트됩니다.
00:06:10송금 기능도 마찬가지입니다. 제 Claude Code 구독료를
00:06:14지불하는 테스트를 해봤는데, 성공적으로 전송되었고
00:06:17대시보드로 돌아오니 해당 거래 내역이 반영되어 순자산이 업데이트되었습니다.
00:06:22모든 것이 정상 작동하며 백엔드 데이터베이스도 사용 중입니다.
00:06:26최근 거래 내역에도 잘 나타나네요. 생성된 코드를 살펴보면
00:06:30구조가 꽤 좋습니다. 프런트엔드에 React와 Vite를 사용했는데 제가 선호하는 방식이며
00:06:34React Router도 사용했네요. TanStack을 썼다면 더 좋았겠지만 둘 다 훌륭한 선택입니다.
00:06:38보시는 것처럼 모든 요소가 깔끔하게 배치되어 있습니다.
00:06:42개별 UI 컴포넌트도 잘 나뉘어 있고 프런트엔드 완성도가 매우 높습니다.
00:06:46감점 요인은 백엔드에 있는데, Express 서버를 사용했다는 점입니다.
00:06:51나쁜 건 아니지만 이 정도 규모의 앱이라면 Bun이나 Hono가
00:06:54더 적합했을 것 같습니다. 또한 데이터를 저장하는 방식이
00:06:59전부 메모리 방식입니다. 즉, 백엔드 서비스를 껐다가
00:07:04다시 켜면 시드 스크립트의 데이터만 로드될 뿐,
00:07:08로컬 배열에 저장된 변경 사항은 사라집니다. 데이터베이스가 없기 때문이죠. 다음으로 Opus 4.6입니다.
00:07:13UI 디자인만큼은 Opus 4.7이 확실히 더 잘했다는 게 바로 느껴지네요.
00:07:184.6의 UI는 왠지 모르게 마음에 들지 않습니다. 여백이 너무 많거나
00:07:214.7은 다크 모드였는데 이건 라이트 모드라서 그럴 수도 있겠지만,
00:07:24확실히 4.7의 결과물이 더 좋습니다. 구성 요소 자체는 비슷합니다.
00:07:29순자산 카드, 추이 그래프, 최근 거래 내역, 재무 목표 등이 있고
00:07:33이를 추적할 수 있는 개별 페이지들도 갖추고 있습니다.
00:07:38기능 테스트를 위해 거래 내역을 하나 추가해 보겠습니다.
00:07:42식비로 150달러를 입력하니 내역에 바로 반영되고
00:07:46대시보드의 순자산 수치도 업데이트되는 것을 확인할 수 있습니다.
00:07:50기능상으로는 문제가 없네요. 한 가지 Opus 4.6이 4.7보다 나았던 점은
00:07:54단일 프롬프트에서 계좌 추가 기능이 구현되었다는 것입니다.
00:07:58목표 관리나 예산 추가도 마찬가지로 작동합니다.
00:08:03즉, 4.6이 더 많은 기능을 구현해냈지만, 사실 4.7에게도
00:08:07추가해달라고 하면 그만이라 실사용 시 큰 차이는 아닐 겁니다.
00:08:12코드를 보면 4.6도 React와 Vite를 사용한 비슷한 구조지만
00:08:16흥미로운 점은 React 19와 React Router DOM 7을 사용했다는 점입니다.
00:08:20반면 Opus 4.7은 React 18과 React Router 6를 사용했죠.
00:08:27Opus 4.7의 지식 컷오프가 더 최신일 텐데 의외인 부분입니다.
00:08:32또한 4.6은 백엔드에 SQLite 데이터베이스를 사용하여 데이터를 유지한다는
00:08:36확실한 장점이 있습니다. 하지만 모든 프로젝트 파일에
00:08:40TypeScript 대신 JavaScript를 사용했다는 점이 아쉽네요. 4.7은 TypeScript를 썼거든요.
00:08:45다음은 GPT 5.4의 결과인데, 솔직히 말씀드리면
00:08:50이게 대체 뭔지 모르겠습니다. UI가 너무 조잡해서 도저히 쓸 수가 없네요.
00:08:55너무 복잡하고 폰트도 별로입니다. 긴 시간을 들여 살펴볼
00:08:59가치조차 없어 보입니다. Claude가 만든 것에 비해 훨씬 뒤떨어지네요.
00:09:03입금 기능은 작동하지만, 추가할 때마다 페이지 전체가 새로고침됩니다.
00:09:07코드 역시 실망스럽습니다. GPT 5.4는 제대로 된 프로젝트를
00:09:11구성할 생각이 없었는지 아주 단순하게 index.html,
00:09:14JavaScript, CSS 파일 하나씩만 던져주었습니다. 데이터베이스도
00:09:19실제 DB가 아니라 Opus 4.7처럼 단일 스크립트 내의
00:09:23메모리 배열로 처리했습니다. 그리고 역시 TypeScript 대신 JavaScript를 썼고요.
00:09:28Gemini 3.1의 경우, 앱을 실행하는 것부터 애를 많이 먹었습니다.
00:09:32결과물이 궁금해서 여러 번 추가 프롬프트를 보내야만 했죠.
00:09:36결과물은 Opus 4.6과 거의 판박이입니다. UI 학습 데이터가
00:09:41비슷한 것인지는 몰라도 아주 유사한 모습입니다.
00:09:45기능들은 작동하지 않고 탭 클릭조차 안 됩니다. GPT 5.4도 별로였지만
00:09:50앱 구성 방식만 놓고 보면 Gemini 3.1이 최악인 것 같네요.
00:09:54그래도 Gemini 3.1이 시도한 접근 방식 자체는 칭찬할 만합니다.
00:09:59React Router 대신 Next.js를 선택했는데, 이런 간단한 앱은
00:10:02API 서버 라우트를 활용할 수 있는 Next.js가 좋은 선택이기 때문입니다.
00:10:07다만 Drizzle 대신 Prisma를 사용했다는 점은 제 개인적인 취향과는 좀 다르네요.
00:10:10이번 테스트 결과는 정말 놀랍습니다. 그동안 Codex를 주로 써오면서
00:10:15Claude Code를 멀리했었는데, Opus 4.7의 뛰어난 UI 디자인과
00:10:19높은 완성도를 보니 다시 돌아가야 할지도 모르겠습니다.
00:10:24물론 프롬프트의 질에 따라 결과가 달라질 수 있고, 이번에는 스택 지정을 안 하는 등
00:10:28일부러 모호하게 요청했지만, 그럼에도 결과물은 매우 인상적이었습니다.
00:10:32여러분의 생각은 어떠신가요? 지금 어떤 모델을 주로 쓰시는지
00:10:36댓글로 알려주시고, 구독도 잊지 마세요. 그럼
00:10:49다음 영상에서 뵙겠습니다.