Opus 4.7은 정말 최고입니다 (토큰 사용량만 빼면요)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00새로운 최고의 모델 Opus 4.7이 출시되었습니다. 확실히 꽤 괜찮은 업그레이드로 보입니다.
00:00:05코딩 능력이 향상된 것은 물론, 시각 인지, 자기 검증 기능이 개선되었으며
00:00:09UI 제작 능력도 더 세련되고 창의적으로 변했다고 합니다.
00:00:12단점이라면 비용은 그대로지만 토크나이저가 변경되어
00:00:17정확히 같은 프롬프트를 입력해도 토큰을 최대 35% 더 사용하며, 사고 과정도 길어져서
00:00:22소모되는 토큰이 더 늘어났습니다. 이번 출시에는 정말 흥미로운 세부 사항들이 많고
00:00:26Claude Code 사용 시 바꿔야 할 설정도 있으니, 바로 들어가서
00:00:30무엇이 새로워졌는지 테스트해 봅시다.
00:00:31먼저 벤치마크부터 살펴볼 텐데, 사실 아까 이 모델이
00:00:40새로운 최고의 모델이라고 한 건 약간의 거짓말이었습니다. 공개된 모델 중 최고인 건 맞지만,
00:00:44벤치마크에는 아직 우리가 사용할 수 없는 강력한 모델인 Mythos도 포함되어 있거든요.
00:00:47Anthropic에 따르면, Opus 4.7은 금지되거나 위험한 사이버 보안 요청을 차단하는
00:00:52새로운 사이버 안전장치를 테스트 중이며, 여기서 배운 내용을 바탕으로
00:00:56Mythos 급 모델의 광범위한 출시를 준비할 것이라고 합니다. 미래에는
00:01:00Mythos 출시와 그것이 소프트웨어 개발의 종말을 어떻게 가져올지에 대한 영상을 만들 수 있기를 바랍니다.
00:01:03놓치고 싶지 않다면 구독해 주세요. 이제
00:01:06Mythos는 제쳐두고 우리가 실제로 사용할 수 있는 Opus 4.7에 집중해 봅시다.
00:01:10이 모델은 벤치마크에서 큰 발전을 이루었습니다.
00:01:13세부 수치를 일일이 나열하진 않을 테니 궁금하시면 화면을 멈추고 확인해 보세요.
00:01:16SWE Bench Pro 같은 벤치마크에서는 Opus 4.6 대비 10%나 상승했고
00:01:21Verified 항목에서도 7% 상승하며 다른 벤치마크에서도 비슷한 양상을 보입니다.
00:01:26다만 사이버 보안 분야에서는 점수가 약간 하락했는데,
00:01:30이는 앞서 언급한 안전장치와 관련이 있어 보입니다. 세상을 구하기 위해
00:01:34인위적으로 이 점수를 낮게 유지하는 것 같네요.
00:01:37시스템 카드에서 아주 흥미로운 벤치마크를 발견했는데,
00:01:40긴 문맥 처리 성능(Needle in a Haystack 테스트)이 Opus 4.6에 비해
00:01:45급격히 떨어진 것으로 보입니다. 실제 사용 시 어떤 영향을 미칠지 궁금하네요.
00:01:50벤치마크 외에도 Claude 사용 방식을 바꿀 만한 주목할 만한 개선 사항들이 있습니다.
00:01:54첫 번째는 지시 이행 능력이 향상되었다는 점인데, 이는 기존에 사용하던
00:01:58프롬프트에서 예상치 못한 결과가 나올 수도 있음을 의미합니다.
00:02:01이전 모델들은 지시를 느슨하게 해석하거나 일부 생략하기도 했지만, Opus 4.7은
00:02:07지시를 문자 그대로 따르는 데 집중하므로 프롬프트 수정이 필요할 수 있습니다.
00:02:11다음으로 멀티모달 지원이 강화되어 이전 모델보다 3배 높은 고해상도 이미지를
00:02:16인식할 수 있습니다. 덕분에 컴퓨터 제어나 데이터 추출 작업에 더 유리해졌죠.
00:02:20메모리 사용 능력도 향상되었습니다. Opus 4.7은 파일 시스템 기반 메모리를 더 잘 활용하여
00:02:25여러 세션에 걸친 중요한 노트를 기억하고, 이를 통해 새로운 작업을 할 때
00:02:30초기 문맥을 덜 사용해도 됩니다. 덕분에 토큰을 좀 아낄 수 있을 것 같은데,
00:02:34다음 변화인 토크나이저와 사고 과정 때문에 토큰 관리가 매우 중요해졌습니다.
00:02:39Opus 4.7은 텍스트 처리 방식을 개선한 업데이트된 토크나이저를 사용하지만,
00:02:45그 대가로 동일한 프롬프트 입력 시 비용이 최대 35% 더 발생할 수 있습니다.
00:02:49여기에 Opus 4.7이 높은 노력 수준에서 더 많이 생각한다는 점까지 더해지면
00:02:54토큰 소모량이 상당할 것입니다. 설상가상으로 새로운 '초고강도(Extra High)'
00:02:58노력 수준이 추가되었고, 이것이 Claude Code의 기본값으로 설정되어 있습니다.
00:03:02따라서 다양한 노력 수준을 직접 테스트해 보고, 성능 저하 없이
00:03:05설정을 낮출 수 있는지 확인해 보시길 권장합니다. 비교를 해보자면,
00:03:09새로운 '초고강도' 수준은 Opus 4.6의 최대 노력 수준과 비슷한 토큰을 사용하며,
00:03:14Opus 4.7의 '고강도(High)' 수준은 Opus 4.6의 최대 수준보다 적은 토큰으로
00:03:19더 높은 점수를 기록했습니다. 이전 수준의 성능으로도 충분하다면
00:03:24차트를 참고해 보세요. 저 같은 경우는 대부분의 경우 '고강도' 수준을 사용할 계획입니다.
00:03:27주요 변경 사항 요약은 이 정도로 하고, 이제 토큰을 써가며 직접 테스트해 보겠습니다.
00:03:31가장 먼저 확인해 볼 것은 UI 디자인 실력입니다.
00:03:35index.html 파일 하나로 카페 웹사이트를 만들어달라는 아주 간단한 프롬프트를 주었습니다.
00:03:40테스트하는 모든 모델의 노력 수준은 최대로 설정했습니다.
00:03:43Opus 4.7, 4.6, Gemini 3.1, GPT 5.4를 비교해 보죠. 이것이 Opus 4.7의 결과물입니다.
00:03:51카페 느낌이 잘 살아있고 꽤 괜찮아 보입니다. 폰트 선택도 좋고
00:03:55Unsplash에서 적절한 이미지도 가져왔네요. 전반적으로 흠잡을 데 없습니다.
00:03:59심플한 구조에 메뉴 섹션도 잘 구성되어 있고 반응형 웹으로 제작되었습니다.
00:04:04매우 만족스럽네요. Opus 4.6이 만든 것과 비교해 보면,
00:04:09스타일은 좀 다르지만 폰트나 메뉴 구성은 비슷합니다.
00:04:12다만 전반적으로 4.7보다는 조금 떨어지는데, 배경 이미지가 없고
00:04:16그라데이션 처리가 매끄럽지 않기 때문입니다. 그래도 나쁘진 않네요.
00:04:20Opus 4.7이 한 단계 위라고 볼 수 있겠네요. 반면 Gemini 3.1은
00:04:25가장 뛰어난 결과를 보여주었습니다. 제 취향에는 이게 제일 마음에 드네요.
00:04:29스크롤해도 배경이 고정되어 있는 방식이 마음에 들고,
00:04:33이미지 섹션과 브랜드 스토리 섹션도 아주 잘 만들었습니다.
00:04:36메뉴는 다른 모델들과 비슷하지만 레이아웃이 훨씬 깔끔합니다.
00:04:40푸터 부분도 마찬가지고요. 이번 대결은 Gemini 3.1의 승리네요.
00:04:45꼴찌는 단연 GPT 5.4입니다. 특유의 GPT스러운 느낌이 너무 강하네요.
00:04:50블러 처리가 들어간 카드형 UI를 남발하는데, 제 기준에서는
00:04:55카페 웹사이트 같지 않고 흔하디흔한 GPT 앱처럼 보입니다.
00:04:59Opus 4.7은 확실히 UI에 강점이 있고, 구체적인 지시를 주면 더 잘할 것 같습니다.
00:05:04현재 디자인 아레나에서는 Opus 4.6이 웹사이트 부문 1위인데,
00:05:09곧 4.7이 그 자리를 차지할 것으로 보입니다. 방금 테스트는 너무 간단했으니
00:05:13다음은 더 복잡한 과제를 주겠습니다. 보시는 것처럼 Claude Code를 통해
00:05:17Opus 4.6에게 개인 금융 관리 대시보드 제작을 요청했습니다.
00:05:21개인의 재무 상태를 상세히 보여주는 다양한 기능을 포함하도록 프롬프트를 작성했고
00:05:25기술 스택은 지정하지 않았습니다. 모델이 스스로 선택해서 바닥부터 만들어야 합니다.
00:05:30먼저 Opus 4.7의 결과입니다. 단 한 번의 프롬프트로 약 20분 만에 완성했는데,
00:05:34첫인상은 '와, 대단하다'였습니다. UI가 정말 깔끔하고 차트도 훌륭합니다.
00:05:39배치도 잘 되어 있고 색상 조합도 좋습니다. 솔직히 말해서
00:05:44제가 직접 수정할 부분이 거의 보이지 않을 정도로 UI 측면에서 환상적입니다.
00:05:48요청했던 개별 페이지들도 모두 구현되었습니다. 계좌 목록을 볼 수 있고,
00:05:53거래 내역과 예산도 확인할 수 있습니다. 다만 현재 예산을 새로
00:05:57추가하는 기능은 구현되지 않은 것 같고, 목표 관리도 마찬가지입니다.
00:06:02하지만 기존 목표에 금액을 추가하는 것은 가능하며, 숫자가 올라가면
00:06:05함께 생성된 백엔드 API도 정상적으로 업데이트됩니다.
00:06:10송금 기능도 마찬가지입니다. 제 Claude Code 구독료를
00:06:14지불하는 테스트를 해봤는데, 성공적으로 전송되었고
00:06:17대시보드로 돌아오니 해당 거래 내역이 반영되어 순자산이 업데이트되었습니다.
00:06:22모든 것이 정상 작동하며 백엔드 데이터베이스도 사용 중입니다.
00:06:26최근 거래 내역에도 잘 나타나네요. 생성된 코드를 살펴보면
00:06:30구조가 꽤 좋습니다. 프런트엔드에 React와 Vite를 사용했는데 제가 선호하는 방식이며
00:06:34React Router도 사용했네요. TanStack을 썼다면 더 좋았겠지만 둘 다 훌륭한 선택입니다.
00:06:38보시는 것처럼 모든 요소가 깔끔하게 배치되어 있습니다.
00:06:42개별 UI 컴포넌트도 잘 나뉘어 있고 프런트엔드 완성도가 매우 높습니다.
00:06:46감점 요인은 백엔드에 있는데, Express 서버를 사용했다는 점입니다.
00:06:51나쁜 건 아니지만 이 정도 규모의 앱이라면 Bun이나 Hono가
00:06:54더 적합했을 것 같습니다. 또한 데이터를 저장하는 방식이
00:06:59전부 메모리 방식입니다. 즉, 백엔드 서비스를 껐다가
00:07:04다시 켜면 시드 스크립트의 데이터만 로드될 뿐,
00:07:08로컬 배열에 저장된 변경 사항은 사라집니다. 데이터베이스가 없기 때문이죠. 다음으로 Opus 4.6입니다.
00:07:13UI 디자인만큼은 Opus 4.7이 확실히 더 잘했다는 게 바로 느껴지네요.
00:07:184.6의 UI는 왠지 모르게 마음에 들지 않습니다. 여백이 너무 많거나
00:07:214.7은 다크 모드였는데 이건 라이트 모드라서 그럴 수도 있겠지만,
00:07:24확실히 4.7의 결과물이 더 좋습니다. 구성 요소 자체는 비슷합니다.
00:07:29순자산 카드, 추이 그래프, 최근 거래 내역, 재무 목표 등이 있고
00:07:33이를 추적할 수 있는 개별 페이지들도 갖추고 있습니다.
00:07:38기능 테스트를 위해 거래 내역을 하나 추가해 보겠습니다.
00:07:42식비로 150달러를 입력하니 내역에 바로 반영되고
00:07:46대시보드의 순자산 수치도 업데이트되는 것을 확인할 수 있습니다.
00:07:50기능상으로는 문제가 없네요. 한 가지 Opus 4.6이 4.7보다 나았던 점은
00:07:54단일 프롬프트에서 계좌 추가 기능이 구현되었다는 것입니다.
00:07:58목표 관리나 예산 추가도 마찬가지로 작동합니다.
00:08:03즉, 4.6이 더 많은 기능을 구현해냈지만, 사실 4.7에게도
00:08:07추가해달라고 하면 그만이라 실사용 시 큰 차이는 아닐 겁니다.
00:08:12코드를 보면 4.6도 React와 Vite를 사용한 비슷한 구조지만
00:08:16흥미로운 점은 React 19와 React Router DOM 7을 사용했다는 점입니다.
00:08:20반면 Opus 4.7은 React 18과 React Router 6를 사용했죠.
00:08:27Opus 4.7의 지식 컷오프가 더 최신일 텐데 의외인 부분입니다.
00:08:32또한 4.6은 백엔드에 SQLite 데이터베이스를 사용하여 데이터를 유지한다는
00:08:36확실한 장점이 있습니다. 하지만 모든 프로젝트 파일에
00:08:40TypeScript 대신 JavaScript를 사용했다는 점이 아쉽네요. 4.7은 TypeScript를 썼거든요.
00:08:45다음은 GPT 5.4의 결과인데, 솔직히 말씀드리면
00:08:50이게 대체 뭔지 모르겠습니다. UI가 너무 조잡해서 도저히 쓸 수가 없네요.
00:08:55너무 복잡하고 폰트도 별로입니다. 긴 시간을 들여 살펴볼
00:08:59가치조차 없어 보입니다. Claude가 만든 것에 비해 훨씬 뒤떨어지네요.
00:09:03입금 기능은 작동하지만, 추가할 때마다 페이지 전체가 새로고침됩니다.
00:09:07코드 역시 실망스럽습니다. GPT 5.4는 제대로 된 프로젝트를
00:09:11구성할 생각이 없었는지 아주 단순하게 index.html,
00:09:14JavaScript, CSS 파일 하나씩만 던져주었습니다. 데이터베이스도
00:09:19실제 DB가 아니라 Opus 4.7처럼 단일 스크립트 내의
00:09:23메모리 배열로 처리했습니다. 그리고 역시 TypeScript 대신 JavaScript를 썼고요.
00:09:28Gemini 3.1의 경우, 앱을 실행하는 것부터 애를 많이 먹었습니다.
00:09:32결과물이 궁금해서 여러 번 추가 프롬프트를 보내야만 했죠.
00:09:36결과물은 Opus 4.6과 거의 판박이입니다. UI 학습 데이터가
00:09:41비슷한 것인지는 몰라도 아주 유사한 모습입니다.
00:09:45기능들은 작동하지 않고 탭 클릭조차 안 됩니다. GPT 5.4도 별로였지만
00:09:50앱 구성 방식만 놓고 보면 Gemini 3.1이 최악인 것 같네요.
00:09:54그래도 Gemini 3.1이 시도한 접근 방식 자체는 칭찬할 만합니다.
00:09:59React Router 대신 Next.js를 선택했는데, 이런 간단한 앱은
00:10:02API 서버 라우트를 활용할 수 있는 Next.js가 좋은 선택이기 때문입니다.
00:10:07다만 Drizzle 대신 Prisma를 사용했다는 점은 제 개인적인 취향과는 좀 다르네요.
00:10:10이번 테스트 결과는 정말 놀랍습니다. 그동안 Codex를 주로 써오면서
00:10:15Claude Code를 멀리했었는데, Opus 4.7의 뛰어난 UI 디자인과
00:10:19높은 완성도를 보니 다시 돌아가야 할지도 모르겠습니다.
00:10:24물론 프롬프트의 질에 따라 결과가 달라질 수 있고, 이번에는 스택 지정을 안 하는 등
00:10:28일부러 모호하게 요청했지만, 그럼에도 결과물은 매우 인상적이었습니다.
00:10:32여러분의 생각은 어떠신가요? 지금 어떤 모델을 주로 쓰시는지
00:10:36댓글로 알려주시고, 구독도 잊지 마세요. 그럼
00:10:49다음 영상에서 뵙겠습니다.

Key Takeaway

Opus 4.7은 토큰 사용량이 35% 늘어나는 비용 최적화 문제를 안고 있지만, 향상된 지시 이행 능력과 UI 디자인 역량을 통해 복잡한 풀스택 애플리케이션을 20분 만에 구축할 수 있는 성능을 제공합니다.

Highlights

Opus 4.7은 SWE Bench Pro 벤치마크에서 이전 모델 대비 10% 상승한 점수를 기록하며 코딩 성능 우위를 입증했습니다.

토크나이저 변경으로 인해 동일한 프롬프트 입력 시 토큰 사용량이 최대 35% 증가하며 비용 부담이 커졌습니다.

멀티모달 성능 강화로 고해상도 이미지 인식 능력이 3배 향상되어 컴퓨터 제어와 데이터 추출 작업 효율이 높아졌습니다.

Claude Code의 기본 설정인 '초고강도(Extra High)' 노력 수준은 Opus 4.6의 최대 수준과 유사한 양의 토큰을 소모합니다.

실제 UI 제작 테스트에서 Opus 4.7은 TypeScript와 React 18을 사용해 20분 만에 완성도 높은 개인 금융 대시보드를 구축했습니다.

벤치마크 데이터에 따르면 Opus 4.7은 긴 문맥을 처리하는 Needle in a Haystack 테스트에서 4.6 대비 성능이 급격히 하락했습니다.

Timeline

Opus 4.7 벤치마크 성적과 사이버 보안 안전장치

  • SWE Bench Pro에서 이전 모델 대비 10%의 성능 향상을 기록했습니다.
  • 사이버 보안 벤치마크 점수는 새로운 안전장치 도입으로 인해 의도적으로 낮게 유지되었습니다.
  • 긴 문맥 처리 능력을 측정하는 테스트에서는 4.6 모델보다 낮은 수치를 보였습니다.

Opus 4.7은 전반적인 코딩 및 논리 벤치마크에서 상승세를 보였으나 보안 요청 차단 기능 강화로 인해 관련 점수는 하락했습니다. Anthropic은 현재 공개되지 않은 강력한 모델인 Mythos의 출시를 준비 중이며, Opus 4.7은 이를 위한 사이버 안전장치 테스트베드 역할을 수행합니다. 다만 문맥 유지 성능이 떨어진 점은 실제 대규모 프로젝트 작업 시 주의가 필요한 요소입니다.

토크나이저 변경에 따른 비용 증가와 효율적인 설정

  • 업데이트된 토크나이저 적용으로 동일 프롬프트에 대해 최대 35% 더 많은 토큰을 사용합니다.
  • 새로운 '초고강도(Extra High)' 노력 수준이 Claude Code의 기본값으로 지정되었습니다.
  • Opus 4.7의 '고강도(High)' 수준은 4.6의 최대 수준보다 적은 토큰으로 더 높은 성능을 냅니다.

모델의 사고 과정이 길어지고 텍스트 처리 방식이 바뀌면서 운영 비용이 실질적으로 상승했습니다. 사용자는 비용 절감을 위해 Claude Code의 기본 설정을 '고강도'로 낮추어 사용하는 것이 효율적입니다. 지시 이행 능력이 훨씬 엄격해졌기 때문에 과거에 느슨하게 작성했던 프롬프트는 문자 그대로 해석되어 의도와 다른 결과를 낼 수 있으므로 수정이 필요합니다.

주요 AI 모델별 UI 디자인 역량 비교

  • 간단한 카페 웹사이트 제작 테스트에서 Gemini 3.1이 레이아웃과 고정 배경 처리 면에서 가장 높은 점수를 받았습니다.
  • Opus 4.7은 적절한 폰트 선택과 이미지 배치를 통해 4.6보다 세련된 결과물을 생성했습니다.
  • GPT 5.4는 정형화된 카드형 UI를 남발하며 가장 낮은 디자인 완성도를 보였습니다.

단일 HTML 파일 제작 환경에서 각 모델의 미적 감각을 측정한 결과, Gemini 3.1이 가장 현대적인 웹 디자인을 선보였습니다. Opus 4.7은 4.6에서 부족했던 그라데이션과 이미지 활용 능력을 개선하며 디자인 아레나 상위권 진입 가능성을 보여주었습니다. 반면 GPT 5.4는 특유의 일률적인 스타일에서 벗어나지 못해 카페 웹사이트의 개성을 살리는 데 실패했습니다.

풀스택 금융 대시보드 구축을 통한 실전 성능 검증

  • Opus 4.7은 TypeScript와 React를 활용해 기능적으로 완벽한 다크 모드 UI를 구축했습니다.
  • Opus 4.6은 SQLite를 사용해 데이터 영속성을 구현했으나 디자인 구성과 언어 선택에서 4.7에 뒤처졌습니다.
  • Gemini 3.1과 GPT 5.4는 복잡한 프로젝트 구조를 생성하는 데 실패하거나 사용 불가능한 수준의 코드를 제공했습니다.

개인 금융 관리 앱 제작 과정에서 Opus 4.7은 단 20분 만에 차트와 API 연동이 포함된 프런트엔드를 완성했습니다. 4.7은 백엔드 데이터 저장을 메모리 배열 방식으로 처리한 한계가 있었으나, 4.6보다 최신 기술인 TypeScript를 사용하여 코드 품질을 높였습니다. 경쟁 모델인 GPT 5.4와 Gemini 3.1은 프로젝트 파일 구성이 부실하거나 탭 클릭조차 작동하지 않는 등 복잡한 개발 작업에서 Claude 시리즈에 비해 현저히 낮은 성능을 노출했습니다.

Community Posts

View all posts