00:00:00Opus 4.7이 방금 출시되었는데, 수치상으로 보면
00:00:04엄청난 업그레이드입니다. 자, 자세히 살펴봅시다. 우선 먼저
00:00:08벤치마크부터 보시죠. 지금 오른쪽을 보시면 Mythos가 나와 있는데,
00:00:12단지 실존하는 모델이라는 것만 살짝 보여주고 있습니다.
00:00:15하지만 제가 정말 주목하고 싶은 건 4.7 대 4.6입니다. 왜냐하면
00:00:20Mythos가 언제 출시될지는 아무도 모르기 때문이죠. 수치상으로는
00:00:23특히 코딩 분야에서 아주 확실한 도약을 보여줍니다.
00:00:28에이전틱 코딩(agentic coding)을 살펴보면 53에서 64로 뛰었고,
00:00:3280에서 87로,
00:00:34그리고 SWE-bench Pro, SWE-bench Verified, Terminal Bench 2.0이라는
00:00:39세 가지 큰 테스트에서 65에서 69로 상승했습니다.
00:00:42Opus 4.7의 벤치마크 결과가
00:00:46다른 모든 모델보다 우위에 있지 않은 유일한 부분은
00:00:49Mythos를 제외하고, GPT 5.4와 비교한 에이전틱 검색 부분입니다.
00:00:54GPT 5.4가 89.3점인 반면, Opus 4.7은
00:00:57이상하게도 4.6에 비해 점수가 떨어졌습니다. 아시다시피
00:01:01이런 수치를 보게 되면,
00:01:02Opus 4.6보다 오히려 성능이 낮아진 벤치마크를 굳이 보여주는 것이
00:01:06일부러 넣은 게 아닐까 싶기도 하죠. 마치 "이 벤치마크는 진짜예요,
00:01:08거짓말이 아닙니다. 이것 좀 보세요"라고 말하는 것처럼요.
00:01:11음, 어쨌든
00:01:125.4가 에이전틱 검색과 대학원 수준의 추론에서 앞서고 있습니다.
00:01:17또 다른 비약적인 발전이 있는 분야는 시각적 추론입니다.
00:01:2169에서 82로 크게 올랐는데,
00:01:25이는 이 모델의 시각 인지 능력이 훨씬 좋아진 것과
00:01:29관련이 있을 수 있습니다.
00:01:29Opus 4.7에 입력하는 이미지의 해상도가
00:01:34이제 3배나 높아졌다고 하는데, 이건 정말 엄청난 일입니다.
00:01:36다이어그램이나 작은 텍스트가 포함된 작업을 한다면 말이죠.
00:01:38이 그래프들에서도 동일한 수치 변화가 반영되어 있습니다.
00:01:42지식 작업, 시각 능력 향상과 더불어 문서 추론에서 57.1에서 80.6으로
00:01:46엄청나게 점수가 뛰었는데, 이는 큰 장점입니다.
00:01:50만약 여러분이 Cowork 같은 도구를 사용하거나,
00:01:52사무실 환경에서 하루 종일 인공지능에
00:01:55문서만 입력하는 분이라면 더욱 그렇겠죠. 긴 문맥 추론도 중요합니다.
00:01:57저희 채널에서는 항상 문맥 손실(context rot)과
00:02:02세션 관리의 중요성에 대해 강조해 왔습니다. 제 생각에 그건 변하지 않습니다.
00:02:0771에서 75로 오른 건 좋지만,
00:02:09문맥 창의 20%나 25% 정도를 채웠을 때마다 대화 내용을 비우는
00:02:13공격적인 관리 방식은 그대로 유지해야 합니다. 어쨌든 개선된 건 사실이죠.
00:02:17반가운 소식입니다. 그리고 이 부분도 흥미롭네요.
00:02:19멀티모달과 관련된 코딩 벤치마크입니다. 코딩 작업이지만
00:02:22이미지 같은 요소가 포함된 문맥을
00:02:25함께 제공하는 경우를 포함합니다. 이건 놀라운 결과가 아니라고 봅니다.
00:02:28해상도 향상이 큰 몫을 했을 테니까요.
00:02:30모델 자체 외에도 몇 가지 업데이트가 더 있습니다.
00:02:32가장 큰 변화는 '노력 수준(effort control)' 조절 기능입니다. 이제 'X-High' 단계가 생겼는데,
00:02:37OpenAI의 방식을 참고한 듯하며 High와 Max 사이에 위치합니다.
00:02:40게다가 Claude Code는 이제 기본 설정이 Extra High로 되어 있습니다.
00:02:44Opus 4.6의 성능이 저하되었다는(nerfed) 많은 사람들의 주장에 대한
00:02:48대응으로 보입니다. Opus의 제작자는 아니지만
00:02:52Claude Code의 제작자인 Boris Cherny가 나와서 말하길,
00:02:54사실 기본 추론 수준, 즉 기본 노력 수준을
00:02:58Medium으로 옮겼었다고 합니다. 그래서 X-High를 내놓은 것은
00:03:01성능을 이른바 "더 좋게" 만들고 더 열심히 하도록 유도하면서도,
00:03:05사람들을 Max로 몰지 않기 위한 반응인 것 같습니다. Max로 가면
00:03:10사용량이 너무 빨리 찬다는 불만이 나올 테니까요. 참고로
00:03:12설정을 바꾸고 싶다면,
00:03:13"/effort" 명령어를 입력하고 레벨을 설정하면 됩니다.
00:03:16고해상도 지원은 API에서도 사용 가능합니다.
00:03:19그리고 새로운 "/ultra-review" 슬래시 명령어도 출시되었습니다.
00:03:24이를 통해 전용 리뷰 세션을 가질 수 있게 되었습니다.
00:03:28또한 자동 모드(auto mode)도 확장되었습니다.
00:03:31자동 모드를 모르시는 분들을 위해 설명하자면, 권한 확인을 건너뛰는 방식의 대안입니다.
00:03:34여기서 유의할 점은 Opus 4.7이 4.6보다
00:03:39더 많은 토큰을 사용한다는 것입니다.
00:03:40그들은 Opus 4.7이 업데이트된 토크나이저를 사용하며 텍스트 처리 방식을
00:03:45개선했다고 명시하고 있지만, 그로 인해 입력 토큰 양이
00:03:50콘텐츠 유형에 따라 대략 1배에서 1.35배 정도 증가합니다.
00:03:54둘째로, Opus 4.7은 높은 노력 수준에서 더 많이 생각합니다.
00:03:58기존에는 Medium이었던 기본 노력 수준이 Extra High로 설정되었고
00:04:03Opus 4.7 자체도 토큰을 더 많이 쓴다는 점을 기억하세요.
00:04:07만약 지금까지 설정을 바꾸지 않고 Medium만 사용해 왔는데
00:04:09이미 4.6에서도 사용량 제한에
00:04:13걸리고 있었다면 주의해야 합니다. 사용량 문제가 확실히 발생할 수 있음을
00:04:18이해해야 합니다. 이미 그런 상황인 분들이라면,
00:04:19이제 토큰을 훨씬 더 많이 사용하게 될 것이기 때문입니다.
00:04:21흥미롭게도 확장된 사고(extended thinking) 기능도 제거되었습니다.
00:04:25이 마이그레이션에 대해 더 자세히 알고 싶으시다면,
00:04:28공식 문서에 전체 내용을 게시해 두었으니 확인해 보세요.
00:04:30종합적으로 볼 때 정말 탄탄한 업그레이드로 보입니다.
00:04:32어서 빨리 직접 테스트해 보고 싶네요.