클로드 오퍼스 4.7 출시, 이건 비교조차 안 됩니다

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7이 방금 출시되었는데, 수치상으로 보면

00:00:04엄청난 업그레이드입니다. 자, 자세히 살펴봅시다. 우선 먼저

00:00:08벤치마크부터 보시죠. 지금 오른쪽을 보시면 Mythos가 나와 있는데,

00:00:12단지 실존하는 모델이라는 것만 살짝 보여주고 있습니다.

00:00:15하지만 제가 정말 주목하고 싶은 건 4.7 대 4.6입니다. 왜냐하면

00:00:20Mythos가 언제 출시될지는 아무도 모르기 때문이죠. 수치상으로는

00:00:23특히 코딩 분야에서 아주 확실한 도약을 보여줍니다.

00:00:28에이전틱 코딩(agentic coding)을 살펴보면 53에서 64로 뛰었고,

00:00:3280에서 87로,

00:00:34그리고 SWE-bench Pro, SWE-bench Verified, Terminal Bench 2.0이라는

00:00:39세 가지 큰 테스트에서 65에서 69로 상승했습니다.

00:00:42Opus 4.7의 벤치마크 결과가

00:00:46다른 모든 모델보다 우위에 있지 않은 유일한 부분은

00:00:49Mythos를 제외하고, GPT 5.4와 비교한 에이전틱 검색 부분입니다.

00:00:54GPT 5.4가 89.3점인 반면, Opus 4.7은

00:00:57이상하게도 4.6에 비해 점수가 떨어졌습니다. 아시다시피

00:01:01이런 수치를 보게 되면,

00:01:02Opus 4.6보다 오히려 성능이 낮아진 벤치마크를 굳이 보여주는 것이

00:01:06일부러 넣은 게 아닐까 싶기도 하죠. 마치 "이 벤치마크는 진짜예요,

00:01:08거짓말이 아닙니다. 이것 좀 보세요"라고 말하는 것처럼요.

00:01:11음, 어쨌든

00:01:125.4가 에이전틱 검색과 대학원 수준의 추론에서 앞서고 있습니다.

00:01:17또 다른 비약적인 발전이 있는 분야는 시각적 추론입니다.

00:01:2169에서 82로 크게 올랐는데,

00:01:25이는 이 모델의 시각 인지 능력이 훨씬 좋아진 것과

00:01:29관련이 있을 수 있습니다.

00:01:29Opus 4.7에 입력하는 이미지의 해상도가

00:01:34이제 3배나 높아졌다고 하는데, 이건 정말 엄청난 일입니다.

00:01:36다이어그램이나 작은 텍스트가 포함된 작업을 한다면 말이죠.

00:01:38이 그래프들에서도 동일한 수치 변화가 반영되어 있습니다.

00:01:42지식 작업, 시각 능력 향상과 더불어 문서 추론에서 57.1에서 80.6으로

00:01:46엄청나게 점수가 뛰었는데, 이는 큰 장점입니다.

00:01:50만약 여러분이 Cowork 같은 도구를 사용하거나,

00:01:52사무실 환경에서 하루 종일 인공지능에

00:01:55문서만 입력하는 분이라면 더욱 그렇겠죠. 긴 문맥 추론도 중요합니다.

00:01:57저희 채널에서는 항상 문맥 손실(context rot)과

00:02:02세션 관리의 중요성에 대해 강조해 왔습니다. 제 생각에 그건 변하지 않습니다.

00:02:0771에서 75로 오른 건 좋지만,

00:02:09문맥 창의 20%나 25% 정도를 채웠을 때마다 대화 내용을 비우는

00:02:13공격적인 관리 방식은 그대로 유지해야 합니다. 어쨌든 개선된 건 사실이죠.

00:02:17반가운 소식입니다. 그리고 이 부분도 흥미롭네요.

00:02:19멀티모달과 관련된 코딩 벤치마크입니다. 코딩 작업이지만

00:02:22이미지 같은 요소가 포함된 문맥을

00:02:25함께 제공하는 경우를 포함합니다. 이건 놀라운 결과가 아니라고 봅니다.

00:02:28해상도 향상이 큰 몫을 했을 테니까요.

00:02:30모델 자체 외에도 몇 가지 업데이트가 더 있습니다.

00:02:32가장 큰 변화는 '노력 수준(effort control)' 조절 기능입니다. 이제 'X-High' 단계가 생겼는데,

00:02:37OpenAI의 방식을 참고한 듯하며 High와 Max 사이에 위치합니다.

00:02:40게다가 Claude Code는 이제 기본 설정이 Extra High로 되어 있습니다.

00:02:44Opus 4.6의 성능이 저하되었다는(nerfed) 많은 사람들의 주장에 대한

00:02:48대응으로 보입니다. Opus의 제작자는 아니지만

00:02:52Claude Code의 제작자인 Boris Cherny가 나와서 말하길,

00:02:54사실 기본 추론 수준, 즉 기본 노력 수준을

00:02:58Medium으로 옮겼었다고 합니다. 그래서 X-High를 내놓은 것은

00:03:01성능을 이른바 "더 좋게" 만들고 더 열심히 하도록 유도하면서도,

00:03:05사람들을 Max로 몰지 않기 위한 반응인 것 같습니다. Max로 가면

00:03:10사용량이 너무 빨리 찬다는 불만이 나올 테니까요. 참고로

00:03:12설정을 바꾸고 싶다면,

00:03:13"/effort" 명령어를 입력하고 레벨을 설정하면 됩니다.

00:03:16고해상도 지원은 API에서도 사용 가능합니다.

00:03:19그리고 새로운 "/ultra-review" 슬래시 명령어도 출시되었습니다.

00:03:24이를 통해 전용 리뷰 세션을 가질 수 있게 되었습니다.

00:03:28또한 자동 모드(auto mode)도 확장되었습니다.

00:03:31자동 모드를 모르시는 분들을 위해 설명하자면, 권한 확인을 건너뛰는 방식의 대안입니다.

00:03:34여기서 유의할 점은 Opus 4.7이 4.6보다

00:03:39더 많은 토큰을 사용한다는 것입니다.

00:03:40그들은 Opus 4.7이 업데이트된 토크나이저를 사용하며 텍스트 처리 방식을

00:03:45개선했다고 명시하고 있지만, 그로 인해 입력 토큰 양이

00:03:50콘텐츠 유형에 따라 대략 1배에서 1.35배 정도 증가합니다.

00:03:54둘째로, Opus 4.7은 높은 노력 수준에서 더 많이 생각합니다.

00:03:58기존에는 Medium이었던 기본 노력 수준이 Extra High로 설정되었고

00:04:03Opus 4.7 자체도 토큰을 더 많이 쓴다는 점을 기억하세요.

00:04:07만약 지금까지 설정을 바꾸지 않고 Medium만 사용해 왔는데

00:04:09이미 4.6에서도 사용량 제한에

00:04:13걸리고 있었다면 주의해야 합니다. 사용량 문제가 확실히 발생할 수 있음을

00:04:18이해해야 합니다. 이미 그런 상황인 분들이라면,

00:04:19이제 토큰을 훨씬 더 많이 사용하게 될 것이기 때문입니다.

00:04:21흥미롭게도 확장된 사고(extended thinking) 기능도 제거되었습니다.

00:04:25이 마이그레이션에 대해 더 자세히 알고 싶으시다면,

00:04:28공식 문서에 전체 내용을 게시해 두었으니 확인해 보세요.

00:04:30종합적으로 볼 때 정말 탄탄한 업그레이드로 보입니다.

00:04:32어서 빨리 직접 테스트해 보고 싶네요.

Key Takeaway

Opus 4.7은 시각 지각력 3배 향상과 코딩 성능 도약을 달성했으나, 기본 노력 수준 상향과 토크나이저 변경으로 인해 토큰 소모량이 최대 35% 늘어납니다.

Highlights

Opus 4.7은 에이전틱 코딩 벤치마크 점수를 53점에서 64점으로 끌어올리며 코딩 성능의 도약을 보여줍니다.
이미지 입력 해상도가 기존보다 3배 높아져 시각적 추론 점수가 69점에서 82점으로 상승했습니다.
문서 추론 성능은 57.1점에서 80.6점으로 개선되어 사무 환경의 대규모 문서 처리 효율이 강화되었습니다.
노력 수준(effort control) 설정에 High와 Max 사이의 단계인 X-High가 추가되었습니다.
Claude Code의 기본 노력 설정이 Medium에서 X-High로 상향되었으며 /effort 명령어로 조절 가능합니다.
새로운 토크나이저 도입으로 인해 입력 토큰 사용량이 콘텐츠 유형에 따라 1배에서 1.35배까지 증가합니다.

Timeline

코딩 및 추론 벤치마크의 수치적 도약

에이전틱 코딩 점수가 53점에서 64점으로 상승하며 기술적 진보를 입증합니다.
SWE-bench Pro를 포함한 주요 3대 테스트에서 65점에서 69점으로 성능이 개선되었습니다.
GPT 5.4는 에이전틱 검색과 대학원 수준 추론 분야에서 여전히 Opus 4.7보다 우위에 있습니다.

Opus 4.7은 이전 버전인 4.6과 비교하여 대부분의 지표에서 확실한 우위를 점합니다. 다만 에이전틱 검색 점수는 4.6보다 낮게 측정되었는데, 이는 벤치마크 데이터의 신뢰성을 보여주는 지표로 해석됩니다. 출시 시기가 미정인 Mythos 모델을 제외하면 현존하는 모델 중 최상위권의 코딩 능력을 갖추고 있습니다.

시각 인지 및 문서 처리 능력 강화

해상도 3배 증가에 힘입어 시각적 추론 점수가 69점에서 82점으로 크게 올랐습니다.
문서 추론 점수는 57.1점에서 80.6점으로 수직 상승하여 텍스트 위주 업무 효율을 높입니다.
문맥 창 관리 효율은 71점에서 75점으로 소폭 개선되었습니다.

입력 이미지의 해상도가 대폭 상향되면서 다이어그램이나 작은 글씨를 인식하는 능력이 정밀해졌습니다. 이는 멀티모달 코딩 환경에서 이미지를 포함한 문맥을 이해하는 데 직접적인 도움을 줍니다. 문맥 손실을 방지하기 위해 문맥 창의 20~25%가 채워질 때마다 세션을 관리하는 방식은 여전히 권장됩니다.

노력 수준 조절 기능과 토큰 사용량 변화

새로운 노력 수준인 X-High 단계를 도입하여 성능과 사용량 사이의 균형을 맞춥니다.
업데이트된 토크나이저의 영향으로 입력 토큰 사용량이 1배에서 1.35배 사이로 증가합니다.
확장된 사고(extended thinking) 기능이 제거되고 자동 모드 권한 설정이 확장되었습니다.

기존에 Medium으로 설정되었던 기본 노력 수준이 X-High로 상향되면서 모델이 더 많은 연산을 수행하게 됩니다. 여기에 토크나이저 변경에 따른 토큰 소모량 증가가 더해져 사용량 제한에 도달하는 속도가 빨라질 수 있습니다. 사용자는 /effort 명령어를 통해 자신의 필요에 맞게 연산 강도를 직접 제어해야 합니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video