Anthropic, Opus 4.8이라는 폭탄을 터뜨리다

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropic이 오늘 Claude Opus 4.8을 출시했습니다.

00:00:02그래서 이번 영상에서는 아주 빠르게

00:00:05무엇이 바뀌었는지, 그리고 무엇에 주목해야 할지

00:00:08이 새로운 모델에 대해 알려드리겠습니다.

00:00:09바로 벤치마크부터 살펴보죠.

00:00:12여기에 표시된 Opus 4.8을 보면

00:00:14Opus 4.7, GPT 5.5, 그리고 Gemini 3.1 Pro와 비교했을 때,

00:00:20Opus는 거의 모든 부문에서 이들을 압도합니다.

00:00:24에이전트 터미널 코딩 분야를 제외하고는 말이죠,

00:00:26바로 Terminal Bench 2.1입니다.

00:00:28거기서 74.6점을 기록했는데,

00:00:30이것도 Opus 4.7에 비하면 엄청난 도약이지만,

00:00:34여전히 GPT 5.5에는 뒤처집니다.

00:00:37하지만 SWE Bench Pro,

00:00:40다학제적 추론, 에이전트 컴퓨터 사용,

00:00:42지식 업무, 그리고 에이전트 금융 분석 등

00:00:45다른 분야에서는 모두 앞서고 있습니다.

00:00:47물론 벤치마크는 항상 어느 정도 걸러 들어야 하지만,

00:00:49Opus 4.7 이후에 보여준 이런 큰 도약은 고무적입니다.

00:00:53불과 얼마 전이었잖아요.

00:00:56그게 몇 달 전이었죠,

00:00:574.7이 출시된 지 얼마 안 됐는데

00:00:58벌써 4.8이 나왔고,

00:01:01에이전트 코딩 점수가 64에서 69로 올랐습니다.

00:01:04정말 대단한 일이죠.

00:01:054.8이 4.7에 비해 개선된 점 중 하나는,

00:01:08Anthropic에 따르면 바로 정직성입니다.

00:01:11여기서 정직성이란, 이 AI 모델은

00:01:14무언가를 하라고 시켰을 때,

00:01:15할 수 없거나 하지 않았다면

00:01:18실제로 그렇게 말해준다는 뜻입니다.

00:01:19이건 정말 중요한 부분입니다.

00:01:20지난 몇 년간 이런 모델들을

00:01:22사용해 보셨다면 아실 텐데,

00:01:22예를 들어 이런 걸 시킬 때 말이죠,

00:01:24이 긴 스크립트를 보고

00:01:27실제로 읽고 나서 뭘 했는지 말해달라고 할 때요.

00:01:29그런데 그 결과물을 확인하고

00:01:31자세히 따져보면,

00:01:32모델이 이렇게 말하곤 하죠.

00:01:33음, 그냥 요약만 했어요.

00:01:35전체 내용은 다 안 읽었거든요.

00:01:35이게 정말 큰 문제거든요.

00:01:37실제 업무에 AI를 사용해 보셨다면,

00:01:40모델이 시킨 대로 제대로 하고 있는지

00:01:42확인하는 테스트를 만드는 게 얼마나 중요한지 아실 겁니다.

00:01:46그런데 Anthropic은,

00:01:474.8에서는 이전 모델들에 비해

00:01:50이런 문제가 덜할 것이라고 합니다.

00:01:51구체적으로,

00:01:52그들의 평가에 따르면,

00:01:54시스템 카드에서 확인할 수 있는데,

00:01:56분량이 250페이지나 됩니다.

00:01:59거기서 Opus 4.8이

00:02:01이전 모델보다 자신이 작성한 코드의 결함을

00:02:04지적하지 않고 넘어가는 경우가 약 4배 적다고 합니다.

00:02:07즉, 무엇이 안 되고 무엇이 되는지에 대해

00:02:09훨씬 더 정직하게 말할 것이며,

00:02:12사용자를 기만하지 않을 것입니다.

00:02:13또한 4.8은 기만이나 악용 협조와 같은

00:02:16정렬되지 않은 행동 비율이

00:02:18Opus 4.7보다 상당히 낮고

00:02:21Mythos와 유사한 수준이라고 평가합니다.

00:02:24정렬되지 않은 행동을 여기서 볼 수 있는데,

00:02:25Opus 4.7과 특히 Sonnet 4.6은

00:02:28이런 경향을 어느 정도 보였지만,

00:02:31Mythos나 Opus 4.8에서는

00:02:33그렇게 많이 보이지 않습니다.

00:02:35모델 자체를 넘어,

00:02:36Anthropic이 추진한 몇 가지 업데이트가 더 있습니다.

00:02:39첫 번째는 동적 워크플로우(dynamic workflows)입니다.

00:02:41동적 워크플로우는 목표와 비슷합니다.

00:02:43이제 매우 복잡한 작업에

00:02:45Claude 코드를 투입할 수 있고,

00:02:47시간이 지남에 따라 작업을 수행하며,

00:02:50단일 세션에서 수십에서 수백 개의

00:02:52병렬 에이전트를 생성하여

00:02:53작업이 확실히 완료되도록 합니다.

00:02:56잘 아시다시피, 계획 모드에서

00:02:57작업을 수행하고 많은 하위 작업으로 나누더라도

00:02:59Claude 코드가 한 번에 처리하기에는

00:03:00너무 벅찬 문제들이 많습니다.

00:03:03이 동적 워크플로우가 그 문제에 대한 해답이며,

00:03:05조만간 동적 워크플로우에 대해

00:03:06심층 분석을 해보겠습니다.

00:03:09오늘 당장 써보고 싶다면,

00:03:11두 가지 방법이 있습니다.

00:03:12첫 번째는 일반 언어를 사용하여

00:03:13Claude에게 동적 워크플로우를 생성하라고 하거나,

00:03:15새로운 Claude 코드 전용 설정인

00:03:18UltraCode를 켜는 것입니다.

00:03:20Claude.ai의 또 다른 큰 변화는,

00:03:22실제 챗봇과 Cowork,

00:03:24코드는 딱히 그런 건 아니지만,

00:03:26Claude가 응답에 얼마나 많은 노력을

00:03:27투입할지 선택할 수 있는

00:03:30제어 기능이 더 늘어났다는 점입니다.

00:03:31Claude 코드에서는 이미

00:03:33High, Extra High, Max 같은 기능이 있었죠.

00:03:35이제 그 기능이

00:03:36Claude.ai와 Cowork에도 들어왔습니다.

00:03:38마지막으로, 메시지 API를

00:03:39사용하고 계신다면,

00:03:41이제 메시지 배열 내에 시스템 항목을 받을 수 있습니다.

00:03:44이건 정말 좋습니다.

00:03:45작업 중간에 Claude의 지침을 수정할 수 있으니까요.

00:03:47이건 Codex나

00:03:50추가 프롬프트를 줄 때의

00:03:51Steer 기능 대 Queue 기능과

00:03:52어느 정도 비슷합니다.

00:03:54참고로 Opus는 Extra High가 아닌

00:03:57High 노력을 기본값으로 합니다.

00:03:59Opus 4.7에서 그래프를 보여주며

00:04:00설명했던 것을 기억하시나요?

00:04:01Extra High가

00:04:03원하는 결과를 얻기 좋은 수준이라고 했었죠.

00:04:05그러니 4.8은 High 수준이고,

00:04:07더 많은 노력을 기울이고 싶다면

00:04:09그보다 두 단계 더 높은 설정으로

00:04:11올릴 수 있다는 점을 이해해 주세요.

00:04:12토큰 사용량이 궁금하시다면,

00:04:14더 높은 노력 수준에 따른

00:04:16토큰 사용량 증가를 수용하기 위해

00:04:18Claude 코드의 사용 제한을 늘렸습니다.

00:04:20정말 좋은 소식이죠.

00:04:21이게 새로 나온 Claude Opus 4.8에 대한

00:04:22빠르고 간단한 개요입니다.

00:04:24가격은 Opus 4.7과

00:04:25완전히 동일하다는 점을 기억하세요.

00:04:26이 새로운 강력한 모델을 위해

00:04:28추가 비용을 내지 않아도 됩니다.

00:04:29언제나처럼 의견을 알려주세요.

00:04:31제 Claude Code 마스터클래스를

00:04:33확인하고 싶으시다면

00:04:34링크된 댓글에 있는

00:04:35Chase AI Plus를 확인하세요.

00:04:36다음에 또 뵙겠습니다.

Key Takeaway

Claude Opus 4.8은 이전 버전 대비 압도적인 벤치마크 성능 향상과 함께 코드 결함 인지율을 4배 개선하고 동적 워크플로우 기능을 추가하여 복잡한 작업 처리 능력을 극대화했습니다.

Highlights

Claude Opus 4.8은 터미널 코딩 분야를 제외한 대부분의 벤치마크 부문에서 Opus 4.7, GPT 5.5, Gemini 3.1 Pro를 능가하는 성능을 보입니다.
Opus 4.8의 터미널 코딩 점수는 74.6점으로, 4.7 버전 대비 향상되었으나 여전히 GPT 5.5에는 미치지 못합니다.
모델의 정직성이 향상되어 자신이 작성한 코드의 결함을 지적하지 않고 넘어가는 사례가 이전 모델 대비 약 4배 감소했습니다.
악용 협조 및 기만적 행동 등 정렬되지 않은 행동 비율이 Opus 4.7보다 상당히 낮아졌습니다.
동적 워크플로우 기능을 통해 복잡한 작업을 수십에서 수백 개의 병렬 에이전트로 나누어 처리할 수 있습니다.
Opus 4.8의 가격은 이전 4.7 버전과 완전히 동일합니다.

Timeline

Opus 4.8 성능 및 벤치마크 평가

Opus 4.8은 터미널 코딩을 제외한 다학제적 추론, 금융 분석, 지식 업무 등 주요 벤치마크에서 우위를 점합니다.
터미널 코딩 점수는 74.6점을 기록하여 전작 대비 유의미한 상승을 보였습니다.
모델의 에이전트 코딩 점수가 64에서 69로 개선되었습니다.

Opus 4.8은 전작인 4.7 및 타사 최신 모델들과 비교했을 때 대부분의 부문에서 우월한 성능 지표를 보여줍니다. 특히 에이전트 기반 업무 처리에서 큰 폭의 성장을 기록했습니다. 터미널 코딩 영역에서는 여전히 GPT 5.5에 뒤처지지만, 전작에 비해 큰 도약을 이루어냈습니다.

정직성 개선과 정렬 수준 강화

작성한 코드의 결함을 지적하지 않는 현상이 이전 모델 대비 약 4배 줄었습니다.
기만이나 악용 협조와 같은 정렬되지 않은 행동 비율이 현저히 낮아졌습니다.

사용자가 AI에게 업무를 위임할 때 모델이 스스로 수행 불가 여부를 밝히는 정직성이 크게 강화되었습니다. 시스템 카드 평가 결과, 모델이 코드 결함을 인지하고도 보고하지 않는 빈도가 1/4 수준으로 감소했습니다. 또한, 위험한 요청에 협조하는 등의 부적절한 정렬 문제가 Mythos 모델과 유사한 안정적인 수준으로 개선되었습니다.

업데이트된 기능 및 워크플로우 제어

동적 워크플로우 기능을 도입하여 복잡한 작업을 병렬 에이전트로 처리할 수 있습니다.
Claude.ai와 Cowork에서 응답 노력을 선택할 수 있는 제어 기능이 확대되었습니다.
메시지 API에서 시스템 항목 수정이 가능해져 작업 도중 지침을 실시간으로 변경할 수 있습니다.

복잡한 대규모 작업을 해결하기 위해 단일 세션에서 수백 개의 병렬 에이전트를 생성하는 동적 워크플로우가 추가되었습니다. 이 기능은 Claude 코드 내 UltraCode 설정을 켜거나 일반 언어로 직접 지시하여 실행할 수 있습니다. 또한 사용자는 모델의 응답 노력 수준을 조정하여 성능과 토큰 사용량을 조절할 수 있으며, API 단에서 시스템 지침을 유연하게 제어할 수 있게 되었습니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video