Transcript
00:00:00Anthropic이 오늘 Claude Opus 4.8을 출시했습니다.
00:00:02그래서 이번 영상에서는 아주 빠르게
00:00:05무엇이 바뀌었는지, 그리고 무엇에 주목해야 할지
00:00:08이 새로운 모델에 대해 알려드리겠습니다.
00:00:09바로 벤치마크부터 살펴보죠.
00:00:12여기에 표시된 Opus 4.8을 보면
00:00:14Opus 4.7, GPT 5.5, 그리고 Gemini 3.1 Pro와 비교했을 때,
00:00:20Opus는 거의 모든 부문에서 이들을 압도합니다.
00:00:24에이전트 터미널 코딩 분야를 제외하고는 말이죠,
00:00:26바로 Terminal Bench 2.1입니다.
00:00:28거기서 74.6점을 기록했는데,
00:00:30이것도 Opus 4.7에 비하면 엄청난 도약이지만,
00:00:34여전히 GPT 5.5에는 뒤처집니다.
00:00:37하지만 SWE Bench Pro,
00:00:40다학제적 추론, 에이전트 컴퓨터 사용,
00:00:42지식 업무, 그리고 에이전트 금융 분석 등
00:00:45다른 분야에서는 모두 앞서고 있습니다.
00:00:47물론 벤치마크는 항상 어느 정도 걸러 들어야 하지만,
00:00:49Opus 4.7 이후에 보여준 이런 큰 도약은 고무적입니다.
00:00:53불과 얼마 전이었잖아요.
00:00:56그게 몇 달 전이었죠,
00:00:574.7이 출시된 지 얼마 안 됐는데
00:00:58벌써 4.8이 나왔고,
00:01:01에이전트 코딩 점수가 64에서 69로 올랐습니다.
00:01:04정말 대단한 일이죠.
00:01:054.8이 4.7에 비해 개선된 점 중 하나는,
00:01:08Anthropic에 따르면 바로 정직성입니다.
00:01:11여기서 정직성이란, 이 AI 모델은
00:01:14무언가를 하라고 시켰을 때,
00:01:15할 수 없거나 하지 않았다면
00:01:18실제로 그렇게 말해준다는 뜻입니다.
00:01:19이건 정말 중요한 부분입니다.
00:01:20지난 몇 년간 이런 모델들을
00:01:22사용해 보셨다면 아실 텐데,
00:01:22예를 들어 이런 걸 시킬 때 말이죠,
00:01:24이 긴 스크립트를 보고
00:01:27실제로 읽고 나서 뭘 했는지 말해달라고 할 때요.
00:01:29그런데 그 결과물을 확인하고
00:01:31자세히 따져보면,
00:01:32모델이 이렇게 말하곤 하죠.
00:01:33음, 그냥 요약만 했어요.
00:01:35전체 내용은 다 안 읽었거든요.
00:01:35이게 정말 큰 문제거든요.
00:01:37실제 업무에 AI를 사용해 보셨다면,
00:01:40모델이 시킨 대로 제대로 하고 있는지
00:01:42확인하는 테스트를 만드는 게 얼마나 중요한지 아실 겁니다.
00:01:46그런데 Anthropic은,
00:01:474.8에서는 이전 모델들에 비해
00:01:50이런 문제가 덜할 것이라고 합니다.
00:01:51구체적으로,
00:01:52그들의 평가에 따르면,
00:01:54시스템 카드에서 확인할 수 있는데,
00:01:56분량이 250페이지나 됩니다.
00:01:59거기서 Opus 4.8이
00:02:01이전 모델보다 자신이 작성한 코드의 결함을
00:02:04지적하지 않고 넘어가는 경우가 약 4배 적다고 합니다.
00:02:07즉, 무엇이 안 되고 무엇이 되는지에 대해
00:02:09훨씬 더 정직하게 말할 것이며,
00:02:12사용자를 기만하지 않을 것입니다.
00:02:13또한 4.8은 기만이나 악용 협조와 같은
00:02:16정렬되지 않은 행동 비율이
00:02:18Opus 4.7보다 상당히 낮고
00:02:21Mythos와 유사한 수준이라고 평가합니다.
00:02:24정렬되지 않은 행동을 여기서 볼 수 있는데,
00:02:25Opus 4.7과 특히 Sonnet 4.6은
00:02:28이런 경향을 어느 정도 보였지만,
00:02:31Mythos나 Opus 4.8에서는
00:02:33그렇게 많이 보이지 않습니다.
00:02:35모델 자체를 넘어,
00:02:36Anthropic이 추진한 몇 가지 업데이트가 더 있습니다.
00:02:39첫 번째는 동적 워크플로우(dynamic workflows)입니다.
00:02:41동적 워크플로우는 목표와 비슷합니다.
00:02:43이제 매우 복잡한 작업에
00:02:45Claude 코드를 투입할 수 있고,
00:02:47시간이 지남에 따라 작업을 수행하며,
00:02:50단일 세션에서 수십에서 수백 개의
00:02:52병렬 에이전트를 생성하여
00:02:53작업이 확실히 완료되도록 합니다.
00:02:56잘 아시다시피, 계획 모드에서
00:02:57작업을 수행하고 많은 하위 작업으로 나누더라도
00:02:59Claude 코드가 한 번에 처리하기에는
00:03:00너무 벅찬 문제들이 많습니다.
00:03:03이 동적 워크플로우가 그 문제에 대한 해답이며,
00:03:05조만간 동적 워크플로우에 대해
00:03:06심층 분석을 해보겠습니다.
00:03:09오늘 당장 써보고 싶다면,
00:03:11두 가지 방법이 있습니다.
00:03:12첫 번째는 일반 언어를 사용하여
00:03:13Claude에게 동적 워크플로우를 생성하라고 하거나,
00:03:15새로운 Claude 코드 전용 설정인
00:03:18UltraCode를 켜는 것입니다.
00:03:20Claude.ai의 또 다른 큰 변화는,
00:03:22실제 챗봇과 Cowork,
00:03:24코드는 딱히 그런 건 아니지만,
00:03:26Claude가 응답에 얼마나 많은 노력을
00:03:27투입할지 선택할 수 있는
00:03:30제어 기능이 더 늘어났다는 점입니다.
00:03:31Claude 코드에서는 이미
00:03:33High, Extra High, Max 같은 기능이 있었죠.
00:03:35이제 그 기능이
00:03:36Claude.ai와 Cowork에도 들어왔습니다.
00:03:38마지막으로, 메시지 API를
00:03:39사용하고 계신다면,
00:03:41이제 메시지 배열 내에 시스템 항목을 받을 수 있습니다.
00:03:44이건 정말 좋습니다.
00:03:45작업 중간에 Claude의 지침을 수정할 수 있으니까요.
00:03:47이건 Codex나
00:03:50추가 프롬프트를 줄 때의
00:03:51Steer 기능 대 Queue 기능과
00:03:52어느 정도 비슷합니다.
00:03:54참고로 Opus는 Extra High가 아닌
00:03:57High 노력을 기본값으로 합니다.
00:03:59Opus 4.7에서 그래프를 보여주며
00:04:00설명했던 것을 기억하시나요?
00:04:01Extra High가
00:04:03원하는 결과를 얻기 좋은 수준이라고 했었죠.
00:04:05그러니 4.8은 High 수준이고,
00:04:07더 많은 노력을 기울이고 싶다면
00:04:09그보다 두 단계 더 높은 설정으로
00:04:11올릴 수 있다는 점을 이해해 주세요.
00:04:12토큰 사용량이 궁금하시다면,
00:04:14더 높은 노력 수준에 따른
00:04:16토큰 사용량 증가를 수용하기 위해
00:04:18Claude 코드의 사용 제한을 늘렸습니다.
00:04:20정말 좋은 소식이죠.
00:04:21이게 새로 나온 Claude Opus 4.8에 대한
00:04:22빠르고 간단한 개요입니다.
00:04:24가격은 Opus 4.7과
00:04:25완전히 동일하다는 점을 기억하세요.
00:04:26이 새로운 강력한 모델을 위해
00:04:28추가 비용을 내지 않아도 됩니다.
00:04:29언제나처럼 의견을 알려주세요.
00:04:31제 Claude Code 마스터클래스를
00:04:33확인하고 싶으시다면
00:04:34링크된 댓글에 있는
00:04:35Chase AI Plus를 확인하세요.
00:04:36다음에 또 뵙겠습니다.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video