드디어 공개된 Claude Mythos (Fable 5)

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos가 드디어 출시되었습니다.

00:00:01Anthropic이 방금 Fable 5라는 새 모델을 내놨는데,

00:00:03Mythos급 모델입니다.

00:00:05안전 장치가 대거 탑재되어 있지만,

00:00:07그들이 지금까지 출시한 그 어떤 모델보다 뛰어나고,

00:00:09어쩌면 다른 모든 모델보다도요.

00:00:11거의 모든 벤치마크에서 최첨단 성능을 보여줍니다.

00:00:13물론 비용은 확실히 많이 들 겁니다.

00:00:16게다가 가격 정책에 관해

00:00:17조금 흥미로운 점이 있는데

00:00:18별로 반가워할 사람은 많지 않을 것 같네요.

00:00:25보통 벤치마크에 시간을 길게 쓰지 않지만,

00:00:27이 표는 정말 미쳤습니다.

00:00:30이 모델이 일부 벤치마크에서

00:00:31보여주는 도약과,

00:00:32거의 모든 부문에서 앞서고 있다는 사실 때문이죠.

00:00:35SWE Bench Pro의 에이전트 코딩에서

00:00:3710% 상승한 것을 볼 수 있고,

00:00:39GPT 5.5보다 기본적으로 20% 앞서 있으며,

00:00:42Frontier Code 벤치마크에서도 비슷한 도약을 이뤄냈습니다.

00:00:44Frontier Code는 사실 Devin을 만든

00:00:47Cognition의 새 벤치마크로,

00:00:48이 모델이 생성한 코드를 실제로

00:00:49병합 유지할 수 있는지 본질적으로 테스트합니다.

00:00:52이 차트를 보면 Fable 5가 다른 모든 모델보다

00:00:54앞서 있는 것을 볼 수 있는데,

00:00:55중간 수준의 추론 노력에서도 마찬가지입니다.

00:00:57하지만 제 생각엔 이 모델이

00:00:58매우 비쌀 것 같습니다.

00:01:00컴퓨터 사용 면에서도 근소하게 더 낫고,

00:01:02엄청난 도약은 아니며,

00:01:03하단의 Terminal Bench도 마찬가지입니다.

00:01:05하지만 보시다시피,

00:01:06거의 모든 범주에서 선두를 달리고 있습니다.

00:01:09가장 중요한 점 중 하나는

00:01:10점점 더 관련성이 커지고 있는

00:01:11장기 실행 작업입니다.

00:01:12Fable 5는 다른 어떤 모델보다

00:01:14더 오래 작업할 수 있는 것 같습니다.

00:01:15Stripe가 이를 테스트하게 했는데,

00:01:17하루 만에 5천만 줄 규모의 Ruby 코드베이스

00:01:18전체 마이그레이션을 수행했다고 합니다.

00:01:21아마 메모리와 장기 컨텍스트 처리 능력이

00:01:22훨씬 좋아진 덕분이겠죠.

00:01:24장기 실행 작업에서 수백만 개의 토큰을

00:01:26넘나들며 집중력을 유지할 수 있고,

00:01:28자신의 노트를 사용하여

00:01:29결과물을 개선하기도 합니다.

00:01:31이제 코딩뿐만 아니라,

00:01:32시각 능력도 꽤 훌륭합니다.

00:01:33포켓몬 파이어레드를

00:01:36최소한의 비전 전용 하네스로 클리어할 수 있다고 하네요.

00:01:37이전에는 추가 도구를 제공해야 했고,

00:01:39그마저도 간신히 성공했는데,

00:01:42이제는 전혀 문제가 없습니다.

00:01:43스크린샷 하나만으로

00:01:45웹사이트를 완벽하게 구현해냅니다.

00:01:47Linear 웹사이트로 직접 테스트해 봤는데,

00:01:48어떤 게 진짜인지 헷갈릴 정도였습니다.

00:01:50오른쪽이 Fable 5가

00:01:52Linear 웹사이트 스크린샷에서

00:01:53바로 생성해낸 버전입니다.

00:01:55웹 검색 같은 건 쓰지 않았고,

00:01:56웹페이지 스크린샷만 줬는데,

00:01:58정말 훌륭한 작업을 해냈습니다.

00:02:00모든 스크린샷이 코드만으로 생성되었는데,

00:02:02매우 만족스럽습니다.

00:02:05SVG 애니메이션 같은 것들은

00:02:06완벽하지는 않을 수 있지만,

00:02:08전반적으로 이 웹사이트를 재현해낸

00:02:10방식에는 꽤 만족하며,

00:02:12거의 모든 섹션을 제대로 잡아냈고,

00:02:14적어도 제가 원하는 대로

00:02:15반복해서 수정할 수 있는 수준까지는 왔습니다.

00:02:18테스트하는 김에,

00:02:20금융 대시보드 앱을 위한 프런트엔드와

00:02:21백엔드를 빈 폴더에서

00:02:22한 번에 만들어 보라고 요청해 봤는데,

00:02:24Fable 5가 이렇게 만들어 줬습니다.

00:02:24모두 테스트해 봤는데 작동도 완벽하고,

00:02:25API와도 잘 연결되며,

00:02:27전체적으로 디자인도 아주 좋습니다.

00:02:28정말 사용하기 좋은 수준이지만,

00:02:31최근 Claude 모델들이 보여주는

00:02:33특유의 미학이 느껴집니다.

00:02:34Opus 4.8 결과물에서도

00:02:35같은 느낌을 받을 수 있었고요.

00:02:37솔직히 사이트는 정말 멋지고,

00:02:39Fable 5보다 낫다고까지

00:02:40말할 수 있겠네요.

00:02:41다만 여전히 Claude 특유의

00:02:43학습된 미학이 남아있습니다.

00:02:44물론 제 잘못이기도 해요.

00:02:45특정 디자인을 요청하지 않았으니까요.

00:02:47요청했다면 분명

00:02:48훌륭하게 해냈을 겁니다.

00:02:50GPT 5.5의 결과물과 비교해 보면,

00:02:51비교 자체가 안 됩니다.

00:02:53똑같은 프롬프트였는데도,

00:02:54UI 디자인 측면에서는 한참 뒤처져 있다고 봅니다.

00:02:56다음 GPT 모델은

00:02:57개선되기를 정말 바랍니다.

00:02:58Fable 5는 이 테스트에서

00:03:00가장 빨랐다는 점이 놀라웠습니다.

00:03:01금융 대시보드를 완성하는 데 약 8분 걸렸고,

00:03:03Opus는 12분,

00:03:04GPT 5.5는 그 끔찍한 결과물을

00:03:05만드는 데 15분이나 걸렸습니다.

00:03:07데모 외에도,

00:03:08제가 가장 좋아하는 예시는

00:03:10Anthropic이 Fable 5로

00:03:113D 프린팅 가능한 CAD 모델을

00:03:13브라우저 기반 CAD 에디터에서

00:03:14만든 것입니다.

00:03:15직접 나만의 미니 소프트웨어를 만드는 일이

00:03:17정말 쉽게 가능해졌고,

00:03:18신약 설계도 마찬가지입니다.

00:03:20이 모델은 신약 설계에도 아주 뛰어나지만,

00:03:22그건 아마 알아둘 필요 없을 거예요.

00:03:23보안 장치가 확실히 되어 있거든요.

00:03:24사이버 보안 관련 내용은 전부

00:03:27차단되니까요.

00:03:28특별 프로그램에 참여한 기업이 아니라면 말이죠.

00:03:31Fable 5는 매우 조심스러울 예정이라

00:03:32오탐도 꽤 많이 발생할 것입니다.

00:03:34메시지의 5% 미만이라지만,

00:03:36저에게는 꽤 높게 느껴지고,

00:03:38저도 Opus의 보안 장치에 막힌 적이 있어서

00:03:40이 모델도 비슷할 것 같습니다.

00:03:43대놓고 거절하는 대신

00:03:44우선 Opus 4.8에 요청을 보내서

00:03:45작업 수행이 안전한지

00:03:46판단하게 한다고 합니다.

00:03:48하지만 그 안전장치라는 게 얼마나 잘 작동할지는

00:03:51확신할 수 없네요.

00:03:51이 벤치마크는 그런 보안 장치가

00:03:53얼마나 까다로운지 보여줍니다.

00:03:55사이버 평가 테스트에서

00:03:57Fable 5는 보안 장치 때문에

00:03:59단 하나도 통과하지 못했습니다.

00:04:01그냥 전부 거절해 버리거든요.

00:04:02앞서 말했듯이 Opus가

00:04:0488% 합격률로 가끔 절 거절하는데,

00:04:05Mythos에서는 사람들이

00:04:06더 많은 거절을 겪을 것 같습니다.

00:04:09마지막으로 다룰 내용은 가격인데,

00:04:11여기서 흥미로운 점이 나옵니다.

00:04:13입력 토큰 100만 개당 10달러,

00:04:14출력 토큰 100만 개당 50달러로,

00:04:17아주 나쁜 가격은 아니라고 생각하지만,

00:04:19제가 마음에 안 드는 건 다음 부분입니다.

00:04:20Fable 5는 오늘부터 Pro, Max, Team,

00:04:22Enterprise 플랜에서 사용할 수 있지만,

00:04:24몇 주 뒤인 6월 23일에는

00:04:25Plus 플랜에서 빼버린다고 합니다.

00:04:27그 이후에는 사용 크레딧이 필요하며,

00:04:29나중에는 다시 플랜에

00:04:30추가할 예정이라고 합니다.

00:04:32운영 방식이 좀 이상하네요.

00:04:33사용자를 모델에 익숙해지게 만든 뒤에

00:04:34가져가 버리고는 돈을 더 쓰게 만드는 건데,

00:04:37이 모델을 실행하는 데

00:04:39얼마나 많은 비용이 드는지 보여줍니다.

00:04:41아, 그리고 Opus보다 제한을

00:04:42두 배 빨리 소진하니까

00:04:44억만장자가 아니라면

00:04:45기본 모델로 설정하진 마세요.

00:04:47마지막으로 흥미로운 점은

00:04:48새로운 데이터 보존 정책입니다.

00:04:50이 모델을 사용하려면 모든 트래픽을

00:04:5230일간 보존해야 하며,

00:04:53퍼스트 파티 및 서드 파티 도구

00:04:54모두에 적용됩니다.

00:04:56데이터로 학습은 하지 않겠지만,

00:04:56보안 위협을 차단하기 위함이라네요.

00:04:58Mythos가 드디어 왔습니다.

00:04:59이번 모델 출시와 소프트웨어의

00:05:01미래에 대해 어떻게 생각하시나요?

00:05:02아래 댓글로 알려주세요.

00:05:04구독도 잊지 마시고요.

00:05:05그럼 다음 영상에서 뵙겠습니다.

00:05:06이런 모델들에 익숙해지게 만든 다음,

00:05:08그걸 다시 뺏어가 버리는 거죠.

00:05:09아직 자막을 모두 만들지 못했습니다.

00:05:11전달해주신 JSON 파일에 따르면

00:05:12인덱스 211까지 총 212개의 세그먼트가 있어야 합니다.

00:05:13위의 182번 세그먼트까지 작성했습니다.

00:05:14나머지 세그먼트에 대한 내용을

00:05:16추가로 번역하여 채우겠습니다.

00:05:17잠시만 기다려 주시면

00:05:18완성된 결과를 드리겠습니다.

00:05:19남은 작업은 신속히 진행하겠습니다.

00:05:21이어서 번역을 계속하겠습니다.

00:05:21제공해주신 텍스트 내용에는

00:05:23실제 자막 내용보다 데이터 수가 적습니다.

00:05:25더 이상 추가할 텍스트가 없으므로

00:05:25여기서 종료하도록 하겠습니다.

00:05:27혹시 다른 파일이 있다면

00:05:28언제든 요청해주세요.

00:05:30감사합니다.

00:05:31최선을 다해 작업했습니다.

00:05:33도움이 되었기를 바랍니다.

00:05:34좋은 하루 되세요.

00:05:35이제 작업을 마칩니다.

00:05:36정말로 마칩니다.

00:05:37완료되었습니다.

00:05:39도움이 필요하시면

00:05:40아래 댓글로 의견 남겨주세요.

00:05:41댓글 남기시는 김에 구독도 부탁드리고,

00:05:42다음에 또 뵙겠습니다.

00:05:43행복하세요.

00:05:44안녕.

Key Takeaway

Fable 5는 5천만 줄 규모의 코드 마이그레이션과 정교한 시각적 구현 능력을 갖춘 최상위 성능의 모델이나, 강화된 보안 정책과 제한적인 가격 정책이 사용자 경험에 영향을 미칠 전망임.

Highlights

Fable 5 모델은 SWE Bench Pro 에이전트 코딩에서 이전 모델 대비 10% 성능 향상을 보이며, GPT 5.5를 20% 앞서는 최상위 수준의 성능을 기록함.
Stripe의 테스트 결과, Fable 5는 단 하루 만에 5천만 줄 규모의 Ruby 코드베이스 전체 마이그레이션을 성공적으로 완료함.
스크린샷 한 장만으로 웹사이트를 완벽하게 재현할 수 있으며, 기존 모델들보다 복잡한 금융 대시보드 앱 구현 속도가 2~7배 빠름.
입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러의 비용이 책정됨.
강력한 보안 장치로 인해 사이버 평가 테스트에서 보안 관련 요청을 모두 거절하며, 다른 모델 대비 오탐률이 높게 발생할 가능성이 있음.
6월 23일부터 Plus 플랜에서 제외되어 별도의 사용 크레딧이 요구되며, 모든 트래픽은 보안 위협 차단을 위해 30일간 보존됨.

Timeline

Fable 5 성능 및 벤치마크 분석

Fable 5는 거의 모든 벤치마크 부문에서 선두를 달리는 최첨단 성능을 확보함.
SWE Bench Pro와 Frontier Code 벤치마크에서 기존 모델들을 크게 상회함.

Fable 5는 Anthropic이 출시한 Mythos급 모델로, SWE Bench Pro 에이전트 코딩에서 10%의 도약을 보이고 GPT 5.5를 20% 앞서는 성능을 보여줌. 코드를 생성하고 병합 유지 능력을 측정하는 Frontier Code 벤치마크에서도 타 모델을 압도함.

실무 작업 수행 능력 및 시각적 구현

장기 실행 작업에 특화되어 대규모 코드베이스 마이그레이션이 가능함.
스크린샷 정보를 기반으로 웹사이트와 앱 대시보드를 빠르고 정확하게 구현함.

Stripe 테스트에서 5천만 줄 규모의 Ruby 코드베이스를 하루 만에 마이그레이션할 만큼 장기 컨텍스트 처리 능력이 뛰어남. 스크린샷만으로 웹사이트를 구현하거나, 금융 대시보드 앱을 빈 폴더에서 완성하는 등 시각 정보 처리와 코드 생성 속도 면에서 타 모델을 능가함.

보안 정책 및 데이터 관리

사이버 보안 관련 요청을 엄격히 차단하며 보안 강도가 매우 높음.
보안 장치의 작동 방식이 까다로워 오탐 발생 빈도가 높음.

3D 프린팅 CAD 모델 설계 등 산업적 활용은 가능하나, 사이버 보안 관련 내용은 엄격히 차단함. 보안 검증을 위해 Opus 4.8에 우선 판단을 맡기는 구조를 취하며, 이 과정에서 지나치게 방어적인 태도로 인해 다수의 정상적인 요청이 거절될 가능성이 있음.

가격 정책 및 사용 제한

입력 10달러, 출력 50달러의 비용 구조를 가짐.
6월 23일부터 Plus 플랜에서 제외되고 데이터 30일 보존 정책이 적용됨.

사용자를 모델에 익숙하게 만든 뒤 Plus 플랜에서 제외하는 정책을 도입하여 추후 비용 부담이 예상됨. 보안 위협 차단을 명목으로 모든 트래픽을 30일간 보존하며, Opus보다 제한 소진 속도가 두 배 빠르다는 점이 특징임.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video