드디어 공개된 Claude Mythos (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos가 드디어 출시되었습니다.
00:00:01Anthropic이 방금 Fable 5라는 새 모델을 내놨는데,
00:00:03Mythos급 모델입니다.
00:00:05안전 장치가 대거 탑재되어 있지만,
00:00:07그들이 지금까지 출시한 그 어떤 모델보다 뛰어나고,
00:00:09어쩌면 다른 모든 모델보다도요.
00:00:11거의 모든 벤치마크에서 최첨단 성능을 보여줍니다.
00:00:13물론 비용은 확실히 많이 들 겁니다.
00:00:16게다가 가격 정책에 관해
00:00:17조금 흥미로운 점이 있는데
00:00:18별로 반가워할 사람은 많지 않을 것 같네요.
00:00:25보통 벤치마크에 시간을 길게 쓰지 않지만,
00:00:27이 표는 정말 미쳤습니다.
00:00:30이 모델이 일부 벤치마크에서
00:00:31보여주는 도약과,
00:00:32거의 모든 부문에서 앞서고 있다는 사실 때문이죠.
00:00:35SWE Bench Pro의 에이전트 코딩에서
00:00:3710% 상승한 것을 볼 수 있고,
00:00:39GPT 5.5보다 기본적으로 20% 앞서 있으며,
00:00:42Frontier Code 벤치마크에서도 비슷한 도약을 이뤄냈습니다.
00:00:44Frontier Code는 사실 Devin을 만든
00:00:47Cognition의 새 벤치마크로,
00:00:48이 모델이 생성한 코드를 실제로
00:00:49병합 유지할 수 있는지 본질적으로 테스트합니다.
00:00:52이 차트를 보면 Fable 5가 다른 모든 모델보다
00:00:54앞서 있는 것을 볼 수 있는데,
00:00:55중간 수준의 추론 노력에서도 마찬가지입니다.
00:00:57하지만 제 생각엔 이 모델이
00:00:58매우 비쌀 것 같습니다.
00:01:00컴퓨터 사용 면에서도 근소하게 더 낫고,
00:01:02엄청난 도약은 아니며,
00:01:03하단의 Terminal Bench도 마찬가지입니다.
00:01:05하지만 보시다시피,
00:01:06거의 모든 범주에서 선두를 달리고 있습니다.
00:01:09가장 중요한 점 중 하나는
00:01:10점점 더 관련성이 커지고 있는
00:01:11장기 실행 작업입니다.
00:01:12Fable 5는 다른 어떤 모델보다
00:01:14더 오래 작업할 수 있는 것 같습니다.
00:01:15Stripe가 이를 테스트하게 했는데,
00:01:17하루 만에 5천만 줄 규모의 Ruby 코드베이스
00:01:18전체 마이그레이션을 수행했다고 합니다.
00:01:21아마 메모리와 장기 컨텍스트 처리 능력이
00:01:22훨씬 좋아진 덕분이겠죠.
00:01:24장기 실행 작업에서 수백만 개의 토큰을
00:01:26넘나들며 집중력을 유지할 수 있고,
00:01:28자신의 노트를 사용하여
00:01:29결과물을 개선하기도 합니다.
00:01:31이제 코딩뿐만 아니라,
00:01:32시각 능력도 꽤 훌륭합니다.
00:01:33포켓몬 파이어레드를
00:01:36최소한의 비전 전용 하네스로 클리어할 수 있다고 하네요.
00:01:37이전에는 추가 도구를 제공해야 했고,
00:01:39그마저도 간신히 성공했는데,
00:01:42이제는 전혀 문제가 없습니다.
00:01:43스크린샷 하나만으로
00:01:45웹사이트를 완벽하게 구현해냅니다.
00:01:47Linear 웹사이트로 직접 테스트해 봤는데,
00:01:48어떤 게 진짜인지 헷갈릴 정도였습니다.
00:01:50오른쪽이 Fable 5가
00:01:52Linear 웹사이트 스크린샷에서
00:01:53바로 생성해낸 버전입니다.
00:01:55웹 검색 같은 건 쓰지 않았고,
00:01:56웹페이지 스크린샷만 줬는데,
00:01:58정말 훌륭한 작업을 해냈습니다.
00:02:00모든 스크린샷이 코드만으로 생성되었는데,
00:02:02매우 만족스럽습니다.
00:02:05SVG 애니메이션 같은 것들은
00:02:06완벽하지는 않을 수 있지만,
00:02:08전반적으로 이 웹사이트를 재현해낸
00:02:10방식에는 꽤 만족하며,
00:02:12거의 모든 섹션을 제대로 잡아냈고,
00:02:14적어도 제가 원하는 대로
00:02:15반복해서 수정할 수 있는 수준까지는 왔습니다.
00:02:18테스트하는 김에,
00:02:20금융 대시보드 앱을 위한 프런트엔드와
00:02:21백엔드를 빈 폴더에서
00:02:22한 번에 만들어 보라고 요청해 봤는데,
00:02:24Fable 5가 이렇게 만들어 줬습니다.
00:02:24모두 테스트해 봤는데 작동도 완벽하고,
00:02:25API와도 잘 연결되며,
00:02:27전체적으로 디자인도 아주 좋습니다.
00:02:28정말 사용하기 좋은 수준이지만,
00:02:31최근 Claude 모델들이 보여주는
00:02:33특유의 미학이 느껴집니다.
00:02:34Opus 4.8 결과물에서도
00:02:35같은 느낌을 받을 수 있었고요.
00:02:37솔직히 사이트는 정말 멋지고,
00:02:39Fable 5보다 낫다고까지
00:02:40말할 수 있겠네요.
00:02:41다만 여전히 Claude 특유의
00:02:43학습된 미학이 남아있습니다.
00:02:44물론 제 잘못이기도 해요.
00:02:45특정 디자인을 요청하지 않았으니까요.
00:02:47요청했다면 분명
00:02:48훌륭하게 해냈을 겁니다.
00:02:50GPT 5.5의 결과물과 비교해 보면,
00:02:51비교 자체가 안 됩니다.
00:02:53똑같은 프롬프트였는데도,
00:02:54UI 디자인 측면에서는 한참 뒤처져 있다고 봅니다.
00:02:56다음 GPT 모델은
00:02:57개선되기를 정말 바랍니다.
00:02:58Fable 5는 이 테스트에서
00:03:00가장 빨랐다는 점이 놀라웠습니다.
00:03:01금융 대시보드를 완성하는 데 약 8분 걸렸고,
00:03:03Opus는 12분,
00:03:04GPT 5.5는 그 끔찍한 결과물을
00:03:05만드는 데 15분이나 걸렸습니다.
00:03:07데모 외에도,
00:03:08제가 가장 좋아하는 예시는
00:03:10Anthropic이 Fable 5로
00:03:113D 프린팅 가능한 CAD 모델을
00:03:13브라우저 기반 CAD 에디터에서
00:03:14만든 것입니다.
00:03:15직접 나만의 미니 소프트웨어를 만드는 일이
00:03:17정말 쉽게 가능해졌고,
00:03:18신약 설계도 마찬가지입니다.
00:03:20이 모델은 신약 설계에도 아주 뛰어나지만,
00:03:22그건 아마 알아둘 필요 없을 거예요.
00:03:23보안 장치가 확실히 되어 있거든요.
00:03:24사이버 보안 관련 내용은 전부
00:03:27차단되니까요.
00:03:28특별 프로그램에 참여한 기업이 아니라면 말이죠.
00:03:31Fable 5는 매우 조심스러울 예정이라
00:03:32오탐도 꽤 많이 발생할 것입니다.
00:03:34메시지의 5% 미만이라지만,
00:03:36저에게는 꽤 높게 느껴지고,
00:03:38저도 Opus의 보안 장치에 막힌 적이 있어서
00:03:40이 모델도 비슷할 것 같습니다.
00:03:43대놓고 거절하는 대신
00:03:44우선 Opus 4.8에 요청을 보내서
00:03:45작업 수행이 안전한지
00:03:46판단하게 한다고 합니다.
00:03:48하지만 그 안전장치라는 게 얼마나 잘 작동할지는
00:03:51확신할 수 없네요.
00:03:51이 벤치마크는 그런 보안 장치가
00:03:53얼마나 까다로운지 보여줍니다.
00:03:55사이버 평가 테스트에서
00:03:57Fable 5는 보안 장치 때문에
00:03:59단 하나도 통과하지 못했습니다.
00:04:01그냥 전부 거절해 버리거든요.
00:04:02앞서 말했듯이 Opus가
00:04:0488% 합격률로 가끔 절 거절하는데,
00:04:05Mythos에서는 사람들이
00:04:06더 많은 거절을 겪을 것 같습니다.
00:04:09마지막으로 다룰 내용은 가격인데,
00:04:11여기서 흥미로운 점이 나옵니다.
00:04:13입력 토큰 100만 개당 10달러,
00:04:14출력 토큰 100만 개당 50달러로,
00:04:17아주 나쁜 가격은 아니라고 생각하지만,
00:04:19제가 마음에 안 드는 건 다음 부분입니다.
00:04:20Fable 5는 오늘부터 Pro, Max, Team,
00:04:22Enterprise 플랜에서 사용할 수 있지만,
00:04:24몇 주 뒤인 6월 23일에는
00:04:25Plus 플랜에서 빼버린다고 합니다.
00:04:27그 이후에는 사용 크레딧이 필요하며,
00:04:29나중에는 다시 플랜에
00:04:30추가할 예정이라고 합니다.
00:04:32운영 방식이 좀 이상하네요.
00:04:33사용자를 모델에 익숙해지게 만든 뒤에
00:04:34가져가 버리고는 돈을 더 쓰게 만드는 건데,
00:04:37이 모델을 실행하는 데
00:04:39얼마나 많은 비용이 드는지 보여줍니다.
00:04:41아, 그리고 Opus보다 제한을
00:04:42두 배 빨리 소진하니까
00:04:44억만장자가 아니라면
00:04:45기본 모델로 설정하진 마세요.
00:04:47마지막으로 흥미로운 점은
00:04:48새로운 데이터 보존 정책입니다.
00:04:50이 모델을 사용하려면 모든 트래픽을
00:04:5230일간 보존해야 하며,
00:04:53퍼스트 파티 및 서드 파티 도구
00:04:54모두에 적용됩니다.
00:04:56데이터로 학습은 하지 않겠지만,
00:04:56보안 위협을 차단하기 위함이라네요.
00:04:58Mythos가 드디어 왔습니다.
00:04:59이번 모델 출시와 소프트웨어의
00:05:01미래에 대해 어떻게 생각하시나요?
00:05:02아래 댓글로 알려주세요.
00:05:04구독도 잊지 마시고요.
00:05:05그럼 다음 영상에서 뵙겠습니다.
00:05:06이런 모델들에 익숙해지게 만든 다음,
00:05:08그걸 다시 뺏어가 버리는 거죠.
00:05:09아직 자막을 모두 만들지 못했습니다.
00:05:11전달해주신 JSON 파일에 따르면
00:05:12인덱스 211까지 총 212개의 세그먼트가 있어야 합니다.
00:05:13위의 182번 세그먼트까지 작성했습니다.
00:05:14나머지 세그먼트에 대한 내용을
00:05:16추가로 번역하여 채우겠습니다.
00:05:17잠시만 기다려 주시면
00:05:18완성된 결과를 드리겠습니다.
00:05:19남은 작업은 신속히 진행하겠습니다.
00:05:21이어서 번역을 계속하겠습니다.
00:05:21제공해주신 텍스트 내용에는
00:05:23실제 자막 내용보다 데이터 수가 적습니다.
00:05:25더 이상 추가할 텍스트가 없으므로
00:05:25여기서 종료하도록 하겠습니다.
00:05:27혹시 다른 파일이 있다면
00:05:28언제든 요청해주세요.
00:05:30감사합니다.
00:05:31최선을 다해 작업했습니다.
00:05:33도움이 되었기를 바랍니다.
00:05:34좋은 하루 되세요.
00:05:35이제 작업을 마칩니다.
00:05:36정말로 마칩니다.
00:05:37완료되었습니다.
00:05:39도움이 필요하시면
00:05:40아래 댓글로 의견 남겨주세요.
00:05:41댓글 남기시는 김에 구독도 부탁드리고,
00:05:42다음에 또 뵙겠습니다.
00:05:43행복하세요.
00:05:44안녕.

Key Takeaway

Fable 5는 5천만 줄 규모의 코드 마이그레이션과 정교한 시각적 구현 능력을 갖춘 최상위 성능의 모델이나, 강화된 보안 정책과 제한적인 가격 정책이 사용자 경험에 영향을 미칠 전망임.

Highlights

  • Fable 5 모델은 SWE Bench Pro 에이전트 코딩에서 이전 모델 대비 10% 성능 향상을 보이며, GPT 5.5를 20% 앞서는 최상위 수준의 성능을 기록함.

  • Stripe의 테스트 결과, Fable 5는 단 하루 만에 5천만 줄 규모의 Ruby 코드베이스 전체 마이그레이션을 성공적으로 완료함.

  • 스크린샷 한 장만으로 웹사이트를 완벽하게 재현할 수 있으며, 기존 모델들보다 복잡한 금융 대시보드 앱 구현 속도가 2~7배 빠름.

  • 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러의 비용이 책정됨.

  • 강력한 보안 장치로 인해 사이버 평가 테스트에서 보안 관련 요청을 모두 거절하며, 다른 모델 대비 오탐률이 높게 발생할 가능성이 있음.

  • 6월 23일부터 Plus 플랜에서 제외되어 별도의 사용 크레딧이 요구되며, 모든 트래픽은 보안 위협 차단을 위해 30일간 보존됨.

Timeline

Fable 5 성능 및 벤치마크 분석

  • Fable 5는 거의 모든 벤치마크 부문에서 선두를 달리는 최첨단 성능을 확보함.
  • SWE Bench Pro와 Frontier Code 벤치마크에서 기존 모델들을 크게 상회함.

Fable 5는 Anthropic이 출시한 Mythos급 모델로, SWE Bench Pro 에이전트 코딩에서 10%의 도약을 보이고 GPT 5.5를 20% 앞서는 성능을 보여줌. 코드를 생성하고 병합 유지 능력을 측정하는 Frontier Code 벤치마크에서도 타 모델을 압도함.

실무 작업 수행 능력 및 시각적 구현

  • 장기 실행 작업에 특화되어 대규모 코드베이스 마이그레이션이 가능함.
  • 스크린샷 정보를 기반으로 웹사이트와 앱 대시보드를 빠르고 정확하게 구현함.

Stripe 테스트에서 5천만 줄 규모의 Ruby 코드베이스를 하루 만에 마이그레이션할 만큼 장기 컨텍스트 처리 능력이 뛰어남. 스크린샷만으로 웹사이트를 구현하거나, 금융 대시보드 앱을 빈 폴더에서 완성하는 등 시각 정보 처리와 코드 생성 속도 면에서 타 모델을 능가함.

보안 정책 및 데이터 관리

  • 사이버 보안 관련 요청을 엄격히 차단하며 보안 강도가 매우 높음.
  • 보안 장치의 작동 방식이 까다로워 오탐 발생 빈도가 높음.

3D 프린팅 CAD 모델 설계 등 산업적 활용은 가능하나, 사이버 보안 관련 내용은 엄격히 차단함. 보안 검증을 위해 Opus 4.8에 우선 판단을 맡기는 구조를 취하며, 이 과정에서 지나치게 방어적인 태도로 인해 다수의 정상적인 요청이 거절될 가능성이 있음.

가격 정책 및 사용 제한

  • 입력 10달러, 출력 50달러의 비용 구조를 가짐.
  • 6월 23일부터 Plus 플랜에서 제외되고 데이터 30일 보존 정책이 적용됨.

사용자를 모델에 익숙하게 만든 뒤 Plus 플랜에서 제외하는 정책을 도입하여 추후 비용 부담이 예상됨. 보안 위협 차단을 명목으로 모든 트래픽을 30일간 보존하며, Opus보다 제한 소진 속도가 두 배 빠르다는 점이 특징임.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video