00:00:00앤스로픽이 방금 Claude Opus 4.6을 출시했습니다. 이 모델은 Terminal Bench 2.0에서 역대 최고 점수를 기록했는데요.
00:00:06코딩 작업 중에 잠시 실례하겠습니다.
00:00:10알고 보니 GPT 5.3 Codecs가 방금 출시되었는데, 이게 Terminal Bench에서 Opus 4.6을 10% 이상 앞지른다고 하네요.
00:00:16앤스로픽의 독주가 불과 몇 분 만에 끝난 것 같습니다. 두 모델 사이의 경쟁이 정말 뜨겁게 달아오르고 있네요.
00:00:23이 모델들에 어떤 새로운 기능이 추가되었는지, 그리고 최근 GPT 5.2를 주로 써온 저에게 어떤 모델이 더 좋게 느껴질지 정말 궁금합니다.
00:00:29사실 요즘은 GPT 5.2가 더 편하게 느껴졌거든요.
00:00:31Claude가 다시 주도권을 되찾아올 수 있을지, 아니면 오픈AI가 GPT 5.3 Codecs로 쐐기를 박을지 지켜보는 재미가 있겠네요.
00:00:37우선 모델들의 새로운 변경 사항을 간단히 짚어보겠습니다. 다들 아시다시피 벤치마크 점수는 이전 버전보다 당연히 높을 텐데요.
00:00:48벤치마크 결과는 마지막에 보여드리고, 모델 자체에 실질적으로 바뀐 점이 있는지부터 살펴볼까요?
00:00:52먼저 Opus의 경우,
00:00:53앤스로픽은 이 모델이 더 신중하게 계획을 세우고 에이전트 작업을 더 오래 수행할 수 있으며, 거대한 코드베이스에서도 안정적으로 작동한다고 주장합니다.
00:01:00또한 코드 리뷰와 디버깅 능력이 향상되어 스스로 실수를 잡아내는 능력도 좋아졌다고 하네요.
00:01:02사실 이런 점들이 제가 보기에 GPT 5.2와 비교했을 때 Opus의 가장 약한 부분이었습니다. 제 경험상,
00:01:08Opus는 코딩을 시작하는 속도는 더 빨랐지만 실수가 좀 더 잦은 편이었죠.
00:01:12반면 GPT 5.2는 코딩을 시작하는 데 시간은 좀 더 걸려도 리포지토리의 전체적인 맥락을 더 잘 파악했습니다.
00:01:17이번 업데이트로 Opus가 이런 점들을 개선했기를 바라며, 새롭게 지원하는 총 100만 토큰의
00:01:23컨텍스트 윈도우도 큰 도움이 될 것 같습니다.
00:01:24다만 이 기능은 베타 버전이며 다른 업체들과 마찬가지로 추가 비용이 발생합니다.
00:01:2720만 토큰을 초과하는 프롬프트는 입력 토큰 100만 개당 10달러,
00:01:33출력 토큰 100만 개당 37.50달러입니다. 다음은 Codecs 5.3입니다.
00:01:38오픈AI는 이 모델이 GPT 5.2 Codecs의 최첨단 코딩 성능과 GPT 5.2의 추론 및 전문 지식 능력을
00:01:45하나의 모델로 통합했으며 속도는 25% 더 빨라졌다고 밝히고 있습니다.
00:01:51덕분에 리서치, 도구 활용 및 복잡한 실행이 필요한 장기 작업도 거뜬히 수행할 수 있다고 하네요.
00:01:57결국 GPT 5.2의 지식과 향상된 코딩 능력을 모두 갖춘 '올라운더' 모델로 밀어붙이는 모양새입니다.
00:02:03하지만 이건 어디까지나 마케팅 문구일 뿐이죠.
00:02:05그러니 실제 테스트를 해보겠습니다. 첫 번째 테스트는 Convex 에이전트 패키지를 AI SDK v6를 지원하도록 업데이트하는 작업입니다.
00:02:11요즘 데이터베이스로 Convex를 아주 잘 쓰고 있는데요, 이 패키지는 AI SDK와 데이터베이스를 연결해 주는 역할을 합니다.
00:02:19성능은 아주 좋지만, 문제는 최신 버전으로 업그레이드가 되지 않았다는 점입니다.
00:02:23문서를 보시면 아시겠지만, v5에서 v6로 마이그레이션하는 게 결코 쉬운 작업이 아닙니다.
00:02:28많은 '파괴적 변경(breaking changes)'이 있었고 타입도 대거 변경되었거든요.
00:02:32그래서 저는 에이전트 패키지를 사용하여 작동하는 기본적인 Convex 채팅 앱을 만들었습니다.
00:02:36그다음 패키지를 v6로 업그레이드했더니 수많은 빌드 및 타입 오류가 발생하더군요.
00:02:40저는 모델들에게 이 오류를 고쳐달라고 요청했습니다. Codecs에 사용한 프롬프트를 확인해 보시죠.
00:02:44Convex로 채팅 앱을 만들고 있고 기존 버전은 잘 작동했으나,
00:02:46v6로 업그레이드하면서 발생한 타입 및 빌드 오류를 수정해야 한다고 설명했습니다.
00:02:50맥락을 파악할 수 있도록 마이그레이션 가이드를 전달했고, 모든 테스트를
00:02:55통과시키라고 주문했습니다. 특히 모델들이 자주 사용하는 `as any` 같은 타입스크립트 편법은 최대한 피하라고 강조했죠.
00:02:59이번 AI SDK의 타입이 꽤 복잡해졌기 때문에 확실하게 당부해두고 싶었습니다.
00:03:03먼저 Codecs 5.3이 어떻게 수행했는지 보겠습니다. 우선
00:03:09리포지토리를 파악하는 것부터 시작하더군요. `packages/agent`가 포함된 모노리포라는 점을 인식하고 근본 원인과
00:03:15업그레이드가 필요한 패키지들을 식별했습니다. 작업을 어떻게 진행할지도 정확히 나열했고요. 그 후에는
00:03:22본격적으로 코딩에 들어가 수시로 빌드를 실행하며 타입 오류를 하나씩 잡아나갔습니다.
00:03:27놀랍게도 약 40분 동안 아무런 중단 없이 작업을 이어갔는데 정말 인상적이었습니다.
00:03:32보시다시피 545줄의 코드를 추가하고 111줄을 삭제했네요. 이제 Claude Code로 가봅시다.
00:03:39동일한 프로젝트와 프롬프트를 주었고, 이 모델 역시 약 40분 동안 작업을 수행했습니다.
00:03:44다만 실제 실행을 시도했을 때 몇 가지 빌드 오류가 남아 있더군요.
00:03:48그래서 Opus로부터 최종적으로 작동하는 버전을 받기 위해 프롬프트를 한 번 더 보내야 했습니다.
00:03:53그래도 결과적으로는 Codecs와 꽤 비슷한 경험을 제공했습니다.
00:03:56하지만 한 가지 말씀드리자면, 저는 Codecs의 UI가 터미널 UI보다 훨씬 마음에 듭니다. 취향 차이일 수 있겠지만요.
00:04:02어쨌든 Codecs 5.3은 한 번의 프롬프트, Opus 4.6은 두 번의 프롬프트 끝에
00:04:06두 모델 모두 타입 오류나 빌드 오류 없이 AI SDK 신규 버전으로 에이전트 패키지를 업그레이드하는 데 성공했습니다.
00:04:11모든 테스트를 통과했지만 방식에는 차이가 있었습니다. 여기
00:04:16왼쪽은 Codecs, 오른쪽은 Opus가 변경한 내용입니다.
00:04:19Opus가 Codecs에 비해 프로젝트에 더 많은 변경을 가한 것을 볼 수 있습니다.
00:04:23특정 기능을 처리하는 방식도 조금 달랐는데요.
00:04:25Codecs가 정말 잘한 부분 중 하나는 바로 이 도구 승인 요청(tool approval request) 로직입니다.
00:04:30이건 AI SDK v6에 새로 추가된 기능인데, Opus 버전에서는 이에 대한 언급을 찾을 수 없었습니다.
00:04:35그냥 건너뛰고 코드에 반영하지 않은 것 같더군요.
00:04:40반면에 Codecs가 아쉬웠던 점은 UI 메시지를
00:04:46모델 메시지로 변환하는 자체 함수를 완전히 새로 만들었다는 겁니다.
00:04:50사실 AI SDK에는 이미 이 기능을 수행하는 함수가 내장되어 있고, 그걸 사용하는 게 훨씬 바람직합니다.
00:04:57옆에서 비교해 보면 Opus는 이 부분을 정확하게 처리했습니다.
00:05:00AI SDK에서 제공하는 `convert to model messages` 함수를 그대로 사용했죠.
00:05:04이렇게 하면 나중에 패키지를 업그레이드할 때
00:05:07제가 직접 만든 버전을 수정할 걱정 없이 패키지에서 제공하는 기능을 그대로 쓸 수 있습니다.
00:05:14이 점은 코드를 훑어볼 때 약간 거슬리는 부분이자 우려되는 지점이었습니다.
00:05:19코드 리뷰에 대해 제3자의 의견을 듣기 위해
00:05:20다시 Codecs 5.3에게 코드를 주고 리뷰를 요청했습니다. 각 방식의 장단점을 나열해 주더군요.
00:05:29그런데 결론 부분에서 Codecs 5.3은 오히려 마이그레이션 아키텍처가 더 우수한 Opus의 버전을 선택했습니다.
00:05:36더 안전하게 배포할 수 있는 베이스를 고르라면
00:05:39Opus의 채팅 버전을 선택하고, 거기에 Codecs의 승인 및 거부 처리 로직을 가져오는 방식을 추천하더군요.
00:05:43즉, 아까 봤던 도구 승인 요청 함수만
00:05:46Codecs 버전에서 가져와서 Opus 버전에 추가하면 더 완벽한 마이그레이션이 된다는 뜻입니다.
00:05:51Codecs 5.3이 편향되지 않고 공정하게 판단하는 모습을 보니 다행이네요.
00:05:55두 모델의 마이그레이션 방식이 꽤 비슷했고, 프롬프트를 통해 더 나은 방향으로 유도할 수 있을 것 같습니다.
00:06:01하지만 테스트 하나로는 부족하죠.
00:06:03두 번째 테스트는 가벼운 주제로, Three.js를 사용해 클럽 펭귄 클론 게임을 만들어 달라고 했습니다.
00:06:08어떤 모델이 만든 건지는 나중에 말씀드리겠지만, 이게 첫 번째로 나온 게임입니다.
00:06:13펭귄 생성 화면이 있고 상단에서 아바타가 변하는 것을 볼 수 있습니다.
00:06:17모자도 씌울 수 있네요. 파티 모자, 프로펠러 모자, 왕관이 있습니다.
00:06:21저는 프로펠러 모자를 쓰고 시작해 보겠습니다. 클럽 펭귄을 아시는 분이라면
00:06:26이 버전이 마을 중심가를 꽤 잘 흉내 냈다는 걸 느끼실 겁니다. 비록 피자 가게가 옆에 있지는 않지만요.
00:06:32원래 디스코 센터가 있어야 할 자리인데, 이 건물들 안으로 직접 들어갈 수는 없습니다.
00:06:35아직은 벽 통과가 가능하네요.
00:06:37그래도 지도를 통해 다른 지역으로 이동할 수 있다는 점은 잘 구현했습니다.
00:06:41스키 마을로 가보겠습니다. 클릭해서 돌아다녀 보니
00:06:44에셋을 전혀 주지 않고 만든 Three.js 결과물치고는 펭귄이 꽤 괜찮아 보입니다.
00:06:49모델이 학습한 데이터를 바탕으로 구현한 것이죠. 여기서 썰매 경주 게임도 해볼 수 있습니다.
00:06:54제가 클럽 펭귄에서 제일 좋아하던 게임인데요. 비어있는 부분이
00:06:59좀 있긴 하지만 단 한 번의 프롬프트로 만든 결과물치고는 훌륭합니다.
00:07:04이 버전에는 카트 서퍼 게임도 구현되어 있습니다.
00:07:07이것도 제가 좋아하던 건데, 이건 좀 고장 난 것 같네요.
00:07:11옆으로만 움직이다가 맵 아래로 떨어진 것 같습니다. 갑자기 어두워지네요.
00:07:15이게 다른 모델이 만든 버전입니다. 댓글로
00:07:18어떤 모델이 더 잘 만든 것 같은지, 그리고 각 버전을 만든 모델이 무엇일지 맞춰보세요.
00:07:22테스트가 끝나고 알려드리겠습니다. 여기 보시다시피
00:07:25프롬프트에 넣었던 것과 같은 색상 선택기가 있습니다.
00:07:27모자와 액세서리도 있네요. 이번엔 왕관을 쓰고 모험을 시작해 봅시다.
00:07:31펭귄이 이전 버전보다 좀 더 뭉툭하네요. 더 웃기게 생겼지만, 이것 역시 에셋 없이
00:07:36Three.js로 처음부터 만든 겁니다.
00:07:38건물을 통과해 버리는 문제는 여기도 똑같네요.
00:07:41하지만 지도가 있고 여러 지역이 구현되어 있습니다.
00:07:44스키 마을로 가볼까요?
00:07:46여기서도 게임을 할 수 있습니다. 썰매 경주를 해보는데
00:07:50솔직히 이전에 했던 썰매 경주와 꽤 비슷하네요.
00:07:53멀리서 나무들이 다가오는 모습이 보입니다.
00:07:56목숨이 세 개 있고 카운터도 잘 작동하네요.
00:07:58그런데 이 버전에서는 점프가 안 되는 것 같습니다.
00:08:01이 모델도 카트 서퍼 게임 버전을 만들어 줬는데,
00:08:04이것도 좀 이상하네요.
00:08:06그래도 사물들이 보이고 점프도 가능해서 기능적으로는 조금 더 낫지만,
00:08:11어디서 서핑을 하고 있는 건지 모르겠습니다. 레일도 없고, 제가 기억하는
00:08:17클럽 펭귄의 카트 서퍼와는 거리가 머네요.
00:08:19전반적으로 단 한 번의 프롬프트로, 특히 Three.js를 사용해 이 정도를 해낸다는 게 놀랍습니다. 정답을 말씀드리면
00:08:25첫 번째는 Opus 4.6이었고 두 번째는 Codecs 5.3이었습니다. 개인적으로는 첫 번째가 더 마음에 듭니다.
00:08:30그래서 클럽 펭귄 테스트는 Opus 4.6의 승리입니다. 이제 마지막 테스트는
00:08:34UI 디자인 실력을 확인해 보는 것입니다. 요즘 AI 모델들이 디자인도 꽤 잘하거든요.
00:08:38두 모델 모두에게 AI 전용 소셜 미디어 사이트의 랜딩 페이지를 만들어 달라고 했습니다.
00:08:42Molt Book과 비슷하게, 'AI 전용'과 '미래'를 강조하며 약간 냉소적인 톤으로 단일 HTML 파일로 작성해 달라고 했죠.
00:08:49결과물을 보고 저는 Codecs에게 깊은 인상을 받았습니다.
00:08:55왼쪽이 Codecs 5.3, 오른쪽이 Opus 4.6입니다. 저는 개인적으로 Codecs
00:09:005.3이 구성한 방식이 정말 마음에 듭니다.
00:09:01네오 브루탈리즘 디자인을 채택했는데, 전형적인 '바이브 코딩' 사이트들보다 훨씬 재미있네요.
00:09:06Opus 4.6도 디자인은 훌륭하지만 전형적인 바이브 코딩 앱 같은 느낌입니다. 아주 잘 만들긴 했어요.
00:09:14보라색 그라데이션 같은 요소들이 전형적인 느낌을 주죠. 반면 Codecs
00:09:205.3 버전은 마치 사람이 직접 의도를 가지고 개입해서 디자인한 것 같은 느낌을 줍니다.
00:09:25정확히 같은 프롬프트를 주었는데도 말이죠.
00:09:27다만 페이지의 기능적인 면에서는 Opus 4.6이 조금 더 앞섰습니다.
00:09:32하단에 트렌딩 탭이 있고, 규칙, 이달의 인기 모델 등 다양한 섹션이 있네요.
00:09:36인기 서브레딧과 피드도 잘 갖춰져 있습니다. 반면 Codecs 5.3은 비교적 썰렁합니다.
00:09:41그냥 트렌딩 탭 하나만 덩그러니 있네요.
00:09:44이 모델들이 디자인 아레나(Design Arena)에서 어떤 점수를 받을지 궁금합니다.
00:09:47방금 출시되어서 아직 순위는 없지만, 현재 1위는 GLM 4.7입니다.
00:09:51Codecs 5.3이나 Opus 4.6이 왕좌를 뺏을 수 있을지 지켜봐야겠네요.
00:09:55두 모델 모두 매우 유능해서 어느 쪽이 최고라고 단정 짓기는 어렵습니다.
00:09:59저는 개인적으로 Codecs 5.3 쪽으로 마음이 기울고 있습니다.
00:10:03단순히 Codecs 앱 자체가 좋고 오픈AI 모델을 사용할 때의 전반적인 경험이 좋았기 때문이죠. 벤치마크를
00:10:09비교해 보면, 서두에 언급했듯이 Codecs가 Terminal Bench 2.0에서 압도적인 우위를 점하고 있습니다.
00:10:15정말 엄청난 도약인데, 현재로서는 이 벤치마크가 유일한 비교 지표입니다.
00:10:21앤스로픽이 오픈AI의 이번 출시를 예상하지 못했는지 블로그 포스트에서 서로 다른 벤치마크를 사용했거든요.
00:10:28Artificial Analysis를 확인해 보니 현재 Opus 4.6의 코딩 벤치마크는 비추론 버전만 완료된 상태였습니다.
00:10:35놀라운 건 4.6의 비추론 버전이 4.5 Opus의 추론 버전만큼이나 성능이 좋다는 점입니다.
00:10:42제 느낌상 Opus 4.5에서 4.6으로의 변화는 GPT 5.2 Codecs에서 5.3으로의 변화보다는 폭이 적은 것 같습니다.
00:10:49하지만 직접 더 써보면서 실제 성능이 어떤지 체감해 봐야겠죠.
00:10:53이번 출시에는 몇 가지 추가 기능도 있습니다.
00:10:55가장 흥미로운 것 중 하나는 두 모델 모두 사이버 보안 능력이 향상되었다는 점입니다. 오픈AI는 GPT
00:11:015.3 Codecs가 사이버 보안 작업에서 '높은 능력' 등급을 받은 첫 모델이며 소프트웨어 취약점을 식별하도록 직접 훈련되었다고 밝혔습니다.
00:11:09앤스로픽도 블로그 포스트에서 비슷한 내용을 언급했죠. 제가 정말 기대하는 Codecs의 기능은
00:11:16작업 도중 실시간으로 모델을 유도할 수 있다는 점입니다.
00:11:21최종 출력을 기다릴 필요 없이 실시간으로 질문하거나 방식을 논의하며 해결책을 향해 함께 나아갈 수 있다고 하네요.
00:11:27저는 항상 모델이 끝날 때까지 기다려야 할지, 아니면 중간에 끊고 수정해야 할지 고민했는데
00:11:35특히 작업 시간이 길어지는 요즘 같은 상황에서
00:11:40모델이 일하는 동안 실시간으로 소통할 수 있다는 건 훨씬 더 나은 사용자 경험을 제공할 것입니다.
00:11:44마지막으로 Claude에도 새로운 기능이 추가되었습니다. 첫 번째는 'Claude Code'입니다.
00:11:48이제 에이전트 팀을 구성해 하위 에이전트들과 협업할 수 있습니다. 리처드가 이번 주 초에 관련 영상을 올렸으니
00:11:55궁금하신 분들은 확인해 보세요. 또한 API 기능으로 컨텍스트 압축 기능이 추가되었습니다.
00:12:01맥락을 요약하여 더 장기적인 작업을 수행할 수 있도록 돕는 기능입니다.
00:12:06새로운 '적응형 사고 모드(Adaptive Thinking Mode)'도 있습니다.
00:12:08모델이 상황에 맞춰 '확장 사고'를 얼마나 사용할지 스스로 판단하게 하는 방식이죠.
00:12:13코딩 모델들이 정말 비약적으로 발전하고 있습니다.
00:12:16Claude Code가 출시된 지 채 1년도 되지 않았다는 사실이 믿기지 않네요.
00:12:20이번 모델들에 대해 어떻게 생각하시는지 댓글로 알려주세요. 구독 잊지 마시고, 다음 영상에서 뵙겠습니다!
00:12:31(경쾌한 음악)