OpenAI가 승기를 잡았습니다... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00앤스로픽이 방금 Claude Opus 4.6을 출시했습니다. 이 모델은 Terminal Bench 2.0에서 역대 최고 점수를 기록했는데요.
00:00:06코딩 작업 중에 잠시 실례하겠습니다.
00:00:10알고 보니 GPT 5.3 Codecs가 방금 출시되었는데, 이게 Terminal Bench에서 Opus 4.6을 10% 이상 앞지른다고 하네요.
00:00:16앤스로픽의 독주가 불과 몇 분 만에 끝난 것 같습니다. 두 모델 사이의 경쟁이 정말 뜨겁게 달아오르고 있네요.
00:00:23이 모델들에 어떤 새로운 기능이 추가되었는지, 그리고 최근 GPT 5.2를 주로 써온 저에게 어떤 모델이 더 좋게 느껴질지 정말 궁금합니다.
00:00:29사실 요즘은 GPT 5.2가 더 편하게 느껴졌거든요.
00:00:31Claude가 다시 주도권을 되찾아올 수 있을지, 아니면 오픈AI가 GPT 5.3 Codecs로 쐐기를 박을지 지켜보는 재미가 있겠네요.
00:00:37우선 모델들의 새로운 변경 사항을 간단히 짚어보겠습니다. 다들 아시다시피 벤치마크 점수는 이전 버전보다 당연히 높을 텐데요.
00:00:48벤치마크 결과는 마지막에 보여드리고, 모델 자체에 실질적으로 바뀐 점이 있는지부터 살펴볼까요?
00:00:52먼저 Opus의 경우,
00:00:53앤스로픽은 이 모델이 더 신중하게 계획을 세우고 에이전트 작업을 더 오래 수행할 수 있으며, 거대한 코드베이스에서도 안정적으로 작동한다고 주장합니다.
00:01:00또한 코드 리뷰와 디버깅 능력이 향상되어 스스로 실수를 잡아내는 능력도 좋아졌다고 하네요.
00:01:02사실 이런 점들이 제가 보기에 GPT 5.2와 비교했을 때 Opus의 가장 약한 부분이었습니다. 제 경험상,
00:01:08Opus는 코딩을 시작하는 속도는 더 빨랐지만 실수가 좀 더 잦은 편이었죠.
00:01:12반면 GPT 5.2는 코딩을 시작하는 데 시간은 좀 더 걸려도 리포지토리의 전체적인 맥락을 더 잘 파악했습니다.
00:01:17이번 업데이트로 Opus가 이런 점들을 개선했기를 바라며, 새롭게 지원하는 총 100만 토큰의
00:01:23컨텍스트 윈도우도 큰 도움이 될 것 같습니다.
00:01:24다만 이 기능은 베타 버전이며 다른 업체들과 마찬가지로 추가 비용이 발생합니다.
00:01:2720만 토큰을 초과하는 프롬프트는 입력 토큰 100만 개당 10달러,
00:01:33출력 토큰 100만 개당 37.50달러입니다. 다음은 Codecs 5.3입니다.
00:01:38오픈AI는 이 모델이 GPT 5.2 Codecs의 최첨단 코딩 성능과 GPT 5.2의 추론 및 전문 지식 능력을
00:01:45하나의 모델로 통합했으며 속도는 25% 더 빨라졌다고 밝히고 있습니다.
00:01:51덕분에 리서치, 도구 활용 및 복잡한 실행이 필요한 장기 작업도 거뜬히 수행할 수 있다고 하네요.
00:01:57결국 GPT 5.2의 지식과 향상된 코딩 능력을 모두 갖춘 '올라운더' 모델로 밀어붙이는 모양새입니다.
00:02:03하지만 이건 어디까지나 마케팅 문구일 뿐이죠.
00:02:05그러니 실제 테스트를 해보겠습니다. 첫 번째 테스트는 Convex 에이전트 패키지를 AI SDK v6를 지원하도록 업데이트하는 작업입니다.
00:02:11요즘 데이터베이스로 Convex를 아주 잘 쓰고 있는데요, 이 패키지는 AI SDK와 데이터베이스를 연결해 주는 역할을 합니다.
00:02:19성능은 아주 좋지만, 문제는 최신 버전으로 업그레이드가 되지 않았다는 점입니다.
00:02:23문서를 보시면 아시겠지만, v5에서 v6로 마이그레이션하는 게 결코 쉬운 작업이 아닙니다.
00:02:28많은 '파괴적 변경(breaking changes)'이 있었고 타입도 대거 변경되었거든요.
00:02:32그래서 저는 에이전트 패키지를 사용하여 작동하는 기본적인 Convex 채팅 앱을 만들었습니다.
00:02:36그다음 패키지를 v6로 업그레이드했더니 수많은 빌드 및 타입 오류가 발생하더군요.
00:02:40저는 모델들에게 이 오류를 고쳐달라고 요청했습니다. Codecs에 사용한 프롬프트를 확인해 보시죠.
00:02:44Convex로 채팅 앱을 만들고 있고 기존 버전은 잘 작동했으나,
00:02:46v6로 업그레이드하면서 발생한 타입 및 빌드 오류를 수정해야 한다고 설명했습니다.
00:02:50맥락을 파악할 수 있도록 마이그레이션 가이드를 전달했고, 모든 테스트를
00:02:55통과시키라고 주문했습니다. 특히 모델들이 자주 사용하는 `as any` 같은 타입스크립트 편법은 최대한 피하라고 강조했죠.
00:02:59이번 AI SDK의 타입이 꽤 복잡해졌기 때문에 확실하게 당부해두고 싶었습니다.
00:03:03먼저 Codecs 5.3이 어떻게 수행했는지 보겠습니다. 우선
00:03:09리포지토리를 파악하는 것부터 시작하더군요. `packages/agent`가 포함된 모노리포라는 점을 인식하고 근본 원인과
00:03:15업그레이드가 필요한 패키지들을 식별했습니다. 작업을 어떻게 진행할지도 정확히 나열했고요. 그 후에는
00:03:22본격적으로 코딩에 들어가 수시로 빌드를 실행하며 타입 오류를 하나씩 잡아나갔습니다.
00:03:27놀랍게도 약 40분 동안 아무런 중단 없이 작업을 이어갔는데 정말 인상적이었습니다.
00:03:32보시다시피 545줄의 코드를 추가하고 111줄을 삭제했네요. 이제 Claude Code로 가봅시다.
00:03:39동일한 프로젝트와 프롬프트를 주었고, 이 모델 역시 약 40분 동안 작업을 수행했습니다.
00:03:44다만 실제 실행을 시도했을 때 몇 가지 빌드 오류가 남아 있더군요.
00:03:48그래서 Opus로부터 최종적으로 작동하는 버전을 받기 위해 프롬프트를 한 번 더 보내야 했습니다.
00:03:53그래도 결과적으로는 Codecs와 꽤 비슷한 경험을 제공했습니다.
00:03:56하지만 한 가지 말씀드리자면, 저는 Codecs의 UI가 터미널 UI보다 훨씬 마음에 듭니다. 취향 차이일 수 있겠지만요.
00:04:02어쨌든 Codecs 5.3은 한 번의 프롬프트, Opus 4.6은 두 번의 프롬프트 끝에
00:04:06두 모델 모두 타입 오류나 빌드 오류 없이 AI SDK 신규 버전으로 에이전트 패키지를 업그레이드하는 데 성공했습니다.
00:04:11모든 테스트를 통과했지만 방식에는 차이가 있었습니다. 여기
00:04:16왼쪽은 Codecs, 오른쪽은 Opus가 변경한 내용입니다.
00:04:19Opus가 Codecs에 비해 프로젝트에 더 많은 변경을 가한 것을 볼 수 있습니다.
00:04:23특정 기능을 처리하는 방식도 조금 달랐는데요.
00:04:25Codecs가 정말 잘한 부분 중 하나는 바로 이 도구 승인 요청(tool approval request) 로직입니다.
00:04:30이건 AI SDK v6에 새로 추가된 기능인데, Opus 버전에서는 이에 대한 언급을 찾을 수 없었습니다.
00:04:35그냥 건너뛰고 코드에 반영하지 않은 것 같더군요.
00:04:40반면에 Codecs가 아쉬웠던 점은 UI 메시지를
00:04:46모델 메시지로 변환하는 자체 함수를 완전히 새로 만들었다는 겁니다.
00:04:50사실 AI SDK에는 이미 이 기능을 수행하는 함수가 내장되어 있고, 그걸 사용하는 게 훨씬 바람직합니다.
00:04:57옆에서 비교해 보면 Opus는 이 부분을 정확하게 처리했습니다.
00:05:00AI SDK에서 제공하는 `convert to model messages` 함수를 그대로 사용했죠.
00:05:04이렇게 하면 나중에 패키지를 업그레이드할 때
00:05:07제가 직접 만든 버전을 수정할 걱정 없이 패키지에서 제공하는 기능을 그대로 쓸 수 있습니다.
00:05:14이 점은 코드를 훑어볼 때 약간 거슬리는 부분이자 우려되는 지점이었습니다.
00:05:19코드 리뷰에 대해 제3자의 의견을 듣기 위해
00:05:20다시 Codecs 5.3에게 코드를 주고 리뷰를 요청했습니다. 각 방식의 장단점을 나열해 주더군요.
00:05:29그런데 결론 부분에서 Codecs 5.3은 오히려 마이그레이션 아키텍처가 더 우수한 Opus의 버전을 선택했습니다.
00:05:36더 안전하게 배포할 수 있는 베이스를 고르라면
00:05:39Opus의 채팅 버전을 선택하고, 거기에 Codecs의 승인 및 거부 처리 로직을 가져오는 방식을 추천하더군요.
00:05:43즉, 아까 봤던 도구 승인 요청 함수만
00:05:46Codecs 버전에서 가져와서 Opus 버전에 추가하면 더 완벽한 마이그레이션이 된다는 뜻입니다.
00:05:51Codecs 5.3이 편향되지 않고 공정하게 판단하는 모습을 보니 다행이네요.
00:05:55두 모델의 마이그레이션 방식이 꽤 비슷했고, 프롬프트를 통해 더 나은 방향으로 유도할 수 있을 것 같습니다.
00:06:01하지만 테스트 하나로는 부족하죠.
00:06:03두 번째 테스트는 가벼운 주제로, Three.js를 사용해 클럽 펭귄 클론 게임을 만들어 달라고 했습니다.
00:06:08어떤 모델이 만든 건지는 나중에 말씀드리겠지만, 이게 첫 번째로 나온 게임입니다.
00:06:13펭귄 생성 화면이 있고 상단에서 아바타가 변하는 것을 볼 수 있습니다.
00:06:17모자도 씌울 수 있네요. 파티 모자, 프로펠러 모자, 왕관이 있습니다.
00:06:21저는 프로펠러 모자를 쓰고 시작해 보겠습니다. 클럽 펭귄을 아시는 분이라면
00:06:26이 버전이 마을 중심가를 꽤 잘 흉내 냈다는 걸 느끼실 겁니다. 비록 피자 가게가 옆에 있지는 않지만요.
00:06:32원래 디스코 센터가 있어야 할 자리인데, 이 건물들 안으로 직접 들어갈 수는 없습니다.
00:06:35아직은 벽 통과가 가능하네요.
00:06:37그래도 지도를 통해 다른 지역으로 이동할 수 있다는 점은 잘 구현했습니다.
00:06:41스키 마을로 가보겠습니다. 클릭해서 돌아다녀 보니
00:06:44에셋을 전혀 주지 않고 만든 Three.js 결과물치고는 펭귄이 꽤 괜찮아 보입니다.
00:06:49모델이 학습한 데이터를 바탕으로 구현한 것이죠. 여기서 썰매 경주 게임도 해볼 수 있습니다.
00:06:54제가 클럽 펭귄에서 제일 좋아하던 게임인데요. 비어있는 부분이
00:06:59좀 있긴 하지만 단 한 번의 프롬프트로 만든 결과물치고는 훌륭합니다.
00:07:04이 버전에는 카트 서퍼 게임도 구현되어 있습니다.
00:07:07이것도 제가 좋아하던 건데, 이건 좀 고장 난 것 같네요.
00:07:11옆으로만 움직이다가 맵 아래로 떨어진 것 같습니다. 갑자기 어두워지네요.
00:07:15이게 다른 모델이 만든 버전입니다. 댓글로
00:07:18어떤 모델이 더 잘 만든 것 같은지, 그리고 각 버전을 만든 모델이 무엇일지 맞춰보세요.
00:07:22테스트가 끝나고 알려드리겠습니다. 여기 보시다시피
00:07:25프롬프트에 넣었던 것과 같은 색상 선택기가 있습니다.
00:07:27모자와 액세서리도 있네요. 이번엔 왕관을 쓰고 모험을 시작해 봅시다.
00:07:31펭귄이 이전 버전보다 좀 더 뭉툭하네요. 더 웃기게 생겼지만, 이것 역시 에셋 없이
00:07:36Three.js로 처음부터 만든 겁니다.
00:07:38건물을 통과해 버리는 문제는 여기도 똑같네요.
00:07:41하지만 지도가 있고 여러 지역이 구현되어 있습니다.
00:07:44스키 마을로 가볼까요?
00:07:46여기서도 게임을 할 수 있습니다. 썰매 경주를 해보는데
00:07:50솔직히 이전에 했던 썰매 경주와 꽤 비슷하네요.
00:07:53멀리서 나무들이 다가오는 모습이 보입니다.
00:07:56목숨이 세 개 있고 카운터도 잘 작동하네요.
00:07:58그런데 이 버전에서는 점프가 안 되는 것 같습니다.
00:08:01이 모델도 카트 서퍼 게임 버전을 만들어 줬는데,
00:08:04이것도 좀 이상하네요.
00:08:06그래도 사물들이 보이고 점프도 가능해서 기능적으로는 조금 더 낫지만,
00:08:11어디서 서핑을 하고 있는 건지 모르겠습니다. 레일도 없고, 제가 기억하는
00:08:17클럽 펭귄의 카트 서퍼와는 거리가 머네요.
00:08:19전반적으로 단 한 번의 프롬프트로, 특히 Three.js를 사용해 이 정도를 해낸다는 게 놀랍습니다. 정답을 말씀드리면
00:08:25첫 번째는 Opus 4.6이었고 두 번째는 Codecs 5.3이었습니다. 개인적으로는 첫 번째가 더 마음에 듭니다.
00:08:30그래서 클럽 펭귄 테스트는 Opus 4.6의 승리입니다. 이제 마지막 테스트는
00:08:34UI 디자인 실력을 확인해 보는 것입니다. 요즘 AI 모델들이 디자인도 꽤 잘하거든요.
00:08:38두 모델 모두에게 AI 전용 소셜 미디어 사이트의 랜딩 페이지를 만들어 달라고 했습니다.
00:08:42Molt Book과 비슷하게, 'AI 전용'과 '미래'를 강조하며 약간 냉소적인 톤으로 단일 HTML 파일로 작성해 달라고 했죠.
00:08:49결과물을 보고 저는 Codecs에게 깊은 인상을 받았습니다.
00:08:55왼쪽이 Codecs 5.3, 오른쪽이 Opus 4.6입니다. 저는 개인적으로 Codecs
00:09:005.3이 구성한 방식이 정말 마음에 듭니다.
00:09:01네오 브루탈리즘 디자인을 채택했는데, 전형적인 '바이브 코딩' 사이트들보다 훨씬 재미있네요.
00:09:06Opus 4.6도 디자인은 훌륭하지만 전형적인 바이브 코딩 앱 같은 느낌입니다. 아주 잘 만들긴 했어요.
00:09:14보라색 그라데이션 같은 요소들이 전형적인 느낌을 주죠. 반면 Codecs
00:09:205.3 버전은 마치 사람이 직접 의도를 가지고 개입해서 디자인한 것 같은 느낌을 줍니다.
00:09:25정확히 같은 프롬프트를 주었는데도 말이죠.
00:09:27다만 페이지의 기능적인 면에서는 Opus 4.6이 조금 더 앞섰습니다.
00:09:32하단에 트렌딩 탭이 있고, 규칙, 이달의 인기 모델 등 다양한 섹션이 있네요.
00:09:36인기 서브레딧과 피드도 잘 갖춰져 있습니다. 반면 Codecs 5.3은 비교적 썰렁합니다.
00:09:41그냥 트렌딩 탭 하나만 덩그러니 있네요.
00:09:44이 모델들이 디자인 아레나(Design Arena)에서 어떤 점수를 받을지 궁금합니다.
00:09:47방금 출시되어서 아직 순위는 없지만, 현재 1위는 GLM 4.7입니다.
00:09:51Codecs 5.3이나 Opus 4.6이 왕좌를 뺏을 수 있을지 지켜봐야겠네요.
00:09:55두 모델 모두 매우 유능해서 어느 쪽이 최고라고 단정 짓기는 어렵습니다.
00:09:59저는 개인적으로 Codecs 5.3 쪽으로 마음이 기울고 있습니다.
00:10:03단순히 Codecs 앱 자체가 좋고 오픈AI 모델을 사용할 때의 전반적인 경험이 좋았기 때문이죠. 벤치마크를
00:10:09비교해 보면, 서두에 언급했듯이 Codecs가 Terminal Bench 2.0에서 압도적인 우위를 점하고 있습니다.
00:10:15정말 엄청난 도약인데, 현재로서는 이 벤치마크가 유일한 비교 지표입니다.
00:10:21앤스로픽이 오픈AI의 이번 출시를 예상하지 못했는지 블로그 포스트에서 서로 다른 벤치마크를 사용했거든요.
00:10:28Artificial Analysis를 확인해 보니 현재 Opus 4.6의 코딩 벤치마크는 비추론 버전만 완료된 상태였습니다.
00:10:35놀라운 건 4.6의 비추론 버전이 4.5 Opus의 추론 버전만큼이나 성능이 좋다는 점입니다.
00:10:42제 느낌상 Opus 4.5에서 4.6으로의 변화는 GPT 5.2 Codecs에서 5.3으로의 변화보다는 폭이 적은 것 같습니다.
00:10:49하지만 직접 더 써보면서 실제 성능이 어떤지 체감해 봐야겠죠.
00:10:53이번 출시에는 몇 가지 추가 기능도 있습니다.
00:10:55가장 흥미로운 것 중 하나는 두 모델 모두 사이버 보안 능력이 향상되었다는 점입니다. 오픈AI는 GPT
00:11:015.3 Codecs가 사이버 보안 작업에서 '높은 능력' 등급을 받은 첫 모델이며 소프트웨어 취약점을 식별하도록 직접 훈련되었다고 밝혔습니다.
00:11:09앤스로픽도 블로그 포스트에서 비슷한 내용을 언급했죠. 제가 정말 기대하는 Codecs의 기능은
00:11:16작업 도중 실시간으로 모델을 유도할 수 있다는 점입니다.
00:11:21최종 출력을 기다릴 필요 없이 실시간으로 질문하거나 방식을 논의하며 해결책을 향해 함께 나아갈 수 있다고 하네요.
00:11:27저는 항상 모델이 끝날 때까지 기다려야 할지, 아니면 중간에 끊고 수정해야 할지 고민했는데
00:11:35특히 작업 시간이 길어지는 요즘 같은 상황에서
00:11:40모델이 일하는 동안 실시간으로 소통할 수 있다는 건 훨씬 더 나은 사용자 경험을 제공할 것입니다.
00:11:44마지막으로 Claude에도 새로운 기능이 추가되었습니다. 첫 번째는 'Claude Code'입니다.
00:11:48이제 에이전트 팀을 구성해 하위 에이전트들과 협업할 수 있습니다. 리처드가 이번 주 초에 관련 영상을 올렸으니
00:11:55궁금하신 분들은 확인해 보세요. 또한 API 기능으로 컨텍스트 압축 기능이 추가되었습니다.
00:12:01맥락을 요약하여 더 장기적인 작업을 수행할 수 있도록 돕는 기능입니다.
00:12:06새로운 '적응형 사고 모드(Adaptive Thinking Mode)'도 있습니다.
00:12:08모델이 상황에 맞춰 '확장 사고'를 얼마나 사용할지 스스로 판단하게 하는 방식이죠.
00:12:13코딩 모델들이 정말 비약적으로 발전하고 있습니다.
00:12:16Claude Code가 출시된 지 채 1년도 되지 않았다는 사실이 믿기지 않네요.
00:12:20이번 모델들에 대해 어떻게 생각하시는지 댓글로 알려주세요. 구독 잊지 마시고, 다음 영상에서 뵙겠습니다!
00:12:31(경쾌한 음악)

Key Takeaway

오픈AI의 GPT 5.3 Codecs가 벤치마크와 디자인에서 우위를 점하고 있으나, Claude Opus 4.6 역시 아키텍처 설계와 게임 구현 능력에서 강력한 면모를 보이며 코딩 AI 시장의 경쟁이 심화되고 있습니다.

Highlights

앤스로픽의 Claude Opus 4.6과 오픈AI의 GPT 5.3 Codecs 간의 치열한 코딩 성능 경쟁

Terminal Bench 2.0에서 GPT 5.3 Codecs가 Opus 4.6을 10% 이상의 차이로 추월

Opus 4.6의 신중한 계획 수립 능력과 100만 토큰 컨텍스트 윈도우 지원

GPT 5.3 Codecs의 25% 향상된 속도와 추론 및 코딩 능력의 완벽한 통합

실제 프로젝트 마이그레이션 테스트를 통한 두 모델의 코드 구조 및 로직 처리 방식 비교

게임 및 UI 디자인 테스트에서 드러난 각 모델의 창의성과 디자인 철학의 차이

두 모델 모두에 도입된 향상된 사이버 보안 능력과 실시간 상호작용 기능

Timeline

새로운 모델 출시와 벤치마크 격차

앤스로픽이 Claude Opus 4.6을 출시하며 Terminal Bench 2.0 역대 최고 점수를 기록했으나, 곧이어 출시된 오픈AI의 GPT 5.3 Codecs가 이를 10% 이상 앞질렀습니다. 화자는 두 모델 간의 경쟁이 불과 몇 분 만에 반전되는 상황을 설명하며 AI 기술의 빠른 발전 속도를 언급합니다. 특히 최근 GPT 5.2를 선호해온 사용자 입장에서 새로운 모델들이 어떤 변화를 가져올지 기대감을 드러냅니다. 벤치마크 수치는 영상의 마지막에 상세히 다룰 예정임을 예고하며 서두를 엽니다. 이 섹션은 현재 가장 진보된 두 코딩 모델의 등장을 선언하며 시청자의 이목을 집중시킵니다.

Claude Opus 4.6의 개선 사항과 특징

앤스로픽은 Opus 4.6이 에이전트 작업 수행 능력과 거대 코드베이스에서의 안정성을 대폭 향상시켰다고 주장합니다. 이전 버전의 약점으로 지적되었던 코드 리뷰 및 디버깅 능력을 강화하여 스스로 실수를 잡아내는 능력이 좋아졌습니다. 특히 베타 버전으로 제공되는 100만 토큰 컨텍스트 윈도우는 대규모 프로젝트 작업에 큰 도움이 될 것으로 보입니다. 다만 20만 토큰 초과 시 발생하는 추가 비용에 대한 구체적인 가격 정책도 함께 설명됩니다. 화자는 Opus가 코딩 시작 속도는 빠르지만 실수가 잦았던 과거의 문제점을 이번 업데이트로 극복했기를 기대합니다.

GPT 5.3 Codecs의 통합 성능과 효율성

오픈AI는 GPT 5.3 Codecs를 통해 기존의 전문 코딩 성능과 일반적인 추론 능력을 하나로 통합한 '올라운더' 모델을 선보였습니다. 이 모델은 이전 모델보다 작업 속도가 25% 빨라졌으며, 복잡한 리서치와 도구 활용이 필요한 장기 작업에 최적화되었습니다. 화자는 이것이 마케팅 문구에 그치지 않고 실제 성능으로 이어질지 의문을 제기하며 본격적인 테스트를 준비합니다. 특히 지식 기반과 코딩 능력을 동시에 갖춘 점이 실제 워크플로우에서 어떤 이점을 줄지 주목합니다. 이 섹션은 오픈AI가 추구하는 범용 코딩 AI의 방향성을 잘 보여줍니다.

실전 테스트 1: Convex 에이전트 패키지 마이그레이션

첫 번째 테스트로 AI SDK v6로의 복잡한 패키지 마이그레이션 작업을 수행하며 두 모델의 실질적인 코딩 실력을 검증합니다. GPT 5.3 Codecs는 리포지토리를 정확히 분석하고 40분간 중단 없이 작업을 이어가며 한 번의 프롬프트로 성공적인 결과를 냈습니다. 반면 Opus 4.6은 유사한 성과를 냈으나 빌드 오류를 수정하기 위해 두 번의 프롬프트가 필요했습니다. 화자는 Codecs의 터미널 UI보다 직관적인 인터페이스를 칭찬하며 두 모델 모두 난이도 높은 타입스크립트 오류를 잘 해결했음을 확인합니다. 이 과정에서 모델들이 복잡한 타입 오류와 모노리포 구조를 다루는 방식의 차이가 드러납니다.

코드 아키텍처 및 상세 로직 비교

두 모델이 생성한 코드를 상세히 비교한 결과, Opus 4.6은 내장 함수를 정확히 활용하는 등 아키텍처 측면에서 더 안전한 설계를 보였습니다. 반면 GPT 5.3 Codecs는 최신 SDK의 신규 기능인 '도구 승인 요청' 로직을 완벽히 구현하는 뛰어난 적응력을 보여주었습니다. 흥미롭게도 GPT 5.3에게 직접 리뷰를 맡겼을 때, 본인의 결과물보다 Opus의 마이그레이션 구조가 더 우수하다고 공정하게 평가했습니다. 결국 두 모델의 장점을 결합한 방식이 최적의 해결책이라는 결론에 도달하게 됩니다. 이 섹션은 단순히 코드를 짜는 것을 넘어 설계의 질적인 측면을 분석하는 데 중점을 둡니다.

실전 테스트 2: Three.js 기반 게임 제작 및 UI 디자인

에셋 없이 Three.js로 클럽 펭귄 클론 게임을 만드는 테스트에서 Opus 4.6은 더 완성도 높은 비주얼과 게임 플레이를 구현하며 승리했습니다. 이어진 UI 디자인 테스트에서는 GPT 5.3 Codecs가 네오 브루탈리즘 스타일을 채택하여 독창적이고 인간적인 감각의 디자인을 선보여 화자를 놀라게 했습니다. Opus는 기능적으로는 더 풍부한 섹션을 구성했지만 전형적인 AI 생성 디자인의 느낌을 지우지 못했다는 평가를 받았습니다. 각 모델이 창의적인 영역에서 보여주는 개성과 한계가 극명하게 갈리는 지점입니다. 화자는 디자인 아레나에서 이 모델들이 기록할 순위에 대해서도 큰 관심을 보입니다.

신규 기능 요약 및 최종 결론

마지막으로 두 모델에 추가된 사이버 보안 강화 기능과 실시간 상호작용 능력 등 핵심 업데이트 사항을 정리합니다. 특히 GPT 5.3 Codecs의 실시간 유도 기능은 긴 작업 시간 동안 사용자가 중간에 개입할 수 있게 하여 사용자 경험을 혁신적으로 개선합니다. Claude는 'Claude Code'를 통한 에이전트 협업 기능과 적응형 사고 모드를 도입하여 효율성을 극대화했습니다. 화자는 전반적인 경험과 UI 측면에서 오픈AI의 손을 들어주면서도 Opus의 잠재력을 높게 평가합니다. 코딩 모델의 비약적인 발전 속도에 감탄하며 시청자들의 의견을 묻는 것으로 영상을 마무리합니다.

Community Posts

View all posts