00:00:00이제 Claude Code 내부에서 Codex를 사용할 수 있게 되었습니다.
00:00:03OpenAI가 그것을 만들어냈죠.
00:00:04Opus 4.6의 최대 경쟁자가
00:00:08이제는 여러분이 사용할 수 있는
00:00:09Anthropic 생태계의 도구가 된 것입니다.
00:00:11이것은 모든 Claude Code 사용자들에게 희소식입니다,
00:00:15특히 사용량 제한 때문에
00:00:18어려움을 겪어온 분들이라면 더욱 그렇습니다, 왜냐하면
00:00:20솔직히 Codex는 가성비 측면에서
00:00:23달러 대비 크레딧이나 토큰 효율이 훨씬 좋기 때문입니다.
00:00:26그래서 이번 영상에서는 설정 방법을 보여드리고
00:00:28Claude Code라는 틀 안에서 Codex가 실제로
00:00:31어떤 일을 할 수 있는지 살펴볼 것입니다.
00:00:33그리고 더 중요한 것은, Claude Code를 통해
00:00:38Opus 4.6과 Codex를 함께 사용해서 무엇을 할 수 있느냐 하는 점입니다.
00:00:40어떻게 하면 이 두 모델을 조화롭게 활용해서
00:00:43개별 모델보다 더 큰 시너지를 낼 수 있을까요?
00:00:46설치를 시작하기 전에, Claude Code 플러그인이
00:00:48어떤 기능을 제공하는지 빠르게 훑어보겠습니다,
00:00:50몇 가지 주요 기능이 있거든요.
00:00:51가장 중요한 두 가지를 꼽으라면
00:00:54역시 코드 리뷰 기능일 것입니다.
00:00:56Opus가 작성한 코드를
00:00:58다시 한번 검토하게 만드는 기능이죠.
00:00:59이 기능은 두 단계로 나뉩니다.
00:01:01첫 번째는 표준 Codex 리뷰인데,
00:01:03이는 일종의 중립적인 검토입니다.
00:01:06그저 읽기 전용으로 코드를 살펴보는 것이죠.
00:01:08두 번째는 제가 아주 좋아하는 '적대적 리뷰'입니다.
00:01:12이것은 기본적으로 Codex에게 이렇게 시키는 겁니다.
00:01:13"자, Opus나 다른 코딩 에이전트가
00:01:15만든 결과물을 한번 살펴봐,
00:01:17하지만 아주 까다로운 시선으로 봐줘.
00:01:20그들이 실수했다고 가정하고
00:01:22어떻게 개선할 수 있을지 찾아내란 말이야."
00:01:25이것은 출력 품질을 높이는 아주 환상적인 방법입니다,
00:01:28왜냐하면 Opus를 포함한
00:01:31대부분의 AI 모델들이 겪는 문제 중 하나가
00:01:33자신이 짠 코드를 스스로 평가하는 데 서툴다는 점이기 때문입니다.
00:01:36이것은 Anthropic이 지난주에 발표한
00:01:38엔지니어링 블로그에서도 언급했던 내용입니다.
00:01:40따라서 적대적 리뷰 같은 기능은 정말 완벽하고 마음에 듭니다.
00:01:44그 외에도 'Codex Rescue' 기능을 사용할 수 있는데,
00:01:46이는 Claude Code 안에서 Opus를 쓰듯
00:01:49Codex가 스스로 무언가를 생성하게 해줍니다.
00:01:52그리고 그 외에는 현재 작업의 진행 상황을
00:01:54확인하는 등의 상태 관련 기능들이 있습니다.
00:01:58그럼 이제 본격적으로 설치 과정을 살펴보겠습니다.
00:02:01설치 방법은 꽤 간단합니다.
00:02:02이 명령어를 실행해서
00:02:04마켓플레이스에 추가하기만 하면 됩니다.
00:02:06명령어들은 모두 영상 설명란에 적어두겠습니다.
00:02:08그런 다음 플러그인 설치 명령어를 실행하세요,
00:02:11codex@openai-codex입니다.
00:02:13평소처럼 설치 경로를 물어볼 텐데
00:02:14저는 사용자 범위(user scope)로 선택하겠습니다.
00:02:16그 후 플러그인을 다시 로드해야
00:02:17정상적으로 작동하기 시작합니다.
00:02:18마지막으로 codex:setup을 실행하면 됩니다.
00:02:21혹시 모르실까 봐 말씀드리면, 이 도구에 대한
00:02:24GitHub 리포지토리에도 모든 설치 명령어가 나와 있습니다.
00:02:27그 링크도 설명란에 같이 걸어두겠습니다.
00:02:29사용량은 여러분의 ChatGPT 계정과 연결됩니다,
00:02:32무료 계정이라도 가능한 것으로 보입니다.
00:02:34그러니 여러분의 Codex 사용량에서
00:02:36차감된다는 점을 이해하시면 됩니다.
00:02:37Codex를 설치할지 물어보면 'yes'를 선택하세요.
00:02:39로그인을 하면 브라우저 창이 열리고
00:02:42인증 절차를 거치게 됩니다.
00:02:44Claude Code 내부에서 이 Codex 도구를 사용하는
00:02:47두 가지 확실한 유스케이스가 있습니다.
00:02:49첫 번째는 Claude Code의
00:02:52사용량 제한 문제를 해결하는 것입니다.
00:02:53보통 Anthropic의 프로 플랜이나
00:02:555배 상한선을 써도 한도에 금방 도달하곤 합니다,
00:02:58특히 지난주에 발견된
00:03:00CLI 버그들 때문에 더욱 그렇죠.
00:03:02이런 경우라면 여러분은
00:03:03Opus 4.6으로 계획을 세우고 Codex로 실행을 맡길 수 있습니다.
00:03:07그 방법 역시 매우 간단합니다.
00:03:09그저 'codex rescue'라고 입력하면 됩니다.
00:03:11그리고 거기서 프롬프트를 입력하면 되죠.
00:03:14또한 여러 가지 사항을 지정할 수도 있습니다.
00:03:16여기 보이는 플래그들처럼,
00:03:18노력 수준(effort level) 같은 것들 말이죠.
00:03:20기억하세요, Codex 모델 자체도 매우 훌륭합니다.
00:03:24게다가 사용료는 Anthropic이
00:03:26청구하는 금액 근처에도 가지 않을 만큼 저렴합니다.
00:03:27하지만 더 흥미로운 유스케이스는
00:03:28앞서 말씀드린 것과 같이,
00:03:29바로 '적대적 리뷰' 기능입니다.
00:03:30그럼 테스트를 한번 해보죠.
00:03:32제가 만든 트위터 인게이지먼트 및
00:03:33조사 자동화 봇을 살펴보게 할 겁니다.
00:03:37이것은 제가 Claude Code로 구축한 웹 앱입니다.
00:03:39기본적으로 AI 분야의 트윗들을
00:03:43매 30분에서 45분마다 스캔합니다.
00:03:45품질 필터 기능도 있고,
00:03:47여러 매개변수를 바탕으로 한
00:03:48점수 산출 알고리즘도 갖추고 있습니다.
00:03:50Supabase와 연결되어 있어
00:03:51트윗이 중복되는 것을 방지합니다.
00:03:53스코어링 시스템과 Softmax, PIX가 통합되어 있고
00:03:56모든 내용은 텔레그램으로 전송됩니다.
00:03:58또한 답변 작성을 돕는 AI 기능도 들어있죠.
00:04:00꽤 많은 기능이 돌아가고 있습니다.
00:04:02그뿐만 아니라,
00:04:03제 모든 답변 내용도 추적해서
00:04:06피드백 루프를 형성하도록 설계했습니다.
00:04:07그러니까 아주 복잡한 것까지는 아니더라도,
00:04:10단순한 랜딩 페이지 수준보다는 훨씬 고차원적인 코드입니다.
00:04:13자, Codex가 어떤 결과물을 내놓을지 봅시다.
00:04:16이 코드 베이스에 대해 적대적 리뷰를 실행했을 때 말이죠.
00:04:20성능이 어떨지 확인해 보겠습니다.
00:04:22해석의 여지를 충분히 열어두고 질문하겠습니다.
00:04:23Codex에게 이 코드 베이스를 살펴보고
00:04:24의견을 달라고 요청합니다.
00:04:27그러면 가장 먼저 하는 일은,
00:04:28최적의 모드를 결정하기 위해
00:04:30리뷰 규모를 추산하는 것입니다.
00:04:32그다음에는 이렇게 묻습니다.
00:04:33백그라운드에서 실행할 것인지,
00:04:34아니면 결과를 기다릴 것인지 말이죠.
00:04:35저희는 그냥 결과를 기다려 보겠습니다.
00:04:37리뷰 범위는 전체 코드 베이스와
00:04:399개의 작업 트리 변경 사항, 1개의 수정된 파일,
00:04:42그리고 8개의 추적되지 않은 파일들을 포함합니다.
00:04:43즉, Codex는 검토해야 할 내용이
00:04:44상당히 많다는 것을 인지하고 있습니다.
00:04:46작업이 진행되는 동안,
00:04:47적대적 리뷰가 실제로 어떻게 작동하는지 이야기해 봅시다.
00:04:49방금 앞부분의 네 단계를 보셨죠?
00:04:52인수(arguments)를 구문 분석했습니다.
00:04:54저희가 별도의 플래그를 전달하지 않았으므로,
00:04:55기본 설정에 따라 진행됩니다.
00:04:57그 후 리뷰 규모를 추산하고,
00:04:59대상 파일을 확정한 뒤 컨텍스트를 수집했습니다.
00:05:01그 과정이 바로 아까 보셨던,
00:05:03추적되지 않은 변경 사항이 있고
00:05:04시간이 좀 걸릴 거라는 안내 메시지들이었습니다.
00:05:05이 첫 네 단계가 끝나면,
00:05:06이제 '적대적 프롬프트'를 생성하게 되는데,
00:05:09이때 특히 주의 깊게 살펴보는
00:05:11일곱 가지의 공격 표면(attack surfaces)이 있습니다.
00:05:13그것은 바로 인증, 데이터 손실, 롤백,
00:05:17경합 조건(race conditions), 종속성 저하,
00:05:20버전 불일치, 그리고 관측성 공백 등입니다.
00:05:23즉, 표면적으로는 잘 드러나지 않지만
00:05:26제대로 관리하지 않은 채
00:05:27프로덕션에 배포했다가는
00:05:29큰 문제를 일으킬 수 있는 일곱 가지 요소들이죠.
00:05:30거기서 수집된 모든 정보는
00:05:31Codex가 검토할 수 있도록 OpenAI 서버로 전송됩니다.
00:05:34그 결과로 구조화된 JSON 출력을 받게 되며,
00:05:37대략 이런 모습일 것으로 예상하면 됩니다.
00:05:41발견된 문제들의 심각도를
00:05:43치명적, 높음, 중간, 낮음 등으로 나누어 보여주고,
00:05:46권장 사항과 다음 단계의 조치도 알려줍니다.
00:05:48여러분은 그저 Claude Code 안에 앉아서
00:05:51답변이 올 때까지 기다리기만 하면 됩니다.
00:05:52자, Codex가 저희 코드 베이스에서 4개의 문제를 찾아냈고
00:05:54모두 심각도가 '높음'으로 나왔습니다.
00:05:57내용을 더 쉽게 살펴보기 위해
00:05:58Excalidraw로 옮겨 보았습니다.
00:06:00각 문제에 대해 심각도, 해당 영역,
00:06:02구체적인 문제 내용, 관련 파일들,
00:06:06그리고 검토가 필요한
00:06:08실제 코드 라인까지 제공합니다.
00:06:09또한 중요한 점은, 실제 어떤 영향이 있는지와
00:06:12해결책까지 제시해준다는 것입니다.
00:06:13첫 번째로, 중복 제거(dedup) 로직에
00:06:15문제가 있다고 지적했습니다.
00:06:16두 번째는 텔레그램 폴링 처리 방식에 관한 것이었고요.
00:06:19세 번째는 스키마 드리프트 문제였습니다.
00:06:21마지막은 실제 대시보드 빌드와 관련된 내용이었죠.
00:06:24이것들은 실제로 꽤 중요한 사항들이며
00:06:27다행히 해결 방법들이
00:06:29구현하기에 그리 까다로워 보이지는 않습니다.
00:06:31하지만 여기서 제가 궁금한 것은,
00:06:33이것이 Codex의 결과라면,
00:06:35Claude에게 같은 코드 베이스에 대해
00:06:40비슷한 적대적 리뷰를 시켰을 때 무엇을 내놓을까 하는 점입니다.
00:06:43두 모델을 직접 비교해보면
00:06:45Codex가 다른 모델들과 구체적으로
00:06:46어떤 차별점이 있는지 알 수 있어 매우 유익할 것입니다.
00:06:48만약 결과가 똑같다면,
00:06:50이 영상 자체가 의미 없을 수도 있으니까요.
00:06:52그래서 지금 Opus에게도 똑같은
00:06:55적대적 코드 리뷰를 시키고 있습니다.
00:06:56Codex가 만든 특정 프롬프트를 사용했습니다.
00:06:59프롬프트의 요지는 이렇습니다.
00:07:00"구현 방식과 설계 선택에
00:07:02이의를 제기해라.
00:07:04여기에 평가해줬으면 하는 항목들이 있고,
00:07:05출력 형식은 다음과 같이 해라."
00:07:07그럼 어떤 결과가 나오는지 봅시다.
00:07:09자, 분석된 결과입니다.
00:07:11우선, 두 모델이 공통으로 발견한 사항이 하나 있었습니다.
00:07:13텔레그램 이슈가 문제라는 점에 둘 다 동의했습니다.
00:07:17이것이 두 모델 모두 '높음' 또는 '치명적'으로 분류한
00:07:20심각도가 '높음' 또는 '치명적'이라고 한
00:07:23이 사안에 대해 Codex는 '높음'이라고 했고
00:07:24Opus는 '치명적'이라고 평가했습니다.
00:07:26Opus는 그 외에도 추가로 7개의 문제를
00:07:30Codex가 놓친 '높음' 또는 '치명적' 등급으로 찾아냈습니다.
00:07:32단순히 더 많은 문제를 찾아냈다고 해서
00:07:36Opus가 Codex보다
00:07:37반드시 더 낫다고 말하려는 것은 아닙니다.
00:07:39그저 Codex는 발견하지 못한,
00:07:41우리가 살펴볼 만한 7가지를 더 찾아냈다는 점을 짚어두는 거죠.
00:07:43반대로 생각해보면,
00:07:45Opus가 놓친 3개의 문제를 Codex에서 발견하기도 했습니다.
00:07:48전체적으로 살펴봤을 때
00:07:49이것이 의미하는 바는 무엇일까요?
00:07:50더 많이 찾아낸 Opus가 Codex보다 나은 걸까요,
00:07:51아니면 핵심적인 4개에 집중하고
00:07:54이상한 방향으로 우리를 이끌지 않은
00:07:56Codex가 Opus보다 나은 걸까요?
00:07:58여기서 어떤 결론을 내릴지는
00:07:59여러분의 판단에 달려 있다고 생각합니다.
00:08:01다만 확실한 것은 이 두 시스템을 모두 활용하는 것이
00:08:04가치가 있다는 점일 것입니다.
00:08:05그렇지 않나요?
00:08:06항상 Opus가 Opus를 검수하게 하는 것보다
00:08:09제3자의 시각으로 보는 것이 중요하니까요.
00:08:10동일한 AI 시스템이 계획하고,
00:08:13생성하고, 평가까지 모두 담당하는 것에는
00:08:16어떤 근본적인 결함이 있다고 생각합니다.
00:08:17만약 우리가 Codex를 아주 쉽게 도입할 수 있다면,
00:08:20특히 그 합리적인 가격대를 고려했을 때,
00:08:22이런 용도로 활용하기에 아주 좋습니다.
00:08:24예를 들어 '적대적 리뷰' 같은 기능 말이죠.
00:08:25이것은 AI 코딩 분야에서 아주 훌륭한
00:08:28부가적인 전략이 될 수 있는데, 안 할 이유가 없죠.
00:08:30이미 ChatGPT를 유료로 사용하고 있고,
00:08:34매달 20달러씩 지불하고 있다면,
00:08:35이 기능을 가져와서 Codex가
00:08:37무엇이든 검토하게 만들 수 있습니다.
00:08:38이렇게 간단한데, 정말 안 할 이유가 있을까요?
00:08:43물론 이런 간단한 테스트만으로
00:08:47어떤 결정적인 정답을 내릴 수는 없을 겁니다.
00:08:48예를 들어 'Codex가 Opus보다 낫다' 같은 결론 말이죠.
00:08:50사실 그런 논쟁 자체가
00:08:51본질을 벗어난 것이라고 생각합니다.
00:08:52이것은 그저 우리 도구 상자에 추가된 또 하나의 도구일 뿐이고
00:08:54이제 우리는 그것을 사용할 수 있게 된 것이니까요.
00:08:55그래서 아주 훌륭한 변화라고 생각합니다.
00:08:56이제 '적대적 리뷰'를 훨씬 더
00:08:58구체적으로 진행할 수 있게 되었습니다.
00:09:00우리의 프롬프트는 꽤 개방적이고 포괄적이었기에
00:09:03다양한 방식으로 해석될 여지가 있었지만,
00:09:06GitHub 예시들만 보더라도 알 수 있듯이,
00:09:08Codex가 무엇을 검토하길 원하는지
00:09:09매우 구체적으로 설정할 수 있습니다.
00:09:11전반적으로 이것은 Cloud Code 생태계에
00:09:13아주 훌륭한 추가 기능이라고 생각합니다.
00:09:14도구는 많을수록 좋으니까요.
00:09:15특히 여러분이 이미
00:09:17ChatGPT 유료 플랜을 사용 중이거나,
00:09:19Anthropic Pro 플랜을 사용 중인 경우라면 더더욱 그렇습니다.
00:09:22거기에 ChatGPT까지 추가로 결제한다면
00:09:23한 달에 100달러는 조금 과할 수도 있고,
00:09:25200달러는 확실히 부담스러울 수 있습니다.
00:09:28이 기능은 우리에게 20달러 요금제와
00:09:30100달러 요금제 사이의 중간 지점을 제공해 줍니다.
00:09:33Codex는 정말 가성비가 훌륭한 선택지이기 때문이죠.
00:09:36그러니 꼭 한번 확인해 보세요. 설정도 아주 쉽습니다.
00:09:39어떻게 생각하시는지 의견 들려주세요.
00:09:41그럼 언제나 그렇듯, 다음에 또 뵙겠습니다.