Claude Code + Codex = 인공지능의 신 (AI GOD)

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00이제 Claude Code 내부에서 Codex를 사용할 수 있게 되었습니다.

00:00:03OpenAI가 그것을 만들어냈죠.

00:00:04Opus 4.6의 최대 경쟁자가

00:00:08이제는 여러분이 사용할 수 있는

00:00:09Anthropic 생태계의 도구가 된 것입니다.

00:00:11이것은 모든 Claude Code 사용자들에게 희소식입니다,

00:00:15특히 사용량 제한 때문에

00:00:18어려움을 겪어온 분들이라면 더욱 그렇습니다, 왜냐하면

00:00:20솔직히 Codex는 가성비 측면에서

00:00:23달러 대비 크레딧이나 토큰 효율이 훨씬 좋기 때문입니다.

00:00:26그래서 이번 영상에서는 설정 방법을 보여드리고

00:00:28Claude Code라는 틀 안에서 Codex가 실제로

00:00:31어떤 일을 할 수 있는지 살펴볼 것입니다.

00:00:33그리고 더 중요한 것은, Claude Code를 통해

00:00:38Opus 4.6과 Codex를 함께 사용해서 무엇을 할 수 있느냐 하는 점입니다.

00:00:40어떻게 하면 이 두 모델을 조화롭게 활용해서

00:00:43개별 모델보다 더 큰 시너지를 낼 수 있을까요?

00:00:46설치를 시작하기 전에, Claude Code 플러그인이

00:00:48어떤 기능을 제공하는지 빠르게 훑어보겠습니다,

00:00:50몇 가지 주요 기능이 있거든요.

00:00:51가장 중요한 두 가지를 꼽으라면

00:00:54역시 코드 리뷰 기능일 것입니다.

00:00:56Opus가 작성한 코드를

00:00:58다시 한번 검토하게 만드는 기능이죠.

00:00:59이 기능은 두 단계로 나뉩니다.

00:01:01첫 번째는 표준 Codex 리뷰인데,

00:01:03이는 일종의 중립적인 검토입니다.

00:01:06그저 읽기 전용으로 코드를 살펴보는 것이죠.

00:01:08두 번째는 제가 아주 좋아하는 '적대적 리뷰'입니다.

00:01:12이것은 기본적으로 Codex에게 이렇게 시키는 겁니다.

00:01:13"자, Opus나 다른 코딩 에이전트가

00:01:15만든 결과물을 한번 살펴봐,

00:01:17하지만 아주 까다로운 시선으로 봐줘.

00:01:20그들이 실수했다고 가정하고

00:01:22어떻게 개선할 수 있을지 찾아내란 말이야."

00:01:25이것은 출력 품질을 높이는 아주 환상적인 방법입니다,

00:01:28왜냐하면 Opus를 포함한

00:01:31대부분의 AI 모델들이 겪는 문제 중 하나가

00:01:33자신이 짠 코드를 스스로 평가하는 데 서툴다는 점이기 때문입니다.

00:01:36이것은 Anthropic이 지난주에 발표한

00:01:38엔지니어링 블로그에서도 언급했던 내용입니다.

00:01:40따라서 적대적 리뷰 같은 기능은 정말 완벽하고 마음에 듭니다.

00:01:44그 외에도 'Codex Rescue' 기능을 사용할 수 있는데,

00:01:46이는 Claude Code 안에서 Opus를 쓰듯

00:01:49Codex가 스스로 무언가를 생성하게 해줍니다.

00:01:52그리고 그 외에는 현재 작업의 진행 상황을

00:01:54확인하는 등의 상태 관련 기능들이 있습니다.

00:01:58그럼 이제 본격적으로 설치 과정을 살펴보겠습니다.

00:02:01설치 방법은 꽤 간단합니다.

00:02:02이 명령어를 실행해서

00:02:04마켓플레이스에 추가하기만 하면 됩니다.

00:02:06명령어들은 모두 영상 설명란에 적어두겠습니다.

00:02:08그런 다음 플러그인 설치 명령어를 실행하세요,

00:02:11codex@openai-codex입니다.

00:02:13평소처럼 설치 경로를 물어볼 텐데

00:02:14저는 사용자 범위(user scope)로 선택하겠습니다.

00:02:16그 후 플러그인을 다시 로드해야

00:02:17정상적으로 작동하기 시작합니다.

00:02:18마지막으로 codex:setup을 실행하면 됩니다.

00:02:21혹시 모르실까 봐 말씀드리면, 이 도구에 대한

00:02:24GitHub 리포지토리에도 모든 설치 명령어가 나와 있습니다.

00:02:27그 링크도 설명란에 같이 걸어두겠습니다.

00:02:29사용량은 여러분의 ChatGPT 계정과 연결됩니다,

00:02:32무료 계정이라도 가능한 것으로 보입니다.

00:02:34그러니 여러분의 Codex 사용량에서

00:02:36차감된다는 점을 이해하시면 됩니다.

00:02:37Codex를 설치할지 물어보면 'yes'를 선택하세요.

00:02:39로그인을 하면 브라우저 창이 열리고

00:02:42인증 절차를 거치게 됩니다.

00:02:44Claude Code 내부에서 이 Codex 도구를 사용하는

00:02:47두 가지 확실한 유스케이스가 있습니다.

00:02:49첫 번째는 Claude Code의

00:02:52사용량 제한 문제를 해결하는 것입니다.

00:02:53보통 Anthropic의 프로 플랜이나

00:02:555배 상한선을 써도 한도에 금방 도달하곤 합니다,

00:02:58특히 지난주에 발견된

00:03:00CLI 버그들 때문에 더욱 그렇죠.

00:03:02이런 경우라면 여러분은

00:03:03Opus 4.6으로 계획을 세우고 Codex로 실행을 맡길 수 있습니다.

00:03:07그 방법 역시 매우 간단합니다.

00:03:09그저 'codex rescue'라고 입력하면 됩니다.

00:03:11그리고 거기서 프롬프트를 입력하면 되죠.

00:03:14또한 여러 가지 사항을 지정할 수도 있습니다.

00:03:16여기 보이는 플래그들처럼,

00:03:18노력 수준(effort level) 같은 것들 말이죠.

00:03:20기억하세요, Codex 모델 자체도 매우 훌륭합니다.

00:03:24게다가 사용료는 Anthropic이

00:03:26청구하는 금액 근처에도 가지 않을 만큼 저렴합니다.

00:03:27하지만 더 흥미로운 유스케이스는

00:03:28앞서 말씀드린 것과 같이,

00:03:29바로 '적대적 리뷰' 기능입니다.

00:03:30그럼 테스트를 한번 해보죠.

00:03:32제가 만든 트위터 인게이지먼트 및

00:03:33조사 자동화 봇을 살펴보게 할 겁니다.

00:03:37이것은 제가 Claude Code로 구축한 웹 앱입니다.

00:03:39기본적으로 AI 분야의 트윗들을

00:03:43매 30분에서 45분마다 스캔합니다.

00:03:45품질 필터 기능도 있고,

00:03:47여러 매개변수를 바탕으로 한

00:03:48점수 산출 알고리즘도 갖추고 있습니다.

00:03:50Supabase와 연결되어 있어

00:03:51트윗이 중복되는 것을 방지합니다.

00:03:53스코어링 시스템과 Softmax, PIX가 통합되어 있고

00:03:56모든 내용은 텔레그램으로 전송됩니다.

00:03:58또한 답변 작성을 돕는 AI 기능도 들어있죠.

00:04:00꽤 많은 기능이 돌아가고 있습니다.

00:04:02그뿐만 아니라,

00:04:03제 모든 답변 내용도 추적해서

00:04:06피드백 루프를 형성하도록 설계했습니다.

00:04:07그러니까 아주 복잡한 것까지는 아니더라도,

00:04:10단순한 랜딩 페이지 수준보다는 훨씬 고차원적인 코드입니다.

00:04:13자, Codex가 어떤 결과물을 내놓을지 봅시다.

00:04:16이 코드 베이스에 대해 적대적 리뷰를 실행했을 때 말이죠.

00:04:20성능이 어떨지 확인해 보겠습니다.

00:04:22해석의 여지를 충분히 열어두고 질문하겠습니다.

00:04:23Codex에게 이 코드 베이스를 살펴보고

00:04:24의견을 달라고 요청합니다.

00:04:27그러면 가장 먼저 하는 일은,

00:04:28최적의 모드를 결정하기 위해

00:04:30리뷰 규모를 추산하는 것입니다.

00:04:32그다음에는 이렇게 묻습니다.

00:04:33백그라운드에서 실행할 것인지,

00:04:34아니면 결과를 기다릴 것인지 말이죠.

00:04:35저희는 그냥 결과를 기다려 보겠습니다.

00:04:37리뷰 범위는 전체 코드 베이스와

00:04:399개의 작업 트리 변경 사항, 1개의 수정된 파일,

00:04:42그리고 8개의 추적되지 않은 파일들을 포함합니다.

00:04:43즉, Codex는 검토해야 할 내용이

00:04:44상당히 많다는 것을 인지하고 있습니다.

00:04:46작업이 진행되는 동안,

00:04:47적대적 리뷰가 실제로 어떻게 작동하는지 이야기해 봅시다.

00:04:49방금 앞부분의 네 단계를 보셨죠?

00:04:52인수(arguments)를 구문 분석했습니다.

00:04:54저희가 별도의 플래그를 전달하지 않았으므로,

00:04:55기본 설정에 따라 진행됩니다.

00:04:57그 후 리뷰 규모를 추산하고,

00:04:59대상 파일을 확정한 뒤 컨텍스트를 수집했습니다.

00:05:01그 과정이 바로 아까 보셨던,

00:05:03추적되지 않은 변경 사항이 있고

00:05:04시간이 좀 걸릴 거라는 안내 메시지들이었습니다.

00:05:05이 첫 네 단계가 끝나면,

00:05:06이제 '적대적 프롬프트'를 생성하게 되는데,

00:05:09이때 특히 주의 깊게 살펴보는

00:05:11일곱 가지의 공격 표면(attack surfaces)이 있습니다.

00:05:13그것은 바로 인증, 데이터 손실, 롤백,

00:05:17경합 조건(race conditions), 종속성 저하,

00:05:20버전 불일치, 그리고 관측성 공백 등입니다.

00:05:23즉, 표면적으로는 잘 드러나지 않지만

00:05:26제대로 관리하지 않은 채

00:05:27프로덕션에 배포했다가는

00:05:29큰 문제를 일으킬 수 있는 일곱 가지 요소들이죠.

00:05:30거기서 수집된 모든 정보는

00:05:31Codex가 검토할 수 있도록 OpenAI 서버로 전송됩니다.

00:05:34그 결과로 구조화된 JSON 출력을 받게 되며,

00:05:37대략 이런 모습일 것으로 예상하면 됩니다.

00:05:41발견된 문제들의 심각도를

00:05:43치명적, 높음, 중간, 낮음 등으로 나누어 보여주고,

00:05:46권장 사항과 다음 단계의 조치도 알려줍니다.

00:05:48여러분은 그저 Claude Code 안에 앉아서

00:05:51답변이 올 때까지 기다리기만 하면 됩니다.

00:05:52자, Codex가 저희 코드 베이스에서 4개의 문제를 찾아냈고

00:05:54모두 심각도가 '높음'으로 나왔습니다.

00:05:57내용을 더 쉽게 살펴보기 위해

00:05:58Excalidraw로 옮겨 보았습니다.

00:06:00각 문제에 대해 심각도, 해당 영역,

00:06:02구체적인 문제 내용, 관련 파일들,

00:06:06그리고 검토가 필요한

00:06:08실제 코드 라인까지 제공합니다.

00:06:09또한 중요한 점은, 실제 어떤 영향이 있는지와

00:06:12해결책까지 제시해준다는 것입니다.

00:06:13첫 번째로, 중복 제거(dedup) 로직에

00:06:15문제가 있다고 지적했습니다.

00:06:16두 번째는 텔레그램 폴링 처리 방식에 관한 것이었고요.

00:06:19세 번째는 스키마 드리프트 문제였습니다.

00:06:21마지막은 실제 대시보드 빌드와 관련된 내용이었죠.

00:06:24이것들은 실제로 꽤 중요한 사항들이며

00:06:27다행히 해결 방법들이

00:06:29구현하기에 그리 까다로워 보이지는 않습니다.

00:06:31하지만 여기서 제가 궁금한 것은,

00:06:33이것이 Codex의 결과라면,

00:06:35Claude에게 같은 코드 베이스에 대해

00:06:40비슷한 적대적 리뷰를 시켰을 때 무엇을 내놓을까 하는 점입니다.

00:06:43두 모델을 직접 비교해보면

00:06:45Codex가 다른 모델들과 구체적으로

00:06:46어떤 차별점이 있는지 알 수 있어 매우 유익할 것입니다.

00:06:48만약 결과가 똑같다면,

00:06:50이 영상 자체가 의미 없을 수도 있으니까요.

00:06:52그래서 지금 Opus에게도 똑같은

00:06:55적대적 코드 리뷰를 시키고 있습니다.

00:06:56Codex가 만든 특정 프롬프트를 사용했습니다.

00:06:59프롬프트의 요지는 이렇습니다.

00:07:00"구현 방식과 설계 선택에

00:07:02이의를 제기해라.

00:07:04여기에 평가해줬으면 하는 항목들이 있고,

00:07:05출력 형식은 다음과 같이 해라."

00:07:07그럼 어떤 결과가 나오는지 봅시다.

00:07:09자, 분석된 결과입니다.

00:07:11우선, 두 모델이 공통으로 발견한 사항이 하나 있었습니다.

00:07:13텔레그램 이슈가 문제라는 점에 둘 다 동의했습니다.

00:07:17이것이 두 모델 모두 '높음' 또는 '치명적'으로 분류한

00:07:20심각도가 '높음' 또는 '치명적'이라고 한

00:07:23이 사안에 대해 Codex는 '높음'이라고 했고

00:07:24Opus는 '치명적'이라고 평가했습니다.

00:07:26Opus는 그 외에도 추가로 7개의 문제를

00:07:30Codex가 놓친 '높음' 또는 '치명적' 등급으로 찾아냈습니다.

00:07:32단순히 더 많은 문제를 찾아냈다고 해서

00:07:36Opus가 Codex보다

00:07:37반드시 더 낫다고 말하려는 것은 아닙니다.

00:07:39그저 Codex는 발견하지 못한,

00:07:41우리가 살펴볼 만한 7가지를 더 찾아냈다는 점을 짚어두는 거죠.

00:07:43반대로 생각해보면,

00:07:45Opus가 놓친 3개의 문제를 Codex에서 발견하기도 했습니다.

00:07:48전체적으로 살펴봤을 때

00:07:49이것이 의미하는 바는 무엇일까요?

00:07:50더 많이 찾아낸 Opus가 Codex보다 나은 걸까요,

00:07:51아니면 핵심적인 4개에 집중하고

00:07:54이상한 방향으로 우리를 이끌지 않은

00:07:56Codex가 Opus보다 나은 걸까요?

00:07:58여기서 어떤 결론을 내릴지는

00:07:59여러분의 판단에 달려 있다고 생각합니다.

00:08:01다만 확실한 것은 이 두 시스템을 모두 활용하는 것이

00:08:04가치가 있다는 점일 것입니다.

00:08:05그렇지 않나요?

00:08:06항상 Opus가 Opus를 검수하게 하는 것보다

00:08:09제3자의 시각으로 보는 것이 중요하니까요.

00:08:10동일한 AI 시스템이 계획하고,

00:08:13생성하고, 평가까지 모두 담당하는 것에는

00:08:16어떤 근본적인 결함이 있다고 생각합니다.

00:08:17만약 우리가 Codex를 아주 쉽게 도입할 수 있다면,

00:08:20특히 그 합리적인 가격대를 고려했을 때,

00:08:22이런 용도로 활용하기에 아주 좋습니다.

00:08:24예를 들어 '적대적 리뷰' 같은 기능 말이죠.

00:08:25이것은 AI 코딩 분야에서 아주 훌륭한

00:08:28부가적인 전략이 될 수 있는데, 안 할 이유가 없죠.

00:08:30이미 ChatGPT를 유료로 사용하고 있고,

00:08:34매달 20달러씩 지불하고 있다면,

00:08:35이 기능을 가져와서 Codex가

00:08:37무엇이든 검토하게 만들 수 있습니다.

00:08:38이렇게 간단한데, 정말 안 할 이유가 있을까요?

00:08:43물론 이런 간단한 테스트만으로

00:08:47어떤 결정적인 정답을 내릴 수는 없을 겁니다.

00:08:48예를 들어 'Codex가 Opus보다 낫다' 같은 결론 말이죠.

00:08:50사실 그런 논쟁 자체가

00:08:51본질을 벗어난 것이라고 생각합니다.

00:08:52이것은 그저 우리 도구 상자에 추가된 또 하나의 도구일 뿐이고

00:08:54이제 우리는 그것을 사용할 수 있게 된 것이니까요.

00:08:55그래서 아주 훌륭한 변화라고 생각합니다.

00:08:56이제 '적대적 리뷰'를 훨씬 더

00:08:58구체적으로 진행할 수 있게 되었습니다.

00:09:00우리의 프롬프트는 꽤 개방적이고 포괄적이었기에

00:09:03다양한 방식으로 해석될 여지가 있었지만,

00:09:06GitHub 예시들만 보더라도 알 수 있듯이,

00:09:08Codex가 무엇을 검토하길 원하는지

00:09:09매우 구체적으로 설정할 수 있습니다.

00:09:11전반적으로 이것은 Cloud Code 생태계에

00:09:13아주 훌륭한 추가 기능이라고 생각합니다.

00:09:14도구는 많을수록 좋으니까요.

00:09:15특히 여러분이 이미

00:09:17ChatGPT 유료 플랜을 사용 중이거나,

00:09:19Anthropic Pro 플랜을 사용 중인 경우라면 더더욱 그렇습니다.

00:09:22거기에 ChatGPT까지 추가로 결제한다면

00:09:23한 달에 100달러는 조금 과할 수도 있고,

00:09:25200달러는 확실히 부담스러울 수 있습니다.

00:09:28이 기능은 우리에게 20달러 요금제와

00:09:30100달러 요금제 사이의 중간 지점을 제공해 줍니다.

00:09:33Codex는 정말 가성비가 훌륭한 선택지이기 때문이죠.

00:09:36그러니 꼭 한번 확인해 보세요. 설정도 아주 쉽습니다.

00:09:39어떻게 생각하시는지 의견 들려주세요.

00:09:41그럼 언제나 그렇듯, 다음에 또 뵙겠습니다.

Key Takeaway

Claude Code에 Codex를 통합하면 Opus 4.6과 Codex의 상호 교차 검증을 통해 단일 모델의 자기 평가 한계를 극복하고 더 정교한 적대적 코드 리뷰 체계를 구축할 수 있다.

Highlights

Claude Code 환경에서 OpenAI의 Codex를 연동하여 Opus 4.6의 사용량 제한 문제를 해결하고 비용 효율적인 개발이 가능하다.

적대적 리뷰(Adversarial Review) 기능은 인증, 데이터 손실, 경합 조건 등 7가지 주요 공격 표면을 집중적으로 검토하여 코드 품질을 높인다.

Codex는 Opus가 발견하지 못한 3개의 고유한 문제를 찾아냈으며, Opus는 Codex가 놓친 7개의 문제를 추가로 식별했다.

설치 과정은 codex@openai-codex 플러그인 추가와 codex:setup 명령어를 통한 ChatGPT 계정 인증으로 간단히 완료된다.

Codex Rescue 기능을 사용하면 Opus 대신 Codex 모델이 직접 코드를 생성하게 하여 Anthropic API 크레딧을 절약할 수 있다.

Timeline

Claude Code와 Codex의 통합 및 시너지

Anthropic 생태계 내에서 OpenAI의 Codex 모델을 보조 도구로 활용할 수 있다.
Codex는 달러당 제공되는 토큰 효율이 높아 Opus 4.6의 사용량 한계 문제를 보완한다.

두 모델의 조합은 개별 모델을 사용할 때보다 더 큰 시너지를 창출한다. 특히 Anthropic의 사용량 제한에 부딪힌 사용자들에게 Codex는 가성비가 뛰어난 대안이 된다.

주요 기능: 코드 리뷰와 적대적 검토

적대적 리뷰는 코딩 에이전트의 결과물을 매우 까다로운 시선으로 재검토하여 결함을 찾아낸다.
Codex Rescue 기능을 통해 Claude Code 인터페이스 안에서 Codex가 직접 코드를 생성하도록 명령할 수 있다.

AI 모델은 자신이 작성한 코드를 스스로 평가하는 데 취약하다는 점을 보완하기 위해 이 기능이 설계되었다. 표준 리뷰는 중립적인 읽기 전용 검토를 수행하는 반면, 적대적 리뷰는 고의적으로 실수를 찾아내는 방식이다.

플러그인 설치 및 계정 연동 방법

마켓플레이스에서 codex@openai-codex 플러그인을 설치하고 사용자 범위를 선택하여 설정한다.
codex:setup 명령어를 실행하면 브라우저를 통해 기존 ChatGPT 계정과 인증 절차를 거친다.

설치 명령어는 GitHub 리포지토리나 영상 설명란을 통해 확인할 수 있다. 무료 ChatGPT 계정 사용자도 사용량 범위 내에서 활용이 가능하며 모든 사용량은 개인 계정에서 차감된다.

실전 활용 사례와 7가지 공격 표면 검토

적대적 리뷰는 인증, 데이터 손실, 경합 조건 등 7가지 치명적인 보안 및 성능 요소를 분석한다.
분석 결과는 심각도에 따라 치명적, 높음, 중간, 낮음 단계로 구분된 구조화된 JSON 형태로 제공된다.

트위터 자동화 봇 코드베이스를 대상으로 테스트한 결과, Codex는 전체 코드와 수정된 파일들을 인지하고 컨텍스트를 수집한다. 버전 불일치나 관측성 공백 등 프로덕션 배포 시 문제를 일으킬 수 있는 요소들을 집중적으로 파악한다.

Opus와 Codex의 교차 검증 결과 비교

두 모델 모두 텔레그램 처리 로직의 문제를 공통적으로 발견했으나 심각도 평가는 서로 달랐다.
Opus는 Codex가 놓친 7개의 문제를 더 발견했고, Codex는 Opus가 놓친 3개의 문제를 찾아냈다.

Excalidraw로 분석한 결과 중복 제거 로직과 스키마 드리프트 등 실제 구현에 필요한 구체적인 조언이 포함되었다. 동일한 시스템이 계획과 평가를 모두 담당하는 결함을 피하기 위해 제3자인 Codex를 검수자로 활용하는 전략이 유효함을 입증한다.

개발 도구 상자의 확장과 비용 전략

Codex 연동은 월 20달러와 100달러 이상의 고가 요금제 사이에서 합리적인 중간 지점을 제공한다.
GitHub 예시를 활용하면 특정 영역에 대해 매우 구체적인 적대적 리뷰 설정이 가능하다.

특정 모델이 우월하다는 결론보다는 다양한 도구를 상황에 맞게 배치하는 것이 핵심이다. ChatGPT 유료 사용자의 경우 추가 비용 부담 없이 Claude Code의 역량을 확장할 수 있는 훌륭한 전략이다.

Community Posts

1인 개발자를 위한 Claude Code와 Codex 교차 검증: 결제 사고 없는 SaaS 배포 시스템

makedream22 days ago7120

Write about this video