DeepSeek V4 vs Claude Code vs Codex 직접 테스트해봤습니다

CChase AI
Computing/SoftwareInternet Technology

Transcript

00:00:00지난 24시간 동안 엄청난 업데이트가 있었습니다.
00:00:02지구상에서 가장 거대한 두 AI 모델에 말이죠.
00:00:04첫째로 GPT 5.5가 출시되었습니다.
00:00:07이 모델은 벤치마크 점수를 자랑하며
00:00:10Claude의 Mythos를 앞섰습니다.
00:00:12둘째로 DeepSeek V4가 출시되었습니다.
00:00:15이 모델은 오픈 소스이자 오픈 가중치 모델로
00:00:18선두 기업들의 모델과 경쟁하는 벤치마크를 보여줍니다.
00:00:22이렇게 많은 새로운 모델 중에서
00:00:24우리 같은 일반 사용자는 무엇을 해야 할까요?
00:00:27오늘 그 질문에 대한 답을 드리겠습니다.
00:00:29Opus 4.7, GPT 5.5,
00:00:33그리고 DeepSeek V4를 서로 비교하여
00:00:36여러분에게 실제로 무엇이 적합한지 확인해 보겠습니다.
00:00:39본격적인 3자 비교 테스트를 시작하기 전에
00:00:41Codecs 내의 GPT 5.5,
00:00:45Open Code 내의 DeepSeek V4,
00:00:47그리고 Claude Code 내의 Opus 4.7을요.
00:00:51먼저 벤치마크를 간단히 살펴보겠습니다.
00:00:53특히 지난 24시간 동안 공개된
00:00:54이 두 가지 최신 모델 위주로요.
00:00:56먼저 비용 이야기부터 하죠.
00:00:58아시다시피 DeepSeek V4는
00:01:00오픈 소스, 오픈 가중치 모델이지만
00:01:01그렇다고 내 컴퓨터에서 돌릴 수 있는 건 아닙니다.
00:01:04모델 규모가 너무 크기 때문이죠.
00:01:05파라미터가 1조 6천억 개에 달합니다.
00:01:08돌리려면 엄청난 하드웨어가 필요하죠.
00:01:10그러니 여전히 비용을 지불해야 합니다.
00:01:11여전히 API를 사용해야 하죠.
00:01:13하지만 경쟁 모델보다 훨씬 저렴합니다.
00:01:15거의 8배 정도 저렴하죠.
00:01:18세 모델 중에서는
00:01:19신형 GPT 5.5가 사실 가장 비쌉니다.
00:01:22놀라운 점은 OpenAI가 대체로
00:01:24Anthropic의 경쟁 모델보다 저렴했다는 것입니다.
00:01:28비용 면에서
00:01:30출력 토큰 100만 개당 비용을 보면,
00:01:32GPT 5.5는 30달러입니다.
00:01:35Anthropic은 25달러이고요.
00:01:38그리고 DeepSeek는 3.48달러입니다.
00:01:41입력 토큰으로 따지자면
00:01:44전체 비용에서 큰 비중은 아니지만,
00:01:46GPT 5.5와 Opus 5.7은 동일합니다.
00:01:49입력 토큰 100만 개당 5달러입니다.
00:01:53DeepSeek는 약 1.70달러 정도죠.
00:01:57입력도, 출력도 훨씬 저렴합니다.
00:02:01그렇긴 하지만 5.5의 경우에는
00:02:035.4보다 가격이 두 배나 비쌉니다.
00:02:06하지만 OpenAI는 성능 덕분에
00:02:10토큰 사용량이 훨씬 적다고 주장합니다.
00:02:115.4 가격의 두 배이긴 하지만,
00:02:14실제 토큰 소모량과 최종 비용을 따져보면,
00:02:17같은 작업을 수행했을 때
00:02:20결과적으로 20% 정도만 더 비쌀 뿐이라는 거죠.
00:02:21그러니 그 점은 참고해 두세요.
00:02:24비용은 이 정도로 하고,
00:02:25이제 벤치마크 이야기를 해봅시다.
00:02:26이 모델들이 서류상 얼마나 좋을까요?
00:02:27이제 다들 벤치마크에 무뎌진 건 알지만요.
00:02:31걸러 들을 필요가 있긴 해도,
00:02:32한번 살펴볼 가치는 있습니다.
00:02:33각 모델사가 같은 벤치마크에서
00:02:36발표한 수치를 볼 때는 특히 더 그렇고요.
00:02:39코딩 카테고리에는 세 모델 모두
00:02:42수치를 보고한 벤치마크가 3개 있습니다.
00:02:43SWE bench Verified, SWE bench Pro,
00:02:46그리고 Terminal Bench 2.0입니다.
00:02:48SWE bench Verified와 Pro의 경우,
00:02:50Opus가 우승자였습니다.
00:02:52Terminal Bench 2.0에서는 GPT가 87.2점으로 압승했습니다.
00:02:56그런데 이 수치는
00:02:59Anthropic이 Mythos에 대해 발표한 수치보다 높습니다.
00:03:02아, Mythos 죄송합니다.
00:03:03꽤 놀라운 일이죠.
00:03:05공개할 수 없는 초비밀 모델이
00:03:07Terminal Bench 2에서 GPT 5.5보다 낮은 점수를 받다니요.
00:03:10이 Terminal Bench 2.0이 가장 큰 변수입니다.
00:03:13Opus 4.7과 V4 Pro는 훨씬 뒤처져 있지만,
00:03:16Opus 4.7과 V4 Pro를 비교해 보세요.
00:03:208배 저렴하면서도 점수 차이는 2점 미만입니다.
00:03:23SWE bench Verified와 Pro에서도
00:03:24비슷한 양상을 볼 수 있죠.
00:03:26물론 Opus가 이기긴 합니다.
00:03:28하지만 2위와 3위를 비교해 보면
00:03:31V4가 항상 3위이긴 하지만,
00:03:33기대했던 만큼 큰 격차는 없습니다.
00:03:36SWE bench Verified에서 85대 86이면
00:03:385점 차이가 작지는 않지만 말이죠.
00:03:41하지만 다시 강조하자면 8배 저렴하고 오픈 소스입니다.
00:03:45최고의 성능이 필요하지 않다면
00:03:46실질적인 절충안을 선택할 수 있는 셈이죠.
00:03:49흥미로운 또 다른 주제는
00:03:51장기 문맥인데, Opus 4.7은 정말 성능이 낮습니다.
00:03:55수치상으로 4.6보다 상당히 나쁜데
00:03:58정말 이해할 수 없는 부분입니다.
00:04:00장기 문맥에서
00:04:01정보를 검색하려고 할 때,
00:04:0350만에서 100만 토큰 사이에서
00:04:064.7은 실제로 형편없습니다.
00:04:08DeepSeek나 GPT 5.5보다 훨씬 못하죠.
00:04:12왜 50만에서 100만 토큰 범위까지
00:04:14가야 하는지에 대해 논쟁할 수도 있겠지만요.
00:04:17애초에 그 범위에서 작업하는 사람이 얼마나 될까요?
00:04:20어떤 모델을 사용하든
00:04:22그 지점에서는 문맥 손실(Context Rot)이 발생하니까요.
00:04:24하지만 이유가 무엇이든
00:04:26Anthropic 모델에서 성능 퇴보가 보이는 것은
00:04:27참 흥미로운 지점입니다.
00:04:29큰 그림에서 보자면, 결론은
00:04:325.5가 정말 강력하다는 것입니다.
00:04:33특정 지표에서는 Opus 4.7을 이기고,
00:04:36일부에서는 지기도 하지만,
00:04:37매우 견고한 모델입니다.
00:04:39그리고 무엇보다 V4 Pro는 전반적으로
00:04:42조금 뒤처져 있는 상황입니다.
00:04:45성능은 충분히 경쟁력 있으면서도 무한히 저렴하죠.
00:04:48일반 사용자에게는 아주 훌륭한 선택지입니다.
00:04:52지금 오픈 소스 측면에서는
00:04:54실제로 경쟁할 수 있는 선택지가 별로 없다고 느껴지니까요.
00:04:56이제 세 모델 모두를 대상으로
00:04:59실제 3자 비교 테스트를 시작해 봅시다.
00:05:00각 모델마다 제어 환경을 사용하고 있습니다.
00:05:025.5는 Codecs를,
00:05:04Opus 4.7은 Claude Code를,
00:05:07DeepSeek V4 Pro는 Open Code를 사용 중입니다.
00:05:10첫 번째 테스트는
00:05:11브라우저에서 실행되는
00:05:14Three.js 기반의 비행 시뮬레이터를 만드는 것입니다.
00:05:17프롬프트는 여기 보시는 대로입니다.
00:05:18비행감이 좋았으면 좋겠다.
00:05:20무게감이 느껴지길 바란다.
00:05:21시각적으로 강력했으면 좋겠고,
00:05:25적절하다고 생각하는 도구와 구조를 사용해라.
00:05:27해야 할 일은 명확하지만,
00:05:30모델 간의 차이를 확인할 수 있을 만큼
00:05:33여유를 두었습니다.
00:05:34한 번의 실행 결과만 볼 것이 아니라,
00:05:36여러 번 반복하며 후속 프롬프트를 줄 것입니다.
00:05:38한 번에 얼마나 잘하는지 보는 것도 멋지지만,
00:05:40실제 작업 방식은 그렇지 않으니까요.
00:05:44후속 프롬프트를 줄 때 어떻게 대응하는지,
00:05:46원하는 결과물에 얼마나 빨리 도달하는지 보고 싶습니다.
00:05:49세 모델을 비교할 때
00:05:52네 가지 기준을 볼 것입니다.
00:05:54시간,
00:05:55얼마나 빨리 구축하는가?
00:05:57비용,
00:05:58토큰을 얼마나 사용하는가?
00:06:01품질,
00:06:02얼마나 좋은가?
00:06:04그리고 네 번째는 분위기(Vibe)입니다.
00:06:06품질과 관련되어 있으며,
00:06:06매우 주관적인 부분이죠.
00:06:09내가 실제로 무엇을 더 좋아하는가?
00:06:11참고로 세 모델과 제어 환경 모두
00:06:13정확히 같은 기술을 사용합니다.
00:06:16DeepSeek부터 시작해 보죠.
00:06:18어떤 비행 모델을 원하는지 묻고 있습니다.
00:06:20완전한 시뮬레이션(Full Sim)으로 가죠.
00:06:22지형은 바다와 섬을 추천하네요.
00:06:23그대로 갑시다.
00:06:25카메라 환경 설정을 묻는군요.
00:06:26둘 다 하겠습니다.
00:06:271인칭과 3인칭 전환이 가능한지 보죠.
00:06:29추천 도구 설정을 그대로 사용하겠습니다.
00:06:32기체와 시각 요소는
00:06:33로우 폴리 모델로 하겠습니다.
00:06:35이제 Codecs로 넘어갑니다. 비슷한 질문이네요.
00:06:38질문은 3개뿐입니다.
00:06:40어떤 비행 최적화를 원하는지 묻습니다.
00:06:42하드 시뮬레이션으로 가겠습니다.
00:06:44브라우저에서 어떤 경험이 가장 중요한가?
00:06:48섬 이착륙 루프로 하겠습니다.
00:06:50다들 비슷하게 묻는 게 흥미롭네요.
00:06:52카메라와 기체는 어떻게 할 것인가?
00:06:54이것도 토글 방식으로 하겠습니다.
00:06:56Claude Code는 스터디 시뮬레이션 학습으로
00:06:58바다와 섬 환경을 설정하겠습니다.
00:07:02키보드와 마우스로 설정하고,
00:07:04작업을 시작하게 하겠습니다.
00:07:05계획 모드는 세 모델 모두 매우 비슷합니다.
00:07:09질문 내용도 거의 같습니다.
00:07:11물리 엔진을 어떻게 할지,
00:07:12지형을 무엇으로 할지,
00:07:13카메라 각도는 무엇으로 할지 말이죠.
00:07:15큰 차이는 없습니다.
00:07:17계획이 어떻게 나오는지 살펴보죠.
00:07:19세 모델의 계획이 모두 완료되었습니다.
00:07:20각 모델의 차이를
00:07:22간단히 살펴보겠습니다.
00:07:24첫 번째는 DeepSeek입니다.
00:07:26제시한 계획이 매우 기초적입니다.
00:07:29프로젝트 구조를 제시한 후
00:07:31비행 물리학, 환경, 카메라, HUD 오버레이에 대해
00:07:33매우 빠르게 설명합니다.
00:07:35불렛 포인트 몇 개뿐이죠.
00:07:37반면에 Codecs의 5.5는 요약,
00:07:40핵심 변경 사항,
00:07:43구현 세부 사항, 테스트 계획,
00:07:46그리고 구현 세부 사항과 테스트 계획,
00:07:47가정까지 모두 명확하게 설명해 줍니다.
00:07:49다음은 가장 오랜 시간이 걸린 Claude Code의 계획입니다.
00:07:50약 5분 정도 걸렸지만, 단연 가장 철저합니다.
00:07:53컨텍스트와 스택을 다루기 때문이죠.
00:07:55비행 모델에 대해 설명하는 레이아웃입니다.
00:07:57실제 비행 중의 다양한 상황들을 다루고,
00:08:00실속이나 실속 경고음 같은 것들을 언급합니다.
00:08:02정말 아주 자세하게 들어가죠.
00:08:03조종 장치, 환경, 모드,
00:08:06사용할 실제 항공기, 성능까지,
00:08:08그냥 계속 이어집니다.
00:08:10정말 자세해요.
00:08:11자, 이제 세 가지 모델 모두 계획을 구현하게 할 겁니다.
00:08:14최종 결과가 어떻게 나오는지 보죠.
00:08:15Codecs의 GPT 5.5가 가장 먼저 끝냈습니다.
00:08:19어떤 모습인지 한번 보죠.
00:08:20자, 이게 완성된 비행 시뮬레이터입니다.
00:08:22하늘에 구름이 좀 있네요.
00:08:26위에 받음각(AOA) 지시계 같은 게 보입니다.
00:08:31아래쪽에는 속도계가 있고요.
00:08:34이걸 실제로 이륙시킬 수 있는지 한번 보죠.
00:08:35이륙할 수 있을까요.
00:08:36활주로 같은 건 없네요.
00:08:38그냥 잔디밭입니다.
00:08:39원래는 섬 같은 환경일 줄 알았는데요.
00:08:42카메라가 좀 흔들릴 때,
00:08:45잠시 아래쪽에 활주로가 보이는 걸 알 수 있죠.
00:08:48자, 실속에 걸리고 있는데, 그냥,
00:08:50아예 이륙조차 못 하는 거 아니에요?
00:08:51이거 정말 조금,
00:08:54실제로 좀 어렵네요.
00:08:55그래서 제가 하려는 건,
00:09:00조금 더 조종하기 쉽게 해달라고
00:09:03두 번째 프롬프트를 주는 겁니다. 이것저것 너무 많거든요.
00:09:05정말 어렵네요.
00:09:06그래서 적었습니다. 조종하기 정말 힘들다.
00:09:08더 쉽게 만들어 줄 수 있을까?
00:09:10아케이드 게임처럼 좀 더 쉽게 말이야.
00:09:12그리고 그래픽도 좀 개선이 필요해.
00:09:15어떻게 될지 한번 보죠.
00:09:16참고로 5.5가 첫 번째 버전을 만드는 데
00:09:21약 7분 정도 걸렸습니다.
00:09:23토큰은 6만 3천 개 사용했고요.
00:09:26좋아요, 이제 조금 더 조종하기 쉽게 만들고
00:09:28그래픽을 업데이트했다고 하네요.
00:09:29두 번째 버전이 어떤 모습일지 보죠.
00:09:32결과는 이렇습니다.
00:09:32그래픽은 확실히 더 좋아졌는데,
00:09:34이번에는 활주로에서
00:09:36이륙할 수 있는지 보죠.
00:09:37좋아요, 스로틀은 100%,
00:09:4150, 60, 70.
00:09:43세스나의 회전 속도가 얼마였더라?
00:09:46좋아, 70, 80, 90.
00:09:49이제 이륙할 수 있어야 합니다.
00:09:51오케이, 잘못된 방향이네요.
00:09:53자, 가자, 이륙하자, 이륙해.
00:09:56안 돼, 이거 또 실속 걸리는 거 아니야?
00:09:58그래, 실속.
00:09:59오케이, 이건 아직 좀 더 손봐야겠네요.
00:10:02Codex에게 한 번 더 기회를 줍시다.
00:10:055.5에게 한 번 더 기회를 주죠.
00:10:07실제로 플레이 가능하게 만들어 보라고요.
00:10:08그래서 제가 말했죠. 비행기를
00:10:10이륙시켜서 비행하는 것조차 안 된다고요.
00:10:11이륙해서 실제로 비행할 수 있게
00:10:12확실히 쉽게 만들어야 해요.
00:10:14오케이, 이륙 문제를 해결했다고 하네요.
00:10:16전에 브레이크가 잠겨 있었던 모양이에요.
00:10:19그게 이유였는지 잘 모르겠지만요.
00:10:21아, 자동으로 이륙 상태로 설정되지는 않았네요.
00:10:24플랩도 그렇고, 이건,
00:10:25거의 초현실적인 시뮬레이터 모드로 되어 있었네요.
00:10:29하지만 여기 세 번째 시도인 비행 시뮬레이터가 있습니다.
00:10:32어떻게 될지 한번 보죠.
00:10:34과연 이륙할 수 있을까요?
00:10:36오, 이번에는 활주로에서 튕기고 있네요.
00:10:37무언가가 됐습니다.
00:10:38좋아요, 이륙했습니다.
00:10:41실제로 움직이고 있어요.
00:10:44저 고리들 중 하나에 들어갈 수 있을지 보죠.
00:10:45그러니까, 10분도 안 돼서 만든 것치고는
00:10:49그래픽이 그리 나쁘지 않네요.
00:10:52꽤 정확한 것 같습니다,
00:10:56아래쪽에 수직 속도(분당 피트),
00:10:59현재 고도, 노트, 방위각, 지상 고도까지 표시해주고요.
00:11:00그러니까 모든 걸 추적하는 면에서는
00:11:04상당히 정교합니다.
00:11:06모든 것을 관리하는 점에서요.
00:11:08그러니까 앞에 있는 이 작은 지시계는,
00:11:10받음각(AOA) 지시계처럼 보이는데,
00:11:13그건 참 멋지네요.
00:11:14그래서 꽤 좋은 점들이 있습니다.
00:11:18실제 조종은 좀 어색하네요.
00:11:21보시다시피, 조종이 거의 안 되네요,
00:11:23하지만 전반적으로 나쁘지 않아요.
00:11:25그러니까 이걸 가미카제처럼,
00:11:27분당 18,000피트 속도로 어떻게 되는지 보자고요.
00:11:31하지만 네, 6만 6천 토큰,
00:11:36대략 10분에서 15분 정도, 주고받은 것들을 생각하면,
00:11:40전혀 나쁘지 않다고 생각합니다.
00:11:41이제 DeepSeek을 살펴봅시다.
00:11:42이걸 하는 데 10분 정도 걸렸습니다.
00:11:44토큰은 63,000개에 44센트가 들었고요.
00:11:46그러니까 44센트에 10분이죠.
00:11:51이게 DeepSeek이 우리에게 내놓은 결과물입니다.
00:11:53대체 뭘 보고 있는지,
00:11:56전혀 모르겠네요.
00:12:00대체 뭘 보고 있는 거야.
00:12:03이게 3인칭 시점이어야 하거든요.
00:12:06이게 조종석이어야 하고요.
00:12:07DeepSeek과의 첫 시도는
00:12:11완전한 재앙이었습니다.
00:12:13DeepSeek에게 시뮬레이터가 엉망이라고 말했죠.
00:12:16그래픽은 완전히 버그 투성이고,
00:12:17아무것도 조종할 수가 없어요.
00:12:20수정해 주세요.
00:12:21그리고 이게 두 번째 결과물입니다.
00:12:24전혀 모르겠네요.
00:12:26정말 아무런 단서가 없어요.
00:12:28도대체 DeepSeek이 뭔지.
00:12:30오, 야, 비행기가 있네.
00:12:32오, 뭔가가 있어요.
00:12:33와, 네, 이건 정말 가혹하네요.
00:12:38솔직히 말해서, 이걸 또 프롬프트로 수정하려면,
00:12:42우리가 뭘 하려는지 정말 아주 아주 구체적으로,
00:12:44설명해야 할 텐데, 다시 말하지만,
00:12:47우리가 Codex로 했던 것보다 훨씬 부족해요.
00:12:49그건 아주 평범한 프롬프트였는데도,
00:12:51적어도 첫 번째 결과물부터 비슷한 수준은
00:12:53가까스로 얻을 수 있었거든요.
00:12:54이건 그래픽 부분에서 완전히 고전하고 있네요.
00:12:57이걸 어떻게 설명해야 할지 모르겠는데,
00:12:58뭐, 어쨌든 엄청나게 저렴하긴 했네요.
00:13:01이제 Claude Code가
00:13:03우리에게 어떤 결과물을 줬는지 보죠.
00:13:07실제로 계획을 실행하는 데 13분이 걸렸습니다.
00:13:09계획 자체는 5분이 걸렸고요.
00:13:12그러니까 첫 번째 버전을 내놓는 데 20분 걸렸다고 치죠.
00:13:13그리고 총 토큰 수는,
00:13:17이 실행은 계획 이전의 5%에 15% 이상이 들었네요.
00:13:19그러니까, 음, 죄송해요,
00:13:2211%의 컨텍스트에 이전 5%를 더한 거죠.
00:13:24그러니까 총 20분, 15만 토큰 정도를
00:13:28Claude Code가 사용한 셈인데,
00:13:33분명히 가장 비싸고
00:13:34가장 느린 모델이었습니다.
00:13:36여기에 Claude Code의 시도가 있습니다.
00:13:39어찌 된 일인지, 바로 공중에 떠 있네요.
00:13:43실속에 걸리고 있습니다.
00:13:44계기 비행을 하고 있네요.
00:13:45무슨 일이 일어나는지 모르겠어요.
00:13:48뭔가 추락하기 직전인 것 같습니다.
00:13:50이걸 살릴 수 있을까요?
00:13:51급강하에서 빠져나올 수 있을까요?
00:13:53아니요, 실속 중이에요, 안 돼요, 죽었어요.
00:13:54오케이, 흥미롭네요.
00:13:56다시 한번, 바로 하늘로 튕겨 올려 보내네요.
00:14:00구름 속에 있습니다.
00:14:02실속 중이고요.
00:14:03대체 무슨 일이 벌어지는 건지 모르겠네요.
00:14:05두 번째 결과물이 필요합니다.
00:14:08그래서 제가 썼습니다. 로딩하자마자 바로 하늘로 튕겨 나간다.
00:14:11조종하기가 너무 힘들다.
00:14:12활주로에서 시작하고 싶고, 조종을 더 쉽게 해달라.
00:14:15아, 그리고 말인데, 그래픽도 좀 개선해 줘.
00:14:174분 정도 걸렸는데, 일부 수정했네요.
00:14:20활주로에서 생성될 거예요.
00:14:22기어를 바꿨네요.
00:14:23이제 삼륜식 기어에 몇 가지 다른 것들이 들어갔어요.
00:14:24어떤 모습인지 보죠.
00:14:26네, 여기 있습니다.
00:14:27또 바로 안개 속으로 튕겨 들어갔네요.
00:14:29이걸 조종해보려고 하는데,
00:14:31네, 그냥 조종이 아예 안 되네요.
00:14:33알겠어요, Claude Code에게,
00:14:34한 번 더 기회를 줍시다.
00:14:37여전히 하늘로 바로 튕겨 버린다고 말했죠.
00:14:39좀 더 아케이드 느낌의
00:14:40조종 방식을 선택하자고 했습니다.
00:14:42처음부터 세 모델 모두에게
00:14:43그렇게 요청했어야 했나 봐요.
00:14:44현실적인 시뮬레이터 유형으로 가는 건,
00:14:46사용자 친화적으로 만드는 데
00:14:50정말 어려움을 겪는 것 같아요.
00:14:53아마 내부적으로는 아주 잘하고 있을 거예요.
00:14:57예를 들어, 그래, 받음각 문제라든가.
00:14:59좋아, 지금 속도 대 각도 때문에 실속 중이다, 뭐 이런 거요.
00:15:01그런데 실제로 컴퓨터로
00:15:02이걸 조종하는 건
00:15:04거의 불가능합니다.
00:15:07안개는 정말 이상하고요.
00:15:09두 번째 프롬프트 이후에
00:15:12좀 더 나아졌는지 보죠.
00:15:15지금 GPT 5.5가 훨씬, 훨씬 잘했거든요.
00:15:16Claude Code가 몇 가지 변경을 해서
00:15:20더 사용자 친화적으로 만들긴 했네요.
00:15:22이번에도 여전히 계기 비행을
00:15:23시도하고 있는지 봅시다.
00:15:24이번에는 계기 비행 자격 증명을 따러 가보겠습니다.
00:15:26네, 아직 계속 진행 중입니다.
00:15:28아직 계기 비행 자격 증명을 위해 노력하고 있죠.
00:15:30현재 맨스에 와 있지만, 어렴풋이 보이긴 하네요.
00:15:33계기판을 확인할 수 있습니다.
00:15:35좋아요, 이제 활주로에서 이륙합니다.
00:15:37네, 알겠습니다.
00:15:42잠깐, 활주로에 왜 나무가 있죠?
00:15:44위로 올라가려는데 말이죠.
00:15:46올라갈 수 있을까요?
00:15:47기수를 올릴 수 있을까요?
00:15:49캔버스를 클릭해서 마우스를 고정하라고요, 이게 무슨?
00:15:53오, 공중에 떴습니다.
00:15:54아니, 안 돼, 추락했습니다.
00:15:57네, 이 결과는 꽤 확실한 것 같네요.
00:16:02GPT 5.5가 확실히 승자라고 생각합니다.
00:16:06Claude Code는 2등이었어요.
00:16:082등을 주겠습니다.
00:16:10분명히 고전했거든요.
00:16:13우리가 입력한 프롬프트로도 말이죠.
00:16:14솔직히 좋은 프롬프트를 주진 않았지만요.
00:16:16더 많은 시간과 더 좋은 프롬프트,
00:16:19몇 번 더 주고받았더라면
00:16:20원하는 곳까지 도달할 수 있었을 겁니다.
00:16:21적어도 항공기와 활주로는 구현했으니까요.
00:16:25활주로에 나무가 있긴 했지만요.
00:16:26우리가 필요로 했던 실제 요소들은 다 갖췄어요.
00:16:29OpenCODE를 사용한 DeepSeek와는 비교되죠.
00:16:32무슨 일이 벌어지고 있는지 전혀 알 수가 없었거든요.
00:16:34완전히 엉망이었죠.
00:16:35처음부터 다시 시작해야 했을 것 같아요.
00:16:36아주 구체적인 프롬프트를 줬어야 했습니다.
00:16:38손을 쓸 수 없을 정도로 엉망이었으니까요.
00:16:39하지만 GPT 5.5는 시작하자마자,
00:16:42꽤 모호한 프롬프트였음에도,
00:16:44정말 잘 해냈다고 생각합니다.
00:16:455.5는 총 66K 토큰을 사용했습니다.
00:16:48Opus와 모두 합쳐서 보면,
00:16:52약 20만 토큰 정도네요.
00:16:53그러니 토큰도 4분의 1이고, 비용도 사실상 4분의 1인 셈이죠.
00:16:56그리고 속도도 조금 더 빨랐습니다.
00:16:58이제 와서 말하지만,
00:16:59OpenCODE가 GPT 5.5보다 더 오래 걸린 건 신경도 안 써요.
00:17:03그냥 결과가 형편없었어요, 솔직히 말해서 정말 별로였죠.
00:17:07자, 이제 두 번째 테스트로 넘어가겠습니다.
00:17:10이번에는 다음을 요청할 겁니다.
00:17:12Three.js를 사용하여 WebGPU 셰이더 작업을 보여주는 랜딩 페이지를 만드는 거죠.
00:17:16Three.js를 사용해서요.
00:17:18WebGPU 셰이더 작업은 이런 곳에서 볼 수 있는 종류의 작업이죠.
00:17:21어워드 웹사이트 같은 곳들이요.
00:17:23Igloo 같은 웹사이트들 말입니다.
00:17:26매우 고사양 그래픽이죠.
00:17:28마치 비디오 게임처럼 보입니다.
00:17:29컴퓨터의 그래픽 카드를 사용하여
00:17:32이 모든 것을 렌더링하는 겁니다.
00:17:34이들 중 누구라도 여기에 가까운 결과를 낼 거라고 기대하진 않지만,
00:17:37셰이더 기술을 사용하여 무엇을 할 수 있는지 보고 싶습니다.
00:17:40셰이더 기술을 사용해서 말이죠.
00:17:42이건 기본적으로 평범한
00:17:45SaaS 템플릿 랜딩 페이지보다는 한 단계 위죠.
00:17:46그들이 무엇을 할 수 있는지 보고,
00:17:48웹 디자인의 세계에서 한계를 시험해 보고 싶습니다.
00:17:50모두에게 이런 종류의 작업을 수행하는 방법을 알려주는 기술을 제공했습니다.
00:17:53그러니 완전히 모르는 상태는 아니죠.
00:17:55어느 한쪽이 특별히 유리한 것도 아니고요.
00:17:57어느 한쪽이 압도적으로 유리하진 않습니다.
00:18:00제가 말한 건 현대적인 느낌,
00:18:02시각적으로 인상적인 느낌, 어워드 사이트에서 볼 법한 느낌,
00:18:05그리고 GPU 컴퓨팅을 스마트하게 활용하라는 것뿐입니다.
00:18:08그래서 그들은 원하는 스택과 프로젝트 구조를 선택할 수 있고,
00:18:10히어로 컨셉, UI, 인터랙션에 대해
00:18:13좋은 판단을 내릴 수 있습니다.
00:18:15첫 번째 테스트처럼 모두 플랜 모드입니다.
00:18:17시작해 보죠.
00:18:18좋아요, 모두 계획을 마쳤는데 재밌게도,
00:18:21아무도 제게 질문하지 않았네요.
00:18:22플랜 모드였는데도 말이죠.
00:18:24먼저 GPT 5.5를 살펴보겠습니다.
00:18:28전체 화면의
00:18:30인터랙티브한 GPU 구동 히어로 섹션을 만들겠다고 합니다.
00:18:32컨셉은 살아있는 신호 필드,
00:18:34밀도 높은 입자 효과를 구현할 예정이라고 하네요.
00:18:36결과가 어떻게 나올지 보겠습니다.
00:18:38전반적으로 미니멀한 어워드 스타일의 랜딩 페이지입니다.
00:18:41완전한 인터랙티브 WebGPU 장면을,
00:18:43포인터 반응형 컴퓨트 시뮬레이션으로 구현할 겁니다.
00:18:46좋습니다, DeepSeek의 계획은 꽤 짧고 간결하네요.
00:18:50비행 시뮬레이터 때 봤던 것과 같습니다.
00:18:53이번에는 더 나은 결과물이 나오길 바랍니다.
00:18:547만 5천 개의 GPU 컴퓨트 입자를 가진 히어로 섹션이군요.
00:18:58모두가 히어로 섹션에 어떤 종류의
00:19:01입자 테마를 적용하려는 것 같네요.
00:19:04마우스 인터랙션과 통합을 포함하고요.
00:19:08일회성 초기화를 수행하고,
00:19:10블룸,
00:19:13색수차, 커스텀 비네트, 약간의 필름 그레인 같은 효과들이 있겠네요.
00:19:16실제로 어떤 모습일지 보겠습니다.
00:19:19그리고 이번에도 Opus 4.7의 계획입니다.
00:19:21블룸 효과를 곁들인 입자 컨셉이고,
00:19:23마우스와 인터랙션이 가능하겠네요.
00:19:25다들 결과물이 다를지 궁금합니다.
00:19:27겉보기에는 계획이 다 비슷비슷하거든요.
00:19:29가장 먼저 끝낸 건 5.5였습니다.
00:19:32약 6분 정도 걸렸네요.
00:19:34토큰 사용량은 107K입니다.
00:19:37어떤 걸 만들었는지 보죠.
00:19:40이게 결과물입니다.
00:19:42엄청 밝네요.
00:19:45실제 입자를 구분하기조차 힘들 정도예요.
00:19:47위아래로 스크롤 해보면,
00:19:50배경에 애니메이션이 작동하고 있고,
00:19:52미묘한 색상 변화도 있습니다.
00:19:56현재 마우스가 입자를
00:20:00끌어당기는 것 같습니다.
00:20:01이쪽으로 움직여 볼게요.
00:20:03입자를 밀어내거나 표류하게 하는 옵션도 있네요.
00:20:08하지만 너무 밝아서
00:20:11제대로 보기 어렵습니다.
00:20:12너무 밝아서 입자를 확인하기 어렵다고 말했습니다.
00:20:14히어로 섹션 전체를 너무 차지하고 있네요.
00:20:14밝기를 조금 줄이고,
00:20:16오른쪽으로 좀 더 밀어낼 수 있을까요?
00:20:18현재 너무 압도적이라서요.
00:20:20입자가 너무 밝아서
00:20:23왼쪽의 텍스트조차 제대로 읽을 수가 없습니다.
00:20:25두 번째 실행 후 업데이트된 결과입니다.
00:20:27조금 더 낫네요.
00:20:30이전처럼 압도적이지 않고 글을 읽을 공간이 생겼습니다.
00:20:31약간 흐릿한 느낌은 들지만,
00:20:35나쁘지 않네요.
00:20:39다소 모호한 문제였음에도
00:20:41요청한 대로 해냈습니다.
00:20:44디자인에 완전히 감탄한 건 아니지만,
00:20:46불만족스러운 것도 아닙니다.
00:20:49이제 Claude Code를 살펴보죠.
00:20:51작업을 하는 동안,
00:20:52DeepSeek는 여전히 고민 중이었거든요.
00:20:55자, 여기 Claude Code의 결과물입니다.
00:20:57거의 아무것도 없네요.
00:20:58전체 배경을
00:21:01WebGL로 구현하려는 건지 모르겠네요.
00:21:06매우 절제되어 있는데,
00:21:10충분히 시도할 만한 접근이죠.
00:21:14화면상으로 보면,
00:21:19꽤 멋져 보이긴 하지만 솔직히 말해서,
00:21:21조금 더 화려한 걸 원했습니다.
00:21:24두 번째 패스에서,
00:21:25더 화려하게 만들어 달라고 했을 때도,
00:21:28큰 차이는 없었어요.
00:21:31정말 미묘하네요.
00:21:31필름 그레인 같은 효과와,
00:21:34아래에서 위로 올라가는 흐릿한 느낌이 있네요.
00:21:35상당히 미묘한 결과물입니다.
00:21:38아래쪽을 보면,
00:21:40프레임 속도를 추적하고 있네요.
00:21:4325만 개의 입자를 사용하고 있고요.
00:21:45멋져 보이긴 합니다.
00:21:47다만 그다지 화려하지 않을 뿐이죠.
00:21:49취향 차이라고 할 수 있겠네요.
00:21:51Claude Code의 총 토큰 사용량은 약 175,000개,
00:21:54Codex에서 5.5가 한 것보다 약간 더 오래 걸렸습니다.
00:21:56이제 DeepSeek를 살펴봅시다.
00:21:58현재 116,000개의 토큰을 사용했네요.
00:22:01가장 오래 걸리기도 했지만,
00:22:05총비용은 여전히 1달러 미만입니다.
00:22:07결과물은 이렇습니다.
00:22:10마우스를 따라다니는
00:22:12입자 필드네요.
00:22:15흥미롭네요.
00:22:17간질 발작을 일으킬지도 모르겠네요.
00:22:21솔직히 그 외에는 꽤 평범합니다.
00:22:25플럭스 엑스레이 효과가 색상을 바꾸긴 하지만,
00:22:27그냥 이런 걸 만들어 낸 것 같아요.
00:22:29DeepSeek에게 한 번 더 패스를 돌리라고 하니,
00:22:35이런 결과가 나왔습니다.
00:22:39이상한 시차 효과가 들어가 있네요.
00:22:43배경에 푸른색 효과도 보이고요.
00:22:45UFO 같은 게 하나 있는데,
00:22:46마우스에 반응하긴 하네요.
00:22:49그냥 무언가 있긴 하네요.
00:22:53DeepSeek의 총 토큰 사용량은 130K,
00:22:55비용은 1.43달러가 나왔습니다.
00:22:58모든 테스트를 마치고 나니 어떤 결론이 나올까요?
00:23:02최종 결과를 이야기해 봅시다.
00:23:05비행 시뮬레이터였던 첫 번째 테스트는,
00:23:08승자가 확실합니다.
00:23:13Codex 내부의 GPT 5.5였습니다.
00:23:15Claude Code 내부의 Opus 4.7보다 빨랐죠.
00:23:16더 빨랐을 뿐만 아니라 최종 결과물도 단연 최고였습니다.
00:23:18DeepSeek는 비행 시뮬레이터에서 형편없었습니다.
00:23:21우리가 의도했던 것과는 거리가 멀었죠.
00:23:255.5의 첫 번째 결과물 수준에 도달하려면,
00:23:29계속해서 프롬프트를 입력하고 또 입력해야 했을 겁니다.
00:23:32Claude Code의 4.7은, 나쁘지 않았어요.
00:23:34초반에는 작동하지 않았지만,
00:23:35프롬프트를 몇 번 주고받고 나니
00:23:38GPT 5.5의 결과물과 대등한 수준까지
00:23:43끌어올릴 수 있었습니다.
00:23:46하지만 더 많은 프롬프트가 필요했을 겁니다.
00:23:48시간도 더 들었을 것이고, 결과적으로 비용도 더 비쌌겠죠.
00:23:50GPT 5.5가 하는 작업과 동일한 수준으로
00:23:52만들 수 있었죠.
00:23:54그랬다면 프롬프트를 더 입력해야 했을 겁니다.
00:23:55시간도 더 걸렸을 테고
00:23:57결과적으로 비용도 더 많이 들었겠죠.
00:23:59그래서 5.5의 확실한 승리입니다.
00:24:01웹 GPU 랜딩 페이지의 경우,
00:24:03여기서도 DeepSeek는 고전했습니다.
00:24:04전 별로였어요.
00:24:06이게 도대체 뭘 의도한 건지 잘 모르겠네요.
00:24:08물론 제가 아주 좋은 프롬프트를 준 건 아니지만,
00:24:10이게 우리가 평균적인 결과물로
00:24:13받아들여야 하는 수준인가요?
00:24:16DeepSeek를 꽉 잡고
00:24:19정말 강제로 시키지 않는 이상 그런 것 같네요.
00:24:22자, 이제 Opus와 5.5를 비교해 보면,
00:24:24웹 GPU 처리를 다루는 방식에 있어서는
00:24:27저는 Opus 4.7과 Claude Code의 손을 들어주고 싶네요.
00:24:29그건 일종의 취향 문제와도 관련이 있다고 봅니다.
00:24:31네, 5.5가 더 화려했다고 할 수는 있겠지만,
00:24:35제 눈에는 좀 별로였거든요.
00:24:37다시 말하지만, 이번 모든 테스트에서 프롬프트는 꽤 모호하게 유지하면서
00:24:41모델이 어떤 방향으로 나아가는지 지켜봤습니다.
00:24:43그래서 이 부문에서는 확실히 Opus의 손을 들어주고 싶습니다.
00:24:46비용이 더 많이 들고
00:24:48시간도 약간 더 걸리긴 했지만요.
00:24:50만약 더 구체적인 프롬프트를 줬다면,
00:24:55뭘 하고 싶은지 아주 명확하게 전달했다면,
00:24:575.5는 우리가 원하는 걸 해냈으니까요.
00:24:59어쨌든 웹 GPU 랜딩 페이지를 만들어내긴 했죠.
00:25:02그냥 제 생각엔 좀 별로였다는 것뿐입니다.
00:25:04그러니 작업은 완료한 셈이죠.
00:25:06단지 Opus만큼 잘 해내지는 못했다고 생각합니다.
00:25:08자, 큰 그림에서 보면 이게 무슨 의미일까요?
00:25:09종합해 보면,
00:25:11에이전트 코더를 사용하는 분들에게는
00:25:13아주 좋은 소식이라고 생각합니다.
00:25:16선택지가 생겼으니까요, 그죠?
00:25:18Opus와 Claude Code를 쓰거나,
00:25:20아니면 GPT 5.5와 Codecs를 쓰면 됩니다.
00:25:23어느 쪽을 선택해도 틀리지 않습니다.
00:25:25이제는 완전히 개인 취향의 영역이라고 봅니다.
00:25:28그리고 가장 좋은 점은 Claude Code 쪽 길을 선택하더라도
00:25:31Codecs에도 거의 다 적용된다는 겁니다.
00:25:33Codecs 쪽을 선택해도,
00:25:34그 방식 그대로 Claude Code에도 적용할 수 있죠.
00:25:37그래서 저는 딱히 벤더 종속은 없다고 생각합니다.
00:25:40Claude Code만 배웠으니까
00:25:42Codecs로는 못 간다, 그런 건 전혀 아니라는 거죠.
00:25:44전혀 사실이 아닙니다.
00:25:45만약 제대로 된 방식으로 하고 있다면,
00:25:46결국 배우고 있는 건 AI 기초
00:25:48그리고 무언가를 구축하는 방법입니다.
00:25:49그건 두 모델 모두에 적용되는 내용이죠.
00:25:51그리고 경쟁이 치열해질수록,
00:25:53소비자인 우리에게는 더 좋은 일이죠.
00:25:54이제 DeepSeek에 관해서는, 글쎄요. 잘 모르겠네요.
00:25:59별로 깊은 인상을 받지 못했습니다.
00:26:00이런 상황일 수도 있죠, 그러니까,
00:26:02단순한 작업을 할 때는 DeepSeek가 의미가 있을 수도 있습니다.
00:26:04Opus만큼의 성능이 필요 없거나,
00:26:06GPT 5.5 정도의 성능이 굳이 필요 없는 경우엔 말이죠.
00:26:10기억하세요, 우리가 지금 얘기하는 건
00:26:11여덟 배나 저렴한 모델이라는 걸요.
00:26:13하지만 당연히 그것도 우리가 고려해야 할 부분이죠.
00:26:16그게 여덟 배나 더 나쁜 결과였을까요?
00:26:19어쩌면 그럴 수도 있고, 아닐 수도 있죠.
00:26:21실제로 뭐라고,
00:26:23정량적으로 말하기는 좀 어렵지만요.
00:26:24당연히 우리가 고려해야 할 부분입니다.
00:26:27그래서, 제 솔직한 생각으로는
00:26:304.7이나 5.5와 경쟁이 된다고 보기는 어렵습니다.
00:26:33하지만 단순히 작업을 수행하거나,
00:26:35토큰 비용이나 금액에 매우 민감한 분들이라면,
00:26:38그럴 땐 DeepSeek가 나름 의미가 있을지도 모르겠네요.
00:26:41오늘 제가 준비한 내용은 여기까지입니다.
00:26:42이 세 가지 모델이 어떤 특징을 가지고 있고
00:26:45어떻게 비교되는지 이해하는 데 도움이 되었기를 바랍니다.
00:26:47지금은 정말 멋진 시대인 것 같아요.
00:26:49경쟁이 많을수록 우리 모두에게 이득이니까요.
00:26:51언제나 그렇듯이, 만약
00:26:53Claude Code 마스터클래스를 수강하고 싶으시다면,
00:26:55Chase AI Plus를 확인해 주세요.
00:26:56설명란에 링크가 있습니다.
00:26:58그럼 다음에 뵙겠습니다.

Key Takeaway

GPT 5.5는 코딩 작업의 성능과 효율성에서 종합적인 승자이나, 사용자는 프로젝트의 목적과 비용 민감도에 따라 GPT 5.5와 Opus 4.7 사이에서 선택하는 것이 적합합니다.

Highlights

  • GPT 5.5는 출력 토큰 100만 개당 30달러, Anthropic은 25달러, DeepSeek V4는 3.48달러의 비용이 발생하며 DeepSeek가 가장 저렴합니다.

  • Terminal Bench 2.0에서 GPT 5.5는 87.2점으로 Opus 4.7과 DeepSeek V4 Pro를 앞섰습니다.

  • GPT 5.5는 비행 시뮬레이터와 같은 복잡한 코딩 과제에서 6만 6천 토큰을 사용하며 다른 모델 대비 가장 뛰어난 성능을 보였습니다.

  • DeepSeek V4는 파라미터가 1조 6천억 개에 달해 로컬 실행이 불가능하며 API 호출 비용이 경쟁 모델보다 약 8배 낮습니다.

  • Opus 4.7은 50만에서 100만 토큰 사이의 장기 문맥 작업에서 성능 퇴보를 보이며 GPT 5.5보다 낮은 정확도를 기록했습니다.

  • 웹 GPU 랜딩 페이지 작업에서는 Claude Code 환경의 Opus 4.7이 사용자의 미적 요구 사항을 가장 잘 충족했습니다.

Timeline

모델별 비용 및 벤치마크 데이터

  • DeepSeek V4는 경쟁 모델보다 출력 토큰 비용이 약 8배 저렴합니다.
  • GPT 5.5는 단가 자체는 높지만 토큰 사용 효율성 덕분에 실제 작업 시 비용 격차는 20% 수준으로 좁혀집니다.
  • Terminal Bench 2.0에서 GPT 5.5가 87.2점으로 압승하며 기술적 우위를 증명했습니다.
  • Anthropic의 Opus 4.7은 대용량 문맥 처리 구간에서 성능이 저하되는 현상이 확인되었습니다.

세 모델의 경제성과 기술적 지표를 비교합니다. GPT 5.5, Opus 4.7, DeepSeek V4의 입력 및 출력 토큰 비용을 대조하여 API 사용 예산을 산출합니다. 코딩 관련 벤치마크 점수를 통해 모델별 강점을 파악하며, 특히 Anthropic 모델에서 나타난 특정 토큰 범위 내의 성능 퇴보 현상을 분석합니다.

비행 시뮬레이터 구축 성능 비교

  • GPT 5.5는 6만 6천 토큰을 사용하며 가장 짧은 시간 내에 요구 사항을 구현했습니다.
  • Claude Code의 Opus 4.7은 프롬프트를 반복 입력한 후 GPT 5.5와 대등한 수준의 결과물을 냈습니다.
  • DeepSeek V4는 비행 시뮬레이터 생성 과정에서 요구 사항을 전혀 충족하지 못하며 가장 낮은 품질을 보였습니다.

Three.js 기반의 비행 시뮬레이터 제작 실무 테스트를 수행합니다. 각 모델이 초기 프롬프트에 대응하는 능력과 후속 수정 요청을 처리하는 속도를 측정합니다. Codex 내의 GPT 5.5는 즉각적인 구현 능력을 보여준 반면, DeepSeek는 추가 프롬프트에도 시각적 오류를 해결하지 못했습니다.

웹 GPU 랜딩 페이지 디자인 테스트

  • 웹 GPU 셰이더 작업에서 Opus 4.7은 미적 만족도와 조화 면에서 가장 우수한 결과를 산출했습니다.
  • GPT 5.5는 요구 사항을 성공적으로 수행했으나, 결과물의 시각적 밸런스 측면에서는 다소 아쉬움을 보였습니다.
  • DeepSeek V4는 낮은 비용에도 불구하고 고사양 그래픽 구현 부문에서 전반적인 품질이 부족합니다.

고사양 그래픽을 요구하는 랜딩 페이지 구현 능력을 시험합니다. 모델별 히어로 섹션과 입자 효과 구현 방식을 비교합니다. GPT 5.5는 기능적 완성도가 높으나, 디자인 취향의 영역에서 Claude Code 환경의 Opus 4.7이 더 나은 결과물을 제시했다는 판단을 내립니다.

Community Posts

View all posts