Transcript
00:00:00지난 24시간 동안 엄청난 업데이트가 있었습니다.
00:00:02지구상에서 가장 거대한 두 AI 모델에 말이죠.
00:00:04첫째로 GPT 5.5가 출시되었습니다.
00:00:07이 모델은 벤치마크 점수를 자랑하며
00:00:10Claude의 Mythos를 앞섰습니다.
00:00:12둘째로 DeepSeek V4가 출시되었습니다.
00:00:15이 모델은 오픈 소스이자 오픈 가중치 모델로
00:00:18선두 기업들의 모델과 경쟁하는 벤치마크를 보여줍니다.
00:00:22이렇게 많은 새로운 모델 중에서
00:00:24우리 같은 일반 사용자는 무엇을 해야 할까요?
00:00:27오늘 그 질문에 대한 답을 드리겠습니다.
00:00:29Opus 4.7, GPT 5.5,
00:00:33그리고 DeepSeek V4를 서로 비교하여
00:00:36여러분에게 실제로 무엇이 적합한지 확인해 보겠습니다.
00:00:39본격적인 3자 비교 테스트를 시작하기 전에
00:00:41Codecs 내의 GPT 5.5,
00:00:45Open Code 내의 DeepSeek V4,
00:00:47그리고 Claude Code 내의 Opus 4.7을요.
00:00:51먼저 벤치마크를 간단히 살펴보겠습니다.
00:00:53특히 지난 24시간 동안 공개된
00:00:54이 두 가지 최신 모델 위주로요.
00:00:56먼저 비용 이야기부터 하죠.
00:00:58아시다시피 DeepSeek V4는
00:01:00오픈 소스, 오픈 가중치 모델이지만
00:01:01그렇다고 내 컴퓨터에서 돌릴 수 있는 건 아닙니다.
00:01:04모델 규모가 너무 크기 때문이죠.
00:01:05파라미터가 1조 6천억 개에 달합니다.
00:01:08돌리려면 엄청난 하드웨어가 필요하죠.
00:01:10그러니 여전히 비용을 지불해야 합니다.
00:01:11여전히 API를 사용해야 하죠.
00:01:13하지만 경쟁 모델보다 훨씬 저렴합니다.
00:01:15거의 8배 정도 저렴하죠.
00:01:18세 모델 중에서는
00:01:19신형 GPT 5.5가 사실 가장 비쌉니다.
00:01:22놀라운 점은 OpenAI가 대체로
00:01:24Anthropic의 경쟁 모델보다 저렴했다는 것입니다.
00:01:28비용 면에서
00:01:30출력 토큰 100만 개당 비용을 보면,
00:01:32GPT 5.5는 30달러입니다.
00:01:35Anthropic은 25달러이고요.
00:01:38그리고 DeepSeek는 3.48달러입니다.
00:01:41입력 토큰으로 따지자면
00:01:44전체 비용에서 큰 비중은 아니지만,
00:01:46GPT 5.5와 Opus 5.7은 동일합니다.
00:01:49입력 토큰 100만 개당 5달러입니다.
00:01:53DeepSeek는 약 1.70달러 정도죠.
00:01:57입력도, 출력도 훨씬 저렴합니다.
00:02:01그렇긴 하지만 5.5의 경우에는
00:02:035.4보다 가격이 두 배나 비쌉니다.
00:02:06하지만 OpenAI는 성능 덕분에
00:02:10토큰 사용량이 훨씬 적다고 주장합니다.
00:02:115.4 가격의 두 배이긴 하지만,
00:02:14실제 토큰 소모량과 최종 비용을 따져보면,
00:02:17같은 작업을 수행했을 때
00:02:20결과적으로 20% 정도만 더 비쌀 뿐이라는 거죠.
00:02:21그러니 그 점은 참고해 두세요.
00:02:24비용은 이 정도로 하고,
00:02:25이제 벤치마크 이야기를 해봅시다.
00:02:26이 모델들이 서류상 얼마나 좋을까요?
00:02:27이제 다들 벤치마크에 무뎌진 건 알지만요.
00:02:31걸러 들을 필요가 있긴 해도,
00:02:32한번 살펴볼 가치는 있습니다.
00:02:33각 모델사가 같은 벤치마크에서
00:02:36발표한 수치를 볼 때는 특히 더 그렇고요.
00:02:39코딩 카테고리에는 세 모델 모두
00:02:42수치를 보고한 벤치마크가 3개 있습니다.
00:02:43SWE bench Verified, SWE bench Pro,
00:02:46그리고 Terminal Bench 2.0입니다.
00:02:48SWE bench Verified와 Pro의 경우,
00:02:50Opus가 우승자였습니다.
00:02:52Terminal Bench 2.0에서는 GPT가 87.2점으로 압승했습니다.
00:02:56그런데 이 수치는
00:02:59Anthropic이 Mythos에 대해 발표한 수치보다 높습니다.
00:03:02아, Mythos 죄송합니다.
00:03:03꽤 놀라운 일이죠.
00:03:05공개할 수 없는 초비밀 모델이
00:03:07Terminal Bench 2에서 GPT 5.5보다 낮은 점수를 받다니요.
00:03:10이 Terminal Bench 2.0이 가장 큰 변수입니다.
00:03:13Opus 4.7과 V4 Pro는 훨씬 뒤처져 있지만,
00:03:16Opus 4.7과 V4 Pro를 비교해 보세요.
00:03:208배 저렴하면서도 점수 차이는 2점 미만입니다.
00:03:23SWE bench Verified와 Pro에서도
00:03:24비슷한 양상을 볼 수 있죠.
00:03:26물론 Opus가 이기긴 합니다.
00:03:28하지만 2위와 3위를 비교해 보면
00:03:31V4가 항상 3위이긴 하지만,
00:03:33기대했던 만큼 큰 격차는 없습니다.
00:03:36SWE bench Verified에서 85대 86이면
00:03:385점 차이가 작지는 않지만 말이죠.
00:03:41하지만 다시 강조하자면 8배 저렴하고 오픈 소스입니다.
00:03:45최고의 성능이 필요하지 않다면
00:03:46실질적인 절충안을 선택할 수 있는 셈이죠.
00:03:49흥미로운 또 다른 주제는
00:03:51장기 문맥인데, Opus 4.7은 정말 성능이 낮습니다.
00:03:55수치상으로 4.6보다 상당히 나쁜데
00:03:58정말 이해할 수 없는 부분입니다.
00:04:00장기 문맥에서
00:04:01정보를 검색하려고 할 때,
00:04:0350만에서 100만 토큰 사이에서
00:04:064.7은 실제로 형편없습니다.
00:04:08DeepSeek나 GPT 5.5보다 훨씬 못하죠.
00:04:12왜 50만에서 100만 토큰 범위까지
00:04:14가야 하는지에 대해 논쟁할 수도 있겠지만요.
00:04:17애초에 그 범위에서 작업하는 사람이 얼마나 될까요?
00:04:20어떤 모델을 사용하든
00:04:22그 지점에서는 문맥 손실(Context Rot)이 발생하니까요.
00:04:24하지만 이유가 무엇이든
00:04:26Anthropic 모델에서 성능 퇴보가 보이는 것은
00:04:27참 흥미로운 지점입니다.
00:04:29큰 그림에서 보자면, 결론은
00:04:325.5가 정말 강력하다는 것입니다.
00:04:33특정 지표에서는 Opus 4.7을 이기고,
00:04:36일부에서는 지기도 하지만,
00:04:37매우 견고한 모델입니다.
00:04:39그리고 무엇보다 V4 Pro는 전반적으로
00:04:42조금 뒤처져 있는 상황입니다.
00:04:45성능은 충분히 경쟁력 있으면서도 무한히 저렴하죠.
00:04:48일반 사용자에게는 아주 훌륭한 선택지입니다.
00:04:52지금 오픈 소스 측면에서는
00:04:54실제로 경쟁할 수 있는 선택지가 별로 없다고 느껴지니까요.
00:04:56이제 세 모델 모두를 대상으로
00:04:59실제 3자 비교 테스트를 시작해 봅시다.
00:05:00각 모델마다 제어 환경을 사용하고 있습니다.
00:05:025.5는 Codecs를,
00:05:04Opus 4.7은 Claude Code를,
00:05:07DeepSeek V4 Pro는 Open Code를 사용 중입니다.
00:05:10첫 번째 테스트는
00:05:11브라우저에서 실행되는
00:05:14Three.js 기반의 비행 시뮬레이터를 만드는 것입니다.
00:05:17프롬프트는 여기 보시는 대로입니다.
00:05:18비행감이 좋았으면 좋겠다.
00:05:20무게감이 느껴지길 바란다.
00:05:21시각적으로 강력했으면 좋겠고,
00:05:25적절하다고 생각하는 도구와 구조를 사용해라.
00:05:27해야 할 일은 명확하지만,
00:05:30모델 간의 차이를 확인할 수 있을 만큼
00:05:33여유를 두었습니다.
00:05:34한 번의 실행 결과만 볼 것이 아니라,
00:05:36여러 번 반복하며 후속 프롬프트를 줄 것입니다.
00:05:38한 번에 얼마나 잘하는지 보는 것도 멋지지만,
00:05:40실제 작업 방식은 그렇지 않으니까요.
00:05:44후속 프롬프트를 줄 때 어떻게 대응하는지,
00:05:46원하는 결과물에 얼마나 빨리 도달하는지 보고 싶습니다.
00:05:49세 모델을 비교할 때
00:05:52네 가지 기준을 볼 것입니다.
00:05:54시간,
00:05:55얼마나 빨리 구축하는가?
00:05:57비용,
00:05:58토큰을 얼마나 사용하는가?
00:06:01품질,
00:06:02얼마나 좋은가?
00:06:04그리고 네 번째는 분위기(Vibe)입니다.
00:06:06품질과 관련되어 있으며,
00:06:06매우 주관적인 부분이죠.
00:06:09내가 실제로 무엇을 더 좋아하는가?
00:06:11참고로 세 모델과 제어 환경 모두
00:06:13정확히 같은 기술을 사용합니다.
00:06:16DeepSeek부터 시작해 보죠.
00:06:18어떤 비행 모델을 원하는지 묻고 있습니다.
00:06:20완전한 시뮬레이션(Full Sim)으로 가죠.
00:06:22지형은 바다와 섬을 추천하네요.
00:06:23그대로 갑시다.
00:06:25카메라 환경 설정을 묻는군요.
00:06:26둘 다 하겠습니다.
00:06:271인칭과 3인칭 전환이 가능한지 보죠.
00:06:29추천 도구 설정을 그대로 사용하겠습니다.
00:06:32기체와 시각 요소는
00:06:33로우 폴리 모델로 하겠습니다.
00:06:35이제 Codecs로 넘어갑니다. 비슷한 질문이네요.
00:06:38질문은 3개뿐입니다.
00:06:40어떤 비행 최적화를 원하는지 묻습니다.
00:06:42하드 시뮬레이션으로 가겠습니다.
00:06:44브라우저에서 어떤 경험이 가장 중요한가?
00:06:48섬 이착륙 루프로 하겠습니다.
00:06:50다들 비슷하게 묻는 게 흥미롭네요.
00:06:52카메라와 기체는 어떻게 할 것인가?
00:06:54이것도 토글 방식으로 하겠습니다.
00:06:56Claude Code는 스터디 시뮬레이션 학습으로
00:06:58바다와 섬 환경을 설정하겠습니다.
00:07:02키보드와 마우스로 설정하고,
00:07:04작업을 시작하게 하겠습니다.
00:07:05계획 모드는 세 모델 모두 매우 비슷합니다.
00:07:09질문 내용도 거의 같습니다.
00:07:11물리 엔진을 어떻게 할지,
00:07:12지형을 무엇으로 할지,
00:07:13카메라 각도는 무엇으로 할지 말이죠.
00:07:15큰 차이는 없습니다.
00:07:17계획이 어떻게 나오는지 살펴보죠.
00:07:19세 모델의 계획이 모두 완료되었습니다.
00:07:20각 모델의 차이를
00:07:22간단히 살펴보겠습니다.
00:07:24첫 번째는 DeepSeek입니다.
00:07:26제시한 계획이 매우 기초적입니다.
00:07:29프로젝트 구조를 제시한 후
00:07:31비행 물리학, 환경, 카메라, HUD 오버레이에 대해
00:07:33매우 빠르게 설명합니다.
00:07:35불렛 포인트 몇 개뿐이죠.
00:07:37반면에 Codecs의 5.5는 요약,
00:07:40핵심 변경 사항,
00:07:43구현 세부 사항, 테스트 계획,
00:07:46그리고 구현 세부 사항과 테스트 계획,
00:07:47가정까지 모두 명확하게 설명해 줍니다.
00:07:49다음은 가장 오랜 시간이 걸린 Claude Code의 계획입니다.
00:07:50약 5분 정도 걸렸지만, 단연 가장 철저합니다.
00:07:53컨텍스트와 스택을 다루기 때문이죠.
00:07:55비행 모델에 대해 설명하는 레이아웃입니다.
00:07:57실제 비행 중의 다양한 상황들을 다루고,
00:08:00실속이나 실속 경고음 같은 것들을 언급합니다.
00:08:02정말 아주 자세하게 들어가죠.
00:08:03조종 장치, 환경, 모드,
00:08:06사용할 실제 항공기, 성능까지,
00:08:08그냥 계속 이어집니다.
00:08:10정말 자세해요.
00:08:11자, 이제 세 가지 모델 모두 계획을 구현하게 할 겁니다.
00:08:14최종 결과가 어떻게 나오는지 보죠.
00:08:15Codecs의 GPT 5.5가 가장 먼저 끝냈습니다.
00:08:19어떤 모습인지 한번 보죠.
00:08:20자, 이게 완성된 비행 시뮬레이터입니다.
00:08:22하늘에 구름이 좀 있네요.
00:08:26위에 받음각(AOA) 지시계 같은 게 보입니다.
00:08:31아래쪽에는 속도계가 있고요.
00:08:34이걸 실제로 이륙시킬 수 있는지 한번 보죠.
00:08:35이륙할 수 있을까요.
00:08:36활주로 같은 건 없네요.
00:08:38그냥 잔디밭입니다.
00:08:39원래는 섬 같은 환경일 줄 알았는데요.
00:08:42카메라가 좀 흔들릴 때,
00:08:45잠시 아래쪽에 활주로가 보이는 걸 알 수 있죠.
00:08:48자, 실속에 걸리고 있는데, 그냥,
00:08:50아예 이륙조차 못 하는 거 아니에요?
00:08:51이거 정말 조금,
00:08:54실제로 좀 어렵네요.
00:08:55그래서 제가 하려는 건,
00:09:00조금 더 조종하기 쉽게 해달라고
00:09:03두 번째 프롬프트를 주는 겁니다. 이것저것 너무 많거든요.
00:09:05정말 어렵네요.
00:09:06그래서 적었습니다. 조종하기 정말 힘들다.
00:09:08더 쉽게 만들어 줄 수 있을까?
00:09:10아케이드 게임처럼 좀 더 쉽게 말이야.
00:09:12그리고 그래픽도 좀 개선이 필요해.
00:09:15어떻게 될지 한번 보죠.
00:09:16참고로 5.5가 첫 번째 버전을 만드는 데
00:09:21약 7분 정도 걸렸습니다.
00:09:23토큰은 6만 3천 개 사용했고요.
00:09:26좋아요, 이제 조금 더 조종하기 쉽게 만들고
00:09:28그래픽을 업데이트했다고 하네요.
00:09:29두 번째 버전이 어떤 모습일지 보죠.
00:09:32결과는 이렇습니다.
00:09:32그래픽은 확실히 더 좋아졌는데,
00:09:34이번에는 활주로에서
00:09:36이륙할 수 있는지 보죠.
00:09:37좋아요, 스로틀은 100%,
00:09:4150, 60, 70.
00:09:43세스나의 회전 속도가 얼마였더라?
00:09:46좋아, 70, 80, 90.
00:09:49이제 이륙할 수 있어야 합니다.
00:09:51오케이, 잘못된 방향이네요.
00:09:53자, 가자, 이륙하자, 이륙해.
00:09:56안 돼, 이거 또 실속 걸리는 거 아니야?
00:09:58그래, 실속.
00:09:59오케이, 이건 아직 좀 더 손봐야겠네요.
00:10:02Codex에게 한 번 더 기회를 줍시다.
00:10:055.5에게 한 번 더 기회를 주죠.
00:10:07실제로 플레이 가능하게 만들어 보라고요.
00:10:08그래서 제가 말했죠. 비행기를
00:10:10이륙시켜서 비행하는 것조차 안 된다고요.
00:10:11이륙해서 실제로 비행할 수 있게
00:10:12확실히 쉽게 만들어야 해요.
00:10:14오케이, 이륙 문제를 해결했다고 하네요.
00:10:16전에 브레이크가 잠겨 있었던 모양이에요.
00:10:19그게 이유였는지 잘 모르겠지만요.
00:10:21아, 자동으로 이륙 상태로 설정되지는 않았네요.
00:10:24플랩도 그렇고, 이건,
00:10:25거의 초현실적인 시뮬레이터 모드로 되어 있었네요.
00:10:29하지만 여기 세 번째 시도인 비행 시뮬레이터가 있습니다.
00:10:32어떻게 될지 한번 보죠.
00:10:34과연 이륙할 수 있을까요?
00:10:36오, 이번에는 활주로에서 튕기고 있네요.
00:10:37무언가가 됐습니다.
00:10:38좋아요, 이륙했습니다.
00:10:41실제로 움직이고 있어요.
00:10:44저 고리들 중 하나에 들어갈 수 있을지 보죠.
00:10:45그러니까, 10분도 안 돼서 만든 것치고는
00:10:49그래픽이 그리 나쁘지 않네요.
00:10:52꽤 정확한 것 같습니다,
00:10:56아래쪽에 수직 속도(분당 피트),
00:10:59현재 고도, 노트, 방위각, 지상 고도까지 표시해주고요.
00:11:00그러니까 모든 걸 추적하는 면에서는
00:11:04상당히 정교합니다.
00:11:06모든 것을 관리하는 점에서요.
00:11:08그러니까 앞에 있는 이 작은 지시계는,
00:11:10받음각(AOA) 지시계처럼 보이는데,
00:11:13그건 참 멋지네요.
00:11:14그래서 꽤 좋은 점들이 있습니다.
00:11:18실제 조종은 좀 어색하네요.
00:11:21보시다시피, 조종이 거의 안 되네요,
00:11:23하지만 전반적으로 나쁘지 않아요.
00:11:25그러니까 이걸 가미카제처럼,
00:11:27분당 18,000피트 속도로 어떻게 되는지 보자고요.
00:11:31하지만 네, 6만 6천 토큰,
00:11:36대략 10분에서 15분 정도, 주고받은 것들을 생각하면,
00:11:40전혀 나쁘지 않다고 생각합니다.
00:11:41이제 DeepSeek을 살펴봅시다.
00:11:42이걸 하는 데 10분 정도 걸렸습니다.
00:11:44토큰은 63,000개에 44센트가 들었고요.
00:11:46그러니까 44센트에 10분이죠.
00:11:51이게 DeepSeek이 우리에게 내놓은 결과물입니다.
00:11:53대체 뭘 보고 있는지,
00:11:56전혀 모르겠네요.
00:12:00대체 뭘 보고 있는 거야.
00:12:03이게 3인칭 시점이어야 하거든요.
00:12:06이게 조종석이어야 하고요.
00:12:07DeepSeek과의 첫 시도는
00:12:11완전한 재앙이었습니다.
00:12:13DeepSeek에게 시뮬레이터가 엉망이라고 말했죠.
00:12:16그래픽은 완전히 버그 투성이고,
00:12:17아무것도 조종할 수가 없어요.
00:12:20수정해 주세요.
00:12:21그리고 이게 두 번째 결과물입니다.
00:12:24전혀 모르겠네요.
00:12:26정말 아무런 단서가 없어요.
00:12:28도대체 DeepSeek이 뭔지.
00:12:30오, 야, 비행기가 있네.
00:12:32오, 뭔가가 있어요.
00:12:33와, 네, 이건 정말 가혹하네요.
00:12:38솔직히 말해서, 이걸 또 프롬프트로 수정하려면,
00:12:42우리가 뭘 하려는지 정말 아주 아주 구체적으로,
00:12:44설명해야 할 텐데, 다시 말하지만,
00:12:47우리가 Codex로 했던 것보다 훨씬 부족해요.
00:12:49그건 아주 평범한 프롬프트였는데도,
00:12:51적어도 첫 번째 결과물부터 비슷한 수준은
00:12:53가까스로 얻을 수 있었거든요.
00:12:54이건 그래픽 부분에서 완전히 고전하고 있네요.
00:12:57이걸 어떻게 설명해야 할지 모르겠는데,
00:12:58뭐, 어쨌든 엄청나게 저렴하긴 했네요.
00:13:01이제 Claude Code가
00:13:03우리에게 어떤 결과물을 줬는지 보죠.
00:13:07실제로 계획을 실행하는 데 13분이 걸렸습니다.
00:13:09계획 자체는 5분이 걸렸고요.
00:13:12그러니까 첫 번째 버전을 내놓는 데 20분 걸렸다고 치죠.
00:13:13그리고 총 토큰 수는,
00:13:17이 실행은 계획 이전의 5%에 15% 이상이 들었네요.
00:13:19그러니까, 음, 죄송해요,
00:13:2211%의 컨텍스트에 이전 5%를 더한 거죠.
00:13:24그러니까 총 20분, 15만 토큰 정도를
00:13:28Claude Code가 사용한 셈인데,
00:13:33분명히 가장 비싸고
00:13:34가장 느린 모델이었습니다.
00:13:36여기에 Claude Code의 시도가 있습니다.
00:13:39어찌 된 일인지, 바로 공중에 떠 있네요.
00:13:43실속에 걸리고 있습니다.
00:13:44계기 비행을 하고 있네요.
00:13:45무슨 일이 일어나는지 모르겠어요.
00:13:48뭔가 추락하기 직전인 것 같습니다.
00:13:50이걸 살릴 수 있을까요?
00:13:51급강하에서 빠져나올 수 있을까요?
00:13:53아니요, 실속 중이에요, 안 돼요, 죽었어요.
00:13:54오케이, 흥미롭네요.
00:13:56다시 한번, 바로 하늘로 튕겨 올려 보내네요.
00:14:00구름 속에 있습니다.
00:14:02실속 중이고요.
00:14:03대체 무슨 일이 벌어지는 건지 모르겠네요.
00:14:05두 번째 결과물이 필요합니다.
00:14:08그래서 제가 썼습니다. 로딩하자마자 바로 하늘로 튕겨 나간다.
00:14:11조종하기가 너무 힘들다.
00:14:12활주로에서 시작하고 싶고, 조종을 더 쉽게 해달라.
00:14:15아, 그리고 말인데, 그래픽도 좀 개선해 줘.
00:14:174분 정도 걸렸는데, 일부 수정했네요.
00:14:20활주로에서 생성될 거예요.
00:14:22기어를 바꿨네요.
00:14:23이제 삼륜식 기어에 몇 가지 다른 것들이 들어갔어요.
00:14:24어떤 모습인지 보죠.
00:14:26네, 여기 있습니다.
00:14:27또 바로 안개 속으로 튕겨 들어갔네요.
00:14:29이걸 조종해보려고 하는데,
00:14:31네, 그냥 조종이 아예 안 되네요.
00:14:33알겠어요, Claude Code에게,
00:14:34한 번 더 기회를 줍시다.
00:14:37여전히 하늘로 바로 튕겨 버린다고 말했죠.
00:14:39좀 더 아케이드 느낌의
00:14:40조종 방식을 선택하자고 했습니다.
00:14:42처음부터 세 모델 모두에게
00:14:43그렇게 요청했어야 했나 봐요.
00:14:44현실적인 시뮬레이터 유형으로 가는 건,
00:14:46사용자 친화적으로 만드는 데
00:14:50정말 어려움을 겪는 것 같아요.
00:14:53아마 내부적으로는 아주 잘하고 있을 거예요.
00:14:57예를 들어, 그래, 받음각 문제라든가.
00:14:59좋아, 지금 속도 대 각도 때문에 실속 중이다, 뭐 이런 거요.
00:15:01그런데 실제로 컴퓨터로
00:15:02이걸 조종하는 건
00:15:04거의 불가능합니다.
00:15:07안개는 정말 이상하고요.
00:15:09두 번째 프롬프트 이후에
00:15:12좀 더 나아졌는지 보죠.
00:15:15지금 GPT 5.5가 훨씬, 훨씬 잘했거든요.
00:15:16Claude Code가 몇 가지 변경을 해서
00:15:20더 사용자 친화적으로 만들긴 했네요.
00:15:22이번에도 여전히 계기 비행을
00:15:23시도하고 있는지 봅시다.
00:15:24이번에는 계기 비행 자격 증명을 따러 가보겠습니다.
00:15:26네, 아직 계속 진행 중입니다.
00:15:28아직 계기 비행 자격 증명을 위해 노력하고 있죠.
00:15:30현재 맨스에 와 있지만, 어렴풋이 보이긴 하네요.
00:15:33계기판을 확인할 수 있습니다.
00:15:35좋아요, 이제 활주로에서 이륙합니다.
00:15:37네, 알겠습니다.
00:15:42잠깐, 활주로에 왜 나무가 있죠?
00:15:44위로 올라가려는데 말이죠.
00:15:46올라갈 수 있을까요?
00:15:47기수를 올릴 수 있을까요?
00:15:49캔버스를 클릭해서 마우스를 고정하라고요, 이게 무슨?
00:15:53오, 공중에 떴습니다.
00:15:54아니, 안 돼, 추락했습니다.
00:15:57네, 이 결과는 꽤 확실한 것 같네요.
00:16:02GPT 5.5가 확실히 승자라고 생각합니다.
00:16:06Claude Code는 2등이었어요.
00:16:082등을 주겠습니다.
00:16:10분명히 고전했거든요.
00:16:13우리가 입력한 프롬프트로도 말이죠.
00:16:14솔직히 좋은 프롬프트를 주진 않았지만요.
00:16:16더 많은 시간과 더 좋은 프롬프트,
00:16:19몇 번 더 주고받았더라면
00:16:20원하는 곳까지 도달할 수 있었을 겁니다.
00:16:21적어도 항공기와 활주로는 구현했으니까요.
00:16:25활주로에 나무가 있긴 했지만요.
00:16:26우리가 필요로 했던 실제 요소들은 다 갖췄어요.
00:16:29OpenCODE를 사용한 DeepSeek와는 비교되죠.
00:16:32무슨 일이 벌어지고 있는지 전혀 알 수가 없었거든요.
00:16:34완전히 엉망이었죠.
00:16:35처음부터 다시 시작해야 했을 것 같아요.
00:16:36아주 구체적인 프롬프트를 줬어야 했습니다.
00:16:38손을 쓸 수 없을 정도로 엉망이었으니까요.
00:16:39하지만 GPT 5.5는 시작하자마자,
00:16:42꽤 모호한 프롬프트였음에도,
00:16:44정말 잘 해냈다고 생각합니다.
00:16:455.5는 총 66K 토큰을 사용했습니다.
00:16:48Opus와 모두 합쳐서 보면,
00:16:52약 20만 토큰 정도네요.
00:16:53그러니 토큰도 4분의 1이고, 비용도 사실상 4분의 1인 셈이죠.
00:16:56그리고 속도도 조금 더 빨랐습니다.
00:16:58이제 와서 말하지만,
00:16:59OpenCODE가 GPT 5.5보다 더 오래 걸린 건 신경도 안 써요.
00:17:03그냥 결과가 형편없었어요, 솔직히 말해서 정말 별로였죠.
00:17:07자, 이제 두 번째 테스트로 넘어가겠습니다.
00:17:10이번에는 다음을 요청할 겁니다.
00:17:12Three.js를 사용하여 WebGPU 셰이더 작업을 보여주는 랜딩 페이지를 만드는 거죠.
00:17:16Three.js를 사용해서요.
00:17:18WebGPU 셰이더 작업은 이런 곳에서 볼 수 있는 종류의 작업이죠.
00:17:21어워드 웹사이트 같은 곳들이요.
00:17:23Igloo 같은 웹사이트들 말입니다.
00:17:26매우 고사양 그래픽이죠.
00:17:28마치 비디오 게임처럼 보입니다.
00:17:29컴퓨터의 그래픽 카드를 사용하여
00:17:32이 모든 것을 렌더링하는 겁니다.
00:17:34이들 중 누구라도 여기에 가까운 결과를 낼 거라고 기대하진 않지만,
00:17:37셰이더 기술을 사용하여 무엇을 할 수 있는지 보고 싶습니다.
00:17:40셰이더 기술을 사용해서 말이죠.
00:17:42이건 기본적으로 평범한
00:17:45SaaS 템플릿 랜딩 페이지보다는 한 단계 위죠.
00:17:46그들이 무엇을 할 수 있는지 보고,
00:17:48웹 디자인의 세계에서 한계를 시험해 보고 싶습니다.
00:17:50모두에게 이런 종류의 작업을 수행하는 방법을 알려주는 기술을 제공했습니다.
00:17:53그러니 완전히 모르는 상태는 아니죠.
00:17:55어느 한쪽이 특별히 유리한 것도 아니고요.
00:17:57어느 한쪽이 압도적으로 유리하진 않습니다.
00:18:00제가 말한 건 현대적인 느낌,
00:18:02시각적으로 인상적인 느낌, 어워드 사이트에서 볼 법한 느낌,
00:18:05그리고 GPU 컴퓨팅을 스마트하게 활용하라는 것뿐입니다.
00:18:08그래서 그들은 원하는 스택과 프로젝트 구조를 선택할 수 있고,
00:18:10히어로 컨셉, UI, 인터랙션에 대해
00:18:13좋은 판단을 내릴 수 있습니다.
00:18:15첫 번째 테스트처럼 모두 플랜 모드입니다.
00:18:17시작해 보죠.
00:18:18좋아요, 모두 계획을 마쳤는데 재밌게도,
00:18:21아무도 제게 질문하지 않았네요.
00:18:22플랜 모드였는데도 말이죠.
00:18:24먼저 GPT 5.5를 살펴보겠습니다.
00:18:28전체 화면의
00:18:30인터랙티브한 GPU 구동 히어로 섹션을 만들겠다고 합니다.
00:18:32컨셉은 살아있는 신호 필드,
00:18:34밀도 높은 입자 효과를 구현할 예정이라고 하네요.
00:18:36결과가 어떻게 나올지 보겠습니다.
00:18:38전반적으로 미니멀한 어워드 스타일의 랜딩 페이지입니다.
00:18:41완전한 인터랙티브 WebGPU 장면을,
00:18:43포인터 반응형 컴퓨트 시뮬레이션으로 구현할 겁니다.
00:18:46좋습니다, DeepSeek의 계획은 꽤 짧고 간결하네요.
00:18:50비행 시뮬레이터 때 봤던 것과 같습니다.
00:18:53이번에는 더 나은 결과물이 나오길 바랍니다.
00:18:547만 5천 개의 GPU 컴퓨트 입자를 가진 히어로 섹션이군요.
00:18:58모두가 히어로 섹션에 어떤 종류의
00:19:01입자 테마를 적용하려는 것 같네요.
00:19:04마우스 인터랙션과 통합을 포함하고요.
00:19:08일회성 초기화를 수행하고,
00:19:10블룸,
00:19:13색수차, 커스텀 비네트, 약간의 필름 그레인 같은 효과들이 있겠네요.
00:19:16실제로 어떤 모습일지 보겠습니다.
00:19:19그리고 이번에도 Opus 4.7의 계획입니다.
00:19:21블룸 효과를 곁들인 입자 컨셉이고,
00:19:23마우스와 인터랙션이 가능하겠네요.
00:19:25다들 결과물이 다를지 궁금합니다.
00:19:27겉보기에는 계획이 다 비슷비슷하거든요.
00:19:29가장 먼저 끝낸 건 5.5였습니다.
00:19:32약 6분 정도 걸렸네요.
00:19:34토큰 사용량은 107K입니다.
00:19:37어떤 걸 만들었는지 보죠.
00:19:40이게 결과물입니다.
00:19:42엄청 밝네요.
00:19:45실제 입자를 구분하기조차 힘들 정도예요.
00:19:47위아래로 스크롤 해보면,
00:19:50배경에 애니메이션이 작동하고 있고,
00:19:52미묘한 색상 변화도 있습니다.
00:19:56현재 마우스가 입자를
00:20:00끌어당기는 것 같습니다.
00:20:01이쪽으로 움직여 볼게요.
00:20:03입자를 밀어내거나 표류하게 하는 옵션도 있네요.
00:20:08하지만 너무 밝아서
00:20:11제대로 보기 어렵습니다.
00:20:12너무 밝아서 입자를 확인하기 어렵다고 말했습니다.
00:20:14히어로 섹션 전체를 너무 차지하고 있네요.
00:20:14밝기를 조금 줄이고,
00:20:16오른쪽으로 좀 더 밀어낼 수 있을까요?
00:20:18현재 너무 압도적이라서요.
00:20:20입자가 너무 밝아서
00:20:23왼쪽의 텍스트조차 제대로 읽을 수가 없습니다.
00:20:25두 번째 실행 후 업데이트된 결과입니다.
00:20:27조금 더 낫네요.
00:20:30이전처럼 압도적이지 않고 글을 읽을 공간이 생겼습니다.
00:20:31약간 흐릿한 느낌은 들지만,
00:20:35나쁘지 않네요.
00:20:39다소 모호한 문제였음에도
00:20:41요청한 대로 해냈습니다.
00:20:44디자인에 완전히 감탄한 건 아니지만,
00:20:46불만족스러운 것도 아닙니다.
00:20:49이제 Claude Code를 살펴보죠.
00:20:51작업을 하는 동안,
00:20:52DeepSeek는 여전히 고민 중이었거든요.
00:20:55자, 여기 Claude Code의 결과물입니다.
00:20:57거의 아무것도 없네요.
00:20:58전체 배경을
00:21:01WebGL로 구현하려는 건지 모르겠네요.
00:21:06매우 절제되어 있는데,
00:21:10충분히 시도할 만한 접근이죠.
00:21:14화면상으로 보면,
00:21:19꽤 멋져 보이긴 하지만 솔직히 말해서,
00:21:21조금 더 화려한 걸 원했습니다.
00:21:24두 번째 패스에서,
00:21:25더 화려하게 만들어 달라고 했을 때도,
00:21:28큰 차이는 없었어요.
00:21:31정말 미묘하네요.
00:21:31필름 그레인 같은 효과와,
00:21:34아래에서 위로 올라가는 흐릿한 느낌이 있네요.
00:21:35상당히 미묘한 결과물입니다.
00:21:38아래쪽을 보면,
00:21:40프레임 속도를 추적하고 있네요.
00:21:4325만 개의 입자를 사용하고 있고요.
00:21:45멋져 보이긴 합니다.
00:21:47다만 그다지 화려하지 않을 뿐이죠.
00:21:49취향 차이라고 할 수 있겠네요.
00:21:51Claude Code의 총 토큰 사용량은 약 175,000개,
00:21:54Codex에서 5.5가 한 것보다 약간 더 오래 걸렸습니다.
00:21:56이제 DeepSeek를 살펴봅시다.
00:21:58현재 116,000개의 토큰을 사용했네요.
00:22:01가장 오래 걸리기도 했지만,
00:22:05총비용은 여전히 1달러 미만입니다.
00:22:07결과물은 이렇습니다.
00:22:10마우스를 따라다니는
00:22:12입자 필드네요.
00:22:15흥미롭네요.
00:22:17간질 발작을 일으킬지도 모르겠네요.
00:22:21솔직히 그 외에는 꽤 평범합니다.
00:22:25플럭스 엑스레이 효과가 색상을 바꾸긴 하지만,
00:22:27그냥 이런 걸 만들어 낸 것 같아요.
00:22:29DeepSeek에게 한 번 더 패스를 돌리라고 하니,
00:22:35이런 결과가 나왔습니다.
00:22:39이상한 시차 효과가 들어가 있네요.
00:22:43배경에 푸른색 효과도 보이고요.
00:22:45UFO 같은 게 하나 있는데,
00:22:46마우스에 반응하긴 하네요.
00:22:49그냥 무언가 있긴 하네요.
00:22:53DeepSeek의 총 토큰 사용량은 130K,
00:22:55비용은 1.43달러가 나왔습니다.
00:22:58모든 테스트를 마치고 나니 어떤 결론이 나올까요?
00:23:02최종 결과를 이야기해 봅시다.
00:23:05비행 시뮬레이터였던 첫 번째 테스트는,
00:23:08승자가 확실합니다.
00:23:13Codex 내부의 GPT 5.5였습니다.
00:23:15Claude Code 내부의 Opus 4.7보다 빨랐죠.
00:23:16더 빨랐을 뿐만 아니라 최종 결과물도 단연 최고였습니다.
00:23:18DeepSeek는 비행 시뮬레이터에서 형편없었습니다.
00:23:21우리가 의도했던 것과는 거리가 멀었죠.
00:23:255.5의 첫 번째 결과물 수준에 도달하려면,
00:23:29계속해서 프롬프트를 입력하고 또 입력해야 했을 겁니다.
00:23:32Claude Code의 4.7은, 나쁘지 않았어요.
00:23:34초반에는 작동하지 않았지만,
00:23:35프롬프트를 몇 번 주고받고 나니
00:23:38GPT 5.5의 결과물과 대등한 수준까지
00:23:43끌어올릴 수 있었습니다.
00:23:46하지만 더 많은 프롬프트가 필요했을 겁니다.
00:23:48시간도 더 들었을 것이고, 결과적으로 비용도 더 비쌌겠죠.
00:23:50GPT 5.5가 하는 작업과 동일한 수준으로
00:23:52만들 수 있었죠.
00:23:54그랬다면 프롬프트를 더 입력해야 했을 겁니다.
00:23:55시간도 더 걸렸을 테고
00:23:57결과적으로 비용도 더 많이 들었겠죠.
00:23:59그래서 5.5의 확실한 승리입니다.
00:24:01웹 GPU 랜딩 페이지의 경우,
00:24:03여기서도 DeepSeek는 고전했습니다.
00:24:04전 별로였어요.
00:24:06이게 도대체 뭘 의도한 건지 잘 모르겠네요.
00:24:08물론 제가 아주 좋은 프롬프트를 준 건 아니지만,
00:24:10이게 우리가 평균적인 결과물로
00:24:13받아들여야 하는 수준인가요?
00:24:16DeepSeek를 꽉 잡고
00:24:19정말 강제로 시키지 않는 이상 그런 것 같네요.
00:24:22자, 이제 Opus와 5.5를 비교해 보면,
00:24:24웹 GPU 처리를 다루는 방식에 있어서는
00:24:27저는 Opus 4.7과 Claude Code의 손을 들어주고 싶네요.
00:24:29그건 일종의 취향 문제와도 관련이 있다고 봅니다.
00:24:31네, 5.5가 더 화려했다고 할 수는 있겠지만,
00:24:35제 눈에는 좀 별로였거든요.
00:24:37다시 말하지만, 이번 모든 테스트에서 프롬프트는 꽤 모호하게 유지하면서
00:24:41모델이 어떤 방향으로 나아가는지 지켜봤습니다.
00:24:43그래서 이 부문에서는 확실히 Opus의 손을 들어주고 싶습니다.
00:24:46비용이 더 많이 들고
00:24:48시간도 약간 더 걸리긴 했지만요.
00:24:50만약 더 구체적인 프롬프트를 줬다면,
00:24:55뭘 하고 싶은지 아주 명확하게 전달했다면,
00:24:575.5는 우리가 원하는 걸 해냈으니까요.
00:24:59어쨌든 웹 GPU 랜딩 페이지를 만들어내긴 했죠.
00:25:02그냥 제 생각엔 좀 별로였다는 것뿐입니다.
00:25:04그러니 작업은 완료한 셈이죠.
00:25:06단지 Opus만큼 잘 해내지는 못했다고 생각합니다.
00:25:08자, 큰 그림에서 보면 이게 무슨 의미일까요?
00:25:09종합해 보면,
00:25:11에이전트 코더를 사용하는 분들에게는
00:25:13아주 좋은 소식이라고 생각합니다.
00:25:16선택지가 생겼으니까요, 그죠?
00:25:18Opus와 Claude Code를 쓰거나,
00:25:20아니면 GPT 5.5와 Codecs를 쓰면 됩니다.
00:25:23어느 쪽을 선택해도 틀리지 않습니다.
00:25:25이제는 완전히 개인 취향의 영역이라고 봅니다.
00:25:28그리고 가장 좋은 점은 Claude Code 쪽 길을 선택하더라도
00:25:31Codecs에도 거의 다 적용된다는 겁니다.
00:25:33Codecs 쪽을 선택해도,
00:25:34그 방식 그대로 Claude Code에도 적용할 수 있죠.
00:25:37그래서 저는 딱히 벤더 종속은 없다고 생각합니다.
00:25:40Claude Code만 배웠으니까
00:25:42Codecs로는 못 간다, 그런 건 전혀 아니라는 거죠.
00:25:44전혀 사실이 아닙니다.
00:25:45만약 제대로 된 방식으로 하고 있다면,
00:25:46결국 배우고 있는 건 AI 기초
00:25:48그리고 무언가를 구축하는 방법입니다.
00:25:49그건 두 모델 모두에 적용되는 내용이죠.
00:25:51그리고 경쟁이 치열해질수록,
00:25:53소비자인 우리에게는 더 좋은 일이죠.
00:25:54이제 DeepSeek에 관해서는, 글쎄요. 잘 모르겠네요.
00:25:59별로 깊은 인상을 받지 못했습니다.
00:26:00이런 상황일 수도 있죠, 그러니까,
00:26:02단순한 작업을 할 때는 DeepSeek가 의미가 있을 수도 있습니다.
00:26:04Opus만큼의 성능이 필요 없거나,
00:26:06GPT 5.5 정도의 성능이 굳이 필요 없는 경우엔 말이죠.
00:26:10기억하세요, 우리가 지금 얘기하는 건
00:26:11여덟 배나 저렴한 모델이라는 걸요.
00:26:13하지만 당연히 그것도 우리가 고려해야 할 부분이죠.
00:26:16그게 여덟 배나 더 나쁜 결과였을까요?
00:26:19어쩌면 그럴 수도 있고, 아닐 수도 있죠.
00:26:21실제로 뭐라고,
00:26:23정량적으로 말하기는 좀 어렵지만요.
00:26:24당연히 우리가 고려해야 할 부분입니다.
00:26:27그래서, 제 솔직한 생각으로는
00:26:304.7이나 5.5와 경쟁이 된다고 보기는 어렵습니다.
00:26:33하지만 단순히 작업을 수행하거나,
00:26:35토큰 비용이나 금액에 매우 민감한 분들이라면,
00:26:38그럴 땐 DeepSeek가 나름 의미가 있을지도 모르겠네요.
00:26:41오늘 제가 준비한 내용은 여기까지입니다.
00:26:42이 세 가지 모델이 어떤 특징을 가지고 있고
00:26:45어떻게 비교되는지 이해하는 데 도움이 되었기를 바랍니다.
00:26:47지금은 정말 멋진 시대인 것 같아요.
00:26:49경쟁이 많을수록 우리 모두에게 이득이니까요.
00:26:51언제나 그렇듯이, 만약
00:26:53Claude Code 마스터클래스를 수강하고 싶으시다면,
00:26:55Chase AI Plus를 확인해 주세요.
00:26:56설명란에 링크가 있습니다.
00:26:58그럼 다음에 뵙겠습니다.