역대급 신규 모델 등장 (GPT-5.4)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업경제 뉴스AI/미래기술

Transcript

00:00:00새로운 최고의 모델이 등장했으니, '출시 후 경과일' 카운터를 리셋하셔도 좋습니다.
00:00:03이번 모델은 GPT 5.4인데요. 제가 직접 테스트해 본 결과 여러분이 꼭 알아야 할 내용과
00:00:07장단점을 5분 40초 안에 정리해 드리겠습니다.
00:00:11그럼 핵심 포인트부터 살펴보시죠.
00:00:17GPT 5.4는 지식 노동과 웹 검색 능력이 향상되었고, 네이티브 컴퓨터 사용 기능을 갖췄습니다.
00:00:22잠시 후 설명해 드릴 새로운 도구 검색 기능이 추가되었고, 답변 도중에도 제어가 가능하며
00:00:26새로운 패스트 모드와 100만 토큰의 컨텍스트 윈도우를 제공합니다.
00:00:30GPT 5.4의 목표는 Codex 5.3의 코딩 능력과 GPT 5.2의 지식,
00:00:34웹 검색 및 전문 업무 역량을 결합하여, 5.4를 무엇이든 해결하는
00:00:40올라운더 모델로 만드는 것이었던 것 같습니다.
00:00:41제3자 벤치마크 기관인 Artificial Analysis에 따르면, 실제로 그 목표를
00:00:45달성한 것으로 보입니다.
00:00:46최고의 코딩 모델이자 최고의 에이전트 모델로 선정되었으며, 지능 지수 면에서는
00:00:49Gemini와 함께 공동 1위를 기록했습니다.
00:00:51가장 흥미로운 포인트에 집중해 보자면, 역시 네이티브 컴퓨터 사용 능력입니다.
00:00:55OpenAI는 이 모델을 내장형 컴퓨터 사용 기능을 갖춘 첫 번째 범용 모델로 설계한 듯합니다.
00:00:56따라서 Playwright 같은 라이브러리를 통해 컴퓨터를 조작하는 코드를 작성하거나,
00:01:00스크린샷을 보고 마우스와 키보드 명령을 내리는 데 매우 뛰어납니다.
00:01:04실험적인 Playwright 기능을 공개했길래 저도 한 번 시도해 봤습니다.
00:01:08Codex에서 GPT 5.4와 고도화된 추론 기능을 사용해 런던 타워 브릿지를
00:01:12대화형 3D 경험으로 만들어 보라는 프롬프트를 입력했습니다.
00:01:16또한 텍스처로 사용할 에셋을 직접 생성할 수 있도록 이미지 생성 기능과 새로운 기술을 함께 활용했습니다.
00:01:18결과물 자체는 지금까지 제가 가장 좋아했던 모델인
00:01:22Codex 5.3과 꽤 비슷했습니다.
00:01:24작업을 시작한 지 20분 정도 지났을 때부터 새로운 Playwright 기능을 사용하기 시작했는데,
00:01:29그 경험이 꽤 훌륭했습니다.
00:01:30브라우저를 열고 여기저기 클릭하며 장면을 탐색하고, 배경이 어색하게 섞이는 것 같은
00:01:33시각적 문제를 스스로 파악하더니 다시 코드로 돌아가서 수정하는 과정을
00:01:37반복하더군요. 모든 과정이 매우 매끄럽고 자연스러웠습니다.
00:01:41첫 번째 결과물이 나오기까지 단 한 번의 프롬프트로 약 30분이 소요되었고,
00:01:45그 이후 보트가 옆으로 누워 있거나 도로 텍스처가 겹치는 문제 등
00:01:50몇 가지 세부 사항 수정과 수정을 요청하는 추가 질문을 보냈습니다.
00:01:54그러자 모델이 다시 크롬을 열고 확인하고 수정하는 작업을 각 프롬프트당 약 30분씩 진행했고,
00:01:58결국 총 3번의 프롬프트와 1시간 반의 작업 끝에 최종 버전을 완성했습니다.
00:02:03완벽하다고 할 수는 없지만, 사람의 손이 전혀 닿지 않은 개발 과정치고는
00:02:07꽤 괜찮다고 생각합니다. 5.3 Codex를 좋아하셨던 분들에게
00:02:11이 모델은 고민할 필요 없는 업그레이드입니다.
00:02:16재미있었던 점은, 약 2시간 정도 사용하니 모델이 새로운 패스트 모드로 전환했다면
00:02:20작업 시간을 한 시간은 아꼈을 것이라고 안내하더군요.
00:02:24사실 이 모드는 지능이나 경험 면에서 기존 모델과 똑같습니다. 단지
00:02:27사용료를 2배로 내는 대신 토큰 생성 속도를 최대 1.5배 높여주는
00:02:31일종의 우선순위 티어일 뿐, 다른 모델은 아닙니다.
00:02:35이번 출시에서 또 다른 흥미로운 포인트는 도구 검색 기능입니다.
00:02:41이는 모든 도구 정의를 시스템 프롬프트에 미리 로드해야 했던 문제를 해결해 줍니다.
00:02:44도구와 MCP 서버가 너무 많으면 토큰을 낭비하고 컨텍스트 부풀리기를 유발해
00:02:48출력 품질에 영향을 줄 수 있었거든요.
00:02:52이제 GPT 5.4의 프롬프트에는 사용 가능한 도구 목록만 가볍게 포함됩니다.
00:02:56모델은 도구 검색 기능을 가지고 있어서, 도구가 필요할 때만 해당 도구의 정의를 찾아
00:03:00대화에 즉시 추가할 수 있게 되었습니다.
00:03:05OpenAI 측은 이 방식이 토큰 사용량을 최대 47%까지 줄여준다고 밝혔으며,
00:03:0936개의 MCP 서버를 사용한 벤치마크에서도 동일한 정확도를 유지함을 보여주었습니다.
00:03:13방금 살펴본 기능들 외에도, 이 모델은 도구 사용 방식과
00:03:18도구 선택 시점을 개선하는 데 집중했습니다.
00:03:22이런 노력들이 벤치마크 결과로 나타났지만, 솔직히 말씀드리면
00:03:26새 모델이 이전 모델보다 좋다는 사실 외에 특별히 보고할 내용은 없습니다.
00:03:30이 모델의 장점은 더 똑똑해졌고, 더 오래 실행되며, 도구 활용 능력이 좋아져서
00:03:34이전 모델이 못 했던 더 어려운 과제를 완수할 수 있다는 점으로 요약됩니다.
00:03:38네, 여러분. 신제품이 구형보다 좋다는 뻔한 이야기죠. 이제 단점을 이야기해 봅시다.
00:03:42제가 가장 크게 체감한 단점은 속도였습니다.
00:03:47모델이 좀 더 깊이 생각하는 것을 선호하긴 하지만, 때로는 GPT 5.4가
00:03:51지나치게 시간을 끈다는 느낌이 들었습니다. 아니면 단순히 추론 과정 자체가 느린 것일 수도 있고요.
00:03:52저만 그렇게 느끼는 게 아니었습니다.
00:03:54Artificial Analysis 결과에 따르면, GPT 5.4는 토큰을 반환하는 데
00:03:59상당히 긴 시간이 걸리며, 첫 500 토큰을 생성하는 속도 또한
00:04:04마찬가지로 느린 것으로 나타났습니다.
00:04:05이것이 모델 자체의 문제인지 공급업체의 문제인지는 확실하지 않아
00:04:09시간이 지나면 개선될 수도 있겠지만, 비관적으로 보자면
00:04:14속도를 느리게 만들어 패스트 모드 결제를 유도하는 게 아닌가 싶기도 합니다.
00:04:15API 사용자들에게는 가격 인상도 큰 단점입니다.
00:04:19기본 모델은 입력 토큰 100만 개당 2.5달러, 출력 토큰 100만 개당 15달러이지만,
00:04:24프로 모델은 가격이 꽤 비쌉니다.
00:04:26입력 100만 토큰당 30달러, 출력 100만 토큰당 180달러나 하죠.
00:04:29더 심각한 건, 100만 토큰 컨텍스트 윈도우를 활용하고 싶을 때
00:04:34272,000 토큰을 초과하는 입력분은 정상가의 두 배로 청구됩니다.
00:04:37그러니 당분간은 컨텍스트를 압축해서 사용하시는 게 좋을 것 같습니다.
00:04:43마지막 단점은 UI 디자인입니다. 조금 주관적일 수 있지만,
00:04:47Opus 4.6과 GPT 5.4에게 카페 웹사이트 디자인을 요청해 봤을 때,
00:04:52둘 다 놀라운 수준은 아니었지만 Opus 쪽이 더 마음에 들었습니다.
00:04:55GPT 5.4를 포함한 GPT 모델들의 아쉬운 점은
00:04:59모든 결과물의 UI가 너무 비슷하다는 것입니다.
00:05:05유리창 같은 반투명 카드 스타일과 그라데이션을 지나치게 좋아하는 것 같습니다.
00:05:07물론 이건 제가 해본 하나의 테스트일 뿐이지만, Design Arena 순위에서도
00:05:11이 모델이 높게 평가받지 못하는 것을 보면 현재 OpenAI가 약점을 보이는 부분인 듯합니다.
00:05:14전반적으로 저는 Codex 팬으로서 이 모델을 메인으로 사용할 예정입니다만,
00:05:19여러분들의 생각은 어떠신가요?
00:05:23여러분은 어떤 모델을 선호하시나요?
00:05:27댓글로 알려주시고, 구독도 부탁드립니다. 그럼 다음 영상에서 뵙겠습니다.
00:05:32여러분의 생각은 어떤지 궁금합니다.
00:05:33어떤 모델을 가장 선호하시나요?
00:05:34아래 댓글로 남겨주시고, 구독도 잊지 마세요. 그럼 언제나처럼
00:05:37다음 영상에서 뵙겠습니다.

Key Takeaway

GPT 5.4는 네이티브 컴퓨터 조작과 효율적인 도구 검색 기능을 갖춘 강력한 올라운더 모델이지만, 느린 속도와 높은 비용 및 정형화된 디자인 감각이 주요 해결 과제로 남아 있습니다.

Highlights

GPT 5.4의 핵심 성능 향상: 지식 노동, 웹 검색, 100만 토큰 컨텍스트 윈도우 및 네이티브 컴퓨터 사용 기능 탑재

Artificial Analysis 벤치마크 결과: 코딩 및 에이전트 모델 부문 1위, 지능 지수 면에서 Gemini와 공동 1위 기록

혁신적인 '도구 검색' 기능: 필요한 도구 정의만 동적으로 로드하여 토큰 사용량을 최대 47% 절감

실전 테스트 결과: Playwright를 활용해 1시간 30분 만에 사람의 개입 없이 3D 웹 경험 제작 성공

치명적인 단점: 모델의 추론 속도가 현저히 느리며, 고용량 컨텍스트 사용 시 발생하는 과도한 API 비용

디자인 역량의 한계: Opus 4.6 대비 천편일률적인 UI 디자인 스타일과 낮은 Design Arena 순위

Timeline

GPT 5.4의 주요 특징과 성능 벤치마크

새롭게 출시된 GPT 5.4 모델의 핵심적인 기능과 외부 기관의 객관적인 평가 지표를 소개합니다. 이 모델은 기존 Codex 5.3의 코딩 능력과 GPT 5.2의 전문 지식을 결합하여 진정한 '올라운더'를 목표로 설계되었습니다. Artificial Analysis의 데이터에 따르면 코딩과 에이전트 능력에서 최고점을 받았으며, 지능 면에서도 업계 선두권인 Gemini와 어깨를 나란히 합니다. 특히 100만 토큰의 넓은 컨텍스트 윈도우와 답변 도중 제어가 가능한 기능이 사용자들에게 큰 메리트로 작용할 전망입니다. 이러한 초기 지표들은 GPT 5.4가 단순한 업데이트를 넘어선 세대교체임을 시사합니다.

네이티브 컴퓨터 사용 능력 실전 테스트

GPT 5.4의 가장 혁신적인 기능인 네이티브 컴퓨터 조작 능력을 Playwright 라이브러리를 통해 직접 검증합니다. 사용자는 런던 타워 브릿지를 3D 대화형 경험으로 만들라는 복잡한 프롬프트를 입력하고 모델이 스스로 자산을 생성하고 코드를 수정하는 과정을 관찰합니다. 모델은 브라우저를 직접 열어 시각적인 오류를 파악하고, 약 1시간 30분 동안 세 번의 수정을 거쳐 최종 결과물을 완성해냅니다. 비록 완벽하지는 않지만 사람의 수동 개입 없이 복잡한 개발 프로세스를 완수했다는 점에서 놀라운 에이전트 성능을 보여줍니다. 이는 기존 Codex 사용자들에게 매우 강력한 업그레이드 동기를 부여하는 요소입니다.

패스트 모드와 혁신적인 도구 검색 기능

추가 비용을 지불하고 속도를 높이는 '패스트 모드'와 효율성을 극대화한 '도구 검색' 기능에 대해 상세히 설명합니다. 패스트 모드는 지능의 변화 없이 토큰 생성 속도를 1.5배 높여주지만 비용이 2배로 발생하므로 효율적인 선택이 필요합니다. 반면 도구 검색 기능은 모든 API 정의를 프롬프트에 미리 넣지 않고 필요할 때만 불러와 토큰 낭비를 47%나 줄여줍니다. 36개의 MCP 서버 환경에서도 정확도를 유지하며 복잡한 도구 활용 시점을 최적화하는 데 성공했습니다. 결과적으로 이전 모델이 해결하지 못했던 고난도 과제를 수행할 수 있는 지능적 토대를 마련했습니다.

GPT 5.4의 명확한 단점: 속도와 비용 문제

사용자가 실제로 체감하게 될 모델의 치명적인 단점인 속도 저하와 비싼 API 가격 정책을 비판적으로 분석합니다. GPT 5.4는 첫 토큰 생성까지의 시간이 길고 전체적인 추론 속도가 느려 사용자들 사이에서 유료 패스트 모드 결제를 유도하려는 의도가 아니냐는 의구심을 사고 있습니다. API 가격 역시 프로 모델의 경우 입력 30달러, 출력 180달러로 매우 높게 책정되어 대규모 프로젝트 운영에 부담을 줍니다. 특히 27만 토큰을 초과하는 긴 컨텍스트 사용 시 비용이 두 배로 청구되는 할증 제도가 있어 주의가 필요합니다. 당분간은 비용 절감을 위해 컨텍스트 압축 기술을 병행하는 것이 필수적입니다.

UI 디자인 역량 평가 및 종합 결론

모델의 미적 감각과 디자인 생성 능력에 대한 주관적 평가와 함께 영상의 전체 내용을 마무리합니다. 카페 웹사이트 디자인 테스트 결과, 경쟁 모델인 Opus 4.6에 비해 GPT 5.4는 반투명 카드와 그라데이션을 남용하는 정형화된 스타일을 보여 아쉬움을 남겼습니다. 실제로 Design Arena 순위에서도 낮은 평가를 받고 있어 OpenAI가 향후 개선해야 할 약점으로 지목됩니다. 하지만 강력한 코딩 능력과 컴퓨터 조작 기능 덕분에 실무적인 활용도는 여전히 압도적이라는 결론을 내립니다. 발표자는 시청자들에게 선호하는 모델에 대한 의견을 물으며 영상을 마칩니다.

Community Posts

View all posts