00:00:00오늘 아침 X에서 이 게시물을 봤는데, 엔스로픽(Anthropic)이
00:00:09Pro 요금제에서 클로드 코드(Claude Code) 플러그인을 제거해서
00:00:17더 비싼 구독 플랜을 써야만 클로드 코드를
00:00:22사용할 수 있게 했다는 내용이었습니다. 엔스로픽은
00:00:27새로운 프로슈머 가입자의 2%를 대상으로 진행하는 작은 테스트일 뿐이라고
00:00:32재빨리 해명했는데요. 저는 이런 식의 테스트를 진행한다는 게
00:00:40좀 의아했고, 이런 테스트가 어떤 파장을 불러올지
00:00:47엔스로픽이 충분히 예상했어야 한다고 생각합니다. 사람들의 인식에
00:00:53어떤 영향을 미칠지 말이죠. 물론 이런 조치는 우리가 이미 겪고 있는
00:00:59구독 혜택 축소나 더 엄격해진 사용 제한,
00:01:08모델 성능 저하 같은 흐름과도 딱 맞아떨어지기 때문입니다. 지난 몇 주간
00:01:14이런 일들이 계속 있었거든요. 엔스로픽은 클로드 코드 외부에서
00:01:21구독 기능을 사용하는 것을 공격적으로 차단했습니다. 오픈 클라우드 같은 곳에서
00:01:28말이죠. 이런 것들이 모두 하나의 큰 그림을 보여줍니다. 그리고 이 흐름에
00:01:37부합하는 소식이 며칠 전 깃허브(GitHub)에서도 발표되었습니다.
00:01:43깃허브 코파일럿(Copilot) Pro, Pro Plus, 학생 플랜의 신규 가입을 일시 중단하고,
00:01:49개인 플랜의 사용 제한을 강화하며, 무엇보다 Pro 플랜에서
00:01:56오푸스(Opus) 모델을 더 이상 사용할 수 없게 했습니다. 물론 다 이해는 가지만,
00:02:02왜 이런 일이 벌어지는지, 그리고 이것이 우리에게
00:02:07앞으로 무엇을 의미하는지 경제적인 관점에서 더 깊이 파헤쳐봐야 합니다. 이제는
00:02:17무제한 사용과 과도한 보조금의 시대가 끝났다는 것은 분명합니다. 이걸 이해하려면
00:02:25구독 모델과 토큰 사용량에 대한 경제 원리를
00:02:34파악해야 합니다. 엔스로픽, 오픈AI, 깃허브가 제공하는 이러한 구독 모델은
00:02:43대부분의 사용자가 제공된 사용량을 전부 소진하지 않을 때만 실제로 성립합니다.
00:02:49이건 AI 구독 서비스뿐만 아니라 다른 모든 구독 서비스에서도 마찬가지입니다.
00:02:56넷플릭스 구독을 해서 24시간 내내 영상을 본다면 그들은 수익을 내기 어렵겠죠.
00:03:02하지만 대부분의 사람들은 그렇게 하지 않기 때문에 수익이 나는 겁니다.
00:03:10모든 구독 서비스의 기본이죠. 이제 우리는 AI 요청에 대한
00:03:19실질적인 가격에 가까운 금액을 알 수 있습니다. 각 회사의 API 가격 페이지를 보면 되는데요.
00:03:26예를 들어 엔스로픽의 최신 모델인 클로드 오푸스 3.5의 경우, 입력 토큰 가격은
00:03:35100만 토큰당 5달러, 출력 토큰 가격은 100만 토큰당 25달러입니다.
00:03:42이걸 다른 모델이나 오픈AI가 제공하는 모델과도 비교해 볼 수 있겠죠.
00:03:47예를 들어, 대부분의 코덱스 사용자가 현재 사용 중인 GPT-4.5의 경우
00:03:54입력 토큰 가격이 100만 토큰당 2.5달러로, 오푸스 3.5의 절반 수준입니다.
00:04:03출력 가격은 22.5달러로 오푸스보다는 약간 저렴하죠. 자, 이제 여기서
00:04:11이 API 가격은 기업들이 어느 정도의 매출 총이익을 확보하거나
00:04:20손익분기점을 맞추기 위한 가격이라고 가정하는 것이 합리적입니다.
00:04:29즉, 추론 비용만을 놓고 봤을 때 API를 사용하는 경우 기업들이 수익을 낼 수 있는
00:04:36구조라는 것이죠. 물론 AI 모델 운영 비용을 이해하려면
00:04:43두 가지 핵심 요소를 알아야 합니다. 바로 막대한 비용이 드는 모델 학습 비용과
00:04:53추론 비용입니다. AI 기업들에게 이 두 가지가 큰 역할을 합니다.
00:04:59학습 비용은 일회성 비용이죠. 모델을 한 번 훈련하는 데
00:05:06엄청난 비용이 들지만, 한 번 끝나면 끝입니다. 물론 계속해서
00:05:12새로운 모델을 학습시키므로 모델마다 비용이 발생하지만, 일단 모델이 학습되면
00:05:18추가 미세 조정이나 파생 모델을 만들지 않는 이상 학습 비용은 더 이상 들지 않습니다.
00:05:25가장 큰 비용은 한 번에 발생하죠. 반면 추론은 완전히 다릅니다.
00:05:33이것은 지속적인 비용입니다. 요청마다 비용이 발생하는 것이죠. 왜냐하면
00:05:41추론이란 사용자가 모델에 보낸 태스크에 대해 구체적인 결과물을 만들어내는
00:05:48과정이기 때문입니다. 클로드 코드나 코덱스를 사용할 때뿐만 아니라,
00:05:53챗GPT나 다른 방식으로 프롬프트를 보낼 때마다 추론이 계속 일어납니다.
00:05:58이 부분에서 API 가격과 최소한 손익분기점은 맞추고 싶어 할 겁니다.
00:06:07그렇지 않으면 요청을 받을 때마다 손해를 보게 되니까요. 물론 시장 점유율을
00:06:13확대하기 위해 단기적으로는 손해를 볼 수도 있겠지만, 장기적으로는
00:06:19지속 가능하지 않습니다. 결국 회사가 망할 테니까요.
00:06:25당연히 언젠가는 학습 비용까지 회수해야 합니다. 그래서 이상적으로는
00:06:34사용자들이 보내는 수많은 요청으로부터 발생하는 추론 비용 대비 마진이
00:06:41학습 비용과 인건비 등을 모두 충당할 수 있어야 합니다. 이게 AI 모델 운영의 경제학입니다.
00:06:48앞서 말씀드렸듯이 API 가격은 기업들이 엄청난 손해를 보지는 않는 지점일 텐데요.
00:06:57소비자 입장에서는 다릅니다. 만약 클로드 코드를 오푸스의
00:07:02온디맨드 가격으로 사용한다면 구독 요금제를 사용할 때보다
00:07:10훨씬 더 많은 비용을 내게 될 것입니다. 예를 들어 200달러짜리 Max 구독 플랜을 쓰면
00:07:18수백만 토큰을 사용할 수 있는데,
00:07:26실제 토큰 가격을 계산해 보면,
00:07:34출력 토큰 100만 개당 25달러라는 가격을 고려했을 때,
00:07:39입력 토큰 비용은 무시하더라도 200달러로는 1000만 토큰도 안 됩니다.
00:07:44실제로는 800만 토큰 정도만 가능하죠. 여기에 입력 토큰 비용까지 더하면
00:07:51더 줄어듭니다. 긴 세션을 실행하거나 일주일 동안 클로드 코드를
00:07:56사용하면서 토큰 사용량을 추적해 보면 그 한도를 훨씬 넘어서는 걸 알 수 있습니다.
00:08:02과거에는 분명 그 이상을 사용할 수 있었죠. 그래서 기업들이 구독제 내에서
00:08:08사용량을 제한하려는 것이며,
00:08:14앞으로 구독 가격이 인상될 수밖에 없다고 생각합니다. 아마 머지않은
00:08:19미래에 일어날 일이죠. 물론 기업 입장에서 가격을 올리는 게 쉽지는 않습니다.
00:08:25시장 점유율을 포기할 수 없기 때문입니다. 모든 기업들이 코딩 에이전트 시장에서
00:08:30지배적인 위치를 차지하려고 공격적으로 나서고 있거든요.
00:08:37많은 기업에서 표준 코딩 에이전트 서비스로 자리를 잡으면,
00:08:45나중에 높은 구독료를 받기 쉬워지니까요. 그래서 섣불리 가격을 올렸다가
00:08:51고객을 경쟁사에게 뺏기고 싶지 않은 것이죠. 반면에,
00:08:57회사 재정이 파탄 나게 둘 수도 없습니다. 오픈AI가 최근 1,220억 달러를
00:09:02유치한 이유이기도 하죠. AI의 다음 단계를 가속화하기 위해서입니다.
00:09:09하지만 그 자금으로도 운영할 수 있는 시간은
00:09:1718개월 정도에 불과할 것입니다. 그 안에 다시 투자를 받아야 한다는 뜻이죠. 그러니
00:09:26더 이상 무제한으로 보조금을 줄 수는 없습니다. 회사가 망하면 고객은 어차피
00:09:32경쟁사로 떠나버릴 테니까요. 이게 바로 기업들이 직면한 딜레마입니다. 그게 바로 지금의 경제 현실이고요.
00:09:39지금 여러분도 체감하시겠지만, 게이머들이 느끼는 것과 마찬가지로 지금 우리는
00:09:44AI 열풍 때문에 극심한 컴퓨팅 자원 부족과 비용 상승 문제를 겪고 있습니다.
00:09:52AI 모델과 데이터 센터에 필요한 모든 것이 비싸졌죠.
00:10:01추론에는 많은 메모리가 필요하기 때문에 메모리 가격이 올랐고,
00:10:08로컬 시스템에서 모델을 직접 실행해 본 분들은 아시겠지만 많은 메모리가 필요하죠.
00:10:13메모리뿐만이 아닙니다. 네트워크 장비도 문제인데요. 학습과 추론을
00:10:19단일 칩이 아닌 거대한 칩 랙과 클러스터에서 실행하기 때문입니다.
00:10:25이런 클러스터들은 칩과 클러스터 사이를 연결해야 하는데,
00:10:31소위 슈퍼 GPU를 만들기 위해 필요한 이 네트워크 장비들에 대한 수요가 폭증해서
00:10:36가격이 치솟았습니다. 게다가 데이터 센터와 에너지 문제도 있죠.
00:10:43칩을 넣을 데이터 센터가 필요해서 많은 건설 공사가 진행 중이지만,
00:10:52데이터 센터는 엄청난 양의 전력을 소비합니다. 전력망에서 공급받는 것만으로는
00:10:58한계가 있어서 전력 자체가 부족한 상황입니다. 그래서 새로운 데이터 센터들이
00:11:05데이터 센터 바로 옆에 가스 터빈이나 원자력 발전소를 건설하는
00:11:12독립형 에너지 솔루션으로 이동하고 있습니다. 하지만 그 모든 과정에는 시간이 걸리고,
00:11:21발전소 건설에 필요한 핵심 부품이나 자재를 공급할 수 있는
00:11:28기업도 한정되어 있습니다. 그래서 이런 공급 제약이
00:11:35추론과 학습에 사용될 수 있는 컴퓨팅 자원의 총량을 제한하고 있습니다.
00:11:42과거, 그러니까 불과 1~2년 전만 해도 기업들의 인센티브는
00:11:48학습에 컴퓨팅 자원을 최대한 집중하는 것이었습니다. 그래야 더 좋은 모델을 만들어
00:11:54AI 경쟁에서 앞서나갈 수 있었으니까요. 그 동기는 여전히 유효하지만,
00:12:00이제는 추론에 대한 중요성이 훨씬 더 커졌습니다.
00:12:07왜냐하면 추론이야말로 고객을 얻고 시장에서 가시성을 확보하는 수단이기 때문입니다.
00:12:14아무리 모델이 좋아도 아무도 사용할 수 없다면 시장 점유율을 가져올 수 없으니까요.
00:12:19이제는 부족한 컴퓨팅 자원과 데이터 센터 용량을 학습과 추론이라는 두 영역으로
00:12:25쪼개서 분배해야 하는 상황이 되었습니다. 특히 올해 초부터는
00:12:30고객들의 사용 패턴이 완전히 바뀌었습니다. 깃허브 뉴스가 이를 잘 보여주는데요.
00:12:38에이전트식 워크플로우가 코파일럿의 컴퓨팅 수요를 근본적으로 바꿔놓았습니다.
00:12:45장기간 지속되는 복잡한 작업들이 이제는 기존의 플랜 구조로는 지원할 수 없을 정도로
00:12:51훨씬 많은 자원을 소비하고 있습니다. 엔스로픽과 오픈AI도 마찬가지입니다.
00:12:57불과 1년 전만 해도 이런 서비스들은 주로 일회성 대화 세션에 집중되어 있었습니다.
00:13:04사용자가 어쩌다 한 번씩 챗GPT나 클로드에 질문을 던지는 정도였죠.
00:13:10물론 하루에 여러 번 사용할 수도 있었지만, 짧은 질문과 답변이 오가는
00:13:20정도였습니다. 요즘의 긴 에이전트 워크플로우나 코딩 세션에 비하면
00:13:27토큰 사용량이 훨씬 적었습니다. 그런 세션에서는 수십만, 수백만 토큰을
00:13:33순식간에 써버리죠. 훨씬 더 빠르게 말입니다. 거기에다가 요즘 모델들은
00:13:39이른바 '생각하는 모델(thinking models)'이라 토큰 소비량이 더 커졌습니다.
00:13:44실제 결과물에는 보이지 않더라도 그 사고 과정 자체가 토큰을 소비하기 때문이죠.
00:13:51그래서 토큰 소비량이 1~2년 전과는 비교할 수 없을 정도로 커졌습니다.
00:13:58그렇기에 추론 자원이 더 중요해진 것이고, 이런 워크플로우를 처리하기 위해
00:14:05압도적으로 더 많은 추론 능력이 필요하게 된 것입니다. 새로운 모델들이
00:14:12API를 통해 사용할 때 비싼 이유가 바로 이것입니다. 또한 과거에 설정한
00:14:17구독 플랜이 지금 기업들에게 큰 짐이 된 이유이기도 하죠. 과거에는 토큰 소비가 적을 때
00:14:24구독료를 설정했는데, 지금은 같은 구독료를 내고 훨씬 더 많은 토큰을
00:14:29소비하고 있으니까요. 엔스로픽의 경우 오픈AI보다
00:14:37이런 고통을 더 크게 느낄 것으로 예상됩니다. API 가격상 모델 운영 비용이 더 높다는 점뿐만 아니라,
00:14:43역사적으로 엔스로픽이 더 많은 기업 고객을 보유하고 있기 때문입니다.
00:14:49물론 안정적인 수익원이라는 점에서는 좋지만요. 반면 챗GPT는
00:14:56일반 소비자 기반이 훨씬 컸습니다. 요즘은 오픈AI도 기업 고객으로 이동하고 있지만,
00:15:03역사적으로는 일반인이 훨씬 많았죠. 여기서 엔스로픽의 단점이 드러납니다.
00:15:09기업 고객들은 바로 그 에이전트 워크플로우를 실행하는 주체들입니다.
00:15:16부모님 세대는 챗GPT를 쓰더라도 에이전트 워크플로우까지는 돌리지 않으시거든요.
00:15:22하지만 기업들은 다릅니다. 이 때문에 엔스로픽은 오픈AI보다
00:15:29구독 모델 운영에서 더 큰 어려움을 겪고 있을 것입니다. 오픈AI는 여전히
00:15:38일반 개인 사용자들이 많으니까요. 물론 그들도 고통스럽긴 마찬가지겠지만요.
00:15:43이제 이런 변화가 무엇을 의미할까요? 클로드 코드를 저렴한 플랜에서
00:15:50빼버리는 테스트를 진행하는 등 앞으로 우리는 더 엄격한 사용 제한을
00:15:55목격하게 될 것입니다. 구독이 더 이상 가치가 없다고 느껴지는 시점이 오면,
00:16:00가격 인상이 뒤따를 것입니다. 이런 코딩 구독 서비스나 에이전트 서비스가
00:16:06미래에는 월 수천 달러까지 올라갈 수도 있습니다. 당장 올해는 아니더라도 말이죠.
00:16:11결국 기업들은 이 구독료와 직원 인건비를 비교하게 될 것이기 때문입니다.
00:16:18좋은 소식은 아니지만, 제 생각에는 분명 그렇게 될 것입니다.
00:16:24인건비와 비교하기 시작하면 구독료는 훨씬 더 비싸질 여지가 많습니다.
00:16:32물론 그렇게 되면 일반 개인들은 구독하기 어려워지겠죠. 그래서 개인용으로는
00:16:38더 엄격한 제한이 있는 새로운 저가형 구독 상품이 나올 것입니다.
00:16:42챗GPT 일반 사용에는 문제가 없겠지만 에이전트 워크플로우에는 부족한 수준으로요.
00:16:48전문적인 에이전트 워크플로우를 위해서는 더 비싼 요금제를 내야 할 겁니다.
00:16:55시장 점유율 싸움 때문에 언제 시행될지는 모르겠지만, 결국은 그렇게 될 수밖에 없습니다.
00:17:03오픈AI든 엔스로픽이든 1~2년 내에 수익성을 증명해야 하기 때문입니다.
00:17:10사업을 지속하려면 말이죠. 그게 제가 생각하는 향후 1년 정도의 전망입니다.
00:17:17틀릴 수도 있지만 제가 보기엔 분명 일어날 일입니다. 물론 그런 비교를 하게 되면
00:17:23구독료가 훨씬 더 비싸질 여지가 아주 많습니다.
00:17:30당연히 그러면 일반 사람들을 위한 구독 서비스는 아니게 되겠죠. 그래서 아마도
00:17:35일반인들을 위해 사용 제한을 훨씬 엄격하게 걸어둔 새로운 구독 상품들이 나올 겁니다.
00:17:41챗GPT를 쓰기엔 충분하지만 에이전트 워크플로우를 감당하기엔 부족한 수준이죠. 하지만 전문적인 에이전트
00:17:47워크플로우용으로는 더 엄격한 제한과 더 높은 가격이 적용될 겁니다. 시장 점유율 때문에
00:17:52정확히 언제일지는 모르겠지만요. 어쨌든 결국에는 그렇게 될 겁니다. 왜냐하면 궁극적으로
00:17:58말씀드렸듯 오픈AI는 약 18개월의 자금 여유가 있고, 사업을 계속하고 싶어 할 테니까요.
00:18:03엔스로픽도 마찬가지고요. 그래서 저는 1년 정도 후에 이런 상황을 보게 될 것 같습니다. 잘 모르겠지만요.