AI 구독 서비스의 매력이 떨어지고 있습니다

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsBusiness News

Transcript

00:00:00오늘 아침 X에서 이 게시물을 봤는데, 엔스로픽(Anthropic)이
00:00:09Pro 요금제에서 클로드 코드(Claude Code) 플러그인을 제거해서
00:00:17더 비싼 구독 플랜을 써야만 클로드 코드를
00:00:22사용할 수 있게 했다는 내용이었습니다. 엔스로픽은
00:00:27새로운 프로슈머 가입자의 2%를 대상으로 진행하는 작은 테스트일 뿐이라고
00:00:32재빨리 해명했는데요. 저는 이런 식의 테스트를 진행한다는 게
00:00:40좀 의아했고, 이런 테스트가 어떤 파장을 불러올지
00:00:47엔스로픽이 충분히 예상했어야 한다고 생각합니다. 사람들의 인식에
00:00:53어떤 영향을 미칠지 말이죠. 물론 이런 조치는 우리가 이미 겪고 있는
00:00:59구독 혜택 축소나 더 엄격해진 사용 제한,
00:01:08모델 성능 저하 같은 흐름과도 딱 맞아떨어지기 때문입니다. 지난 몇 주간
00:01:14이런 일들이 계속 있었거든요. 엔스로픽은 클로드 코드 외부에서
00:01:21구독 기능을 사용하는 것을 공격적으로 차단했습니다. 오픈 클라우드 같은 곳에서
00:01:28말이죠. 이런 것들이 모두 하나의 큰 그림을 보여줍니다. 그리고 이 흐름에
00:01:37부합하는 소식이 며칠 전 깃허브(GitHub)에서도 발표되었습니다.
00:01:43깃허브 코파일럿(Copilot) Pro, Pro Plus, 학생 플랜의 신규 가입을 일시 중단하고,
00:01:49개인 플랜의 사용 제한을 강화하며, 무엇보다 Pro 플랜에서
00:01:56오푸스(Opus) 모델을 더 이상 사용할 수 없게 했습니다. 물론 다 이해는 가지만,
00:02:02왜 이런 일이 벌어지는지, 그리고 이것이 우리에게
00:02:07앞으로 무엇을 의미하는지 경제적인 관점에서 더 깊이 파헤쳐봐야 합니다. 이제는
00:02:17무제한 사용과 과도한 보조금의 시대가 끝났다는 것은 분명합니다. 이걸 이해하려면
00:02:25구독 모델과 토큰 사용량에 대한 경제 원리를
00:02:34파악해야 합니다. 엔스로픽, 오픈AI, 깃허브가 제공하는 이러한 구독 모델은
00:02:43대부분의 사용자가 제공된 사용량을 전부 소진하지 않을 때만 실제로 성립합니다.
00:02:49이건 AI 구독 서비스뿐만 아니라 다른 모든 구독 서비스에서도 마찬가지입니다.
00:02:56넷플릭스 구독을 해서 24시간 내내 영상을 본다면 그들은 수익을 내기 어렵겠죠.
00:03:02하지만 대부분의 사람들은 그렇게 하지 않기 때문에 수익이 나는 겁니다.
00:03:10모든 구독 서비스의 기본이죠. 이제 우리는 AI 요청에 대한
00:03:19실질적인 가격에 가까운 금액을 알 수 있습니다. 각 회사의 API 가격 페이지를 보면 되는데요.
00:03:26예를 들어 엔스로픽의 최신 모델인 클로드 오푸스 3.5의 경우, 입력 토큰 가격은
00:03:35100만 토큰당 5달러, 출력 토큰 가격은 100만 토큰당 25달러입니다.
00:03:42이걸 다른 모델이나 오픈AI가 제공하는 모델과도 비교해 볼 수 있겠죠.
00:03:47예를 들어, 대부분의 코덱스 사용자가 현재 사용 중인 GPT-4.5의 경우
00:03:54입력 토큰 가격이 100만 토큰당 2.5달러로, 오푸스 3.5의 절반 수준입니다.
00:04:03출력 가격은 22.5달러로 오푸스보다는 약간 저렴하죠. 자, 이제 여기서
00:04:11이 API 가격은 기업들이 어느 정도의 매출 총이익을 확보하거나
00:04:20손익분기점을 맞추기 위한 가격이라고 가정하는 것이 합리적입니다.
00:04:29즉, 추론 비용만을 놓고 봤을 때 API를 사용하는 경우 기업들이 수익을 낼 수 있는
00:04:36구조라는 것이죠. 물론 AI 모델 운영 비용을 이해하려면
00:04:43두 가지 핵심 요소를 알아야 합니다. 바로 막대한 비용이 드는 모델 학습 비용과
00:04:53추론 비용입니다. AI 기업들에게 이 두 가지가 큰 역할을 합니다.
00:04:59학습 비용은 일회성 비용이죠. 모델을 한 번 훈련하는 데
00:05:06엄청난 비용이 들지만, 한 번 끝나면 끝입니다. 물론 계속해서
00:05:12새로운 모델을 학습시키므로 모델마다 비용이 발생하지만, 일단 모델이 학습되면
00:05:18추가 미세 조정이나 파생 모델을 만들지 않는 이상 학습 비용은 더 이상 들지 않습니다.
00:05:25가장 큰 비용은 한 번에 발생하죠. 반면 추론은 완전히 다릅니다.
00:05:33이것은 지속적인 비용입니다. 요청마다 비용이 발생하는 것이죠. 왜냐하면
00:05:41추론이란 사용자가 모델에 보낸 태스크에 대해 구체적인 결과물을 만들어내는
00:05:48과정이기 때문입니다. 클로드 코드나 코덱스를 사용할 때뿐만 아니라,
00:05:53챗GPT나 다른 방식으로 프롬프트를 보낼 때마다 추론이 계속 일어납니다.
00:05:58이 부분에서 API 가격과 최소한 손익분기점은 맞추고 싶어 할 겁니다.
00:06:07그렇지 않으면 요청을 받을 때마다 손해를 보게 되니까요. 물론 시장 점유율을
00:06:13확대하기 위해 단기적으로는 손해를 볼 수도 있겠지만, 장기적으로는
00:06:19지속 가능하지 않습니다. 결국 회사가 망할 테니까요.
00:06:25당연히 언젠가는 학습 비용까지 회수해야 합니다. 그래서 이상적으로는
00:06:34사용자들이 보내는 수많은 요청으로부터 발생하는 추론 비용 대비 마진이
00:06:41학습 비용과 인건비 등을 모두 충당할 수 있어야 합니다. 이게 AI 모델 운영의 경제학입니다.
00:06:48앞서 말씀드렸듯이 API 가격은 기업들이 엄청난 손해를 보지는 않는 지점일 텐데요.
00:06:57소비자 입장에서는 다릅니다. 만약 클로드 코드를 오푸스의
00:07:02온디맨드 가격으로 사용한다면 구독 요금제를 사용할 때보다
00:07:10훨씬 더 많은 비용을 내게 될 것입니다. 예를 들어 200달러짜리 Max 구독 플랜을 쓰면
00:07:18수백만 토큰을 사용할 수 있는데,
00:07:26실제 토큰 가격을 계산해 보면,
00:07:34출력 토큰 100만 개당 25달러라는 가격을 고려했을 때,
00:07:39입력 토큰 비용은 무시하더라도 200달러로는 1000만 토큰도 안 됩니다.
00:07:44실제로는 800만 토큰 정도만 가능하죠. 여기에 입력 토큰 비용까지 더하면
00:07:51더 줄어듭니다. 긴 세션을 실행하거나 일주일 동안 클로드 코드를
00:07:56사용하면서 토큰 사용량을 추적해 보면 그 한도를 훨씬 넘어서는 걸 알 수 있습니다.
00:08:02과거에는 분명 그 이상을 사용할 수 있었죠. 그래서 기업들이 구독제 내에서
00:08:08사용량을 제한하려는 것이며,
00:08:14앞으로 구독 가격이 인상될 수밖에 없다고 생각합니다. 아마 머지않은
00:08:19미래에 일어날 일이죠. 물론 기업 입장에서 가격을 올리는 게 쉽지는 않습니다.
00:08:25시장 점유율을 포기할 수 없기 때문입니다. 모든 기업들이 코딩 에이전트 시장에서
00:08:30지배적인 위치를 차지하려고 공격적으로 나서고 있거든요.
00:08:37많은 기업에서 표준 코딩 에이전트 서비스로 자리를 잡으면,
00:08:45나중에 높은 구독료를 받기 쉬워지니까요. 그래서 섣불리 가격을 올렸다가
00:08:51고객을 경쟁사에게 뺏기고 싶지 않은 것이죠. 반면에,
00:08:57회사 재정이 파탄 나게 둘 수도 없습니다. 오픈AI가 최근 1,220억 달러를
00:09:02유치한 이유이기도 하죠. AI의 다음 단계를 가속화하기 위해서입니다.
00:09:09하지만 그 자금으로도 운영할 수 있는 시간은
00:09:1718개월 정도에 불과할 것입니다. 그 안에 다시 투자를 받아야 한다는 뜻이죠. 그러니
00:09:26더 이상 무제한으로 보조금을 줄 수는 없습니다. 회사가 망하면 고객은 어차피
00:09:32경쟁사로 떠나버릴 테니까요. 이게 바로 기업들이 직면한 딜레마입니다. 그게 바로 지금의 경제 현실이고요.
00:09:39지금 여러분도 체감하시겠지만, 게이머들이 느끼는 것과 마찬가지로 지금 우리는
00:09:44AI 열풍 때문에 극심한 컴퓨팅 자원 부족과 비용 상승 문제를 겪고 있습니다.
00:09:52AI 모델과 데이터 센터에 필요한 모든 것이 비싸졌죠.
00:10:01추론에는 많은 메모리가 필요하기 때문에 메모리 가격이 올랐고,
00:10:08로컬 시스템에서 모델을 직접 실행해 본 분들은 아시겠지만 많은 메모리가 필요하죠.
00:10:13메모리뿐만이 아닙니다. 네트워크 장비도 문제인데요. 학습과 추론을
00:10:19단일 칩이 아닌 거대한 칩 랙과 클러스터에서 실행하기 때문입니다.
00:10:25이런 클러스터들은 칩과 클러스터 사이를 연결해야 하는데,
00:10:31소위 슈퍼 GPU를 만들기 위해 필요한 이 네트워크 장비들에 대한 수요가 폭증해서
00:10:36가격이 치솟았습니다. 게다가 데이터 센터와 에너지 문제도 있죠.
00:10:43칩을 넣을 데이터 센터가 필요해서 많은 건설 공사가 진행 중이지만,
00:10:52데이터 센터는 엄청난 양의 전력을 소비합니다. 전력망에서 공급받는 것만으로는
00:10:58한계가 있어서 전력 자체가 부족한 상황입니다. 그래서 새로운 데이터 센터들이
00:11:05데이터 센터 바로 옆에 가스 터빈이나 원자력 발전소를 건설하는
00:11:12독립형 에너지 솔루션으로 이동하고 있습니다. 하지만 그 모든 과정에는 시간이 걸리고,
00:11:21발전소 건설에 필요한 핵심 부품이나 자재를 공급할 수 있는
00:11:28기업도 한정되어 있습니다. 그래서 이런 공급 제약이
00:11:35추론과 학습에 사용될 수 있는 컴퓨팅 자원의 총량을 제한하고 있습니다.
00:11:42과거, 그러니까 불과 1~2년 전만 해도 기업들의 인센티브는
00:11:48학습에 컴퓨팅 자원을 최대한 집중하는 것이었습니다. 그래야 더 좋은 모델을 만들어
00:11:54AI 경쟁에서 앞서나갈 수 있었으니까요. 그 동기는 여전히 유효하지만,
00:12:00이제는 추론에 대한 중요성이 훨씬 더 커졌습니다.
00:12:07왜냐하면 추론이야말로 고객을 얻고 시장에서 가시성을 확보하는 수단이기 때문입니다.
00:12:14아무리 모델이 좋아도 아무도 사용할 수 없다면 시장 점유율을 가져올 수 없으니까요.
00:12:19이제는 부족한 컴퓨팅 자원과 데이터 센터 용량을 학습과 추론이라는 두 영역으로
00:12:25쪼개서 분배해야 하는 상황이 되었습니다. 특히 올해 초부터는
00:12:30고객들의 사용 패턴이 완전히 바뀌었습니다. 깃허브 뉴스가 이를 잘 보여주는데요.
00:12:38에이전트식 워크플로우가 코파일럿의 컴퓨팅 수요를 근본적으로 바꿔놓았습니다.
00:12:45장기간 지속되는 복잡한 작업들이 이제는 기존의 플랜 구조로는 지원할 수 없을 정도로
00:12:51훨씬 많은 자원을 소비하고 있습니다. 엔스로픽과 오픈AI도 마찬가지입니다.
00:12:57불과 1년 전만 해도 이런 서비스들은 주로 일회성 대화 세션에 집중되어 있었습니다.
00:13:04사용자가 어쩌다 한 번씩 챗GPT나 클로드에 질문을 던지는 정도였죠.
00:13:10물론 하루에 여러 번 사용할 수도 있었지만, 짧은 질문과 답변이 오가는
00:13:20정도였습니다. 요즘의 긴 에이전트 워크플로우나 코딩 세션에 비하면
00:13:27토큰 사용량이 훨씬 적었습니다. 그런 세션에서는 수십만, 수백만 토큰을
00:13:33순식간에 써버리죠. 훨씬 더 빠르게 말입니다. 거기에다가 요즘 모델들은
00:13:39이른바 '생각하는 모델(thinking models)'이라 토큰 소비량이 더 커졌습니다.
00:13:44실제 결과물에는 보이지 않더라도 그 사고 과정 자체가 토큰을 소비하기 때문이죠.
00:13:51그래서 토큰 소비량이 1~2년 전과는 비교할 수 없을 정도로 커졌습니다.
00:13:58그렇기에 추론 자원이 더 중요해진 것이고, 이런 워크플로우를 처리하기 위해
00:14:05압도적으로 더 많은 추론 능력이 필요하게 된 것입니다. 새로운 모델들이
00:14:12API를 통해 사용할 때 비싼 이유가 바로 이것입니다. 또한 과거에 설정한
00:14:17구독 플랜이 지금 기업들에게 큰 짐이 된 이유이기도 하죠. 과거에는 토큰 소비가 적을 때
00:14:24구독료를 설정했는데, 지금은 같은 구독료를 내고 훨씬 더 많은 토큰을
00:14:29소비하고 있으니까요. 엔스로픽의 경우 오픈AI보다
00:14:37이런 고통을 더 크게 느낄 것으로 예상됩니다. API 가격상 모델 운영 비용이 더 높다는 점뿐만 아니라,
00:14:43역사적으로 엔스로픽이 더 많은 기업 고객을 보유하고 있기 때문입니다.
00:14:49물론 안정적인 수익원이라는 점에서는 좋지만요. 반면 챗GPT는
00:14:56일반 소비자 기반이 훨씬 컸습니다. 요즘은 오픈AI도 기업 고객으로 이동하고 있지만,
00:15:03역사적으로는 일반인이 훨씬 많았죠. 여기서 엔스로픽의 단점이 드러납니다.
00:15:09기업 고객들은 바로 그 에이전트 워크플로우를 실행하는 주체들입니다.
00:15:16부모님 세대는 챗GPT를 쓰더라도 에이전트 워크플로우까지는 돌리지 않으시거든요.
00:15:22하지만 기업들은 다릅니다. 이 때문에 엔스로픽은 오픈AI보다
00:15:29구독 모델 운영에서 더 큰 어려움을 겪고 있을 것입니다. 오픈AI는 여전히
00:15:38일반 개인 사용자들이 많으니까요. 물론 그들도 고통스럽긴 마찬가지겠지만요.
00:15:43이제 이런 변화가 무엇을 의미할까요? 클로드 코드를 저렴한 플랜에서
00:15:50빼버리는 테스트를 진행하는 등 앞으로 우리는 더 엄격한 사용 제한을
00:15:55목격하게 될 것입니다. 구독이 더 이상 가치가 없다고 느껴지는 시점이 오면,
00:16:00가격 인상이 뒤따를 것입니다. 이런 코딩 구독 서비스나 에이전트 서비스가
00:16:06미래에는 월 수천 달러까지 올라갈 수도 있습니다. 당장 올해는 아니더라도 말이죠.
00:16:11결국 기업들은 이 구독료와 직원 인건비를 비교하게 될 것이기 때문입니다.
00:16:18좋은 소식은 아니지만, 제 생각에는 분명 그렇게 될 것입니다.
00:16:24인건비와 비교하기 시작하면 구독료는 훨씬 더 비싸질 여지가 많습니다.
00:16:32물론 그렇게 되면 일반 개인들은 구독하기 어려워지겠죠. 그래서 개인용으로는
00:16:38더 엄격한 제한이 있는 새로운 저가형 구독 상품이 나올 것입니다.
00:16:42챗GPT 일반 사용에는 문제가 없겠지만 에이전트 워크플로우에는 부족한 수준으로요.
00:16:48전문적인 에이전트 워크플로우를 위해서는 더 비싼 요금제를 내야 할 겁니다.
00:16:55시장 점유율 싸움 때문에 언제 시행될지는 모르겠지만, 결국은 그렇게 될 수밖에 없습니다.
00:17:03오픈AI든 엔스로픽이든 1~2년 내에 수익성을 증명해야 하기 때문입니다.
00:17:10사업을 지속하려면 말이죠. 그게 제가 생각하는 향후 1년 정도의 전망입니다.
00:17:17틀릴 수도 있지만 제가 보기엔 분명 일어날 일입니다. 물론 그런 비교를 하게 되면
00:17:23구독료가 훨씬 더 비싸질 여지가 아주 많습니다.
00:17:30당연히 그러면 일반 사람들을 위한 구독 서비스는 아니게 되겠죠. 그래서 아마도
00:17:35일반인들을 위해 사용 제한을 훨씬 엄격하게 걸어둔 새로운 구독 상품들이 나올 겁니다.
00:17:41챗GPT를 쓰기엔 충분하지만 에이전트 워크플로우를 감당하기엔 부족한 수준이죠. 하지만 전문적인 에이전트
00:17:47워크플로우용으로는 더 엄격한 제한과 더 높은 가격이 적용될 겁니다. 시장 점유율 때문에
00:17:52정확히 언제일지는 모르겠지만요. 어쨌든 결국에는 그렇게 될 겁니다. 왜냐하면 궁극적으로
00:17:58말씀드렸듯 오픈AI는 약 18개월의 자금 여유가 있고, 사업을 계속하고 싶어 할 테니까요.
00:18:03엔스로픽도 마찬가지고요. 그래서 저는 1년 정도 후에 이런 상황을 보게 될 것 같습니다. 잘 모르겠지만요.

Key Takeaway

에이전트 워크플로우로 인한 폭발적인 토큰 소비와 인프라 비용 상승으로 인해, 무제한 AI 구독 시대는 종료되고 향후 더 높은 가격의 전문 요금제와 엄격한 사용 제한이 적용될 전망이다.

Highlights

엔스로픽은 Pro 요금제 사용자 중 2%를 대상으로 클로드 코드(Claude Code) 기능을 제한하는 테스트를 시행 중이다.

깃허브는 코파일럿(Copilot) Pro 및 학생 플랜 신규 가입을 일시 중단하고 개인 플랜 사용 제한을 강화했다.

클로드 오푸스 3.5 모델의 API 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 형성되어 있다.

에이전트식 워크플로우 도입으로 인해 과거의 제한 없는 무제한 AI 구독 모델은 경제적으로 유지 불가능한 상태다.

최신 '생각하는 모델(thinking models)'은 실제 결과물 외에 사고 과정에서 추가적인 토큰을 소비하여 추론 비용을 상승시킨다.

현재 AI 기업들은 운영 자금을 확보하기 위해 18개월 내에 수익성을 증명해야 하는 재정적 압박을 받고 있다.

Timeline

AI 구독 모델의 변화와 기능 제한

  • 엔스로픽은 일부 프로슈머 가입자를 대상으로 고급 기능을 상위 플랜으로 이동시키는 테스트를 시작했다.
  • 깃허브는 코파일럿의 신규 가입을 차단하고 기존 플랜에서 오푸스 모델 사용을 제한했다.
  • 구독 서비스의 혜택 축소와 사용 제한 강화는 업계 전반의 흐름으로 자리 잡고 있다.

최근 엔스로픽과 깃허브를 중심으로 AI 구독 서비스의 기능이 제한되거나 상위 플랜으로 격상되는 사례가 늘고 있다. 이러한 조치는 과거의 무제한 사용 보장 정책에서 벗어나 수익성을 확보하려는 기업들의 전략적 대응이다.

구독 경제와 추론 비용의 경제학

  • 구독 모델은 대부분의 사용자가 할당량을 다 쓰지 않을 때 수익이 발생하는 구조다.
  • 기업은 모델 학습에 발생하는 일회성 비용과 사용자 요청마다 발생하는 지속적인 추론 비용을 모두 회수해야 한다.
  • API 가격은 기업이 손익분기점을 맞추기 위해 설정한 최소한의 기준점이다.

AI 서비스는 사용자의 토큰 사용량이 증가할수록 기업의 비용 부담이 커지는 구조다. 특히 추론 비용은 사용자 요청마다 실시간으로 발생하므로, 무제한 이용을 허용할 경우 기업은 손실을 볼 수밖에 없다. 장기적인 사업 지속을 위해서는 학습 비용과 인건비를 포함한 운영 비용의 회수가 필수적이다.

컴퓨팅 자원 제약과 에이전트 워크플로우의 영향

  • 에이전트 워크플로우는 과거의 짧은 대화 세션보다 수십 배 많은 토큰을 순식간에 소비한다.
  • 데이터 센터와 전력 부족, 네트워크 장비 가격 상승으로 인해 컴퓨팅 자원 공급이 제한되고 있다.
  • 기업은 제한된 컴퓨팅 자원을 학습과 추론 영역으로 나누어 배분해야 하는 딜레마에 직면했다.

최근 코딩 에이전트와 같은 복잡한 작업들이 늘어나면서 토큰 소비량이 급증했다. 여기에 전력망 부족과 고성능 네트워크 장비 가격 상승이 맞물려 컴퓨팅 자원 확보가 어려워졌다. 결과적으로 기업들은 시장 점유율을 유지하면서도 재정적 파탄을 막기 위해 구독제 모델을 재편할 수밖에 없다.

향후 전망 및 구독료 변화 예측

  • 일반 사용자용 저가형 구독 상품과 전문 에이전트용 고가형 구독 상품으로 시장이 이분화될 것이다.
  • 기업용 AI 구독료는 직원의 인건비와 비교 가능한 수준까지 상승할 여지가 있다.
  • 모든 AI 기업은 1~2년 이내에 유의미한 수익성을 증명해야 하는 운영 압박을 받고 있다.

앞으로의 AI 구독 모델은 에이전트 워크플로우 사용 여부에 따라 차등화될 전망이다. 단순 질문용은 저렴하게 유지되겠지만, 전문적인 에이전트 작업에는 높은 비용이 부과될 것이다. 18개월 내외의 자금 여유를 가진 기업들은 생존을 위해 구독료 인상과 엄격한 사용 제한을 단행할 것으로 보인다.

Community Posts

View all posts