대부분의 TTS API를 압도하는 82M 초소형 모델 (로컬 실행 가능)

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00단 8,200만 개의 파라미터로 훨씬 큰 TTS 시스템을 능가하고,
00:00:06대부분의 유료 API보다 노트북에서 더 빠르게 로컬로 실행되는 모델이 있습니다.
00:00:09지난달에 클라우드 TTS 비용을 지불했지만 여전히 지연 현상이 발생했죠.
00:00:13도무지 이해가 되지 않았습니다.
00:00:14어떻게 일부 오픈 소스 모델들이 이걸 이기고 있는 걸까요?
00:00:17이것은 Kokoro 82M이며, 이미 일부 개발자들이 배포하고 있습니다.
00:00:22이게 어떻게 작동하는지, 그리고 더 중요한 성능은 어떤지 살펴보겠습니다.
00:00:30자, 텍스트 음성 변환(TTS) 기능을 빌드한다면 보통 두 가지 나쁜 선택지 중 하나를 고르게 됩니다.
00:00:36첫 번째 옵션은 당연히 클라우드 API겠죠?
00:00:39시작은 쉽지만, 청구서와 지연 시간 급증, 그리고 앱이 말을 할 때마다
00:00:44하나의 의존성이 더 생기는 셈입니다.
00:00:46그다음 옵션은 대형 오픈 모델 같은 것이겠지만, 이 경우 훨씬 더 많은
00:00:51하드웨어와 메모리가 필요하고, 솔직히 말해서 여전히 그렇게 빠르지도 않습니다.
00:00:56그래서 매끄러워야 할 기능이 결국 느리고 비싸지거나,
00:01:00그냥 제대로 작동하지 않게 됩니다.
00:01:02이 지점이 바로 Kokoro가 활약할 곳입니다.
00:01:04100시간 미만의 데이터로 학습되었음에도 여전히 리더보드 상위권을 차지하고 있습니다.
00:01:09그 크기의 아주 일부만으로 훨씬 더 큰 모델들을 압도하며, Apache 2.0 라이선스에 CPU에서도 실행되고,
00:01:15애플 실리콘에서는 날아다니며, 솔직히 정말 미친 듯이 빠르게 음성을 생성합니다.
00:01:19이제 로컬 음성 앱과 실시간 에이전트가 실제로 더 타당하게 느껴지기 시작합니다.
00:01:24이런 코딩 도구와 팁이 마음에 드신다면 꼭 구독해 주세요.
00:01:27저희는 항상 영상을 올리고 있습니다.
00:01:29자, 이제 이걸 보여드리겠습니다.
00:01:31저는 이 모든 걸 Mac M4 Pro에서 로컬로 실행하고 있습니다.
00:01:34설정은 30초 정도 걸리는데, 여기 이 pip 명령어로 실행하겠습니다.
00:01:39conda 환경에 있지만, 그게 거의 전부입니다.
00:01:42공식 리포지토리에서 가져온 Python 스크립트가 있는데, 테스트를 위해
00:01:47변경할 건 아무것도 없었습니다. 그냥 드래그 앤 드롭하면 결과가 나옵니다.
00:01:51여기서 목소리와 언어를 선택할 수 있지만, 첫 번째 시도에서는 그냥
00:01:56그대로 두겠습니다. 솔직히 소리가 정말 좋거든요.
00:02:00실행해 보고 한 번 들어보시죠.
00:02:02"Better Stack은 선도적인 관측 플랫폼입니다."
00:02:05"모니터링을 단순하게 만들어주죠."
00:02:07"AISRE, 로그, 메트릭, 트레이스, 오류 추적 기능이 있습니다."
00:02:12"그리고 인시던트 대응까지 한곳에서 처리할 수 있습니다."
00:02:14거짓말 안 하고 정말 괜찮았고, 결과도 아주 빠르게 나왔습니다.
00:02:19이제 설정을 바꿔서 프랑스어와 프랑스어 목소리로 전환해 보겠습니다.
00:02:24텍스트를 조금 바꾸고 다시 실행해 보죠.
00:02:26"Better Stack은 병렬 관측을 위한 플랫폼입니다."
00:02:29"그것은 모니터링을 단순화합니다."
00:02:31제 프랑스어 실력이 녹슬어서 단어 하나하나 번역하진 마세요. 하지만 이것도
00:02:36꽤 괜찮게 들렸습니다.
00:02:37판단은 여러분이 직접 해보시고요.
00:02:39모두 WAV 파일로 저장되므로 원하는 대로 다운로드할 수 있습니다.
00:02:43클라우드도 필요 없습니다.
00:02:44GPU도 필요 없죠.
00:02:45정말 대단했습니다.
00:02:47그렇다면 Kokoro 82M의 정체는 정확히 무엇일까요?
00:02:49높은 수준에서 보면 가벼운 보코더를 갖춘 StyleTTS2 모델입니다.
00:02:55그게 의미하는 바는 거대하지 않으면서도 좋은 소리를 내도록 빌드되었다는 것이며, 그게 바로
00:02:59핵심적인 차이점입니다.
00:03:00대부분의 다른 옵션들은 더 거대해지는 쪽을 택하거든요.
00:03:01XTTS, Cozy Voice, F5 TTS 등은 수억 개에서 10억 개 이상의 파라미터를 가집니다.
00:03:0811 Labs나 OpenAI 같은 클라우드 도구들은 하드웨어 문제를 해결해주지만, 대신
00:03:13요청당 비용을 지불하고 데이터를 외부로 전송해야 합니다.
00:03:16Kokoro는 반대 방향으로 갑니다.
00:03:19작고 시작이 빠르며 로컬에서 실행되고, 메모리도 훨씬 적게 사용합니다.
00:03:24단점은 기본적으로 제로샷 음성 클로닝 기능을 제공하지 않는다는 점인데, 대신
00:03:29우리가 훨씬 빠르게 배포할 수 있는 효율성과 품질에 집중합니다.
00:03:33여전히 8개 언어, 54개 목소리를 지원하며, Misaki를 통해 꽤 세밀한 제어가 가능합니다.
00:03:39이게 다양한 유형의 에이전트에 아주 잘 맞을 거라 보지만,
00:03:42제가 정말 보고 싶었던 감정 표현은 전혀 지원되지 않습니다.
00:03:47감정이 없는 AI는 여전히 AI 느낌이 강하게 날 것이고, 이건 가끔은
00:03:52좋을 수도 있겠죠?
00:03:53하지만 감정을 조절해 보는 것도 재미있을 텐데 말이죠.
00:03:56그렇다면 개발자들은 왜 이걸 실제로 사용하고 있을까요?
00:03:58제가 아직 안 보여드렸다면 언급해보죠. 보통 음성 기능을 망가뜨리는
00:04:02문제들을 해결해주기 때문입니다.
00:04:04첫 번째는 속도입니다.
00:04:05에이전트가 너무 오래 멈춰서 실제처럼 느껴지지 않을 때, Kokoro는 그 지연을 대폭 줄여줍니다.
00:04:11다음은 오프라인 사용이 가능하다는 점입니다.
00:04:13인터넷도, API 키도 필요 없어서 갑작스러운 장애가 발생하지 않습니다.
00:04:16정말 훌륭하죠.
00:04:17프라이버시 측면도 큰데, Kokoro는 모든 것을 로컬에 유지하므로 저나
00:04:22여러분 중 많은 분에게 큰 장점이 될 수 있습니다.
00:04:23마지막으로 대규모 운영 시의 비용입니다.
00:04:26매우 가볍기 때문에 한 대의 머신에서 훨씬 더 많은 인스턴스를 실행할 수 있습니다.
00:04:30좋은 점과 그렇지 않은 점을 보자면, 빠르고 작다는 점이 아주 좋았습니다.
00:04:33긴 호흡의 콘텐츠에서도 자연스럽게 들립니다.
00:04:35그게 정말 멋졌습니다.
00:04:36제가 이런 것들을 많이 다뤄봤거든요.
00:04:38Apache 2.0 라이선스라 상용화도 가능하고, 설정 후에는 기본적으로 무료입니다.
00:04:43이 모든 점이 정말, 정말 좋습니다.
00:04:44자, 이런 점들은 마음에 듭니다.
00:04:45멋졌어요.
00:04:46하지만 마음에 들지 않는 점들도 있습니다.
00:04:47네이티브 음성 클로닝이 없는데, 클로닝이 필요한지에 따라 다르겠지만 있으면
00:04:51좋았을 것 같습니다.
00:04:52감정 표현은 꽤 중립적입니다.
00:04:54내레이션에는 좋지만, 드라마틱한 표현에는 적합하지 않습니다.
00:04:56즉, 감정을 변화시킬 능력이 전혀 없으며, 영어 외의 음성들은
00:05:02여전히 개선 중입니다.
00:05:03그래서 추가가 필요할 수도 있고 아닐 수도 있는데, 그건 여러분의 관점에 달렸습니다.
00:05:07그럼 이게 완벽할까요?
00:05:08아니요.
00:05:09하지만 우리 대부분이 겪는 문제인 비용, 지연 시간, 프라이버시, 배포 문제를
00:05:14지금 당장 적절하게 해결해 주는 것 같습니다.
00:05:18한번 사용해 보시고 알려주세요.
00:05:19Kokoro 82M은 정말 좋은 TTS를 얻기 위해 거대한 모델이 필요하지 않다는 걸 증명합니다.
00:05:24더 작다는 건 더 빠르다는 뜻이고, 더 빠르다는 건 사용할 수 있다는 뜻이며,
00:05:29사용 가능하다는 건 실제로 배포할 수 있다는 뜻입니다.
00:05:30음성 에이전트나 로컬 도구를 빌드하고 있다면 시도해 볼 가치가 있습니다.
00:05:34이런 코딩 도구와 팁이 좋으시다면 Better Stack 채널을 꼭 구독해 주세요.
00:05:38다른 영상에서 뵙겠습니다.

Key Takeaway

Kokoro 82M은 8,200만 개의 초소형 파라미터 구조와 StyleTTS2 아키텍처를 통해 클라우드 비용과 지연 시간 없이 로컬 환경에서 상급 TTS 성능을 구현합니다.

Highlights

Kokoro 82M은 단 8,200만 개의 파라미터만으로 수억 개 이상의 파라미터를 가진 대형 TTS 모델들을 능가하는 성능을 발휘합니다.

Apache 2.0 라이선스를 채택하여 누구나 상업적으로 이용 가능하며 별도의 API 비용 없이 로컬 환경에서 무상으로 실행합니다.

Apple M4 Pro 칩셋 기준 30초 내외의 설정만으로 즉시 구동되며 GPU 없이 CPU만으로도 실시간에 가까운 음성 생성 속도를 보장합니다.

영어와 프랑스어를 포함한 8개 언어와 54개의 다양한 목소리를 지원하여 다국어 음성 에이전트 구축에 적합합니다.

모든 데이터 처리가 로컬 기기 내에서 이루어지므로 클라우드 API 사용 시 발생하는 데이터 외부 유출 위험과 지연 시간을 원천적으로 차단합니다.

Timeline

클라우드 API와 대형 모델의 한계점

  • 클라우드 기반 TTS API는 사용량에 따른 비용 부담과 네트워크 지연 시간이라는 구조적 문제를 가집니다.
  • 기존의 오픈 소스 대형 모델들은 고사양의 하드웨어와 방대한 메모리를 요구하며 실행 속도가 느립니다.

음성 기능을 구현할 때 개발자들은 매번 비용이 발생하는 유료 API와 무거운 로컬 모델 사이에서 선택을 강요받습니다. Kokoro는 100시간 미만의 적은 데이터로 학습되었음에도 효율적인 설계를 통해 리더보드 상위권을 차지하며 기존의 하드웨어 제약 문제를 해결합니다.

애플 실리콘 및 로컬 환경에서의 구동 성능

  • pip 명령어를 이용한 간단한 설치 후 Python 스크립트만으로 즉시 WAV 파일 생성이 가능합니다.
  • M4 Pro 환경에서 별도의 최적화 없이 드래그 앤 드롭 방식으로 빠른 결과물을 출력합니다.

설정 과정이 30초 이내로 매우 짧으며 복잡한 종속성 없이 실행됩니다. 프랑스어와 같은 외국어 음성도 높은 수준으로 생성하며 모든 결과물이 로컬에 저장되므로 인터넷 연결이나 외부 GPU 자원 없이도 안정적인 운영이 가능합니다.

StyleTTS2 기반 아키텍처와 경쟁 모델 비교

  • StyleTTS2 모델과 가벼운 보코더를 결합하여 모델 크기를 줄이면서도 음질을 유지합니다.
  • XTTS나 F5 TTS와 같은 10억 개 규모의 모델보다 훨씬 적은 메모리 점유율을 기록합니다.

대부분의 경쟁 모델이 크기를 키우는 방식을 선택할 때 Kokoro는 효율성에 집중했습니다. 제로샷 음성 클로닝 기능은 지원하지 않지만 8개 언어와 54개 목소리에 대해 Misaki를 통한 세밀한 제어를 지원하여 배포 효율성을 극대화합니다.

실제 배포 시의 이점과 한계점

  • 지연 시간이 매우 낮아 실시간 대화형 에이전트 서비스 구축 시 몰입감을 높입니다.
  • 모델이 가벼워 단일 머신에서 여러 인스턴스를 동시에 구동하므로 대규모 운영 비용이 절감됩니다.
  • 감정 표현이 중립적이라 드라마틱한 묘사보다는 내레이션 용도에 더 적합합니다.

오프라인 사용이 가능하여 API 키 관리나 서비스 장애 걱정이 없으며 프라이버시가 중요한 데이터 처리에도 유리합니다. 영어 외 언어의 음성 품질은 지속적인 개선 단계에 있지만 현재의 비용과 보안 및 속도 문제를 해결하기에 충분한 성능을 제공합니다.

Community Posts

View all posts