00:00:00단 8,200만 개의 파라미터로 훨씬 큰 TTS 시스템을 능가하고,
00:00:06대부분의 유료 API보다 노트북에서 더 빠르게 로컬로 실행되는 모델이 있습니다.
00:00:09지난달에 클라우드 TTS 비용을 지불했지만 여전히 지연 현상이 발생했죠.
00:00:13도무지 이해가 되지 않았습니다.
00:00:14어떻게 일부 오픈 소스 모델들이 이걸 이기고 있는 걸까요?
00:00:17이것은 Kokoro 82M이며, 이미 일부 개발자들이 배포하고 있습니다.
00:00:22이게 어떻게 작동하는지, 그리고 더 중요한 성능은 어떤지 살펴보겠습니다.
00:00:30자, 텍스트 음성 변환(TTS) 기능을 빌드한다면 보통 두 가지 나쁜 선택지 중 하나를 고르게 됩니다.
00:00:36첫 번째 옵션은 당연히 클라우드 API겠죠?
00:00:39시작은 쉽지만, 청구서와 지연 시간 급증, 그리고 앱이 말을 할 때마다
00:00:44하나의 의존성이 더 생기는 셈입니다.
00:00:46그다음 옵션은 대형 오픈 모델 같은 것이겠지만, 이 경우 훨씬 더 많은
00:00:51하드웨어와 메모리가 필요하고, 솔직히 말해서 여전히 그렇게 빠르지도 않습니다.
00:00:56그래서 매끄러워야 할 기능이 결국 느리고 비싸지거나,
00:01:00그냥 제대로 작동하지 않게 됩니다.
00:01:02이 지점이 바로 Kokoro가 활약할 곳입니다.
00:01:04100시간 미만의 데이터로 학습되었음에도 여전히 리더보드 상위권을 차지하고 있습니다.
00:01:09그 크기의 아주 일부만으로 훨씬 더 큰 모델들을 압도하며, Apache 2.0 라이선스에 CPU에서도 실행되고,
00:01:15애플 실리콘에서는 날아다니며, 솔직히 정말 미친 듯이 빠르게 음성을 생성합니다.
00:01:19이제 로컬 음성 앱과 실시간 에이전트가 실제로 더 타당하게 느껴지기 시작합니다.
00:01:24이런 코딩 도구와 팁이 마음에 드신다면 꼭 구독해 주세요.
00:01:27저희는 항상 영상을 올리고 있습니다.
00:01:29자, 이제 이걸 보여드리겠습니다.
00:01:31저는 이 모든 걸 Mac M4 Pro에서 로컬로 실행하고 있습니다.
00:01:34설정은 30초 정도 걸리는데, 여기 이 pip 명령어로 실행하겠습니다.
00:01:39conda 환경에 있지만, 그게 거의 전부입니다.
00:01:42공식 리포지토리에서 가져온 Python 스크립트가 있는데, 테스트를 위해
00:01:47변경할 건 아무것도 없었습니다. 그냥 드래그 앤 드롭하면 결과가 나옵니다.
00:01:51여기서 목소리와 언어를 선택할 수 있지만, 첫 번째 시도에서는 그냥
00:01:56그대로 두겠습니다. 솔직히 소리가 정말 좋거든요.
00:02:00실행해 보고 한 번 들어보시죠.
00:02:02"Better Stack은 선도적인 관측 플랫폼입니다."
00:02:05"모니터링을 단순하게 만들어주죠."
00:02:07"AISRE, 로그, 메트릭, 트레이스, 오류 추적 기능이 있습니다."
00:02:12"그리고 인시던트 대응까지 한곳에서 처리할 수 있습니다."
00:02:14거짓말 안 하고 정말 괜찮았고, 결과도 아주 빠르게 나왔습니다.
00:02:19이제 설정을 바꿔서 프랑스어와 프랑스어 목소리로 전환해 보겠습니다.
00:02:24텍스트를 조금 바꾸고 다시 실행해 보죠.
00:02:26"Better Stack은 병렬 관측을 위한 플랫폼입니다."
00:02:29"그것은 모니터링을 단순화합니다."
00:02:31제 프랑스어 실력이 녹슬어서 단어 하나하나 번역하진 마세요. 하지만 이것도
00:02:36꽤 괜찮게 들렸습니다.
00:02:37판단은 여러분이 직접 해보시고요.
00:02:39모두 WAV 파일로 저장되므로 원하는 대로 다운로드할 수 있습니다.
00:02:43클라우드도 필요 없습니다.
00:02:44GPU도 필요 없죠.
00:02:45정말 대단했습니다.
00:02:47그렇다면 Kokoro 82M의 정체는 정확히 무엇일까요?
00:02:49높은 수준에서 보면 가벼운 보코더를 갖춘 StyleTTS2 모델입니다.
00:02:55그게 의미하는 바는 거대하지 않으면서도 좋은 소리를 내도록 빌드되었다는 것이며, 그게 바로
00:02:59핵심적인 차이점입니다.
00:03:00대부분의 다른 옵션들은 더 거대해지는 쪽을 택하거든요.
00:03:01XTTS, Cozy Voice, F5 TTS 등은 수억 개에서 10억 개 이상의 파라미터를 가집니다.
00:03:0811 Labs나 OpenAI 같은 클라우드 도구들은 하드웨어 문제를 해결해주지만, 대신
00:03:13요청당 비용을 지불하고 데이터를 외부로 전송해야 합니다.
00:03:16Kokoro는 반대 방향으로 갑니다.
00:03:19작고 시작이 빠르며 로컬에서 실행되고, 메모리도 훨씬 적게 사용합니다.
00:03:24단점은 기본적으로 제로샷 음성 클로닝 기능을 제공하지 않는다는 점인데, 대신
00:03:29우리가 훨씬 빠르게 배포할 수 있는 효율성과 품질에 집중합니다.
00:03:33여전히 8개 언어, 54개 목소리를 지원하며, Misaki를 통해 꽤 세밀한 제어가 가능합니다.
00:03:39이게 다양한 유형의 에이전트에 아주 잘 맞을 거라 보지만,
00:03:42제가 정말 보고 싶었던 감정 표현은 전혀 지원되지 않습니다.
00:03:47감정이 없는 AI는 여전히 AI 느낌이 강하게 날 것이고, 이건 가끔은
00:03:52좋을 수도 있겠죠?
00:03:53하지만 감정을 조절해 보는 것도 재미있을 텐데 말이죠.
00:03:56그렇다면 개발자들은 왜 이걸 실제로 사용하고 있을까요?
00:03:58제가 아직 안 보여드렸다면 언급해보죠. 보통 음성 기능을 망가뜨리는
00:04:02문제들을 해결해주기 때문입니다.
00:04:04첫 번째는 속도입니다.
00:04:05에이전트가 너무 오래 멈춰서 실제처럼 느껴지지 않을 때, Kokoro는 그 지연을 대폭 줄여줍니다.
00:04:11다음은 오프라인 사용이 가능하다는 점입니다.
00:04:13인터넷도, API 키도 필요 없어서 갑작스러운 장애가 발생하지 않습니다.
00:04:16정말 훌륭하죠.
00:04:17프라이버시 측면도 큰데, Kokoro는 모든 것을 로컬에 유지하므로 저나
00:04:22여러분 중 많은 분에게 큰 장점이 될 수 있습니다.
00:04:23마지막으로 대규모 운영 시의 비용입니다.
00:04:26매우 가볍기 때문에 한 대의 머신에서 훨씬 더 많은 인스턴스를 실행할 수 있습니다.
00:04:30좋은 점과 그렇지 않은 점을 보자면, 빠르고 작다는 점이 아주 좋았습니다.
00:04:33긴 호흡의 콘텐츠에서도 자연스럽게 들립니다.
00:04:35그게 정말 멋졌습니다.
00:04:36제가 이런 것들을 많이 다뤄봤거든요.
00:04:38Apache 2.0 라이선스라 상용화도 가능하고, 설정 후에는 기본적으로 무료입니다.
00:04:43이 모든 점이 정말, 정말 좋습니다.
00:04:44자, 이런 점들은 마음에 듭니다.
00:04:45멋졌어요.
00:04:46하지만 마음에 들지 않는 점들도 있습니다.
00:04:47네이티브 음성 클로닝이 없는데, 클로닝이 필요한지에 따라 다르겠지만 있으면
00:04:51좋았을 것 같습니다.
00:04:52감정 표현은 꽤 중립적입니다.
00:04:54내레이션에는 좋지만, 드라마틱한 표현에는 적합하지 않습니다.
00:04:56즉, 감정을 변화시킬 능력이 전혀 없으며, 영어 외의 음성들은
00:05:02여전히 개선 중입니다.
00:05:03그래서 추가가 필요할 수도 있고 아닐 수도 있는데, 그건 여러분의 관점에 달렸습니다.
00:05:07그럼 이게 완벽할까요?
00:05:08아니요.
00:05:09하지만 우리 대부분이 겪는 문제인 비용, 지연 시간, 프라이버시, 배포 문제를
00:05:14지금 당장 적절하게 해결해 주는 것 같습니다.
00:05:18한번 사용해 보시고 알려주세요.
00:05:19Kokoro 82M은 정말 좋은 TTS를 얻기 위해 거대한 모델이 필요하지 않다는 걸 증명합니다.
00:05:24더 작다는 건 더 빠르다는 뜻이고, 더 빠르다는 건 사용할 수 있다는 뜻이며,
00:05:29사용 가능하다는 건 실제로 배포할 수 있다는 뜻입니다.
00:05:30음성 에이전트나 로컬 도구를 빌드하고 있다면 시도해 볼 가치가 있습니다.
00:05:34이런 코딩 도구와 팁이 좋으시다면 Better Stack 채널을 꼭 구독해 주세요.
00:05:38다른 영상에서 뵙겠습니다.