Qwen TTS가 바꾼 오픈소스 음성 AI의 미래

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesInternet Technology

Transcript

00:00:00이 정도는 이메일로도 충분했을 텐데요.
00:00:02이 정도는 이메일로도 충분했을 텐데요.
00:00:04같은 문장이지만, 연기는 완전히 다릅니다.
00:00:07처음엔 평범하게 시작해서 점점 짜증 섞인 횡설수설로 변하도록 입력했을 뿐입니다.
00:00:11그게 다예요.
00:00:12마크업도 없고, 데이터를 외부로 전송하는 API도 필요 없습니다.
00:00:15이것이 바로 Qwen 3 TTS입니다.
00:00:17톤을 직접 지시할 수 있고 의도를 파악하는 새로운 오픈 소스 음성 모델이죠.
00:00:22Eleven Labs나 Chatterbox와 비교하면 어떨지 살펴봅시다.
00:00:30많은 오픈 소스 음성 모델은 감정이 부족한 경우가 많습니다.
00:00:34Chatterbox를 써봤는데 그건 꽤 괜찮았어요.
00:00:37Qwen에 이 기능이 있다는 걸 알고, 음성 복제뿐만 아니라
00:00:41언어의 감정 표현이 다른 모델들과 비교해 어떤지 확인해보고 싶었습니다.
00:00:44솔직히 말씀드리면, 기분 좋은 충격을 받았습니다.
00:00:47Chatterbox에는 감정 조절 슬라이더가 있지만, Qwen에서는
00:00:50원하는 소리를 글자로 직접 입력하면 되기 때문에 자유도가 훨씬 높습니다.
00:00:55가벼운 모델은 3초 만에 음성 복제가 가능한데, 이것도 한번 확인해볼게요.
00:00:591.7B 모델로 성능을 높이면 음성 복제 기능은 사라지지만,
00:01:0297밀리초의 대기 시간으로 실시간 스트리밍이 가능해지고
00:01:05자연스러운 코드 스위칭이 포함된 10개 언어를 지원하며 100% 로컬에서 작동합니다.
00:01:09게다가 무료입니다.
00:01:09Apache 2.0 라이선스죠.
00:01:11이는 더 빠른 프로토타이핑, 개인용 음성 비서, 접근성 도구 제작이 가능하다는 뜻입니다.
00:01:16최신 도구에 관심이 많으시다면 구독하는 것 잊지 마세요.
00:01:19새로운 영상이 계속 올라옵니다.
00:01:21복제는 쉽지만,
00:01:22감정 표현은 더 어렵습니다.
00:01:23그럼 한계를 한 번 시험해 보죠.
00:01:25먼저 음성 복제부터 테스트하겠습니다.
00:01:28우선 미리 녹음해 둔 제 목소리를 참조 파일로 업로드하겠습니다.
00:01:32그다음 참조 텍스트 칸에 녹음된 오디오의 내용을 입력해야 합니다.
00:01:37여기 타겟 텍스트 칸에는 출력하고 싶은 내용을 입력하면 됩니다.
00:01:42끝이에요.
00:01:43사실 생각보다 실행하는 데 시간이 꽤 걸렸습니다.
00:01:46품질이 그만큼 좋아야 할 텐데, 한번 들어보시죠.
00:01:49이 모델을 사용한 목소리는 어떤가요?
00:01:51가벼운 모델 치고는, 특히 Qwen임을 감안하면 괜찮은 편이지만
00:01:55기계로 생성된 듯한 느낌이 드는 부분이 분명히 있습니다.
00:01:59엄청나게 훌륭하다고 보기는 어렵네요.
00:02:01제가 본 최고의 음성 복제 오디오는 마이크로소프트의 Vibe Voice였는데, 정말 대단했죠.
00:02:07이건 그냥 무난한 수준입니다.
00:02:08좋습니다.
00:02:09음성 복제 테스트는 끝났고요.
00:02:10완료.
00:02:11이제 1.7B 모델로 성능을 높여서 텍스트에 감정을 추가해 보고
00:02:16Qwen이 이를 어떻게 처리하는지 확인해 보겠습니다.
00:02:19실제로 유용하게 느껴질 만한 걸 보여드릴게요.
00:02:22지시어 상자에 “긴장감을 주는 내레이터처럼 말해줘, 천천히 고조시키다가
00:02:26마지막엔 안도하는 웃음을 지어줘”라고 입력하겠습니다.
00:02:28그리고 여기엔 Qwen에 대한 기본적인 정보를 말하도록 할게요.
00:02:32안 될 거 없죠?
00:02:33들어보겠습니다.
00:02:34알리바바의 새로운 오픈 소스 TTS 모델은
00:02:37마치 실제 성우와 대화하는 것 같은 느낌을 줍니다.
00:02:42좋아요.
00:02:42약간의 차이는 느껴졌습니다.
00:02:44모든 톤을 다 잡아내지는 못했지만, 꽤 많이 구현해냈네요.
00:02:47드롭다운 메뉴나 사전 설정값도 없습니다.
00:02:49우리가 원하는 소리를 직접 가이드하는 방식이죠.
00:02:51이제 실제로 대화할 법한 목소리를 만들어 봅시다.
00:02:55프로젝트를 진행 중이라고 가정해 보죠.
00:02:57내용을 좀 넣어보겠습니다.
00:02:58테스트 코드 작성에 관한 내용을 넣을 거고요.
00:03:01지시어 상자에는 “열정적인 젊은 개발자의 목소리,
00:03:03약간 냉소적이지만 친근하게”라고 써보겠습니다.
00:03:07단순히 '음성 프리셋 12번'을 선택하는 게 아니라
00:03:10어떤 개성을 가졌으면 좋겠는지 정확하게 묘사한 것입니다.
00:03:13들어보시죠.
00:03:14코드 테스트를 작성한다는 건 프로그램이 의도대로 작동하는지 꼼꼼하게 확인하는 것을 의미합니다.
00:03:20다른 서비스들과 비교하면 어떨지 궁금하실 텐데요.
00:03:22여전히 Eleven Labs가 최고지만, 비용이 들고 데이터가 외부로 유출됩니다.
00:03:26Chatterbox도 훌륭합니다.
00:03:28제가 써본 것 중 상위권이고 감정 표현도 좋습니다.
00:03:31음성 복제 성능을 최우선으로 하신다면 저는 소름 돋게 좋았던 Vibe Voice를 추천합니다.
00:03:36하지만 자연어 묘사로 빠르게 반복 작업하기에는 Qwen이 승자입니다.
00:03:41확실히 장점들이 보이네요.
00:03:43자연어 제어를 통해 가장 빠른 반복 작업이 가능하다는 점이 마음에 듭니다.
00:03:47완전 로컬 방식에 프라이버시가 보장되며, 실시간 에이전트용 스트리밍 준비도 끝났죠.
00:03:50음성 디자인 과정이 훨씬 더 직관적이라는 느낌을 줍니다.
00:03:55반면에 아쉬운 점을 꼽자면,
00:03:57이건 최신 모델이라 아직 개선의 여지가 있다는 점입니다.
00:04:00일부 언어에서는 아직 다듬어지는 중이죠.
00:04:03다른 TTS와 마찬가지로 최적의 성능을 위해선 GPU 사용을 권장합니다.
00:04:06CPU로도 작동은 하지만
00:04:07속도가 느릴 수밖에 없습니다.
00:04:09그리고 감정 표현은 프롬프트와 지시를 얼마나 잘하느냐에 달려 있습니다.
00:04:13지시가 모호하면 결과물도 모호하게 나오기 마련입니다.
00:04:16그렇다면 설치 과정이 복잡할까요?
00:04:19전혀 그렇지 않습니다.
00:04:20매우 간단해요.
00:04:22저장소를 클론하고, 의존성을 설치한 뒤 웹 UI를 실행해 로컬 호스트를 열면 됩니다.
00:04:26단 몇 분 만에 아무것도 없는 상태에서 데모 시연까지 마쳤습니다.
00:04:32API 키도 필요 없고
00:04:33과금 체계도 없습니다.
00:04:34그저 본인의 컴퓨터에서 돌아갈 뿐이죠.
00:04:35오픈 소스 음성 기술은 바로 이래야 한다고 생각합니다.
00:04:38이런 오픈 소스 음성 도구들을 써보며 각각의 특징을 파악하는 건 정말 즐거운 일입니다.
00:04:43Qwen 3 TTS는 빠르고, 프라이빗하며, 개발자 친화적입니다.
00:04:46직접 한번 사용해 보세요.
00:04:48링크는 아래에 남겨두었습니다.
00:04:49이런 로컬 도구들에 대한 정보를 더 원하신다면 구독 부탁드립니다.
00:04:52그럼 다음 영상에서 뵙겠습니다.

Key Takeaway

Qwen 3 TTS는 강력한 자연어 제어 기능을 통해 로컬 환경에서 빠르고 직관적으로 감정이 담긴 음성을 생성할 수 있는 혁신적인 오픈 소스 AI 모델입니다.

Highlights

Qwen 3 TTS는 마크업이나 외부 API 없이 자연어 지시만으로 음성의 톤과 감정을 조절할 수 있습니다.

1.7B 모델 기준으로 97밀리초의 매우 낮은 대기 시간을 기록하며 실시간 스트리밍 및 10개 언어 코드 스위칭을 지원합니다.

Apache 2.0 라이선스를 채택하여 누구나 무료로 로컬 환경에서 프라이버시 걱정 없이 사용할 수 있습니다.

사용자가 '긴장감 있는 내레이터'나 '냉소적인 개발자'와 같이 구체적인 개성을 묘사하여 음성을 생성할 수 있는 높은 자유도를 제공합니다.

음성 복제 성능은 무난한 수준이지만

Timeline

Qwen 3 TTS 도입 및 주요 특징

영상은 동일한 문장을 서로 다른 감정으로 연기하는 예시로 시작하며 Qwen 3 TTS의 등장을 알립니다. 이 모델은 마크업이나 외부 데이터 전송 없이 텍스트 입력만으로 화자의 톤과 의도를 파악하여 구현하는 것이 특징입니다. Eleven Labs나 Chatterbox와 같은 기존 서비스와 비교했을 때, 슬라이더 조절 방식이 아닌 자연어 지시를 통해 훨씬 높은 자유도를 제공한다는 점을 강조합니다. 특히 1.7B 모델은 100% 로컬 작동과 10개 언어 지원, 그리고 실시간 스트리밍에 적합한 초저지연 성능을 자랑합니다. 이는 개발자들이 프로토타이핑이나 개인용 비서를 제작할 때 비용 부담 없이 Apache 2.0 라이선스로 활용할 수 있음을 의미합니다.

음성 복제 기능 테스트 및 성능 평가

발표자는 Qwen의 음성 복제 기능을 직접 테스트하기 위해 미리 녹음된 자신의 목소리 파일을 참조 데이터로 업로드합니다. 참조 텍스트와 타겟 텍스트를 입력하는 간단한 과정만으로 복제가 이루어지지만, 실행 속도는 예상보다 다소 시간이 소요됨을 언급합니다. 결과물을 들어본 결과, 가벼운 모델임을 감안하면 준수하지만 기계적인 느낌이 남아 있어 완벽하게 자연스럽지는 않다는 평가를 내립니다. 마이크로소프트의 Vibe Voice와 같은 최상위 모델과 비교했을 때 품질 면에서는 다소 평범한 수준이라는 솔직한 견해를 밝힙니다. 그럼에도 불구하고 오픈 소스 모델로서 이 정도의 성능을 구현했다는 점은 긍정적으로 평가됩니다.

자연어 지시를 통한 감정 표현 실험

본격적으로 1.7B 모델을 활용하여 텍스트에 구체적인 감정을 입히는 과정을 시연합니다. 지시어 상자에 "긴장감을 주는 내레이터처럼 말하고 마지막엔 안도하는 웃음을 지어달라"는 정교한 요청을 입력하여 모델의 반응을 살핍니다. 실험 결과 모든 미세한 톤을 완벽히 잡지는 못했지만, 성우와 대화하는 듯한 상당한 수준의 감정 구현 능력을 보여줍니다. 또한 '열정적인 젊은 개발자'와 같이 특정 페르소나를 묘사하는 지시를 통해 단순한 프리셋 선택 이상의 개성 있는 음성 생성이 가능함을 증명합니다. 이는 사용자가 원하는 소리를 직접 가이드할 수 있다는 Qwen만의 독보적인 인터페이스 장점을 잘 보여주는 대목입니다.

타 서비스 비교 및 장단점 분석

Eleven Labs, Chatterbox, Vibe Voice 등 주요 TTS 서비스들과 Qwen을 다각도로 비교 분석합니다. Eleven Labs가 여전히 최고의 품질을 자랑하지만 비용과 데이터 프라이버시 문제가 있는 반면, Qwen은 완전 로컬 방식으로서 보안과 속도 면에서 승자라고 선언합니다. 특히 자연어 묘사를 통한 빠른 반복 작업이 가능하다는 점을 가장 큰 장점으로 꼽으며 실시간 에이전트 적용 가능성을 높게 평가합니다. 다만 최신 모델인 만큼 일부 언어에서의 미흡함이나 성능 최적화를 위한 GPU 권장 등의 현실적인 제약 사항도 함께 언급합니다. 감정 표현의 결과가 사용자의 프롬프트 작성 능력에 크게 의존한다는 점도 중요한 유의사항으로 전달합니다.

설치 방법 안내 및 결론

Qwen 3 TTS의 설치 과정이 매우 단순하다는 것을 강조하며 저장소 클론부터 웹 UI 실행까지의 단계를 간략히 설명합니다. 복잡한 API 설정이나 과금 체계 없이 개인 컴퓨터에서 즉시 구동할 수 있다는 점이 오픈 소스 기술의 진정한 가치임을 역설합니다. 단 몇 분 만에 데모 환경을 구축할 수 있어 접근성이 매우 뛰어나며 개발자 친화적인 도구임을 다시 한번 확인시켜 줍니다. 마지막으로 시청자들에게 직접 사용해 볼 것을 권장하며 관련 링크를 제공하고 채널 구독을 요청하며 영상을 마무리합니다. 전반적으로 Qwen 3 TTS가 오픈 소스 음성 AI의 미래를 어떻게 바꾸고 있는지에 대한 확신을 심어줍니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video