00:00:00이 정도는 이메일로도 충분했을 텐데요.
00:00:02이 정도는 이메일로도 충분했을 텐데요.
00:00:04같은 문장이지만, 연기는 완전히 다릅니다.
00:00:07처음엔 평범하게 시작해서 점점 짜증 섞인 횡설수설로 변하도록 입력했을 뿐입니다.
00:00:11그게 다예요.
00:00:12마크업도 없고, 데이터를 외부로 전송하는 API도 필요 없습니다.
00:00:15이것이 바로 Qwen 3 TTS입니다.
00:00:17톤을 직접 지시할 수 있고 의도를 파악하는 새로운 오픈 소스 음성 모델이죠.
00:00:22Eleven Labs나 Chatterbox와 비교하면 어떨지 살펴봅시다.
00:00:30많은 오픈 소스 음성 모델은 감정이 부족한 경우가 많습니다.
00:00:34Chatterbox를 써봤는데 그건 꽤 괜찮았어요.
00:00:37Qwen에 이 기능이 있다는 걸 알고, 음성 복제뿐만 아니라
00:00:41언어의 감정 표현이 다른 모델들과 비교해 어떤지 확인해보고 싶었습니다.
00:00:44솔직히 말씀드리면, 기분 좋은 충격을 받았습니다.
00:00:47Chatterbox에는 감정 조절 슬라이더가 있지만, Qwen에서는
00:00:50원하는 소리를 글자로 직접 입력하면 되기 때문에 자유도가 훨씬 높습니다.
00:00:55가벼운 모델은 3초 만에 음성 복제가 가능한데, 이것도 한번 확인해볼게요.
00:00:591.7B 모델로 성능을 높이면 음성 복제 기능은 사라지지만,
00:01:0297밀리초의 대기 시간으로 실시간 스트리밍이 가능해지고
00:01:05자연스러운 코드 스위칭이 포함된 10개 언어를 지원하며 100% 로컬에서 작동합니다.
00:01:09게다가 무료입니다.
00:01:09Apache 2.0 라이선스죠.
00:01:11이는 더 빠른 프로토타이핑, 개인용 음성 비서, 접근성 도구 제작이 가능하다는 뜻입니다.
00:01:16최신 도구에 관심이 많으시다면 구독하는 것 잊지 마세요.
00:01:19새로운 영상이 계속 올라옵니다.
00:01:21복제는 쉽지만,
00:01:22감정 표현은 더 어렵습니다.
00:01:23그럼 한계를 한 번 시험해 보죠.
00:01:25먼저 음성 복제부터 테스트하겠습니다.
00:01:28우선 미리 녹음해 둔 제 목소리를 참조 파일로 업로드하겠습니다.
00:01:32그다음 참조 텍스트 칸에 녹음된 오디오의 내용을 입력해야 합니다.
00:01:37여기 타겟 텍스트 칸에는 출력하고 싶은 내용을 입력하면 됩니다.
00:01:42끝이에요.
00:01:43사실 생각보다 실행하는 데 시간이 꽤 걸렸습니다.
00:01:46품질이 그만큼 좋아야 할 텐데, 한번 들어보시죠.
00:01:49이 모델을 사용한 목소리는 어떤가요?
00:01:51가벼운 모델 치고는, 특히 Qwen임을 감안하면 괜찮은 편이지만
00:01:55기계로 생성된 듯한 느낌이 드는 부분이 분명히 있습니다.
00:01:59엄청나게 훌륭하다고 보기는 어렵네요.
00:02:01제가 본 최고의 음성 복제 오디오는 마이크로소프트의 Vibe Voice였는데, 정말 대단했죠.
00:02:07이건 그냥 무난한 수준입니다.
00:02:08좋습니다.
00:02:09음성 복제 테스트는 끝났고요.
00:02:10완료.
00:02:11이제 1.7B 모델로 성능을 높여서 텍스트에 감정을 추가해 보고
00:02:16Qwen이 이를 어떻게 처리하는지 확인해 보겠습니다.
00:02:19실제로 유용하게 느껴질 만한 걸 보여드릴게요.
00:02:22지시어 상자에 “긴장감을 주는 내레이터처럼 말해줘, 천천히 고조시키다가
00:02:26마지막엔 안도하는 웃음을 지어줘”라고 입력하겠습니다.
00:02:28그리고 여기엔 Qwen에 대한 기본적인 정보를 말하도록 할게요.
00:02:32안 될 거 없죠?
00:02:33들어보겠습니다.
00:02:34알리바바의 새로운 오픈 소스 TTS 모델은
00:02:37마치 실제 성우와 대화하는 것 같은 느낌을 줍니다.
00:02:42좋아요.
00:02:42약간의 차이는 느껴졌습니다.
00:02:44모든 톤을 다 잡아내지는 못했지만, 꽤 많이 구현해냈네요.
00:02:47드롭다운 메뉴나 사전 설정값도 없습니다.
00:02:49우리가 원하는 소리를 직접 가이드하는 방식이죠.
00:02:51이제 실제로 대화할 법한 목소리를 만들어 봅시다.
00:02:55프로젝트를 진행 중이라고 가정해 보죠.
00:02:57내용을 좀 넣어보겠습니다.
00:02:58테스트 코드 작성에 관한 내용을 넣을 거고요.
00:03:01지시어 상자에는 “열정적인 젊은 개발자의 목소리,
00:03:03약간 냉소적이지만 친근하게”라고 써보겠습니다.
00:03:07단순히 '음성 프리셋 12번'을 선택하는 게 아니라
00:03:10어떤 개성을 가졌으면 좋겠는지 정확하게 묘사한 것입니다.
00:03:13들어보시죠.
00:03:14코드 테스트를 작성한다는 건 프로그램이 의도대로 작동하는지 꼼꼼하게 확인하는 것을 의미합니다.
00:03:20다른 서비스들과 비교하면 어떨지 궁금하실 텐데요.
00:03:22여전히 Eleven Labs가 최고지만, 비용이 들고 데이터가 외부로 유출됩니다.
00:03:26Chatterbox도 훌륭합니다.
00:03:28제가 써본 것 중 상위권이고 감정 표현도 좋습니다.
00:03:31음성 복제 성능을 최우선으로 하신다면 저는 소름 돋게 좋았던 Vibe Voice를 추천합니다.
00:03:36하지만 자연어 묘사로 빠르게 반복 작업하기에는 Qwen이 승자입니다.
00:03:41확실히 장점들이 보이네요.
00:03:43자연어 제어를 통해 가장 빠른 반복 작업이 가능하다는 점이 마음에 듭니다.
00:03:47완전 로컬 방식에 프라이버시가 보장되며, 실시간 에이전트용 스트리밍 준비도 끝났죠.
00:03:50음성 디자인 과정이 훨씬 더 직관적이라는 느낌을 줍니다.
00:03:55반면에 아쉬운 점을 꼽자면,
00:03:57이건 최신 모델이라 아직 개선의 여지가 있다는 점입니다.
00:04:00일부 언어에서는 아직 다듬어지는 중이죠.
00:04:03다른 TTS와 마찬가지로 최적의 성능을 위해선 GPU 사용을 권장합니다.
00:04:06CPU로도 작동은 하지만
00:04:07속도가 느릴 수밖에 없습니다.
00:04:09그리고 감정 표현은 프롬프트와 지시를 얼마나 잘하느냐에 달려 있습니다.
00:04:13지시가 모호하면 결과물도 모호하게 나오기 마련입니다.
00:04:16그렇다면 설치 과정이 복잡할까요?
00:04:19전혀 그렇지 않습니다.
00:04:20매우 간단해요.
00:04:22저장소를 클론하고, 의존성을 설치한 뒤 웹 UI를 실행해 로컬 호스트를 열면 됩니다.
00:04:26단 몇 분 만에 아무것도 없는 상태에서 데모 시연까지 마쳤습니다.
00:04:32API 키도 필요 없고
00:04:33과금 체계도 없습니다.
00:04:34그저 본인의 컴퓨터에서 돌아갈 뿐이죠.
00:04:35오픈 소스 음성 기술은 바로 이래야 한다고 생각합니다.
00:04:38이런 오픈 소스 음성 도구들을 써보며 각각의 특징을 파악하는 건 정말 즐거운 일입니다.
00:04:43Qwen 3 TTS는 빠르고, 프라이빗하며, 개발자 친화적입니다.
00:04:46직접 한번 사용해 보세요.
00:04:48링크는 아래에 남겨두었습니다.
00:04:49이런 로컬 도구들에 대한 정보를 더 원하신다면 구독 부탁드립니다.
00:04:52그럼 다음 영상에서 뵙겠습니다.