00:00:00이것은 마이크로소프트의 Vibe Voice입니다. 제 목소리를 복제하는 데 사용해 봤죠.
00:00:04이미 11 Labs, Chatterbox, Whisper와 비교되고 있는 오픈 소스 음성 스택입니다.
00:00:10하지만 오프라인에서 실행되며, 한 번에 여러 화자가 포함된 90분 분량의 오디오를 생성할 수 있습니다.
00:00:1590분이라니, 그 정도면 정말 엄청나네요. 과연 개발자들이 실제로 쓸 만할까요,
00:00:20아니면 그저 GPU만 잡아먹는 또 다른 연구용 저장소일까요? 몇 가지 데모를 실행해 보고
00:00:26다른 서비스들과 어떻게 다른지 비교해 보겠습니다. 계속해서 영상이 업로드될 예정이니
00:00:29구독 잊지 마세요.
00:00:31이 모든 것은 해당 GitHub 저장소나 Hugging Face에서 확인하실 수 있습니다. 비교에 앞서
00:00:40먼저 결과물을 살펴보죠. 미리 준비와 설정을 마치고 실행 중이니,
00:00:45중요한 부분에 집중해 봅시다. 다른 툴들을 써본 입장에서 Vibe Voice의 소리가 어떤지,
00:00:51얼마나 잘 버티는지, 그리고 결과물에서 유용한 것을 어떻게 얻을 수 있는지 정말 궁금하네요.
00:00:56다중 화자 출력, 실시간 TTS, 그리고 음성 복제 순으로 진행하겠습니다.
00:01:02여기 세 명의 화자가 등장하고 대화 전환이 깔끔하며 감정이 실린 짧은 팟캐스트 대본이 있습니다.
00:01:08보통의 TTS 데모에서는 처음엔 괜찮다가 갈수록 이상해지곤 하는데,
00:01:14여기서 어떤 일이 벌어지는지 들어보세요. 화자의 일관성이 잘 유지되고
00:01:18전환 구간도 무너지지 않습니다. 한번 들어보시죠.
00:01:26꽤 괜찮게 들리죠? 20초가 지났는데도 뜬금없는 소리를 내뱉지 않네요.
00:01:41바로 이 점이 핵심입니다. 마이크로소프트는 단순히 짧은 프로젝트용으로 이걸 만든 게 아니에요.
00:01:46장문의 오디오 생성과 오프라인 환경을 위해 만들어졌죠. 하지만 감정 태그를 추가하면
00:01:52조금씩 어긋나기 시작합니다. Chatterbox와 달리 단어를 기반으로 자동 감정 표현을 하는데,
00:01:58그게 사실 별로예요. 마음에 들지 않았습니다. 이 부분은 여전히 Chatterbox가 우세하네요.
00:02:02그래도 AI 팟캐스트, 문서 낭독, 장문용 에이전트나
00:02:07학습 데이터 구축용이라면 꽤 괜찮은 성능을 보여줄 겁니다.
00:02:11이제 실시간 모드로 넘어가 보죠. 생성하는 데 꽤 걸렸던 다중 화자 모드보다
00:02:16훨씬 빠르게 작동합니다. 이건 증분 스트리밍 방식이라 챗봇 응답이나
00:02:22보이스 에이전트, 어시스턴트에 적합합니다. 초기 지연 시간은 약 300밀리초로,
00:02:28사용 가능한 수준입니다. 가장 빠른 편은 아니지만요. 한번 들어볼까요.
00:02:32벚꽃이 핀 일본에서 핫초코를 마시는 장면을 상상해 보세요.
00:02:35좋네요. 노래를 부르거나 배경음악까지 생성할 수 있다고는 하는데요.
00:02:40직접 해보니 제대로 안 됐습니다. 하지만 여기서 중요한 점은,
00:02:43이게 상용화 가능한 실시간 수준이냐는 거죠. 제 생각엔 아직이지만, 실험이나 에이전트용으로는
00:02:48네, 아주 훌륭합니다. 이제 재미있는 부분인 음성 복제에 대해 얘기해 보죠.
00:02:53정말 정말 멋졌거든요. 제 설정은 이랬습니다. 우선 Mac의 음성 메모로 제 목소리를 녹음했습니다.
00:02:58그 파일을 WAV 파일로 변환한 다음, 이 명령어로 Gradio를 실행했습니다.
00:03:04이 대화형 인터페이스에서 제 목소리를 타겟 언어로 선택하기만 하면 됩니다.
00:03:10그게 끝이에요. 그냥 일반적인 녹음일 뿐인데, 결과는 제 목소리와 비슷하면서도
00:03:14당연히 가짜인 소리가 나올 줄 알았습니다. 그런데 이걸 들어보세요. Vibe Voice로 복제한 제 목소리입니다.
00:03:19진심으로 정말 좋게 들립니다. 제가 한 번도 한 적 없는 말인데 너무 똑같아서 무서울 정도네요.
00:03:25확실히 저랑 비슷하게 들리지만, 저를 잘 아는 분들이라면 여전히 가짜라는 걸 눈치챌 겁니다. 아마도요.
00:03:30완벽하진 않아도 일관성과 안정성이 있고 긴 출력물에서도 유지가 잘 됩니다. 대단하죠.
00:03:36마이크로소프트는 이 스택이 한 번에 긴 호흡의 생성을 처리할 수 있다고 하며, 실제로도
00:03:41오디오가 길어질수록 Whisper 스타일의 파이프라인보다 훨씬 더 안정적입니다.
00:03:47짧은 클립 이상으로 음성 복제를 해보셨다면 이게 왜 중요한지 아실 겁니다.
00:03:52음성 복제 데모는 인상적이고 재미있었지만, 공식 문서나 이슈, 커뮤니티 글들을 훑어보니
00:03:56개발자들 사이에서도 의견이 갈리더군요. 먼저 장점을 살펴보고, 겪게 될 문제점들을 짚어보죠.
00:04:02장점들은 대부분 확실합니다. 무엇보다 장문 생성에 강점이 있습니다.
00:04:08대부분의 TTS는 몇 분이 지나면 톤이 변하거나 끊기곤 하죠. Vibe Voice는 긴 오디오를 위해 설계되었고
00:04:14제 데모에서도 그게 증명되었습니다. 그다음은 효율성과 표현력입니다.
00:04:20저주파 오디오 토크나이저를 사용해 문맥을 더 효율적으로 관리합니다.
00:04:27디퓨전과 LLM 백본 덕분에 과도한 연산 없이도 표현력 있는 음성을 얻을 수 있죠. 확실히 개발자 친화적인 설계입니다.
00:04:33MIT 라이선스에 오프라인 실행이 가능하며, 실시간 실행 시 7GB 정도의 VRAM이면 충분합니다.
00:04:40특히 ASR(자동 음성 인식)을 위한 파인튜닝 코드가 포함되어 있어 폐쇄적이지 않고 아주 좋습니다.
00:04:47마지막으로 다른 오픈 소스처럼 구조화된 ASR 출력을 제공한다는 것도 큰 장점입니다.
00:04:53화자 구분과 타임스탬프를 바로 지원하므로 후속 작업 시간을 크게 줄여줍니다.
00:04:59전사 파이프라인을 구축해 보셨다면 이게 얼마나 대단한 기능인지 아실 거예요.
00:05:04이제 단점인데, 제가 직접 느낀 부분이자 다른 곳에서도 지적되는 점들입니다. 아직은 연구용 소프트웨어 느낌이 강해요.
00:05:11마이크로소프트가 딥페이크 우려 때문에 일부 TTS 코드를 뺀 것만 봐도 상황이 짐작되죠. SDK도
00:05:17그리 매끄럽지 않습니다. 완성도가 부족해요. 다른 툴들처럼 오디오 품질에 기복도 있습니다.
00:05:23가끔 기계적인 억양이 들리거나 속도가 어색할 때가 있고, 3인 이상의 다중 화자 장면에서는 품질이 떨어집니다.
00:05:28개발자들은 토크나이저는 좋아하지만 VRAM 급증 현상은 싫어하더군요. 그리고 지원 언어도 제한적입니다.
00:05:33중국어와 영어는 훌륭하지만, 그 외의 언어가 필요하다면
00:05:40Vibe Voice는 적합하지 않습니다. 마지막 단점은 시맨틱 이해도가 전혀 없다는 점입니다. 텍스트를 읽을 뿐 이해하진 못해요.
00:05:51감정 태그가 도움이 되긴 하지만, 태그를 넣어도 여전히 오류가 많이 발생합니다. 솔직히 말해서
00:05:56실험적인 용도로는 훌륭한 도구지만, 장기적으로 계속 쓰일지는 잘 모르겠네요.
00:06:02이제 여러분이 진짜 궁금해하실 질문, 기존 워크플로우에 도입할 가치가 있을까요?
00:06:06Vibe Voice가 다른 경쟁자들과 비교했을 때 어느 정도 수준일까요?
00:06:11먼저 Vibe Voice와 Chatterbox를 비교해 보죠. 이전에 Chatterbox 영상을 찍으며 써봤는데
00:06:16정말 좋았습니다. Chatterbox는 200밀리초 미만의 지연 시간과 강력한 감정 표현,
00:06:22짧은 답변에 최적화되어 있었죠. 이렇게 보면 Chatterbox의 승리 같지만,
00:06:28장문 생성에서는 Vibe Voice가 압도합니다. Chatterbox가 30분 이내의 독백이나 팟캐스트에 적합하다면
00:06:35Vibe Voice는 그보다 훨씬 긴 분량을 훨씬 잘 처리합니다. 일장일단이 있는 거죠.
00:06:42다음은 Vibe Voice와 11 Labs입니다. 이건 간단합니다. 세련된 발음과
00:06:48제로샷 음성 복제, 뛰어난 UX를 가진 11 Labs가 이깁니다. 하지만 Vibe Voice의 강점은 비용입니다.
00:06:54무료이고 오프라인에서 돌아가는 오픈 소스니까요. 돈을 내지 않아도 된다는 건 큰 장점이죠.
00:07:00Whisper나 Cozy Voice와 비교해도, 오디오가 길고 구조화될수록 Vibe Voice가 Whisper를 앞섭니다.
00:07:06Cozy Voice보다 표현력이 좋고 Qwen 기반 TTS들이 방언 쪽에서 추격 중이지만,
00:07:13콘텐츠 길이 면에서는 여전히 Vibe Voice가 우위에 있습니다. 로컬 환경에서 개발하고
00:07:18오픈 소스를 선호하며 장문 오디오가 중요하다면 Vibe Voice는 써볼 만한 가치가 있습니다.
00:07:23만약 바로 실무에 투입 가능한 완성도 높은 툴을 원하신다면, 일단은 건너뛰셔도 좋습니다.
00:07:28음성 복제를 포함해 가볍게 즐겨보기 좋은 멋진 프로젝트 수준이니까요.
00:07:33Vibe Voice는 아직 다듬어지지 않았지만 강력하고 흥미롭습니다. 장문 AI 음성 분야에서
00:07:37오랜만에 보는 강력한 오픈 소스 스택이죠. Hugging Face 데모를 써보거나 문서를 읽어보세요. 다음 영상에서 뵙겠습니다.