ElevenLabs의 오픈소스 대안(Voicebox)을 직접 써봤습니다

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00음성 AI계의 올라마(Ollama)라고 불리는 툴입니다. 목소리를 복제하고, 음성을 생성하며, 어떤 앱에서든 받아쓰기를 하고,

00:00:07직접 소유한 목소리로 에이전트와 대화까지 가능하죠. 바로 VoiceBox입니다. 여기 적힌 말처럼요.

00:00:13무료이고 11랩스(ElevenLabs)의 로컬 대안인데, 솔직히 정말 엄청나더군요.

00:00:19GitHub에서 별 3만 개 정도를 받았고, 로컬에서 실행됩니다. 앞으로 60초 안에,

00:00:24로컬 음성 복제, 음성 생성, 그리고 에디터 내부에서의 받아쓰기를 보여드릴게요.

00:00:29이게 얼마나 유용한지, 처음 시작하기는 얼마나 쉬운지 곧 알아보도록 하죠.

00:00:39자, VoiceBox는 오픈 소스 로컬 AI 음성 스튜디오입니다. 간단히 생각하면 이런 거죠.

00:00:46올라마가 로컬 텍스트 모델을 위한 것이라면, VoiceBox는 그걸 음성 분야에서 하려는 겁니다. 단지 텍스트 음성 변환(TTS)만 되는 게 아니라,

00:00:54음성 복제, 시스템 전반에 걸친 받아쓰기, 창의적 편집이 가능하고, 이야기나

00:01:00타임라인 기능도 있으며 AI 에이전트와도 연결됩니다. 그래서 진정한 제어와 더 높은 개인정보 보호를 제공하죠.

00:01:06테스트할 때마다 '크레딧을 얼마나 썼더라?'라고 걱정하며 무언가를 만들고 싶진 않잖아요. VoiceBox는

00:01:12그런 걸 묻지 않습니다. 자신의 머신에서 돌아가니까요. 구독료도 없고,

00:01:17글자 수 제한도 없습니다. 게다가 복제, 위스퍼(Whisper) 기반 받아쓰기, 멀티 트랙 에디터,

00:01:23아타리(Atari) 데스크톱 앱, MCP 지원, 로컬 REST API를 하나로 합쳤습니다. 다섯 개의 별도 툴 대신,

00:01:29이 모든 걸 하나의 데스크톱 앱에서 바로 해결하는 거죠. 이번 영상에서 세 가지를 해볼 겁니다.

00:01:36목소리를 복제하고, 말하게 만든 다음, 에디터 안에서 받아쓰기를 사용할 겁니다.

00:01:41그 후에 에이전트 연동이 왜 엄청난지, 적어도

00:01:46그에 대해 이야기해보겠습니다. 워크플로우를 빠르게 해주는 코딩 툴을 좋아하신다면

00:01:50구독 부탁드립니다. 영상이 계속 올라올 예정이니까요. 자, 저는 지금 Mac M4에서 실행 중입니다.

00:01:55이게 VoiceBox입니다. 이미 목소리 프로필을 준비해뒀지만, 과정은 정말 간단했습니다. Docker로

00:02:02띄울 수도 있지만, 그렇게 해보니 컨테이너가 준비되는 데 거의 30분이 걸리더군요.

00:02:08그래서 저는 데스크톱 앱을 사용하기로 했는데 훨씬 빠르고, 솔직히 정말

00:02:13좋습니다. 오디오 이름을 정하고, 설명을 추가하고, 모델이 어떻게 행동할지까지 설정할 수 있죠.

00:02:19직접 녹음하거나 짧은 파일을 업로드해서 분석하게 할 수 있고, 그 오디오의 스크립트도 함께 넣으면 됩니다.

00:02:26이제 실제로 사용할 문장을 타이핑해 볼게요. 개발자로서,

00:02:32이걸 사용하면 클라우드 비용이나 개인정보 문제 걱정 없이 음성 AI를 완벽하게 제어할 수 있습니다.

00:02:38목소리 프로필을 선택하고, 원하는 모델을 선택한 뒤 생성 버튼을 누릅니다.

00:02:44첫 실행 시에는 모델을 다운로드해야 해서 시간이 좀 걸릴 수 있지만,

00:02:50실행이 끝나면 파형이 나타납니다. 한번 들어보시죠.

00:02:57개발자로서, 이걸 사용하면 클라우드 비용이나 개인정보 문제 걱정 없이 음성 AI를 완벽하게 제어할 수 있습니다.

00:03:02이 오디오는 제 기기에서 로컬로 생성됐고 제 목소리를 복제한 겁니다. 브라우저 탭은 필요 없었죠.

00:03:09API 키도 필요 없었고요. 하지만 이게 진짜 워크플로우라고 느껴지는 부분은 바로 시스템 전체

00:03:16받아쓰기 기능입니다. 글로벌 단축키를 눌러서 지금 생각나는 걸 바로 말할 수 있죠. 이런 코딩 툴이나

00:03:22팁을 찾는 걸 좋아하신다면 저희 채널을 확인해보세요. 이제 에디터에 바로 입력되니까요.

00:03:29메모나 주석, 그 무엇이든 정말 유용하더라고요.

00:03:33타이핑보다 말하는 게 빠른 순간들이 있는데, 그건 정말 엄청난 겁니다. 이건

00:03:38컴퓨터와 대화하는 것뿐만이 아닙니다. 이제 에이전트가 여러분에게 대답할 수도 있죠.

00:03:43Claude Code, Cursor 또는 여러분의 자체 로컬 에이전트가 터미널에 텍스트만 출력하는 대신,

00:03:49VoiceBox를 통해 음성으로 알려줄 수 있습니다. 우린 이미 AI로부터 피드백을 받고 있는데,

00:03:55직접 말하게 하면 어떨까요? 이제 우리가 아는 다른 툴들과 비교해보죠.

00:03:59당연한 이유로, 11랩스가 있죠. 11랩스는 훌륭해요. 브라보. 저도 전에 비교 영상을 만든 적이 있는데,

00:04:05호스팅 기반이라 품질이 놀라운 건 다들 알죠. 하지만 결국 클라우드 기반이고,

00:04:11구독형 모델이라 비용을 지불해야 합니다. 데이터도 클라우드에 올리게 되고요.

00:04:16VoiceBox는 그와는 정반대입니다. 왜냐? 로컬이거든요. 무료고, 제한이 없죠. 데이터도

00:04:22우리가 직접 제어합니다. 하루 종일 사용한다면 11랩스가 나을지도 모르지만,

00:04:27저는 VoiceBox를 계속 쓸 것 같습니다. 사용하기 너무 쉬웠고, 솔직히 소리도 상당히 괜찮거든요.

00:04:33우리 개발자들에게 최고의 툴은 항상 가장 예쁜 결과물을 내는 툴이 아닙니다. 그런 건

00:04:38별로 중요하지 않을 때가 많아요. 가끔은 직접 제어할 수 있는 툴이 최고죠. 오픈 소스 측면을

00:04:43봐도 Piper, Whisper 같은 툴이나 별도의 스크립트를 이미 사용할 수 있었죠.

00:04:50하지만 중요한 건 다 따로따로 놀았다는 거예요. 받아쓰기용 툴 하나,

00:04:56복제용 하나, TTS용 하나, UI 하나, 이런 것들을 우리가 억지로 붙여서 써야 했죠.

00:05:03VoiceBox는 이 전체 워크플로우를 하나의 스튜디오 앱으로 패키징했습니다. 입력, 출력, 편집, 프로필,

00:05:09문서, 에이전트 연동, 그리고 MCP 서버까지 말이죠. 말했듯이,

00:05:14이제 Claude나 Cursor 같은 에이전트가 텍스트로만 응답하는 대신 VoiceBox를 툴처럼

00:05:20불러서 여러분에게 직접 말을 걸 수 있습니다. 내 목소리가 되돌아오는 걸 듣고 싶냐고요?

00:05:25모르겠네요. 다른 목소리로 바꾸면 되겠죠. 하지만 여러분의 코딩 에이전트가 '빌드 실패.

00:05:30테스트 모듈 3개가 인증 모듈을 깨뜨렸습니다'라고 말한다고 상상해보세요. 비현실적으로 들리겠지만,

00:05:36이미 하루에도 몇 번씩 툴에서 알림을 받고 있잖아요. VoiceBox는 그 알림에 목소리를 입혀주는 겁니다.

00:05:42다른 툴들에 비해 왜 이렇게 마음에 들었냐고요? 음, 개인정보 보호와 비용이죠. 솔직히,

00:05:48적어도 저에게는 그게 가장 큰 이득입니다. 정말 쉬운 승리죠. 음성 샘플, 오디오,

00:05:53내부 콘텐츠, 혹은 민감한 무엇이든 로컬 우선 방식이 우리가 원하는 겁니다. 정말 훌륭해요.

00:05:57그리고 에이전트 연동이 있는데, 전체 테스트에 넣지는 않았지만,

00:06:02이미 개발자들은 Claude Code나 Cursor에 통합하고 있습니다. VoiceBox는 호스팅된 음성 제공자 없이도

00:06:08시스템에 음성 계층을 제공합니다. 워크플로우가 꽤 깔끔했어요. 제어 가능한 UI 안에 있다는 점이

00:06:14정말 좋습니다. 그리고 Apple Silicon을 사용 중이라면 로컬 성능 덕분에

00:06:18사용감이 정말 좋았습니다. 하지만 꼭 염두에 둘 게 있습니다.

00:06:23올해 출시된 신규 툴이라 아직 초기 단계입니다. 그래서 문제가 있을 수 있어요.

00:06:28Windows를 쓰신다면 GPU 감지, 모델 설정, 내보내기 쪽에서 어려움을 겪는 분들이 있을 겁니다.

00:06:33이럴 땐 그냥 앱을 재시작하세요. 저도 Mac에서 같은 문제가 있는데, 재시작하면 해결됩니다.

00:06:39긴 문장의 일관성은 아직 11랩스보다 떨어질 수 있고요.

00:06:46감정 제어 기능도 개선 중이지만 선택하는 모델에 따라 다릅니다. 만약

00:06:50Shatterbox TTS Turbo를 선택하면, 감정이 내장되어 있습니다.

00:06:55그러니 VoiceBox를 설치해야 할까요? 솔직히 정말 쉬웠습니다. 확실히 써볼 가치가 있어요.

00:07:00우리가 억지로 짜 맞춰 쓰던 워크플로우의 마찰을 많이 없애주니까요.

00:07:04핵심 가치는 단순히 음질이 아니라 우리에게 제공되는 제어권입니다.

00:07:09데이터, 비용, 통합에 대한 제어권 말이죠. 그게 이 모든 게 중요한 이유입니다.

00:07:15시작하는 건 정말 죽도록 간단해요. 원숭이도 할 수 있습니다. VoiceBox 웹사이트나

00:07:20GitHub 릴리즈로 가서, OS에 맞는 설치 파일을 다운로드하고 앱을 실행하세요.

00:07:25그다음 필요한 로컬 모델을 받으면 됩니다. 이 핵심 아이디어는 정말 강력하고,

00:07:30이미 설치해서 사용할 만큼 유용합니다. 이런 코딩 툴을 좋아하신다면

00:07:35BetterStack 채널을 구독해주세요. 다음 영상에서 뵙겠습니다.

Key Takeaway

VoiceBox는 별도의 클라우드 비용이나 개인정보 노출 위험 없이 로컬 환경에서 음성 복제, 받아쓰기, 에이전트 연동을 하나로 통합하여 제어할 수 있는 효율적인 오픈소스 대안입니다.

Highlights

VoiceBox는 음성 복제, TTS, 시스템 전반의 받아쓰기 기능을 통합한 로컬 오픈소스 음성 AI 스튜디오입니다.
ElevenLabs와 달리 클라우드 구독료나 글자 수 제한이 없으며 데이터에 대한 완전한 제어권을 제공합니다.
Mac M4 환경에서 데스크톱 앱을 통해 설정하는 과정이 Docker 컨테이너보다 월등히 빠릅니다.
글로벌 단축키를 활용한 시스템 전반의 받아쓰기 기능은 메모나 주석 작성 시 타이핑보다 높은 효율을 보입니다.
Claude Code나 Cursor와 같은 코딩 에이전트를 연결하여 터미널 결과값을 실시간 음성 알림으로 출력할 수 있습니다.
초기 단계 소프트웨어로 Windows 환경에서 일부 GPU 감지나 모델 설정 시 오류가 발생할 수 있으나 앱 재시작으로 해결 가능합니다.

Timeline

VoiceBox의 개념과 핵심 기능

VoiceBox는 음성 AI 분야에서 올라마(Ollama)와 유사한 로컬 중심의 오픈소스 툴입니다.
하나의 데스크톱 앱에서 음성 복제, TTS, 시스템 받아쓰기, AI 에이전트 연동을 모두 수행합니다.
클라우드 기반 서비스와 달리 사용자의 머신에서 직접 실행되어 완전한 개인정보 보호를 보장합니다.

기존에는 음성 관련 작업을 위해 여러 개의 개별 툴을 조합해야 했으나, VoiceBox는 이를 하나의 통합 스튜디오로 패키징했습니다. 사용자는 비용 걱정 없이 무제한으로 음성을 생성하고 복제할 수 있으며, 시스템 전반에 걸친 제어권을 확보할 수 있습니다.

로컬 음성 생성 및 워크플로우 적용

Mac M4 환경에서 데스크톱 앱을 사용하여 텍스트를 즉시 로컬 음성으로 변환할 수 있습니다.
글로벌 단축키를 지원하여 브라우저 탭 이동 없이 즉각적인 시스템 받아쓰기가 가능합니다.
터미널 기반 코딩 에이전트와 연동하여 AI의 피드백을 실시간 음성으로 청취할 수 있습니다.

실제 테스트 결과, API 키나 클라우드 연결 없이도 기기 자체 성능만으로 높은 품질의 음성 합성이 가능했습니다. 특히 타이핑보다 말하는 것이 더 빠른 워크플로우 상황에서 시스템 전체 받아쓰기 기능은 큰 생산성 향상을 제공합니다.

기존 클라우드 서비스와의 비교 및 한계

ElevenLabs는 고품질 결과물을 제공하지만 비용과 데이터 프라이버시 측면에서 클라우드 제약이 존재합니다.
VoiceBox는 초기 단계의 소프트웨어로서 긴 문장의 일관성이나 감정 제어 기능은 지속적인 개선이 필요합니다.
설치 파일은 웹사이트나 GitHub 릴리즈에서 OS에 맞춰 내려받을 수 있으며 로컬 모델 설치로 즉시 사용이 가능합니다.

품질 면에서는 ElevenLabs가 여전히 우위에 있을 수 있으나, 데이터 주권과 비용 효율성을 중시하는 개발자 환경에서는 VoiceBox가 우수한 대안입니다. 현재는 초기 빌드 단계이므로 Windows 등 일부 환경에서 사소한 오류가 발생할 수 있으나, 앱 재시작을 통해 해결할 수 있습니다.

Community Posts

Write about this video