Transcript
00:00:00음성 AI계의 올라마(Ollama)라고 불리는 툴입니다. 목소리를 복제하고, 음성을 생성하며, 어떤 앱에서든 받아쓰기를 하고,
00:00:07직접 소유한 목소리로 에이전트와 대화까지 가능하죠. 바로 VoiceBox입니다. 여기 적힌 말처럼요.
00:00:13무료이고 11랩스(ElevenLabs)의 로컬 대안인데, 솔직히 정말 엄청나더군요.
00:00:19GitHub에서 별 3만 개 정도를 받았고, 로컬에서 실행됩니다. 앞으로 60초 안에,
00:00:24로컬 음성 복제, 음성 생성, 그리고 에디터 내부에서의 받아쓰기를 보여드릴게요.
00:00:29이게 얼마나 유용한지, 처음 시작하기는 얼마나 쉬운지 곧 알아보도록 하죠.
00:00:39자, VoiceBox는 오픈 소스 로컬 AI 음성 스튜디오입니다. 간단히 생각하면 이런 거죠.
00:00:46올라마가 로컬 텍스트 모델을 위한 것이라면, VoiceBox는 그걸 음성 분야에서 하려는 겁니다. 단지 텍스트 음성 변환(TTS)만 되는 게 아니라,
00:00:54음성 복제, 시스템 전반에 걸친 받아쓰기, 창의적 편집이 가능하고, 이야기나
00:01:00타임라인 기능도 있으며 AI 에이전트와도 연결됩니다. 그래서 진정한 제어와 더 높은 개인정보 보호를 제공하죠.
00:01:06테스트할 때마다 '크레딧을 얼마나 썼더라?'라고 걱정하며 무언가를 만들고 싶진 않잖아요. VoiceBox는
00:01:12그런 걸 묻지 않습니다. 자신의 머신에서 돌아가니까요. 구독료도 없고,
00:01:17글자 수 제한도 없습니다. 게다가 복제, 위스퍼(Whisper) 기반 받아쓰기, 멀티 트랙 에디터,
00:01:23아타리(Atari) 데스크톱 앱, MCP 지원, 로컬 REST API를 하나로 합쳤습니다. 다섯 개의 별도 툴 대신,
00:01:29이 모든 걸 하나의 데스크톱 앱에서 바로 해결하는 거죠. 이번 영상에서 세 가지를 해볼 겁니다.
00:01:36목소리를 복제하고, 말하게 만든 다음, 에디터 안에서 받아쓰기를 사용할 겁니다.
00:01:41그 후에 에이전트 연동이 왜 엄청난지, 적어도
00:01:46그에 대해 이야기해보겠습니다. 워크플로우를 빠르게 해주는 코딩 툴을 좋아하신다면
00:01:50구독 부탁드립니다. 영상이 계속 올라올 예정이니까요. 자, 저는 지금 Mac M4에서 실행 중입니다.
00:01:55이게 VoiceBox입니다. 이미 목소리 프로필을 준비해뒀지만, 과정은 정말 간단했습니다. Docker로
00:02:02띄울 수도 있지만, 그렇게 해보니 컨테이너가 준비되는 데 거의 30분이 걸리더군요.
00:02:08그래서 저는 데스크톱 앱을 사용하기로 했는데 훨씬 빠르고, 솔직히 정말
00:02:13좋습니다. 오디오 이름을 정하고, 설명을 추가하고, 모델이 어떻게 행동할지까지 설정할 수 있죠.
00:02:19직접 녹음하거나 짧은 파일을 업로드해서 분석하게 할 수 있고, 그 오디오의 스크립트도 함께 넣으면 됩니다.
00:02:26이제 실제로 사용할 문장을 타이핑해 볼게요. 개발자로서,
00:02:32이걸 사용하면 클라우드 비용이나 개인정보 문제 걱정 없이 음성 AI를 완벽하게 제어할 수 있습니다.
00:02:38목소리 프로필을 선택하고, 원하는 모델을 선택한 뒤 생성 버튼을 누릅니다.
00:02:44첫 실행 시에는 모델을 다운로드해야 해서 시간이 좀 걸릴 수 있지만,
00:02:50실행이 끝나면 파형이 나타납니다. 한번 들어보시죠.
00:02:57개발자로서, 이걸 사용하면 클라우드 비용이나 개인정보 문제 걱정 없이 음성 AI를 완벽하게 제어할 수 있습니다.
00:03:02이 오디오는 제 기기에서 로컬로 생성됐고 제 목소리를 복제한 겁니다. 브라우저 탭은 필요 없었죠.
00:03:09API 키도 필요 없었고요. 하지만 이게 진짜 워크플로우라고 느껴지는 부분은 바로 시스템 전체
00:03:16받아쓰기 기능입니다. 글로벌 단축키를 눌러서 지금 생각나는 걸 바로 말할 수 있죠. 이런 코딩 툴이나
00:03:22팁을 찾는 걸 좋아하신다면 저희 채널을 확인해보세요. 이제 에디터에 바로 입력되니까요.
00:03:29메모나 주석, 그 무엇이든 정말 유용하더라고요.
00:03:33타이핑보다 말하는 게 빠른 순간들이 있는데, 그건 정말 엄청난 겁니다. 이건
00:03:38컴퓨터와 대화하는 것뿐만이 아닙니다. 이제 에이전트가 여러분에게 대답할 수도 있죠.
00:03:43Claude Code, Cursor 또는 여러분의 자체 로컬 에이전트가 터미널에 텍스트만 출력하는 대신,
00:03:49VoiceBox를 통해 음성으로 알려줄 수 있습니다. 우린 이미 AI로부터 피드백을 받고 있는데,
00:03:55직접 말하게 하면 어떨까요? 이제 우리가 아는 다른 툴들과 비교해보죠.
00:03:59당연한 이유로, 11랩스가 있죠. 11랩스는 훌륭해요. 브라보. 저도 전에 비교 영상을 만든 적이 있는데,
00:04:05호스팅 기반이라 품질이 놀라운 건 다들 알죠. 하지만 결국 클라우드 기반이고,
00:04:11구독형 모델이라 비용을 지불해야 합니다. 데이터도 클라우드에 올리게 되고요.
00:04:16VoiceBox는 그와는 정반대입니다. 왜냐? 로컬이거든요. 무료고, 제한이 없죠. 데이터도
00:04:22우리가 직접 제어합니다. 하루 종일 사용한다면 11랩스가 나을지도 모르지만,
00:04:27저는 VoiceBox를 계속 쓸 것 같습니다. 사용하기 너무 쉬웠고, 솔직히 소리도 상당히 괜찮거든요.
00:04:33우리 개발자들에게 최고의 툴은 항상 가장 예쁜 결과물을 내는 툴이 아닙니다. 그런 건
00:04:38별로 중요하지 않을 때가 많아요. 가끔은 직접 제어할 수 있는 툴이 최고죠. 오픈 소스 측면을
00:04:43봐도 Piper, Whisper 같은 툴이나 별도의 스크립트를 이미 사용할 수 있었죠.
00:04:50하지만 중요한 건 다 따로따로 놀았다는 거예요. 받아쓰기용 툴 하나,
00:04:56복제용 하나, TTS용 하나, UI 하나, 이런 것들을 우리가 억지로 붙여서 써야 했죠.
00:05:03VoiceBox는 이 전체 워크플로우를 하나의 스튜디오 앱으로 패키징했습니다. 입력, 출력, 편집, 프로필,
00:05:09문서, 에이전트 연동, 그리고 MCP 서버까지 말이죠. 말했듯이,
00:05:14이제 Claude나 Cursor 같은 에이전트가 텍스트로만 응답하는 대신 VoiceBox를 툴처럼
00:05:20불러서 여러분에게 직접 말을 걸 수 있습니다. 내 목소리가 되돌아오는 걸 듣고 싶냐고요?
00:05:25모르겠네요. 다른 목소리로 바꾸면 되겠죠. 하지만 여러분의 코딩 에이전트가 '빌드 실패.
00:05:30테스트 모듈 3개가 인증 모듈을 깨뜨렸습니다'라고 말한다고 상상해보세요. 비현실적으로 들리겠지만,
00:05:36이미 하루에도 몇 번씩 툴에서 알림을 받고 있잖아요. VoiceBox는 그 알림에 목소리를 입혀주는 겁니다.
00:05:42다른 툴들에 비해 왜 이렇게 마음에 들었냐고요? 음, 개인정보 보호와 비용이죠. 솔직히,
00:05:48적어도 저에게는 그게 가장 큰 이득입니다. 정말 쉬운 승리죠. 음성 샘플, 오디오,
00:05:53내부 콘텐츠, 혹은 민감한 무엇이든 로컬 우선 방식이 우리가 원하는 겁니다. 정말 훌륭해요.
00:05:57그리고 에이전트 연동이 있는데, 전체 테스트에 넣지는 않았지만,
00:06:02이미 개발자들은 Claude Code나 Cursor에 통합하고 있습니다. VoiceBox는 호스팅된 음성 제공자 없이도
00:06:08시스템에 음성 계층을 제공합니다. 워크플로우가 꽤 깔끔했어요. 제어 가능한 UI 안에 있다는 점이
00:06:14정말 좋습니다. 그리고 Apple Silicon을 사용 중이라면 로컬 성능 덕분에
00:06:18사용감이 정말 좋았습니다. 하지만 꼭 염두에 둘 게 있습니다.
00:06:23올해 출시된 신규 툴이라 아직 초기 단계입니다. 그래서 문제가 있을 수 있어요.
00:06:28Windows를 쓰신다면 GPU 감지, 모델 설정, 내보내기 쪽에서 어려움을 겪는 분들이 있을 겁니다.
00:06:33이럴 땐 그냥 앱을 재시작하세요. 저도 Mac에서 같은 문제가 있는데, 재시작하면 해결됩니다.
00:06:39긴 문장의 일관성은 아직 11랩스보다 떨어질 수 있고요.
00:06:46감정 제어 기능도 개선 중이지만 선택하는 모델에 따라 다릅니다. 만약
00:06:50Shatterbox TTS Turbo를 선택하면, 감정이 내장되어 있습니다.
00:06:55그러니 VoiceBox를 설치해야 할까요? 솔직히 정말 쉬웠습니다. 확실히 써볼 가치가 있어요.
00:07:00우리가 억지로 짜 맞춰 쓰던 워크플로우의 마찰을 많이 없애주니까요.
00:07:04핵심 가치는 단순히 음질이 아니라 우리에게 제공되는 제어권입니다.
00:07:09데이터, 비용, 통합에 대한 제어권 말이죠. 그게 이 모든 게 중요한 이유입니다.
00:07:15시작하는 건 정말 죽도록 간단해요. 원숭이도 할 수 있습니다. VoiceBox 웹사이트나
00:07:20GitHub 릴리즈로 가서, OS에 맞는 설치 파일을 다운로드하고 앱을 실행하세요.
00:07:25그다음 필요한 로컬 모델을 받으면 됩니다. 이 핵심 아이디어는 정말 강력하고,
00:07:30이미 설치해서 사용할 만큼 유용합니다. 이런 코딩 툴을 좋아하신다면
00:07:35BetterStack 채널을 구독해주세요. 다음 영상에서 뵙겠습니다.