00:00:00SpeechBrain은 오픈 소스 PyTorch 네이티브 툴킷으로, 음성 AI 기능을
00:00:05사전 학습된 모델을 사용해 손쉽게 구축하고 배포할 수 있게 해줍니다. 노이즈 제거, 화자 인증,
00:00:10그리고 자동 음성 인식(ASR)까지 가능하죠. 별도의 학습이나 미세 조정도 필요 없습니다. 간단한 음성 인증을 해보죠.
00:00:15아마 더 깨끗한 오디오를 기대하셨을 텐데, 네, 여기서는 자연스럽게 처리됩니다. 결과에 따르면,
00:00:19저는 다른 사람으로 나오네요. 두 번째 클립에서 보이스 트랜스포머를 사용했기 때문입니다.
00:00:23화자 인증이 제대로 작동한다는 뜻이죠. 그럼 다른 기능도 살펴봅시다. 저희 채널에는
00:00:28항상 새로운 영상이 올라오니 구독 잊지 마세요. 시연 전에 핵심 기능만 빠르게 짚어보겠습니다.
00:00:38SpeechBrain은 ASR, 음질 개선, 음원 분리, 화자 식별, TTS 등 음성 기술의 모든 기능을 갖추고 있습니다.
00:00:44개발자분들에게 중요한 정보죠. GitHub 스타 9,000개 이상, Hugging Face와의 긴밀한 통합,
00:00:51한 줄 설치가 가능하며 모델 로딩도 코드 몇 줄이면 끝납니다. 문서 읽느라 시간 낭비하지 않고
00:00:56빠르게 제품을 출시하려는 분들을 위해 만들어졌죠. 제가 이 데모를 구현하기 위해 확장해 본 기초 코드입니다.
00:01:02대부분의 코드는 공식 문서 사이트에서 직접 찾았습니다. UI를 구성하기 위해
00:01:08Gradio를 사용하기로 했는데요, Gradio는 이런 작업에 정말 유용한 파이썬 ML 앱 라이브러리입니다.
00:01:14이 부분은 직접 보기 전까진 가짜처럼 보일 수 있어요. 보통 음질 개선 데모는 완벽한 오디오로 속이곤 하죠.
00:01:20저는 정반대로 해보겠습니다. 지금 아주 시끄러운 배경 소음을
00:01:24틀어놓을게요. 주로 음악 소리입니다. 시작하죠. 저는 평소처럼 말하면서,
00:01:31음악 소리 위로 제 목소리를 녹음 중입니다. 원본 오디오를 들어보시죠. 네, 소리가 엉망이죠. 이제 개선된 결과물을 보세요.
00:01:37평소처럼 말하고 있습니다. 목소리는 그대로인데 노이즈만 쏙 빠졌죠. 꼼수 없이요. 여기서 핵심은
00:01:44이 처리가 단 몇 초 만에 끝난다는 겁니다. 통화 앱, 팟캐스트, 음향 보정, 엣지 기기 등
00:01:51마이크가 있고 음향 조건이 나쁜 어디든 적용 가능하죠. 코드는 모델 로드 후 enhance batch를 호출하면 끝입니다.
00:01:57다만 문서는 솔직히 좀 부실해서, Mac에서 원활하게 돌아가도록 코드를 좀 손봐야 했습니다.
00:02:02오류가 계속 발생했거든요. 다음은 처음에 언급했던 화자 인증 기능입니다.
00:02:07보통 음성 인증이라고 하면 어렵게만 생각하시는데, 미리 말씀드리자면
00:02:13전혀 그렇지 않습니다. 적어도 이 툴킷으로는요. 제 목소리를 등록해 보죠. “안녕하세요, 제 목소리입니다.”
00:02:20이게 첫 번째 녹음이었고요, 이제 두 번째 녹음도 똑같이 해보겠습니다.
00:02:26 “안녕하세요, 제 목소리입니다.” 이제 확인해 보니 동일인으로 나오네요. 점수가 높습니다. 일치함이 확인되었고
00:02:36출력값에 점수와 순위가 표시됩니다. 이번에는 보이스 트랜스포머 없이 목소리 톤만 바꿔서
00:02:42다시 해볼까요? 결과가 어떨지 보죠. “오늘 아침 뭐 드셨어요?” 자, 이제 톤을 바꿔볼게요.
00:02:48너무 비웃지는 마시고요. “오늘 아침 뭐 드셨어요?” 유사도 점수가 조금 떨어지긴 했지만,
00:02:56여전히 제가 동일인이라는 결과를 내놓습니다. 이 모델은 VoxCeleb 데이터로 사전 학습되었습니다.
00:03:01다시 보이스 트랜스포머를 써보죠. 이게 제 평소 목소리입니다. 이제
00:03:08보이스 트랜스포머를 켜면 제 평소 목소리는 이렇습니다. 여러분께 들려드리자면 두 번째 클립은
00:03:17대략 이런 느낌입니다. “이게 제 평소 목소리입니다.” 좀 어색하죠?
00:03:22변조된 티가 나죠. 네, 전혀 일치하지 않는다고 나오고, 출력 결과도 이를 정확히 짚어냅니다.
00:03:27음성 인증 기반의 다중 사용자 앱이나, 누가 말하는지 식별해야 하는 기능을 만든다면
00:03:32이게 딱입니다. 마지막 데모는 사실 이 프로젝트의 핵심이 되어야 할 기능인데요.
00:03:37실시간 받아쓰기(ASR) 데모는 보통 인상적이지만, 막상 제 목소리로 해보면... 이제 평소처럼 말해볼게요.
00:03:43사실 이 기능은 그렇게 잘 작동하지 않습니다. 문서도 별 도움이 안 돼서
00:03:48솔직히 기분이 좀 미묘하네요. 그냥 평범한 음성 인식 수준처럼 느껴집니다.
00:03:53자동 자막 기능이 있어야 하는데 수많은 오류가 발생했고, 심지어 제대로
00:03:58작동하지도 않습니다. 네, 텍스트로 변환은 해주지만 그건 다른 라이브러리도 다 하는 거죠.
00:04:04이 자동 자막 기능은 적어도 저에게는 전혀 인상적이지 않았습니다. 그냥 제대로 안 됐어요.
00:04:08물론 정말 멋진 기능들도 있죠? 화자 인증이나 배경 소음
00:04:13제거 같은 것들요. 하지만 특정 기능들은 아직 다듬어지지 않았습니다. 여기까지 SpeechBrain 요약이었습니다.
00:04:18전반적으로 빠르고, 개방적이며, 개발자 친화적입니다. 여러분도
00:04:22직접 한번 확인해 보세요. 링크는 설명란에 남겨두었고요, 다음 영상에서
00:04:26또 뵙겠습니다.