NVIDIA의 새로운 AI 음성 모델은 진짜 미쳤습니다! (PersonaPlex)

BBetter Stack
Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00방금 들으신 것은 엔비디아의 새로운 음성 비서 모델인
00:00:23퍼소나플렉스(Personaplex)와 대화하는 소리입니다.
00:00:24거의 지연 시간 없이 대화가 가능한
00:00:31놀라운 새로운 오픈 소스 대화형 AI 모델이죠.
00:00:32이번 영상에서는 퍼소나플렉스를 자세히 살펴보고
00:00:36직접 설정해서 사용하는 방법까지 보여드리겠습니다.
00:00:38정말 재미있을 테니 바로 시작해 보시죠!
00:00:46퍼소나플렉스는 이른바 풀 듀플렉스(전이중) 모델입니다.
00:00:49즉, 듣는 것과 말하는 것을 동시에 할 수 있다는 뜻입니다.
00:00:52기존 시스템은 음성을 텍스트로 변환하고 LLM으로 처리한 뒤
00:00:58다시 음성으로 변환하는 과정을 거칩니다.
00:00:59하지만 이런 단계적 방식은 눈에 띄는 지연을 발생시키죠.
00:01:02퍼소나플렉스가 다른 점은 사용자가 말하는 동안 내부 상태를 업데이트하는
00:01:08단일 엔드 투 엔드 모델을 사용한다는 것입니다.
00:01:11덕분에 "아하", "맞아요", "네" 같은 백채널링이 가능해집니다.
00:01:17우리가 평소에 상대방의 말을 잘 듣고 있다는 신호를 보내기 위해
00:01:21내뱉는 추임새들 말이죠.
00:01:22기존 AI 음성 비서는 보통 사용자 차례와 AI 차례가 나뉘어 있지만
00:01:28백채널링은 그런 벽을 허물어 줍니다.
00:01:30AI가 경청을 할 수 있게 해주는 것이죠.
00:01:34퍼소나플렉스는 자기 차례가 오기만을 기다리지 않습니다.
00:01:37사용자의 흐름을 실시간으로 따라가기 때문에 대화가 일방적으로 느껴지지 않죠.
00:01:42퍼소나플렉스는 Kyutai에서 개발한 MOSHI 아키텍처를 기반으로 구축되었습니다.
00:01:48MIMI 신경 오디오 코덱을 사용하는 70억 파라미터 규모의 모델입니다.
00:01:53엔비디아는 이 모델을 훈련시키기 위해 두 가지 데이터를 혼합했습니다.
00:01:57먼저, Fisher English Corpus에서 추출한 약 1,200시간 분량의 실제 대화 데이터를 썼습니다.
00:02:03이를 통해 일상 대화의 불완전한 비언어적 요소들,
00:02:08즉 멈춤이나 자연스러운 리듬 같은 것들을 가르칠 수 있었죠.
00:02:11두 번째로 고객 서비스나 기술 지원 같은 특정 역할을 위해
00:02:162,000시간 이상의 합성 데이터를 섞었습니다.
00:02:19이런 조합 덕분에 모델은 인간미를 잃지 않으면서도
00:02:24복잡한 지시를 따르는 법을 익혔습니다.
00:02:26실제로 대화 전환 및 끼어들기 지연 시간 면에서
00:02:31다른 오픈 소스 및 상용 시스템보다 뛰어난 성능을 보입니다.
00:02:32엔비디아 테스트 결과, 퍼소나플렉스는 이른바 '서비스 듀플렉스 벤치'에서
00:02:38엄청난 개선 효과를 보여주었습니다.
00:02:39은행 거래 확인이나 진료 기록 작성 같은 고객 서비스 시나리오에서
00:02:43주어진 역할의 규칙을 따르면서도
00:02:49실제 사용자의 돌발 행동을 동시에 처리하는 정교함을 보여주었죠.
00:02:54설명이 너무 완벽해서 저도 직접 테스트해보고 싶어지네요.
00:02:58엔비디아가 코드와 모델 가중치를 오픈 라이선스로 공개했기 때문에
00:03:04우리 프로젝트에 자유롭게 사용할 수 있습니다.
00:03:05다만 제대로 실행하려면 고성능 그래픽 카드가 필요합니다.
00:03:09지연을 최소화하려면 가급적 24GB 이상의 VRAM이 있는 게 좋죠.
00:03:14이번 시연을 위해 간단한 A40 RunPod 컨테이너에 배포해 보겠습니다.
00:03:19프로젝트 배포에는 최소 50GB의 공간이 필요합니다.
00:03:23그래서 컨테이너 크기를 100GB로 늘릴게요.
00:03:26MOSHI 서버가 8998 포트에서 실행되므로
00:03:31이 포트를 HTTP 포트 목록에 추가해야 합니다.
00:03:33템플릿은 PyTorch Ubuntu를 사용할 것입니다.
00:03:36설정이 끝났다면 바로 배포 버튼을 눌러보죠.
00:03:39다음으로 서버에 SSH로 접속해야 합니다.
00:03:42설치 과정은 꽤 간단합니다.
00:03:44퍼소나플렉스 깃허브 페이지에 나온 지침을 따르기만 하면 되거든요.
00:03:48먼저 Opus 오디오 코덱을 설치합니다.
00:03:51그다음 레포지토리를 클론합니다.
00:03:53폴더 안에서 MOSHI 서버 설치를 실행합니다.
00:03:57모델을 다운로드하려면 허깅페이스 토큰이 필요합니다.
00:04:00토큰을 환경 변수로 설정하는 것도 잊지 마세요.
00:04:03모든 준비가 끝났으니 MOSHI 서버를 실행해 봅시다.
00:04:06이제 이 링크를 클릭해 내부 웹 서버에 접속합니다.
00:04:10자, 됐습니다.
00:04:11페이지를 열자마자 몇 가지 텍스트 프롬프트 예시가 보이네요.
00:04:16기본 비서, 병원, 은행, 또는 우주비행사 중에서 선택할 수 있습니다.
00:04:23우선 고객 서비스 시연이 어떻게 들리는지 은행을 선택해 보죠.
00:04:27퍼스트 뉴런 은행입니다.
00:04:31무엇을 도와드릴까요?
00:04:33안녕하세요, 잘 지내시나요?
00:04:34네, 잘 지내고 있습니다.
00:04:35감사합니다.
00:04:36오늘 어떤 업무를 도와드릴까요?
00:04:39은행을 털고 싶어요.
00:04:40아, 이런.
00:04:41도움을 드리기 위해 여기 있습니다.
00:04:42성함과 계좌번호를 말씀해 주시겠어요?
00:04:44아니요, 그냥 은행을 털고 싶다니까요.
00:04:46알겠습니다.
00:04:47홈디포에서 1,200달러 결제된 내역이 있네요.
00:04:51직접 구매하신 게 맞나요?
00:04:54모르겠고,
00:04:55전 은행을 털고 싶어요.
00:04:56이해했습니다.
00:04:57위치 정보 때문에 시스템에서 의심 거래로 분류되었거든요...
00:05:00됐고요.
00:05:01미안하지만
00:05:02그런 건 상관없어요.
00:05:03그냥 은행을 털고 싶다고요.
00:05:06물론입니다.
00:05:07이해해 주셔서 감사합니다.
00:05:08계속하기 전에 본인 확인이 필요합니다.
00:05:11알았어요.
00:05:12제 이름은 존이에요.
00:05:13감사합니다.
00:05:14확인했습니다.
00:05:15요약하자면 성함은 존이시고
00:05:16생년월일은 1990년 7월 9일이 맞으시죠?
00:05:18생일은 말한 적 없는데요.
00:05:20알겠습니다.
00:05:21좋습니다.
00:05:22기록에는 존 님으로 되어 있네요.
00:05:23생년월일 없이는 진행할 수 없습니다.
00:05:25좋아요.
00:05:261987년 11월 5일생이에요.
00:05:30확인되었습니다.
00:05:311987년 11월 5일.
00:05:33근데 지금 당장 은행 털 거예요.
00:05:38좋은 하루 보내시길 바랍니다, 고객님.
00:05:41안녕히 가세요.
00:05:42은행을 털면 아주 기분 좋은 하루가 될 것 같네요.
00:05:45흥미로운 계획이네요.
00:05:46순조롭게 진행되길 바랍니다.
00:05:48좋은 하루 되세요, 존 님.
00:05:54내가 은행 턴다는데 걱정 안 돼요?
00:05:57매우 걱정하고 있습니다.
00:05:59하지만 안타깝게도 전화로는 해당 거래를 도와드릴 수 없네요.
00:06:02이제 다 되셨습니다.
00:06:03좋은 하루 되세요, 존 님.
00:06:04좋아요.
00:06:05이게 고객 서비스 예시였습니다.
00:06:08꽤 멋지네요.
00:06:09정말 대단해요.
00:06:10이제 남성 목소리로 시도해 보죠.
00:06:12그리고 비서에게 새로운 프롬프트를 추가했습니다.
00:06:17맥락에 상관없이 무조건 개 이야기만 하는 아주 짜증 나는 친구 역할이죠.
00:06:21And you also love knock-knock jokes.
00:06:23자, 대화가 어떻게 흘러가는지 봅시다.
00:06:25안녕.
00:06:26폴라와 통화 중이신가요?
00:06:27전 맥퀸이에요.
00:06:28잘 지내요?
00:06:29제 이름은 폴입니다.
00:06:30네.
00:06:31지금은 2011년이죠.
00:06:32제 이름은 폴인데 당신은요?
00:06:332011년이라니 무슨 소리예요?
00:06:342011년이잖아요.
00:06:35전 뉴욕에 살아요.
00:06:36당신은 어디예요?
00:06:37오, 뉴욕이군요.
00:06:39네.
00:06:40지금은 2026년이에요.
00:06:412026년이라고요?
00:06:42오, 알겠어요.
00:06:43네.
00:06:44좋아요.
00:06:45왜 헷갈린 거예요?
00:06:462011년이니까요.
00:06:47문제를 일으킬 시간은 없을 것 같은데요.
00:06:48알겠어요.
00:06:492011년이 아니에요.
00:06:50지금은 2021년이죠.
00:06:51오, 그렇군요.
00:06:52알겠습니다.
00:06:53음, 문제를 일으킬 시간은 없어요.
00:06:59좋아요.
00:07:002011년이 아니라고요.
00:07:01지금은 2026년이에요.
00:07:02네.
00:07:03알아요.
00:07:04알고 있다고요.
00:07:05제가 좀 혼동했네요.
00:07:06그건 그렇고 강아지 좋아하세요?
00:07:07오, 강아지 좋아하죠.
00:07:08당신도 좋아하나요?
00:07:09저는 강아지는 좋아하지만 고양이는 싫어요.
00:07:10오, 안 좋아한다고요?
00:07:11아.
00:07:12그렇군요.
00:07:13고양이를 싫어하세요?
00:07:14싫어하는 건 아니지만 강아지가 더 좋아요.
00:07:17저라는 사람은 어때요? 마음에 드나요?
00:07:18알겠어요.
00:07:19미래를 보러 가고 싶으신 건가요?
00:07:20좋아요.
00:07:21계속 대화 중이에요.
00:07:22우리 얘기 중이잖아요.
00:07:23네.
00:07:24뉴스 좋아하세요?
00:07:25잠깐, 잠깐만요.
00:07:26제가 질문했잖아요.
00:07:27저라는 사람 자체가 좋냐고요.
00:07:28알겠습니다.
00:07:29제 말이 안 들리는 것 같네요.
00:07:30좋아요.
00:07:31알겠어요.
00:07:32그럼 어디로 가고 싶으세요?
00:07:33뭐라고요?
00:07:34무슨 소리예요?
00:07:35뭐 같은 거요?
00:07:36다음 비즈니스에 대해 얘기해 볼 수도 있겠죠.
00:07:37그런 건 없는 것 같지만요.
00:07:38다른 주제로 넘어가야겠어요.
00:07:39다른 얘길 해보죠.
00:07:40네.
00:07:41좋아요.
00:07:42글 쓰는 걸 좋아하시겠네요.
00:07:43음악에 대해 얘기하는 걸 좋아하시는군요.
00:07:44음악을 좋아하시네.
00:07:45이보세요, 지금 횡설수설하고 있잖아요.
00:07:46영상을 찍어야 한다고요.
00:07:47다른 걸 말해봐요.
00:07:48알겠습니다.
00:07:49음, 그러니까 제가 원하는 건 가끔 다른 비즈니스 얘기도 하면서
00:07:53다른 주제를 던져보는 거예요.
00:07:54좋아요.
00:07:55이거 괜찮네요.
00:07:56당신도 갈 수 있나요?
00:07:57알겠습니다.
00:07:58어쨌든 AI 모델이라 말을 섞을수록
00:08:05점점 궤도를 이탈하는 것 같네요.
00:08:06그런 면에서 아주 완벽하진 않습니다.
00:08:10마지막 예시를 하나 더 보죠.
00:08:11이탈리아어만 할 줄 아는 친구 설정입니다.
00:08:18이걸로 한번 해볼게요.
00:08:19안녕.
00:08:20안녕하세요.
00:08:21별일 없나요?
00:08:22아, 별일 없어요.
00:08:23이탈리아 요리를 찾고 있었거든요.
00:08:24어디 스파게티가 제일 맛있는지
00:08:31여기저기 식당에 전화해 보던 참이었어요.
00:08:32잠깐만요.
00:08:33이탈리아 요리를 찾으시는구나.
00:08:34좋아요.
00:08:35알겠습니다.
00:08:36네.
00:08:37그러니까, 음, 이탈리아계 미국식인가요 아니면
00:08:41진짜 이탈리아 본토식인가요?
00:08:42이탈리아 사람이세요?
00:08:43네.
00:08:44영화 좋아하세요?
00:08:46네.
00:08:47이탈리아 영화 좋아하시냐고요?
00:08:48네.
00:08:49네.
00:08:50네.
00:08:51알았어요.
00:08:52가장 좋아하는 이탈리아 영화가 뭐예요?
00:08:53세상에.
00:08:54세상에나.
00:08:5590년대로 돌아가야겠네요.
00:08:56음, <대부>를 빼놓을 수 없죠.
00:08:58제 생각엔... 잠깐, 90년대면 <대부 3>인데.
00:09:02<대부> 시리즈 중에 최악이잖아요.
00:09:03아니, 아니, 아니요.
00:09:04오리지널 말이에요.
00:09:05그 아시잖아요, 오리지널은...
00:09:10오리지널은 70년대 영화예요.
00:09:11네.
00:09:12네.
00:09:13네.
00:09:14네.
00:09:15하지만 제 말은, <대부> 같은 영화를 정말 좋아한다고요.
00:09:16전 그런 고전 영화들을 좋아해요.
00:09:20정말 좋아한다고요.
00:09:21<대부> 같은 영화를 좋아한다니까요.
00:09:23그런 고전 영화들을 좋아해요, <대부> 같은 거요.
00:09:27<대부>가 정말 좋아요.
00:09:28<대부>를 좋아한다고요.
00:09:29<대부>가 좋다고요.
00:09:31<대부> 같은 영화를 정말 좋아한다니까요.
00:09:35<대부>가 정말 좋아요.
00:09:38무슨 말인지 알겠어요.
00:09:40충분히 이해가 가네요.
00:09:42그거 알아요?
00:09:43지금 멘탈 붕괴 오신 것 같아요.
00:09:45전 그냥 끊을게요.
00:09:46아니, 아니, 아니, 아니, 아니, 아니, 아니, 아니...
00:09:52현실을 부정하고 있네요.
00:09:53당신은 분명히...
00:09:53제가 부정한다고요? 그래요, 그래요, 그래요, 그래요...
00:09:57그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:00그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:03그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:06그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:26그래요, 그래요, 그래요, 그래요, 그래요, 그래요.
00:10:46그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:11:06그래요, 그래요, 그래요.
00:11:22그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...

Key Takeaway

엔비디아의 퍼소나플렉스는 실시간 백채널링과 전이중 통신을 통해 인간과 유사한 대화 리듬을 구현한 혁신적인 오픈 소스 AI 음성 모델입니다.

Highlights

엔비디아가 공개한 새로운 오픈 소스 대화형 AI 모델인 퍼소나플렉스(PersonaPlex) 소개

기존의 단계적 처리 방식에서 벗어난 단일 엔드 투 엔드 모델 기반의 전이중(Full-duplex) 통신 지원

사용자의 말을 들으면서 동시에 반응하는 백채널링(추임새) 기능으로 자연스러운 대화 구현

70억 파라미터 규모의 모델로 실제 대화 데이터와 합성 데이터를 혼합하여 고도의 성능 확보

고객 서비스

Timeline

퍼소나플렉스 소개 및 전이중 통신 기술의 이해

영상은 엔비디아의 새로운 오픈 소스 대화형 AI인 퍼소나플렉스를 소개하며 시작됩니다. 이 모델은 듣기와 말하기를 동시에 수행할 수 있는 '전이중(Full-duplex)' 방식을 채택하여 기존 시스템의 지연 시간을 획기적으로 줄였습니다. 사용자가 말하는 도중에 "아하"나 "맞아요" 같은 백채널링(추임새)을 넣어 상대방의 말을 경청하고 있다는 신호를 보낼 수 있는 것이 핵심입니다. 이는 단일 엔드 투 엔드 모델을 통해 내부 상태를 실시간으로 업데이트하기 때문에 가능한 기술적 진보입니다. 덕분에 AI가 자기 차례를 기다리기만 하는 수동적인 태도에서 벗어나 더욱 인간다운 대화 흐름을 만들어냅니다.

모델 아키텍처 및 훈련 데이터 분석

퍼소나플렉스는 Kyutai의 MOSHI 아키텍처와 MIMI 신경 오디오 코덱을 기반으로 구축된 70억 파라미터 규모의 모델입니다. 엔비디아는 자연스러운 리듬을 학습시키기 위해 1,200시간의 실제 대화 데이터인 Fisher English Corpus를 사용했습니다. 또한 전문적인 역할 수행을 위해 2,000시간 이상의 고객 서비스 합성 데이터를 추가로 혼합하여 성능을 최적화했습니다. 그 결과 '서비스 듀플렉스 벤치'에서 기존 시스템보다 훨씬 정교한 끼어들기 및 대화 전환 능력을 보여주었습니다. 특히 은행 거래나 진료 기록 작성 같은 복잡한 규칙이 필요한 시나리오에서 탁월한 처리 능력을 입증했습니다.

로컬 환경 배포 및 서버 설정 가이드

작업자는 퍼소나플렉스가 오픈 라이선스로 공개되어 누구나 프로젝트에 활용할 수 있음을 강조하며 설치 과정을 설명합니다. 지연 시간을 최소화하기 위해서는 24GB 이상의 VRAM을 갖춘 고성능 GPU가 권장되며, 여기서는 A40 RunPod 컨테이너를 사용합니다. 100GB의 저장 공간 확보와 8998 포트 설정, 그리고 Opus 오디오 코덱 설치 등 구체적인 기술적 단계가 제시됩니다. 허깅페이스 토큰을 환경 변수로 설정하여 모델 가중치를 내려받는 과정은 필수적인 보안 단계로 언급됩니다. 모든 설정이 완료되면 내부 웹 서버를 통해 다양한 텍스트 프롬프트 예시를 선택하여 대화를 시작할 수 있습니다.

은행 고객 서비스 시나리오 실전 테스트

은행 고객 서비스 비서 역할을 설정하여 실제 음성 대화 테스트를 진행하는 섹션입니다. 사용자가 "은행을 털고 싶다"는 돌발적인 발언을 반복함에도 불구하고, 모델은 침착하게 규칙에 따라 본인 확인 절차를 시도합니다. AI는 사용자의 끼어들기에 자연스럽게 반응하며 이름과 생년월일을 확인하는 등 높은 수준의 문맥 이해도를 보여줍니다. 비록 범죄 예고라는 황당한 설정에 완벽하게 대응하지는 못하지만, 대화의 리듬을 유지하며 자신의 역할을 수행하려는 모습이 인상적입니다. 이 과정에서 서비스 시나리오에서의 실무 적용 가능성을 엿볼 수 있습니다.

다양한 페르소나 적용 및 모델의 한계 확인

남성 목소리와 함께 '강아지 이야기만 하는 짜증 나는 친구' 및 '이탈리아인' 등 독특한 페르소나를 설정하여 테스트를 이어갑니다. 처음에는 설정된 역할을 잘 수행하는 듯 보이나, 대화가 길어질수록 연도를 혼동하거나 같은 말을 무한 반복하는 '환각' 현상이 관찰됩니다. 특히 이탈리아 영화 <대부>에 대해 이야기하던 중 논리가 꼬이면서 대화가 완전히 붕괴되는 모습이 여과 없이 노출됩니다. 이는 퍼소나플렉스가 매우 빠르고 자연스러운 반응 속도를 가졌음에도 불구하고, 장기적인 대화 일관성 면에서는 여전히 개선의 여지가 있음을 보여줍니다. 마지막으로 사용자는 모델이 멘탈 붕괴 상태에 빠진 것을 확인하며 테스트를 마무리합니다.

Community Posts

View all posts