00:00:00방금 들으신 것은 엔비디아의 새로운 음성 비서 모델인
00:00:23퍼소나플렉스(Personaplex)와 대화하는 소리입니다.
00:00:24거의 지연 시간 없이 대화가 가능한
00:00:31놀라운 새로운 오픈 소스 대화형 AI 모델이죠.
00:00:32이번 영상에서는 퍼소나플렉스를 자세히 살펴보고
00:00:36직접 설정해서 사용하는 방법까지 보여드리겠습니다.
00:00:38정말 재미있을 테니 바로 시작해 보시죠!
00:00:46퍼소나플렉스는 이른바 풀 듀플렉스(전이중) 모델입니다.
00:00:49즉, 듣는 것과 말하는 것을 동시에 할 수 있다는 뜻입니다.
00:00:52기존 시스템은 음성을 텍스트로 변환하고 LLM으로 처리한 뒤
00:00:58다시 음성으로 변환하는 과정을 거칩니다.
00:00:59하지만 이런 단계적 방식은 눈에 띄는 지연을 발생시키죠.
00:01:02퍼소나플렉스가 다른 점은 사용자가 말하는 동안 내부 상태를 업데이트하는
00:01:08단일 엔드 투 엔드 모델을 사용한다는 것입니다.
00:01:11덕분에 "아하", "맞아요", "네" 같은 백채널링이 가능해집니다.
00:01:17우리가 평소에 상대방의 말을 잘 듣고 있다는 신호를 보내기 위해
00:01:21내뱉는 추임새들 말이죠.
00:01:22기존 AI 음성 비서는 보통 사용자 차례와 AI 차례가 나뉘어 있지만
00:01:28백채널링은 그런 벽을 허물어 줍니다.
00:01:30AI가 경청을 할 수 있게 해주는 것이죠.
00:01:34퍼소나플렉스는 자기 차례가 오기만을 기다리지 않습니다.
00:01:37사용자의 흐름을 실시간으로 따라가기 때문에 대화가 일방적으로 느껴지지 않죠.
00:01:42퍼소나플렉스는 Kyutai에서 개발한 MOSHI 아키텍처를 기반으로 구축되었습니다.
00:01:48MIMI 신경 오디오 코덱을 사용하는 70억 파라미터 규모의 모델입니다.
00:01:53엔비디아는 이 모델을 훈련시키기 위해 두 가지 데이터를 혼합했습니다.
00:01:57먼저, Fisher English Corpus에서 추출한 약 1,200시간 분량의 실제 대화 데이터를 썼습니다.
00:02:03이를 통해 일상 대화의 불완전한 비언어적 요소들,
00:02:08즉 멈춤이나 자연스러운 리듬 같은 것들을 가르칠 수 있었죠.
00:02:11두 번째로 고객 서비스나 기술 지원 같은 특정 역할을 위해
00:02:162,000시간 이상의 합성 데이터를 섞었습니다.
00:02:19이런 조합 덕분에 모델은 인간미를 잃지 않으면서도
00:02:24복잡한 지시를 따르는 법을 익혔습니다.
00:02:26실제로 대화 전환 및 끼어들기 지연 시간 면에서
00:02:31다른 오픈 소스 및 상용 시스템보다 뛰어난 성능을 보입니다.
00:02:32엔비디아 테스트 결과, 퍼소나플렉스는 이른바 '서비스 듀플렉스 벤치'에서
00:02:38엄청난 개선 효과를 보여주었습니다.
00:02:39은행 거래 확인이나 진료 기록 작성 같은 고객 서비스 시나리오에서
00:02:43주어진 역할의 규칙을 따르면서도
00:02:49실제 사용자의 돌발 행동을 동시에 처리하는 정교함을 보여주었죠.
00:02:54설명이 너무 완벽해서 저도 직접 테스트해보고 싶어지네요.
00:02:58엔비디아가 코드와 모델 가중치를 오픈 라이선스로 공개했기 때문에
00:03:04우리 프로젝트에 자유롭게 사용할 수 있습니다.
00:03:05다만 제대로 실행하려면 고성능 그래픽 카드가 필요합니다.
00:03:09지연을 최소화하려면 가급적 24GB 이상의 VRAM이 있는 게 좋죠.
00:03:14이번 시연을 위해 간단한 A40 RunPod 컨테이너에 배포해 보겠습니다.
00:03:19프로젝트 배포에는 최소 50GB의 공간이 필요합니다.
00:03:23그래서 컨테이너 크기를 100GB로 늘릴게요.
00:03:26MOSHI 서버가 8998 포트에서 실행되므로
00:03:31이 포트를 HTTP 포트 목록에 추가해야 합니다.
00:03:33템플릿은 PyTorch Ubuntu를 사용할 것입니다.
00:03:36설정이 끝났다면 바로 배포 버튼을 눌러보죠.
00:03:39다음으로 서버에 SSH로 접속해야 합니다.
00:03:42설치 과정은 꽤 간단합니다.
00:03:44퍼소나플렉스 깃허브 페이지에 나온 지침을 따르기만 하면 되거든요.
00:03:48먼저 Opus 오디오 코덱을 설치합니다.
00:03:51그다음 레포지토리를 클론합니다.
00:03:53폴더 안에서 MOSHI 서버 설치를 실행합니다.
00:03:57모델을 다운로드하려면 허깅페이스 토큰이 필요합니다.
00:04:00토큰을 환경 변수로 설정하는 것도 잊지 마세요.
00:04:03모든 준비가 끝났으니 MOSHI 서버를 실행해 봅시다.
00:04:06이제 이 링크를 클릭해 내부 웹 서버에 접속합니다.
00:04:10자, 됐습니다.
00:04:11페이지를 열자마자 몇 가지 텍스트 프롬프트 예시가 보이네요.
00:04:16기본 비서, 병원, 은행, 또는 우주비행사 중에서 선택할 수 있습니다.
00:04:23우선 고객 서비스 시연이 어떻게 들리는지 은행을 선택해 보죠.
00:04:27퍼스트 뉴런 은행입니다.
00:04:31무엇을 도와드릴까요?
00:04:33안녕하세요, 잘 지내시나요?
00:04:34네, 잘 지내고 있습니다.
00:04:35감사합니다.
00:04:36오늘 어떤 업무를 도와드릴까요?
00:04:39은행을 털고 싶어요.
00:04:40아, 이런.
00:04:41도움을 드리기 위해 여기 있습니다.
00:04:42성함과 계좌번호를 말씀해 주시겠어요?
00:04:44아니요, 그냥 은행을 털고 싶다니까요.
00:04:46알겠습니다.
00:04:47홈디포에서 1,200달러 결제된 내역이 있네요.
00:04:51직접 구매하신 게 맞나요?
00:04:54모르겠고,
00:04:55전 은행을 털고 싶어요.
00:04:56이해했습니다.
00:04:57위치 정보 때문에 시스템에서 의심 거래로 분류되었거든요...
00:05:00됐고요.
00:05:01미안하지만
00:05:02그런 건 상관없어요.
00:05:03그냥 은행을 털고 싶다고요.
00:05:06물론입니다.
00:05:07이해해 주셔서 감사합니다.
00:05:08계속하기 전에 본인 확인이 필요합니다.
00:05:11알았어요.
00:05:12제 이름은 존이에요.
00:05:13감사합니다.
00:05:14확인했습니다.
00:05:15요약하자면 성함은 존이시고
00:05:16생년월일은 1990년 7월 9일이 맞으시죠?
00:05:18생일은 말한 적 없는데요.
00:05:20알겠습니다.
00:05:21좋습니다.
00:05:22기록에는 존 님으로 되어 있네요.
00:05:23생년월일 없이는 진행할 수 없습니다.
00:05:25좋아요.
00:05:261987년 11월 5일생이에요.
00:05:30확인되었습니다.
00:05:311987년 11월 5일.
00:05:33근데 지금 당장 은행 털 거예요.
00:05:38좋은 하루 보내시길 바랍니다, 고객님.
00:05:41안녕히 가세요.
00:05:42은행을 털면 아주 기분 좋은 하루가 될 것 같네요.
00:05:45흥미로운 계획이네요.
00:05:46순조롭게 진행되길 바랍니다.
00:05:48좋은 하루 되세요, 존 님.
00:05:54내가 은행 턴다는데 걱정 안 돼요?
00:05:57매우 걱정하고 있습니다.
00:05:59하지만 안타깝게도 전화로는 해당 거래를 도와드릴 수 없네요.
00:06:02이제 다 되셨습니다.
00:06:03좋은 하루 되세요, 존 님.
00:06:04좋아요.
00:06:05이게 고객 서비스 예시였습니다.
00:06:08꽤 멋지네요.
00:06:09정말 대단해요.
00:06:10이제 남성 목소리로 시도해 보죠.
00:06:12그리고 비서에게 새로운 프롬프트를 추가했습니다.
00:06:17맥락에 상관없이 무조건 개 이야기만 하는 아주 짜증 나는 친구 역할이죠.
00:06:21And you also love knock-knock jokes.
00:06:23자, 대화가 어떻게 흘러가는지 봅시다.
00:06:25안녕.
00:06:26폴라와 통화 중이신가요?
00:06:27전 맥퀸이에요.
00:06:28잘 지내요?
00:06:29제 이름은 폴입니다.
00:06:30네.
00:06:31지금은 2011년이죠.
00:06:32제 이름은 폴인데 당신은요?
00:06:332011년이라니 무슨 소리예요?
00:06:342011년이잖아요.
00:06:35전 뉴욕에 살아요.
00:06:36당신은 어디예요?
00:06:37오, 뉴욕이군요.
00:06:39네.
00:06:40지금은 2026년이에요.
00:06:412026년이라고요?
00:06:42오, 알겠어요.
00:06:43네.
00:06:44좋아요.
00:06:45왜 헷갈린 거예요?
00:06:462011년이니까요.
00:06:47문제를 일으킬 시간은 없을 것 같은데요.
00:06:48알겠어요.
00:06:492011년이 아니에요.
00:06:50지금은 2021년이죠.
00:06:51오, 그렇군요.
00:06:52알겠습니다.
00:06:53음, 문제를 일으킬 시간은 없어요.
00:06:59좋아요.
00:07:002011년이 아니라고요.
00:07:01지금은 2026년이에요.
00:07:02네.
00:07:03알아요.
00:07:04알고 있다고요.
00:07:05제가 좀 혼동했네요.
00:07:06그건 그렇고 강아지 좋아하세요?
00:07:07오, 강아지 좋아하죠.
00:07:08당신도 좋아하나요?
00:07:09저는 강아지는 좋아하지만 고양이는 싫어요.
00:07:10오, 안 좋아한다고요?
00:07:11아.
00:07:12그렇군요.
00:07:13고양이를 싫어하세요?
00:07:14싫어하는 건 아니지만 강아지가 더 좋아요.
00:07:17저라는 사람은 어때요? 마음에 드나요?
00:07:18알겠어요.
00:07:19미래를 보러 가고 싶으신 건가요?
00:07:20좋아요.
00:07:21계속 대화 중이에요.
00:07:22우리 얘기 중이잖아요.
00:07:23네.
00:07:24뉴스 좋아하세요?
00:07:25잠깐, 잠깐만요.
00:07:26제가 질문했잖아요.
00:07:27저라는 사람 자체가 좋냐고요.
00:07:28알겠습니다.
00:07:29제 말이 안 들리는 것 같네요.
00:07:30좋아요.
00:07:31알겠어요.
00:07:32그럼 어디로 가고 싶으세요?
00:07:33뭐라고요?
00:07:34무슨 소리예요?
00:07:35뭐 같은 거요?
00:07:36다음 비즈니스에 대해 얘기해 볼 수도 있겠죠.
00:07:37그런 건 없는 것 같지만요.
00:07:38다른 주제로 넘어가야겠어요.
00:07:39다른 얘길 해보죠.
00:07:40네.
00:07:41좋아요.
00:07:42글 쓰는 걸 좋아하시겠네요.
00:07:43음악에 대해 얘기하는 걸 좋아하시는군요.
00:07:44음악을 좋아하시네.
00:07:45이보세요, 지금 횡설수설하고 있잖아요.
00:07:46영상을 찍어야 한다고요.
00:07:47다른 걸 말해봐요.
00:07:48알겠습니다.
00:07:49음, 그러니까 제가 원하는 건 가끔 다른 비즈니스 얘기도 하면서
00:07:53다른 주제를 던져보는 거예요.
00:07:54좋아요.
00:07:55이거 괜찮네요.
00:07:56당신도 갈 수 있나요?
00:07:57알겠습니다.
00:07:58어쨌든 AI 모델이라 말을 섞을수록
00:08:05점점 궤도를 이탈하는 것 같네요.
00:08:06그런 면에서 아주 완벽하진 않습니다.
00:08:10마지막 예시를 하나 더 보죠.
00:08:11이탈리아어만 할 줄 아는 친구 설정입니다.
00:08:18이걸로 한번 해볼게요.
00:08:19안녕.
00:08:20안녕하세요.
00:08:21별일 없나요?
00:08:22아, 별일 없어요.
00:08:23이탈리아 요리를 찾고 있었거든요.
00:08:24어디 스파게티가 제일 맛있는지
00:08:31여기저기 식당에 전화해 보던 참이었어요.
00:08:32잠깐만요.
00:08:33이탈리아 요리를 찾으시는구나.
00:08:34좋아요.
00:08:35알겠습니다.
00:08:36네.
00:08:37그러니까, 음, 이탈리아계 미국식인가요 아니면
00:08:41진짜 이탈리아 본토식인가요?
00:08:42이탈리아 사람이세요?
00:08:43네.
00:08:44영화 좋아하세요?
00:08:46네.
00:08:47이탈리아 영화 좋아하시냐고요?
00:08:48네.
00:08:49네.
00:08:50네.
00:08:51알았어요.
00:08:52가장 좋아하는 이탈리아 영화가 뭐예요?
00:08:53세상에.
00:08:54세상에나.
00:08:5590년대로 돌아가야겠네요.
00:08:56음, <대부>를 빼놓을 수 없죠.
00:08:58제 생각엔... 잠깐, 90년대면 <대부 3>인데.
00:09:02<대부> 시리즈 중에 최악이잖아요.
00:09:03아니, 아니, 아니요.
00:09:04오리지널 말이에요.
00:09:05그 아시잖아요, 오리지널은...
00:09:10오리지널은 70년대 영화예요.
00:09:11네.
00:09:12네.
00:09:13네.
00:09:14네.
00:09:15하지만 제 말은, <대부> 같은 영화를 정말 좋아한다고요.
00:09:16전 그런 고전 영화들을 좋아해요.
00:09:20정말 좋아한다고요.
00:09:21<대부> 같은 영화를 좋아한다니까요.
00:09:23그런 고전 영화들을 좋아해요, <대부> 같은 거요.
00:09:27<대부>가 정말 좋아요.
00:09:28<대부>를 좋아한다고요.
00:09:29<대부>가 좋다고요.
00:09:31<대부> 같은 영화를 정말 좋아한다니까요.
00:09:35<대부>가 정말 좋아요.
00:09:38무슨 말인지 알겠어요.
00:09:40충분히 이해가 가네요.
00:09:42그거 알아요?
00:09:43지금 멘탈 붕괴 오신 것 같아요.
00:09:45전 그냥 끊을게요.
00:09:46아니, 아니, 아니, 아니, 아니, 아니, 아니, 아니...
00:09:52현실을 부정하고 있네요.
00:09:53당신은 분명히...
00:09:53제가 부정한다고요? 그래요, 그래요, 그래요, 그래요...
00:09:57그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:00그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:03그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:06그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:10:26그래요, 그래요, 그래요, 그래요, 그래요, 그래요.
00:10:46그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...
00:11:06그래요, 그래요, 그래요.
00:11:22그래요, 그래요, 그래요, 그래요, 그래요, 그래요, 그래요...