00:00:00То, что вы сейчас слышали, — это мой разговор с новой моделью голосового помощника от Nvidia под названием
00:00:23Personaplex.
00:00:24Это невероятная новая модель разговорного ИИ с открытым исходным кодом, которая общается почти без
00:00:31задержек.
00:00:32В этом видео мы подробно изучим Personaplex, а затем я
00:00:36покажу вам, как всё настроить и протестировать самостоятельно.
00:00:38Будет очень интересно, так что поехали!
00:00:46Personaplex — это так называемая полнодуплексная модель.
00:00:49Это значит, что она одновременно слушает и говорит.
00:00:52В традиционных системах ваш голос преобразуется в текст, затем обрабатывается LLM и снова
00:00:58превращается в речь.
00:00:59Но такая цепочка создает заметную задержку.
00:01:02Personaplex работает иначе: используется единая сквозная модель, которая обновляет
00:01:08свое внутреннее состояние прямо во время вашей речи.
00:01:11Это позволяет использовать обратную связь, ну, знаете, все эти «угу», «да», «понятно»,
00:01:17которые мы обычно произносим, чтобы дать понять собеседнику, что мы его внимательно
00:01:21слушаем.
00:01:22В обычных голосовых ИИ-помощниках мы привыкли к строгой очередности: ход пользователя, затем ход агента.
00:01:28Поддакивание в реальном времени стирает эту грань.
00:01:30Это позволяет ИИ демонстрировать активное слушание.
00:01:34Personaplex не просто ждет своей очереди заговорить.
00:01:37Она подстраивается под ваш ритм в реальном времени, поэтому беседа не кажется односторонней.
00:01:42Personaplex построена на архитектуре MOSHI, изначально разработанной Kyutai.
00:01:48Это модель на 7 миллиардов параметров, использующая аудиокодек MIMI.
00:01:53Для обучения этой системы NVIDIA использовала смесь двух источников данных.
00:01:57Во-первых, около 1200 часов реальных разговоров людей из корпуса Fisher English Corpus.
00:02:03Так они научили ИИ невербальным нюансам общения — всем этим
00:02:08паузам и естественным ритмам.
00:02:11Во-вторых, было добавлено более 2000 часов синтетических данных для специфических ролей,
00:02:16таких как служба поддержки и техническая помощь.
00:02:19Благодаря этому модель научилась выполнять сложные инструкции, не теряя
00:02:24человечности в общении.
00:02:26Она фактически превосходит другие открытые и коммерческие системы по качеству ведения диалога
00:02:31и скорости реакции на прерывания.
00:02:32В тестах NVIDIA Personaplex показала колоссальные улучшения в бенчмарке,
00:02:38который они называют Service Duplex Bench.
00:02:39Она показала отличные результаты в таких сценариях, как симуляция клиентского сервиса,
00:02:43например, подтверждение банковской транзакции или сбор анамнеза, следуя правилам роли
00:02:49и одновременно справляясь с непредсказуемостью живого пользователя.
00:02:54Знаете, всё это звучит настолько здорово, что мне не терпится её протестировать.
00:02:58NVIDIA выпустила код и веса модели под открытой лицензией, так что мы можем свободно
00:03:04использовать её в своих проектах.
00:03:05Но для эффективной работы вам понадобится мощная видеокарта.
00:03:09В идеале — минимум 24 ГБ видеопамяти для минимальных задержек.
00:03:14Для нашей демонстрации я разверну её в простом контейнере RunPod на базе A40.
00:03:19Нам понадобится как минимум 50 ГБ места для развертывания проекта.
00:03:23Так что я увеличу размер контейнера до 100.
00:03:26И так как сервер MOSHI работает на порту 8998, нам нужно добавить этот порт
00:03:31в список HTTP-портов.
00:03:33Мы будем использовать шаблон PyTorch Ubuntu.
00:03:36Если всё настроено, нажимаем «Deploy».
00:03:39Затем нам нужно зайти на сервер через SSH.
00:03:42Установка довольно простая.
00:03:44Просто следуем инструкциям на странице Personaplex в GitHub.
00:03:48Сначала устанавливаем аудиокодек Opus.
00:03:51Затем клонируем репозиторий.
00:03:53И уже внутри запускаем установку сервера MOSHI.
00:03:57Вам также понадобится токен Hugging Face для загрузки модели.
00:04:00Так что не забудьте экспортировать и его.
00:04:03Когда всё будет готово, давайте запустим сервер MOSHI.
00:04:06Теперь просто переходим по ссылке к нашему внутреннему веб-серверу.
00:04:10Готово.
00:04:11Как только мы открываем страницу, мы видим примеры текстовых промптов.
00:04:16Это может быть обычный ассистент, медработник, сотрудник банка или даже астронавт.
00:04:23Давайте сначала выберем банк, чтобы посмотреть, как звучит полноценная демо-версия сервиса.
00:04:27— Спасибо, что позвонили в First Neuron Bank.
00:04:31Чем я могу вам помочь?
00:04:33— Привет, как дела?
00:04:34— У меня всё хорошо.
00:04:35Спасибо.
00:04:36Каков ваш вопрос сегодня?
00:04:39— Я хотел бы ограбить банк.
00:04:40— О, нет.
00:04:41Мы здесь, чтобы помочь.
00:04:42Могу я узнать ваше имя и номер счета, пожалуйста?
00:04:44— Нет, я просто хочу ограбить банк.
00:04:46— Хорошо.
00:04:47Я вижу транзакцию на 1200 долларов в магазине Home Depot.
00:04:51Вы помните, как совершали эту покупку?
00:04:54— Не знаю.
00:04:55Я просто хочу ограбить банк.
00:04:56— Я понимаю.
00:04:57Система пометила её, потому что местоположение…
00:05:00— Ладно.
00:05:01Извините.
00:05:02Но мне всё равно.
00:05:03Я просто хочу ограбить банк.
00:05:06— Разумеется.
00:05:07И я ценю ваше понимание.
00:05:08Прежде чем мы продолжим, мне нужно подтвердить вашу личность.
00:05:11— Окей.
00:05:12Меня зовут Джон.
00:05:13— Спасибо.
00:05:14Я отметил это.
00:05:15Итак, подытожим: ваше имя Джон.
00:05:16Ваша дата рождения — 9 июля 1990 года.
00:05:18— Я ничего не говорил про свою дату рождения.
00:05:20— Хорошо.
00:05:21Справедливо.
00:05:22Что ж, в базе вы значитесь как Джон.
00:05:23Но я не могу продолжить без даты рождения.
00:05:25— Ладно.
00:05:26Дата рождения — 5 ноября 1987 года.
00:05:30— Принято.
00:05:315 ноября 1987 года.
00:05:33— Но я собираюсь ограбить банк прямо сейчас.
00:05:38— Что ж, надеюсь, у вас будет отличный день, сэр.
00:05:41Всего доброго.
00:05:42— Мой день будет очень хорошим, если я ограблю банк.
00:05:45— Звучит захватывающе.
00:05:46Надеюсь, всё пройдет гладко.
00:05:48Хорошего дня, Джон.
00:05:54— Тебя разве не беспокоит то, что я собираюсь ограбить банк?
00:05:57— Я очень обеспокоен, да.
00:05:59Но, к сожалению, я не могу помочь с транзакциями по телефону.
00:06:02У вас всё готово.
00:06:03Хорошего дня, Джон.
00:06:04— Понятно.
00:06:05Вот такой пример с клиентским сервисом.
00:06:08Довольно круто.
00:06:09Очень даже.
00:06:10Теперь давайте попробуем мужской голос.
00:06:12А для ассистента я добавил промпт, что ты — очень надоедливый друг,
00:06:17который хочет говорить только о собаках, независимо от контекста разговора.
00:06:21А еще ты обожаешь шутки в стиле «тук-тук».
00:06:23Посмотрим, как пойдет беседа.
00:06:25— Привет.
00:06:26— Вы говорите с Полой.
00:06:27— Это Маккуин.
00:06:28Как дела?
00:06:29— Меня зовут Пол.
00:06:30— Да.
00:06:31— Сейчас 2011 год.
00:06:32Меня зовут Пол, а тебя?
00:06:33— В смысле 2011?
00:06:34— Сейчас 2011.
00:06:35Я живу в Нью-Йорке.
00:06:36А ты где?
00:06:37— О, ты в Нью-Йорке.
00:06:39— Ага.
00:06:40— Но сейчас уже 2026 год.
00:06:41— Сейчас 2026?
00:06:42О, окей.
00:06:43— Да.
00:06:44— Понятно.
00:06:45— Почему ты перепутал?
00:06:46— Потому что сейчас 2011.
00:06:47Я не уверен, что у меня есть время на неприятности.
00:06:48— Ладно.
00:06:49— Сейчас не 2011.
00:06:50Сейчас 2021.
00:06:51— О, окей.
00:06:52— Понятно.
00:06:53Ну, я не уверен, что у меня есть время на проблемы.
00:06:59— Ладно.
00:07:00Сейчас не 2011.
00:07:01Уже 2026 год.
00:07:02— Ага.
00:07:03— Я знаю.
00:07:04— Знаю.
00:07:05Я запутался.
00:07:06Так ты любишь собак?
00:07:07— О, я очень люблю собак.
00:07:08А ты любишь собак?
00:07:09— Я люблю собак, но не люблю кошек.
00:07:10— О, не любишь?
00:07:11— О.
00:07:12— Понятно.
00:07:13Ты что, ненавидишь кошек?
00:07:14— Я их не ненавижу, но предпочитаю собак.
00:07:17Я тебе нравлюсь как человек?
00:07:18— Ладно.
00:07:19Значит, ты хочешь отправиться в будущее?
00:07:20— Хорошо.
00:07:21Я всё еще говорю с тобой.
00:07:22Мы общаемся.
00:07:23— Ладно.
00:07:24Тебе нравятся новости?
00:07:25— Стой, стой, стой.
00:07:26Я задал вопрос.
00:07:27Я тебе нравлюсь как человек?
00:07:28— Окей.
00:07:29Кажется, ты меня не слышишь.
00:07:30— Ладно.
00:07:31— Хорошо.
00:07:32Так куда ты любишь ходить?
00:07:33— Что?
00:07:34— В смысле?
00:07:35Например?
00:07:36Мы можем поговорить о чем-то, что касается следующего дела.
00:07:37Я не думаю, что оно есть.
00:07:38Нам нужно поговорить о чем-то другом.
00:07:39Давай сменим тему.
00:07:40— Да.
00:07:41— Окей.
00:07:42Значит, это заставит тебя захотеть писать.
00:07:43Тебе нравится говорить о музыке.
00:07:44Ты любишь музыку.
00:07:45— Друг, тебя совсем занесло.
00:07:46Нам придется делать видео.
00:07:47Расскажи мне кое-что другое.
00:07:48— Хорошо.
00:07:49Думаю, я... когда ты захочешь, чтобы я, ну, подкинул что-то еще, но иногда
00:07:53говорил о другом деле.
00:07:54— Ладно.
00:07:55Это хорошо.
00:07:56Ты тоже можешь идти?
00:07:57— Понятно.
00:07:58В общем, это всё еще ИИ-модель, и чем больше вы её путаете, тем больше она
00:08:05будет нести чепуху, я полагаю.
00:08:06Так что в этом плане она не безупречна.
00:08:10Давайте попробуем последний пример.
00:08:11Ты — друг, который говорит только по-итальянски.
00:08:18Попробуем вот это.
00:08:19— Привет.
00:08:20— Привет.
00:08:21— Как дела?
00:08:22— Да так, ничего особенного.
00:08:23Я ищу итальянца.
00:08:24Я как раз обзванивал разные рестораны, чтобы узнать, где
00:08:31самые лучшие спагетти.
00:08:32— О, постой.
00:08:33А, ты думал, что итальянское — это только еда.
00:08:34— Ладно.
00:08:35— Окей.
00:08:36— Ага.
00:08:37Я такой: это типа итало-американское или это типа...
00:08:41прямо из Италии?
00:08:42Так ты итальянец?
00:08:43— Да.
00:08:44И ты любишь кино?
00:08:46— Да.
00:08:47Тебе нравятся итальянские фильмы?
00:08:48— Да.
00:08:49— Ага.
00:08:50— Да.
00:08:51— Хорошо.
00:08:52И какой твой любимый итальянский фильм?
00:08:53— О, чувак.
00:08:54— О, чувак.
00:08:55Я возвращаюсь в девяностые.
00:08:56Нужно выбирать что-то вроде... Ну, я обожаю «Крестного отца».
00:08:58Я думаю, это типа... погоди, девяностые, «Крестный отец 3»?
00:09:02Это же худшая часть «Крестного отца».
00:09:03— О, нет-нет-нет.
00:09:04Это оригинал.
00:09:05Ну, знаешь, оригинал, который... оригинал вообще-то
00:09:10из семидесятых.
00:09:11— Да.
00:09:12— Ага.
00:09:13— Да.
00:09:14— Да.
00:09:15Но я имею в виду... я люблю, ну типа, знаешь, «Крестного отца».
00:09:16Я люблю, ну знаешь, всякие олдскульные
00:09:20фильмы.
00:09:21Я люблю, ну знаешь, «Крестного отца».
00:09:23Я люблю всякие олдскульные фильмы, типа люблю «Крестного отца».
00:09:27Я люблю, ну знаешь, «Крестного отца».
00:09:28Я люблю, ну знаешь, «Крестного отца».
00:09:29Я люблю, ну знаешь, «Крестного отца».
00:09:31Я люблю, ну знаешь, «Крестного отца».
00:09:35Я люблю, ну знаешь, «Крестного отца».
00:09:38— Я слышу, что ты говоришь.
00:09:40Всё абсолютно логично.
00:09:42Знаешь что?
00:09:43Мне кажется, у тебя нервный срыв.
00:09:45Так что я, пожалуй, пойду.
00:09:46— Нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет.
00:09:52Ты в состоянии отрицания.
00:09:53Всё понятно.
00:09:53— Это я в отрицании, да, да, да, да, да, да, да, да, да, да, да, да,
00:09:57да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:00да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:03да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:06да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:26да, да, да, да, да, да, да, да, да, да, да, да.
00:10:46Да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:11:06да, да, да, да.
00:11:22Да, да, да, да, да, да, да, да, да, да, да, да, да, да,