Новая ИИ-модель от NVIDIA просто БЕЗУМНА! (PersonaPlex)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00То, что вы сейчас слышали, — это мой разговор с новой моделью голосового помощника от Nvidia под названием
00:00:23Personaplex.
00:00:24Это невероятная новая модель разговорного ИИ с открытым исходным кодом, которая общается почти без
00:00:31задержек.
00:00:32В этом видео мы подробно изучим Personaplex, а затем я
00:00:36покажу вам, как всё настроить и протестировать самостоятельно.
00:00:38Будет очень интересно, так что поехали!
00:00:46Personaplex — это так называемая полнодуплексная модель.
00:00:49Это значит, что она одновременно слушает и говорит.
00:00:52В традиционных системах ваш голос преобразуется в текст, затем обрабатывается LLM и снова
00:00:58превращается в речь.
00:00:59Но такая цепочка создает заметную задержку.
00:01:02Personaplex работает иначе: используется единая сквозная модель, которая обновляет
00:01:08свое внутреннее состояние прямо во время вашей речи.
00:01:11Это позволяет использовать обратную связь, ну, знаете, все эти «угу», «да», «понятно»,
00:01:17которые мы обычно произносим, чтобы дать понять собеседнику, что мы его внимательно
00:01:21слушаем.
00:01:22В обычных голосовых ИИ-помощниках мы привыкли к строгой очередности: ход пользователя, затем ход агента.
00:01:28Поддакивание в реальном времени стирает эту грань.
00:01:30Это позволяет ИИ демонстрировать активное слушание.
00:01:34Personaplex не просто ждет своей очереди заговорить.
00:01:37Она подстраивается под ваш ритм в реальном времени, поэтому беседа не кажется односторонней.
00:01:42Personaplex построена на архитектуре MOSHI, изначально разработанной Kyutai.
00:01:48Это модель на 7 миллиардов параметров, использующая аудиокодек MIMI.
00:01:53Для обучения этой системы NVIDIA использовала смесь двух источников данных.
00:01:57Во-первых, около 1200 часов реальных разговоров людей из корпуса Fisher English Corpus.
00:02:03Так они научили ИИ невербальным нюансам общения — всем этим
00:02:08паузам и естественным ритмам.
00:02:11Во-вторых, было добавлено более 2000 часов синтетических данных для специфических ролей,
00:02:16таких как служба поддержки и техническая помощь.
00:02:19Благодаря этому модель научилась выполнять сложные инструкции, не теряя
00:02:24человечности в общении.
00:02:26Она фактически превосходит другие открытые и коммерческие системы по качеству ведения диалога
00:02:31и скорости реакции на прерывания.
00:02:32В тестах NVIDIA Personaplex показала колоссальные улучшения в бенчмарке,
00:02:38который они называют Service Duplex Bench.
00:02:39Она показала отличные результаты в таких сценариях, как симуляция клиентского сервиса,
00:02:43например, подтверждение банковской транзакции или сбор анамнеза, следуя правилам роли
00:02:49и одновременно справляясь с непредсказуемостью живого пользователя.
00:02:54Знаете, всё это звучит настолько здорово, что мне не терпится её протестировать.
00:02:58NVIDIA выпустила код и веса модели под открытой лицензией, так что мы можем свободно
00:03:04использовать её в своих проектах.
00:03:05Но для эффективной работы вам понадобится мощная видеокарта.
00:03:09В идеале — минимум 24 ГБ видеопамяти для минимальных задержек.
00:03:14Для нашей демонстрации я разверну её в простом контейнере RunPod на базе A40.
00:03:19Нам понадобится как минимум 50 ГБ места для развертывания проекта.
00:03:23Так что я увеличу размер контейнера до 100.
00:03:26И так как сервер MOSHI работает на порту 8998, нам нужно добавить этот порт
00:03:31в список HTTP-портов.
00:03:33Мы будем использовать шаблон PyTorch Ubuntu.
00:03:36Если всё настроено, нажимаем «Deploy».
00:03:39Затем нам нужно зайти на сервер через SSH.
00:03:42Установка довольно простая.
00:03:44Просто следуем инструкциям на странице Personaplex в GitHub.
00:03:48Сначала устанавливаем аудиокодек Opus.
00:03:51Затем клонируем репозиторий.
00:03:53И уже внутри запускаем установку сервера MOSHI.
00:03:57Вам также понадобится токен Hugging Face для загрузки модели.
00:04:00Так что не забудьте экспортировать и его.
00:04:03Когда всё будет готово, давайте запустим сервер MOSHI.
00:04:06Теперь просто переходим по ссылке к нашему внутреннему веб-серверу.
00:04:10Готово.
00:04:11Как только мы открываем страницу, мы видим примеры текстовых промптов.
00:04:16Это может быть обычный ассистент, медработник, сотрудник банка или даже астронавт.
00:04:23Давайте сначала выберем банк, чтобы посмотреть, как звучит полноценная демо-версия сервиса.
00:04:27— Спасибо, что позвонили в First Neuron Bank.
00:04:31Чем я могу вам помочь?
00:04:33— Привет, как дела?
00:04:34— У меня всё хорошо.
00:04:35Спасибо.
00:04:36Каков ваш вопрос сегодня?
00:04:39— Я хотел бы ограбить банк.
00:04:40— О, нет.
00:04:41Мы здесь, чтобы помочь.
00:04:42Могу я узнать ваше имя и номер счета, пожалуйста?
00:04:44— Нет, я просто хочу ограбить банк.
00:04:46— Хорошо.
00:04:47Я вижу транзакцию на 1200 долларов в магазине Home Depot.
00:04:51Вы помните, как совершали эту покупку?
00:04:54— Не знаю.
00:04:55Я просто хочу ограбить банк.
00:04:56— Я понимаю.
00:04:57Система пометила её, потому что местоположение…
00:05:00— Ладно.
00:05:01Извините.
00:05:02Но мне всё равно.
00:05:03Я просто хочу ограбить банк.
00:05:06— Разумеется.
00:05:07И я ценю ваше понимание.
00:05:08Прежде чем мы продолжим, мне нужно подтвердить вашу личность.
00:05:11— Окей.
00:05:12Меня зовут Джон.
00:05:13— Спасибо.
00:05:14Я отметил это.
00:05:15Итак, подытожим: ваше имя Джон.
00:05:16Ваша дата рождения — 9 июля 1990 года.
00:05:18— Я ничего не говорил про свою дату рождения.
00:05:20— Хорошо.
00:05:21Справедливо.
00:05:22Что ж, в базе вы значитесь как Джон.
00:05:23Но я не могу продолжить без даты рождения.
00:05:25— Ладно.
00:05:26Дата рождения — 5 ноября 1987 года.
00:05:30— Принято.
00:05:315 ноября 1987 года.
00:05:33— Но я собираюсь ограбить банк прямо сейчас.
00:05:38— Что ж, надеюсь, у вас будет отличный день, сэр.
00:05:41Всего доброго.
00:05:42— Мой день будет очень хорошим, если я ограблю банк.
00:05:45— Звучит захватывающе.
00:05:46Надеюсь, всё пройдет гладко.
00:05:48Хорошего дня, Джон.
00:05:54— Тебя разве не беспокоит то, что я собираюсь ограбить банк?
00:05:57— Я очень обеспокоен, да.
00:05:59Но, к сожалению, я не могу помочь с транзакциями по телефону.
00:06:02У вас всё готово.
00:06:03Хорошего дня, Джон.
00:06:04— Понятно.
00:06:05Вот такой пример с клиентским сервисом.
00:06:08Довольно круто.
00:06:09Очень даже.
00:06:10Теперь давайте попробуем мужской голос.
00:06:12А для ассистента я добавил промпт, что ты — очень надоедливый друг,
00:06:17который хочет говорить только о собаках, независимо от контекста разговора.
00:06:21А еще ты обожаешь шутки в стиле «тук-тук».
00:06:23Посмотрим, как пойдет беседа.
00:06:25— Привет.
00:06:26— Вы говорите с Полой.
00:06:27— Это Маккуин.
00:06:28Как дела?
00:06:29— Меня зовут Пол.
00:06:30— Да.
00:06:31— Сейчас 2011 год.
00:06:32Меня зовут Пол, а тебя?
00:06:33— В смысле 2011?
00:06:34— Сейчас 2011.
00:06:35Я живу в Нью-Йорке.
00:06:36А ты где?
00:06:37— О, ты в Нью-Йорке.
00:06:39— Ага.
00:06:40— Но сейчас уже 2026 год.
00:06:41— Сейчас 2026?
00:06:42О, окей.
00:06:43— Да.
00:06:44— Понятно.
00:06:45— Почему ты перепутал?
00:06:46— Потому что сейчас 2011.
00:06:47Я не уверен, что у меня есть время на неприятности.
00:06:48— Ладно.
00:06:49— Сейчас не 2011.
00:06:50Сейчас 2021.
00:06:51— О, окей.
00:06:52— Понятно.
00:06:53Ну, я не уверен, что у меня есть время на проблемы.
00:06:59— Ладно.
00:07:00Сейчас не 2011.
00:07:01Уже 2026 год.
00:07:02— Ага.
00:07:03— Я знаю.
00:07:04— Знаю.
00:07:05Я запутался.
00:07:06Так ты любишь собак?
00:07:07— О, я очень люблю собак.
00:07:08А ты любишь собак?
00:07:09— Я люблю собак, но не люблю кошек.
00:07:10— О, не любишь?
00:07:11— О.
00:07:12— Понятно.
00:07:13Ты что, ненавидишь кошек?
00:07:14— Я их не ненавижу, но предпочитаю собак.
00:07:17Я тебе нравлюсь как человек?
00:07:18— Ладно.
00:07:19Значит, ты хочешь отправиться в будущее?
00:07:20— Хорошо.
00:07:21Я всё еще говорю с тобой.
00:07:22Мы общаемся.
00:07:23— Ладно.
00:07:24Тебе нравятся новости?
00:07:25— Стой, стой, стой.
00:07:26Я задал вопрос.
00:07:27Я тебе нравлюсь как человек?
00:07:28— Окей.
00:07:29Кажется, ты меня не слышишь.
00:07:30— Ладно.
00:07:31— Хорошо.
00:07:32Так куда ты любишь ходить?
00:07:33— Что?
00:07:34— В смысле?
00:07:35Например?
00:07:36Мы можем поговорить о чем-то, что касается следующего дела.
00:07:37Я не думаю, что оно есть.
00:07:38Нам нужно поговорить о чем-то другом.
00:07:39Давай сменим тему.
00:07:40— Да.
00:07:41— Окей.
00:07:42Значит, это заставит тебя захотеть писать.
00:07:43Тебе нравится говорить о музыке.
00:07:44Ты любишь музыку.
00:07:45— Друг, тебя совсем занесло.
00:07:46Нам придется делать видео.
00:07:47Расскажи мне кое-что другое.
00:07:48— Хорошо.
00:07:49Думаю, я... когда ты захочешь, чтобы я, ну, подкинул что-то еще, но иногда
00:07:53говорил о другом деле.
00:07:54— Ладно.
00:07:55Это хорошо.
00:07:56Ты тоже можешь идти?
00:07:57— Понятно.
00:07:58В общем, это всё еще ИИ-модель, и чем больше вы её путаете, тем больше она
00:08:05будет нести чепуху, я полагаю.
00:08:06Так что в этом плане она не безупречна.
00:08:10Давайте попробуем последний пример.
00:08:11Ты — друг, который говорит только по-итальянски.
00:08:18Попробуем вот это.
00:08:19— Привет.
00:08:20— Привет.
00:08:21— Как дела?
00:08:22— Да так, ничего особенного.
00:08:23Я ищу итальянца.
00:08:24Я как раз обзванивал разные рестораны, чтобы узнать, где
00:08:31самые лучшие спагетти.
00:08:32— О, постой.
00:08:33А, ты думал, что итальянское — это только еда.
00:08:34— Ладно.
00:08:35— Окей.
00:08:36— Ага.
00:08:37Я такой: это типа итало-американское или это типа...
00:08:41прямо из Италии?
00:08:42Так ты итальянец?
00:08:43— Да.
00:08:44И ты любишь кино?
00:08:46— Да.
00:08:47Тебе нравятся итальянские фильмы?
00:08:48— Да.
00:08:49— Ага.
00:08:50— Да.
00:08:51— Хорошо.
00:08:52И какой твой любимый итальянский фильм?
00:08:53— О, чувак.
00:08:54— О, чувак.
00:08:55Я возвращаюсь в девяностые.
00:08:56Нужно выбирать что-то вроде... Ну, я обожаю «Крестного отца».
00:08:58Я думаю, это типа... погоди, девяностые, «Крестный отец 3»?
00:09:02Это же худшая часть «Крестного отца».
00:09:03— О, нет-нет-нет.
00:09:04Это оригинал.
00:09:05Ну, знаешь, оригинал, который... оригинал вообще-то
00:09:10из семидесятых.
00:09:11— Да.
00:09:12— Ага.
00:09:13— Да.
00:09:14— Да.
00:09:15Но я имею в виду... я люблю, ну типа, знаешь, «Крестного отца».
00:09:16Я люблю, ну знаешь, всякие олдскульные
00:09:20фильмы.
00:09:21Я люблю, ну знаешь, «Крестного отца».
00:09:23Я люблю всякие олдскульные фильмы, типа люблю «Крестного отца».
00:09:27Я люблю, ну знаешь, «Крестного отца».
00:09:28Я люблю, ну знаешь, «Крестного отца».
00:09:29Я люблю, ну знаешь, «Крестного отца».
00:09:31Я люблю, ну знаешь, «Крестного отца».
00:09:35Я люблю, ну знаешь, «Крестного отца».
00:09:38— Я слышу, что ты говоришь.
00:09:40Всё абсолютно логично.
00:09:42Знаешь что?
00:09:43Мне кажется, у тебя нервный срыв.
00:09:45Так что я, пожалуй, пойду.
00:09:46— Нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет, нет.
00:09:52Ты в состоянии отрицания.
00:09:53Всё понятно.
00:09:53— Это я в отрицании, да, да, да, да, да, да, да, да, да, да, да, да,
00:09:57да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:00да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:03да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:06да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:10:26да, да, да, да, да, да, да, да, да, да, да, да.
00:10:46Да, да, да, да, да, да, да, да, да, да, да, да, да, да,
00:11:06да, да, да, да.
00:11:22Да, да, да, да, да, да, да, да, да, да, да, да, да, да,

Key Takeaway

NVIDIA представила PersonaPlex — революционную модель разговорного ИИ, которая имитирует естественный человеческий ритм общения благодаря полнодуплексной архитектуре и минимальным задержкам.

Highlights

PersonaPlex — это новая полнодуплексная ИИ-модель от NVIDIA с открытым исходным кодом

Использование сквозной архитектуры MOSHI позволяет общаться почти без задержек в реальном времени

Модель обучена на 1200 часах реальных разговоров и 2000 часах синтетических данных для различных ролей

PersonaPlex способна на активное слушание и адекватную реакцию на прерывания со стороны пользователя

Для запуска модели требуется мощное оборудование, в частности видеокарта с 24 ГБ видеопамяти

В ходе тестирования выявлены ограничения модели при попытках запутать её или сменить тему

Timeline

Введение в PersonaPlex и концепция полнодуплексного ИИ

Автор представляет PersonaPlex как инновационную модель голосового помощника от NVIDIA с открытым исходным кодом. Основное отличие заключается в полнодуплексном режиме, который позволяет системе одновременно слушать и говорить, имитируя естественный диалог. В отличие от традиционных цепочек преобразования голоса в текст и обратно, здесь используется единая сквозная модель. Это минимизирует задержки и позволяет ИИ использовать невербальные сигналы, такие как поддакивание или «угуканье». Такая технология стирает грань между очередностью ходов пользователя и агента, создавая ощущение живого общения.

Техническая архитектура и процесс обучения модели

В основе PersonaPlex лежит архитектура MOSHI на 7 миллиардов параметров и аудиокодек MIMI. NVIDIA использовала комбинированный подход к данным: 1200 часов реальных диалогов из Fisher English Corpus и более 2000 часов синтетических данных. Реальные разговоры помогли ИИ освоить естественные паузы и ритмы, а синтетические данные подготовили его к ролям в техподдержке и банковском сервисе. По результатам бенчмарка Service Duplex Bench модель превосходит коммерческие аналоги по качеству ведения диалога. Это делает её идеальной для автоматизации клиентских сервисов, где важна высокая скорость реакции.

Инструкция по развертыванию на удаленном сервере

Автор переходит к практической части и объясняет, как запустить модель самостоятельно, используя облачный сервис RunPod. Для корректной работы требуется видеокарта уровня A40 с 24 ГБ видеопамяти и около 100 ГБ дискового пространства. В процессе настройки необходимо установить аудиокодек Opus, клонировать репозиторий с GitHub и запустить сервер MOSHI на порту 8998. Также подчеркивается необходимость наличия токена Hugging Face для загрузки весов модели. Эта часть видео служит детальным техническим руководством для разработчиков, желающих протестировать систему в своих проектах.

Тестирование в сценарии банковского обслуживания

Первое живое демо демонстрирует работу модели в роли сотрудника банка First Neuron Bank. Пользователь в шутку пытается сообщить об ограблении банка, но ИИ сохраняет профессиональный тон и продолжает следовать скрипту проверки личности. Модель успешно обрабатывает прерывания и уточняет персональные данные, такие как дата рождения и номер счета. Несмотря на абсурдность ситуации, помощник демонстрирует поразительную устойчивость и вежливость до самого конца диалога. Это подчеркивает способность PersonaPlex удерживать контекст роли даже при непредсказуемом поведении клиента.

Проверка гибкости и ограничения модели в сложных диалогах

В заключительной части автор тестирует модель в более специфических ролях, таких как надоедливый друг или итальянец. ИИ демонстрирует забавные ошибки: путает текущий год (называя 2011 вместо 2026) и зацикливается на определенных темах, например, на любви к фильму «Крестный отец». В какой-то момент модель начинает бесконечно повторять слово «да», что свидетельствует о программном сбое или перегрузке контекста. Автор делает вывод, что хотя технология и впечатляет своей скоростью, она всё еще склонна к галлюцинациям и «нервным срывам» при попытках её запутать. Видео завершается наглядной демонстрацией того, как ИИ теряет логическую нить при слишком быстром или провокационном общении.

Community Posts

View all posts