00:00:00Это Vibe Voice от Microsoft, и с его помощью я клонировал собственный голос.
00:00:04Это опенсорсный стек для работы с речью, который уже сравнивают с ElevenLabs, Chatterbox и Whisper.
00:00:10Но он работает офлайн и может генерировать 90 минут многоголосого аудио за один проход.
00:00:1590 минут или что-то подобное звучит дико. Так реально ли это использовать разработчикам,
00:00:20или это очередной исследовательский репозиторий, который потихоньку убивает наши GPU? Я прогоню пару демок,
00:00:26а затем мы сравним его с аналогами. У нас постоянно выходят новые видео,
00:00:29так что обязательно подпишитесь.
00:00:31Всё это можно взять в их репозитории или на Hugging Face. Прежде чем переходить к сравнениям,
00:00:40давайте просто взглянем на результаты. Я всё подготовил и запустил заранее,
00:00:45чтобы мы могли сосредоточиться на главном. Я пользовался другими сервисами, так что мне интересно,
00:00:51как звучит Vibe Voice, насколько он стабилен и как получить от него полезный результат.
00:00:56Я протестирую многоголосую генерацию, TTS в реальном времени и клонирование голоса.
00:01:02Вот короткий сценарий в стиле подкаста с тремя спикерами, четкой очередностью реплик и эмоциями.
00:01:08Обычно от демок TTS ждешь, что сначала всё звучит прилично, а потом голос начинает «плыть»,
00:01:14но послушайте, что происходит здесь. Голоса спикеров остаются стабильными,
00:01:18а переходы между ними не разваливаются. Давайте послушаем.
00:01:26Звучит неплохо, правда? Не кажется, что нейронка теряет контекст через 20 секунд.
00:01:41Вот в этом и суть. Microsoft создала это не просто для маленьких проектов.
00:01:46Система заточена под длинную генерацию и работу офлайн. Но при добавлении тегов эмоций
00:01:52всё начинает ломаться. В отличие от того же Chatterbox, здесь эмоции подбираются автоматически по словам,
00:01:58и это работает не очень круто. Мне не понравилось. Тут Chatterbox всё же выигрывает.
00:02:02Но если вы создаете ИИ-подкасты, озвучиваете документы, делаете лонгриды
00:02:07или готовите данные для обучения, эта штука может отлично справиться.
00:02:11Теперь переключимся в режим реального времени. Он работает намного быстрее многоголосого режима,
00:02:16который, честно говоря, генерировал очень долго. Это потоковая передача, подходящая
00:02:22для ответов чат-ботов и голосовых ассистентов. Задержка первого сегмента около 300 мс,
00:02:28что вполне приемлемо. Не самый быстрый результат, что я видел, но всё же. Слушаем.
00:02:32Представьте, что вы пьете горячий шоколад в Японии под цветущей сакурой.
00:02:35Окей. Да, говорят, что система может петь или даже генерировать фоновую музыку. Если поднажать.
00:02:40У меня не вышло. Я пробовал, не сработало. Но вопрос в другом:
00:02:43готов ли этот режим реального времени для продакшена? Вряд ли. Но для экспериментов и агентов — вполне.
00:02:48А теперь самое интересное — клонирование голоса, потому что это было реально круто.
00:02:53Вот как я это настроил. Сначала записал себя на диктофон.
00:02:58Я на Маке. Затем конвертировал файл в WAV и запустил Gradio этой командой.
00:03:04В этом интерфейсе я могу выбрать свой голос как целевой. И всё.
00:03:10Обычная запись. Ожидаешь услышать что-то похожее, но явно фейковое.
00:03:14Послушайте сами. Это мой голос, клонированный через Vibe Voice.
00:03:19Звучит пугающе хорошо. Почти слишком хорошо, учитывая, что я этого не говорил. Сходство
00:03:25поразительное, но если вы меня знаете, то, скорее всего, поймете, что это подделка. По крайней мере, я надеюсь.
00:03:30Результат не идеален, но голос стабилен даже на длинных отрезках. И это большой плюс.
00:03:36Microsoft заявляет, что этот стек справляется с длинной генерацией за один проход,
00:03:41и на практике он заметно стабильнее пайплайнов типа Whisper, когда аудио становится длинным.
00:03:47Если вы хоть раз пробовали клонировать не короткий клип, а что-то серьезное, вы понимаете, почему это важно.
00:03:52Демки впечатлили, клонирование было забавным, но я изучил доку, тикеты и обсуждения —
00:03:56у разработчиков смешанные чувства. Сначала о плюсах, а потом о том, с чем вам придется столкнуться.
00:04:02Плюсы весомые. Во-первых, это работа с длинными текстами. Большинство систем TTS
00:04:08начинают сбоить или звучать монотонно через пару минут. Vibe Voice создан для длинного аудио,
00:04:14и это подтвердилось на тестах. Далее — эффективность и выразительность.
00:04:20Использование низкочастотных токенизаторов позволяет лучше управлять контекстом.
00:04:27А связка диффузии и LLM дает выразительную речь без запредельных вычислений. Сделано по-человечески.
00:04:33Лицензия MIT, работа офлайн. На обычных GPU нужно около 7 ГБ видеопамяти для работы в реальном времени.
00:04:40Код для дообучения прилагается, особенно для ASR. Никаких закрытых экосистем, это здорово.
00:04:47Наконец, здесь структурированный вывод ASR. Огромный плюс.
00:04:53Диаризация спикеров и таймстампы «из коробки» экономят кучу времени при постобработке.
00:04:59Кто строил пайплайны транскрибации, знает, что это дорогого стоит. Теперь о минусах.
00:05:04Это всё еще скорее исследовательский софт. Microsoft убрала часть кода TTS
00:05:11из-за опасений по поводу дипфейков, и это о многом говорит. SDK не идеален и не отполирован.
00:05:17Есть проблемы со звуком: местами проскакивает роботизированная интонация.
00:05:23Иногда темп сбивается, а если спикеров больше двух-трех, качество заметно падает.
00:05:28Разработчики хвалят токенизатор, но ругают скачки потребления видеопамяти. Плюс поддержка языков.
00:05:33Китайский и английский — отлично. Но если нужны другие языки, Vibe Voice пока не про это.
00:05:40И еще один минус: нулевое семантическое понимание. Модель читает текст, но не понимает его.
00:05:46Теги эмоций могут помочь, но они часто глючат.
00:05:51Честно говоря, это потрясающий инструмент для экспериментов, но на долгосрок я не уверен.
00:05:56Теперь главный вопрос: стоит ли тратить на это время, если у вас уже есть рабочие процессы?
00:06:02Как Vibe Voice показывает себя на фоне конкурентов? Начнем с Chatterbox.
00:06:06Я уже делал видео про Chatterbox, и мне он очень понравился.
00:06:11Там задержка была меньше 200 мс, эмоции ярче и короткие реплики агентов звучали лучше.
00:06:16Кажется, что Chatterbox побеждает, но Vibe Voice просто разносит его на длинных дистанциях.
00:06:22Chatterbox рассчитан на монологи до 30 минут, а Vibe Voice справляется с объемом куда лучше.
00:06:28Так что тут есть свои нюансы. Теперь сравним с ElevenLabs.
00:06:35Тут всё просто: ElevenLabs впереди по качеству произношения, UX и мгновенному клонированию.
00:06:42Но Vibe Voice берет ценой. Он бесплатный, офлайновый и с открытым кодом. Это мощный аргумент.
00:06:48Вам не нужно платить за подписку. Если сравнивать с Whisper или CosyVoice,
00:06:54Vibe Voice обходит Whisper на длинных структурированных аудио и звучит выразительнее CosyVoice.
00:07:00Модели на базе Qwen догоняют в плане диалектов, но Vibe Voice всё еще лидер по длине контента.
00:07:06Если вы разработчик, любите опенсорс и вам нужно длинное аудио, Vibe Voice стоит вашего внимания.
00:07:13Если же нужно готовое решение «под ключ» для продакшена, пока можно пройти мимо.
00:07:18Это просто крутой проект для тестов, особенно в части клонирования голоса.
00:07:23Vibe Voice сыроват, но он мощный и многообещающий. Это один из сильнейших опенсорсных стеков
00:07:28для длинной генерации речи за долгое время. Попробуйте демку на Hugging Face, почитайте доку,
00:07:33и увидимся в следующем видео.
00:07:37source audio stacks we've seen for long form AI speech in a long time. Try the Hugging Face demo,
00:07:43read some docs, and we'll see you in another video.