Я клонировал свой голос с помощью модели Microsoft с открытым исходным кодом

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Это Vibe Voice от Microsoft, и с его помощью я клонировал собственный голос.
00:00:04Это опенсорсный стек для работы с речью, который уже сравнивают с ElevenLabs, Chatterbox и Whisper.
00:00:10Но он работает офлайн и может генерировать 90 минут многоголосого аудио за один проход.
00:00:1590 минут или что-то подобное звучит дико. Так реально ли это использовать разработчикам,
00:00:20или это очередной исследовательский репозиторий, который потихоньку убивает наши GPU? Я прогоню пару демок,
00:00:26а затем мы сравним его с аналогами. У нас постоянно выходят новые видео,
00:00:29так что обязательно подпишитесь.
00:00:31Всё это можно взять в их репозитории или на Hugging Face. Прежде чем переходить к сравнениям,
00:00:40давайте просто взглянем на результаты. Я всё подготовил и запустил заранее,
00:00:45чтобы мы могли сосредоточиться на главном. Я пользовался другими сервисами, так что мне интересно,
00:00:51как звучит Vibe Voice, насколько он стабилен и как получить от него полезный результат.
00:00:56Я протестирую многоголосую генерацию, TTS в реальном времени и клонирование голоса.
00:01:02Вот короткий сценарий в стиле подкаста с тремя спикерами, четкой очередностью реплик и эмоциями.
00:01:08Обычно от демок TTS ждешь, что сначала всё звучит прилично, а потом голос начинает «плыть»,
00:01:14но послушайте, что происходит здесь. Голоса спикеров остаются стабильными,
00:01:18а переходы между ними не разваливаются. Давайте послушаем.
00:01:26Звучит неплохо, правда? Не кажется, что нейронка теряет контекст через 20 секунд.
00:01:41Вот в этом и суть. Microsoft создала это не просто для маленьких проектов.
00:01:46Система заточена под длинную генерацию и работу офлайн. Но при добавлении тегов эмоций
00:01:52всё начинает ломаться. В отличие от того же Chatterbox, здесь эмоции подбираются автоматически по словам,
00:01:58и это работает не очень круто. Мне не понравилось. Тут Chatterbox всё же выигрывает.
00:02:02Но если вы создаете ИИ-подкасты, озвучиваете документы, делаете лонгриды
00:02:07или готовите данные для обучения, эта штука может отлично справиться.
00:02:11Теперь переключимся в режим реального времени. Он работает намного быстрее многоголосого режима,
00:02:16который, честно говоря, генерировал очень долго. Это потоковая передача, подходящая
00:02:22для ответов чат-ботов и голосовых ассистентов. Задержка первого сегмента около 300 мс,
00:02:28что вполне приемлемо. Не самый быстрый результат, что я видел, но всё же. Слушаем.
00:02:32Представьте, что вы пьете горячий шоколад в Японии под цветущей сакурой.
00:02:35Окей. Да, говорят, что система может петь или даже генерировать фоновую музыку. Если поднажать.
00:02:40У меня не вышло. Я пробовал, не сработало. Но вопрос в другом:
00:02:43готов ли этот режим реального времени для продакшена? Вряд ли. Но для экспериментов и агентов — вполне.
00:02:48А теперь самое интересное — клонирование голоса, потому что это было реально круто.
00:02:53Вот как я это настроил. Сначала записал себя на диктофон.
00:02:58Я на Маке. Затем конвертировал файл в WAV и запустил Gradio этой командой.
00:03:04В этом интерфейсе я могу выбрать свой голос как целевой. И всё.
00:03:10Обычная запись. Ожидаешь услышать что-то похожее, но явно фейковое.
00:03:14Послушайте сами. Это мой голос, клонированный через Vibe Voice.
00:03:19Звучит пугающе хорошо. Почти слишком хорошо, учитывая, что я этого не говорил. Сходство
00:03:25поразительное, но если вы меня знаете, то, скорее всего, поймете, что это подделка. По крайней мере, я надеюсь.
00:03:30Результат не идеален, но голос стабилен даже на длинных отрезках. И это большой плюс.
00:03:36Microsoft заявляет, что этот стек справляется с длинной генерацией за один проход,
00:03:41и на практике он заметно стабильнее пайплайнов типа Whisper, когда аудио становится длинным.
00:03:47Если вы хоть раз пробовали клонировать не короткий клип, а что-то серьезное, вы понимаете, почему это важно.
00:03:52Демки впечатлили, клонирование было забавным, но я изучил доку, тикеты и обсуждения —
00:03:56у разработчиков смешанные чувства. Сначала о плюсах, а потом о том, с чем вам придется столкнуться.
00:04:02Плюсы весомые. Во-первых, это работа с длинными текстами. Большинство систем TTS
00:04:08начинают сбоить или звучать монотонно через пару минут. Vibe Voice создан для длинного аудио,
00:04:14и это подтвердилось на тестах. Далее — эффективность и выразительность.
00:04:20Использование низкочастотных токенизаторов позволяет лучше управлять контекстом.
00:04:27А связка диффузии и LLM дает выразительную речь без запредельных вычислений. Сделано по-человечески.
00:04:33Лицензия MIT, работа офлайн. На обычных GPU нужно около 7 ГБ видеопамяти для работы в реальном времени.
00:04:40Код для дообучения прилагается, особенно для ASR. Никаких закрытых экосистем, это здорово.
00:04:47Наконец, здесь структурированный вывод ASR. Огромный плюс.
00:04:53Диаризация спикеров и таймстампы «из коробки» экономят кучу времени при постобработке.
00:04:59Кто строил пайплайны транскрибации, знает, что это дорогого стоит. Теперь о минусах.
00:05:04Это всё еще скорее исследовательский софт. Microsoft убрала часть кода TTS
00:05:11из-за опасений по поводу дипфейков, и это о многом говорит. SDK не идеален и не отполирован.
00:05:17Есть проблемы со звуком: местами проскакивает роботизированная интонация.
00:05:23Иногда темп сбивается, а если спикеров больше двух-трех, качество заметно падает.
00:05:28Разработчики хвалят токенизатор, но ругают скачки потребления видеопамяти. Плюс поддержка языков.
00:05:33Китайский и английский — отлично. Но если нужны другие языки, Vibe Voice пока не про это.
00:05:40И еще один минус: нулевое семантическое понимание. Модель читает текст, но не понимает его.
00:05:46Теги эмоций могут помочь, но они часто глючат.
00:05:51Честно говоря, это потрясающий инструмент для экспериментов, но на долгосрок я не уверен.
00:05:56Теперь главный вопрос: стоит ли тратить на это время, если у вас уже есть рабочие процессы?
00:06:02Как Vibe Voice показывает себя на фоне конкурентов? Начнем с Chatterbox.
00:06:06Я уже делал видео про Chatterbox, и мне он очень понравился.
00:06:11Там задержка была меньше 200 мс, эмоции ярче и короткие реплики агентов звучали лучше.
00:06:16Кажется, что Chatterbox побеждает, но Vibe Voice просто разносит его на длинных дистанциях.
00:06:22Chatterbox рассчитан на монологи до 30 минут, а Vibe Voice справляется с объемом куда лучше.
00:06:28Так что тут есть свои нюансы. Теперь сравним с ElevenLabs.
00:06:35Тут всё просто: ElevenLabs впереди по качеству произношения, UX и мгновенному клонированию.
00:06:42Но Vibe Voice берет ценой. Он бесплатный, офлайновый и с открытым кодом. Это мощный аргумент.
00:06:48Вам не нужно платить за подписку. Если сравнивать с Whisper или CosyVoice,
00:06:54Vibe Voice обходит Whisper на длинных структурированных аудио и звучит выразительнее CosyVoice.
00:07:00Модели на базе Qwen догоняют в плане диалектов, но Vibe Voice всё еще лидер по длине контента.
00:07:06Если вы разработчик, любите опенсорс и вам нужно длинное аудио, Vibe Voice стоит вашего внимания.
00:07:13Если же нужно готовое решение «под ключ» для продакшена, пока можно пройти мимо.
00:07:18Это просто крутой проект для тестов, особенно в части клонирования голоса.
00:07:23Vibe Voice сыроват, но он мощный и многообещающий. Это один из сильнейших опенсорсных стеков
00:07:28для длинной генерации речи за долгое время. Попробуйте демку на Hugging Face, почитайте доку,
00:07:33и увидимся в следующем видео.
00:07:37source audio stacks we've seen for long form AI speech in a long time. Try the Hugging Face demo,
00:07:43read some docs, and we'll see you in another video.

Key Takeaway

Vibe Voice от Microsoft представляет собой мощный, хотя и несколько сырой опенсорсный инструмент, который устанавливает новый стандарт для стабильной генерации длинных аудиофайлов и клонирования голоса в офлайн-режиме.

Highlights

Vibe Voice — это опенсорсный стек от Microsoft для работы с речью, работающий полностью офлайн

Модель способна генерировать до 90 минут многоголосого аудио за один проход без потери стабильности

Клонирование голоса демонстрирует поразительное сходство с оригиналом и стабильность на длинных дистанциях

Система поддерживает функции TTS в реальном времени, клонирование голоса и структурированный вывод ASR с диаризацией

Vibe Voice превосходит конкурентов в генерации длинного контента, хотя уступает в качестве эмоций и поддержке языков

Лицензия MIT и требования к видеопамяти около 7 ГБ делают инструмент доступным для локальной разработки

Timeline

Введение и ключевые возможности Vibe Voice

Автор представляет Vibe Voice как новый открытый программный стек от компании Microsoft для работы с речевыми технологиями. Основным преимуществом системы называется способность генерировать до 90 минут многоголосого аудио за один сеанс, что выделяет её на фоне конкурентов. Модель работает локально, обеспечивая приватность и независимость от облачных сервисов. В этом разделе подчеркивается, что инструмент уже сравнивают с такими лидерами рынка, как ElevenLabs и Whisper. Зрителю обещают детальный разбор демок и сравнение с аналогами в ходе видео.

Тестирование многоголосой генерации и стабильности

Ведущий переходит к практическим испытаниям, запуская сценарий подкаста с тремя разными спикерами. В отличие от многих других систем TTS, где голос начинает «плыть» или терять характер через 20 секунд, Vibe Voice сохраняет стабильность тембра. Это критически важно для создания длинного контента, такого как озвучка книг или лонгридов. Переходы между репликами разных персонажей выглядят естественными и не разрушают структуру диалога. Автор отмечает, что нейронная сеть хорошо удерживает контекст на протяжении всего времени звучания.

Эмоции и режим реального времени

В этом сегменте обсуждаются недостатки автоматического подбора эмоций, который в Vibe Voice работает менее эффективно, чем в системе Chatterbox. Режим реального времени демонстрирует задержку около 300 мс, что приемлемо для голосовых ассистентов, но не является рекордным показателем. Попытки автора заставить модель петь или генерировать фоновую музыку не увенчались успехом, несмотря на заявленные возможности. Раздел подчеркивает, что для продакшена в реальном времени система пока сыровата. Тем не менее, для экспериментальных агентов и чат-ботов текущая скорость работы вполне подходит.

Процесс и результаты клонирования голоса

Автор описывает личный опыт клонирования своего голоса, который он называет «пугающе хорошим». Процесс настройки включает запись аудио на диктофон, конвертацию в формат WAV и запуск интерфейса Gradio. Полученный результат обладает поразительным сходством с оригиналом, сохраняя стабильность интонаций даже на длинных текстовых отрезках. Microsoft заявляет, что их пайплайн эффективнее Whisper при обработке продолжительных записей. Это делает инструмент крайне привлекательным для тех, кому нужно создавать персонализированный аудиоконтент без облачных подписок.

Анализ технических плюсов и минусов для разработчиков

Разбираются глубокие технические аспекты модели, включая использование низкочастотных токенизаторов и связку диффузии с LLM. К плюсам относятся лицензия MIT, работа офлайн при наличии 7 ГБ видеопамяти и встроенная диаризация спикеров с таймстампами. Однако есть и серьезные минусы: Microsoft удалила часть кода из соображений безопасности, а сам SDK требует доработки. Интонации иногда кажутся роботизированными, а поддержка языков пока ограничена в основном английским и китайским. Модель также лишена семантического понимания текста, что иногда приводит к ошибкам в выразительности.

Сравнение с конкурентами и итоговый вердикт

В финальной части видео проводится сравнение Vibe Voice с Chatterbox, ElevenLabs и CosyVoice. Chatterbox выигрывает в скорости и яркости эмоций на коротких фразах, но Vibe Voice безоговорочно побеждает в генерации длинных монологов. ElevenLabs остается лидером по удобству интерфейса и качеству, но Vibe Voice привлекает своей бесплатностью и открытым кодом. Автор рекомендует этот инструмент разработчикам и любителям опенсорса, которым необходима локальная обработка длинного контента. В завершение зрителей призывают протестировать демку на Hugging Face и следить за обновлениями проекта.

Community Posts

View all posts