Qwen TTS: Новый стандарт open-source озвучки

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00Это можно было решить одним письмом.

00:00:02Это можно было решить одним письмом.

00:00:04Одна и та же фраза, но два совершенно разных исполнения.

00:00:07Я просто ввел «начать нормально», а затем постепенно перешел в гневную тираду.

00:00:11Вот и всё.

00:00:12Никакой разметки, никаких API, отправляющих ваши данные куда-то еще.

00:00:15Это Qwen 3 TTS.

00:00:17Их новая открытая голосовая модель, которая позволяет управлять тоном и действительно слушает.

00:00:22Давайте посмотрим, как она выглядит на фоне Eleven Labs или даже Chatterbox.

00:00:30Многим открытым голосовым моделям не хватает каких-либо эмоций.

00:00:34Я пробовал Chatterbox, и это было вполне прилично.

00:00:37Зная, что у Qwen есть такая функция, я хотел проверить не только клонирование голоса,

00:00:41но и то, как их эмоциональность речи сопоставима с другими.

00:00:44И, честно говоря, я был приятно удивлен.

00:00:47В Chatterbox есть ползунок эмоций, а здесь, в Qwen,

00:00:50вы буквально текстом пишете, как это должно звучать, что дает больше свободы.

00:00:55В облегченной модели есть клонирование голоса по трем секундам, мы это проверим.

00:00:59Когда мы переходим на версию 1.7 B, клонирование пропадает,

00:01:02но мы получаем потоковую передачу в реальном времени с задержкой 97 мс,

00:01:0510 языков с естественным переключением между ними, и всё это 100% локально.

00:01:09Это бесплатно.

00:01:09Лицензия Apache 2.0.

00:01:11А это значит: быстрое прототипирование, приватные голосовые агенты, инструменты доступности.

00:01:16Если вы ищете новейшие инструменты, обязательно подпишитесь.

00:01:19У нас постоянно выходят новые видео.

00:01:21Итак, клонировать легко.

00:01:22С эмоциями сложнее.

00:01:23Давайте попробуем выжать из неё максимум.

00:01:25Сначала протестируем клонирование.

00:01:28Для начала я загружу свой заранее записанный голос в качестве образца.

00:01:32Затем в поле эталонного текста нужно вписать то, что я сказал в этой записи.

00:01:37А в поле целевого текста я введу то, что хочу получить на выходе.

00:01:42Вот и всё.

00:01:43На самом деле это заняло гораздо больше времени, чем я ожидал.

00:01:46Я надеялся, что качество будет на уровне, но давайте послушаем.

00:01:49«Как звучит голос при использовании этой модели?»

00:01:51Ну, для облегченной модели, тем более от Qwen, это неплохо,

00:01:55но отчетливо слышны моменты, где звук кажется искусственным.

00:01:59Так что результат не то чтобы потрясающий.

00:02:01Лучшее клонирование голоса, что я встречал, — это Vibe Voice от Microsoft, оно было безумным.

00:02:07А здесь — просто нормально.

00:02:08Окей.

00:02:09С клонированием голоса закончили.

00:02:10Галочка поставлена.

00:02:11А теперь возьмем тяжелую артиллерию — модель 1.7B — и перейдем к добавлению эмоций

00:02:16в текст, чтобы посмотреть, как Qwen с этим справится.

00:02:19Покажу вам кое-что действительно полезное.

00:02:22Я напишу в поле инструкций: «рассказывай как напряженный диктор»,

00:02:26«медленное нагнетание, а в конце — облегченный смех».

00:02:28А здесь я хочу, чтобы она озвучила базовую информацию о Qwen, раз уж мы о ней говорим.

00:02:32Почему бы и нет?

00:02:33Слушаем.

00:02:34«Новая открытая модель синтеза речи от Alibaba, которая

00:02:37наконец-то звучит так, будто вы говорите с настоящим актером озвучки».

00:02:42Окей.

00:02:42Тут была небольшая заминка.

00:02:44Модель уловила не все интонации, но во многом попала в точку.

00:02:47Никаких выпадающих списков или пресетов.

00:02:49Мы сами направляем её, задавая нужное звучание.

00:02:51Теперь создадим голос, который похож на реального человека для общения.

00:02:55Допустим, мы работаем над проектом.

00:02:57Добавим сюда текст.

00:02:58Я напишу что-нибудь про написание тестов.

00:03:01А в поле инструкций укажем: «молодой,

00:03:03полный энтузиазма голос разработчика, слегка саркастичный, но дружелюбный».

00:03:07Заметьте, я не выбираю «пресет №12».

00:03:10Я точно описываю характер персонажа, который мне нужен.

00:03:13Давайте послушаем.

00:03:14«Написание тестов кода означает тщательную проверку того, что ваша программа делает именно то, что должна».

00:03:20Вы можете спросить: а как она в сравнении с остальными?

00:03:22Ну, Eleven Labs всё еще лидер, но это стоит денег, и ваши данные уходят на их серверы.

00:03:26Chatterbox отличная.

00:03:28Одна из лучших, что я пробовал, и у неё хорошие эмоции.

00:03:31Если же вам нужно именно клонирование голоса, я остаюсь при мнении, что Vibe Voice пугающе хорош.

00:03:36Qwen TTS побеждает там, где нужно естественно описать голос и быстро вносить правки.

00:03:41Очевидно, что здесь есть свои плюсы.

00:03:43Мне нравится управление на естественном языке для быстрых итераций.

00:03:47Она полностью локальна, приватна и готова к потоковой передаче

00:03:50для голосовых агентов реального времени. Дизайн голоса здесь кажется более интуитивным.

00:03:55Теперь о том, что нам — или, точнее, мне —

00:03:57не нравится. Это всё-таки новая модель, верно?

00:04:00Так что в некоторых языках она еще не до конца отточена.

00:04:03Как и для любого TTS, для лучшей производительности рекомендуется видеокарта (GPU).

00:04:06Хотя на процессоре (CPU) тоже работает.

00:04:07Просто будет медленнее.

00:04:09И эмоции сильно зависят от того, насколько хорошо вы составите промпт и инструкцию.

00:04:13Если указания расплывчаты, то и результат будет таким же.

00:04:16Главный вопрос: мучительна ли настройка?

00:04:19Нет, абсолютно нет.

00:04:20Всё предельно просто.

00:04:22Клонируете репозиторий, ставите зависимости, запускаете веб-интерфейс, открываете localhost.

00:04:26Это всё, что я сделал: от нуля до рабочего демо буквально за пару минут.

00:04:32Никаких API-ключей.

00:04:33Никаких счетов к оплате.

00:04:34Всё работает только на вашем компьютере.

00:04:35Именно таким и должен быть открытый софт для работы с голосом.

00:04:38Поэтому так интересно изучать эти инструменты и смотреть на их возможности.

00:04:43Qwen 3 TTS: быстрая, приватная и дает больше контроля разработчику.

00:04:46Попробуйте сами.

00:04:48Ссылки я оставил внизу.

00:04:49И если хотите больше обзоров на локальные инструменты, обязательно подписывайтесь.

00:04:52Увидимся в следующем видео.

Key Takeaway

Qwen 3 TTS устанавливает новый стандарт для open-source решений, предлагая мощный локальный синтез речи с уникальным управлением эмоциями через текстовые промпты.

Highlights

Qwen 3 TTS — это новая открытая модель синтеза речи от Alibaba с лицензией Apache 2.0.
Главная особенность модели — управление эмоциями и тоном через текстовые инструкции на естественном языке.
Версия 1.7B поддерживает 10 языков и потоковую передачу с задержкой всего 97 мс.
Продукт работает полностью локально, обеспечивая приватность данных и отсутствие затрат на API.
В облегченной версии доступно клонирование голоса по короткому трехсекундному образцу.
Процесс установки максимально упрощен и занимает несколько минут через клонирование репозитория.
Модель выигрывает у конкурентов в гибкости итераций и интуитивности дизайна голоса.

Timeline

Введение и возможности Qwen 3 TTS

Автор демонстрирует возможности новой модели на примере одной фразы, произнесенной с разной эмоциональной окраской. Представляется Qwen 3 TTS как открытая альтернатива таким гигантам, как Eleven Labs и Chatterbox. Основной акцент сделан на том, что для изменения тона не требуется сложная разметка или использование сторонних API. Модель позиционируется как решение, которое действительно «слушает» инструкции пользователя. Это вступление подчеркивает переход от жестких систем к гибкому управлению голосом.

Сравнение версий и технические характеристики

В этом разделе подробно рассматриваются различия между облегченной моделью и версией 1.7B. Облегченная версия поддерживает быстрое клонирование голоса по 3-секундному фрагменту, в то время как тяжелая версия предлагает сверхнизкую задержку в 97 мс. Упоминается поддержка 10 языков и открытая лицензия Apache 2.0, что идеально подходит для приватных агентов. Автор отмечает, что в отличие от Chatterbox, где используются ползунки, Qwen понимает текстовые описания характера речи. Это делает инструмент крайне перспективным для быстрого прототипирования и разработки систем доступности.

Тестирование функции клонирования голоса

Автор переходит к практическому тесту клонирования собственного голоса, загружая заранее записанный образец. Процесс включает ввод эталонного и целевого текста, что кажется автору достаточно простым, хотя и занявшим больше времени, чем ожидалось. Результат оценивается как «приличный» для локальной модели, но отмечается наличие искусственных артефактов в звучании. Автор сравнивает качество с Vibe Voice от Microsoft, признавая, что Qwen пока не достигла такого уровня реализма в клонировании. Тем не менее, для бесплатного локального решения результат признается удовлетворительным.

Глубокая настройка эмоций и персонажей

Здесь демонстрируется работа с моделью 1.7B и продвинутыми текстовыми инструкциями для создания сложных вокальных образов. Автор задает параметры «напряженного диктора» с медленным нагнетанием и смехом в конце, проверяя гибкость нейросети. Второй эксперимент касается создания образа «молодого энтузиаста-разработчика» с легким сарказмом. Модель успешно улавливает контекст описания без использования предустановленных пресетов. Этот раздел доказывает, что текстовое управление позволяет добиваться уникального звучания, недоступного в обычных TTS-системах.

Анализ конкурентов, плюсы и минусы

Проводится финальное сравнение Qwen TTS с лидерами рынка: Eleven Labs, Chatterbox и Vibe Voice. Eleven Labs остается лидером по качеству, но проигрывает в приватности и стоимости использования. Qwen признается победителем в номинации «интуитивный дизайн голоса» и удобство итераций благодаря естественному языку. Среди недостатков автор выделяет необходимость GPU для высокой скорости и зависимость результата от качества промпта. Также отмечается, что некоторые языки все еще требуют доработки для идеального звучания.

Установка и заключительные выводы

Заключительная часть посвящена технической простоте запуска модели на собственном оборудовании. Автор подтверждает, что установка через репозиторий и настройка зависимостей занимает буквально пару минут до появления рабочего интерфейса. Подчеркивается полное отсутствие скрытых платежей, API-ключей и внешних серверов, что соответствует духу истинного open-source. Qwen 3 TTS характеризуется как быстрый и приватный инструмент с высоким уровнем контроля для разработчиков. В конце зрителей призывают подписываться для изучения новых локальных ИИ-инструментов.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video