00:00:00Это можно было решить одним письмом.
00:00:02Это можно было решить одним письмом.
00:00:04Одна и та же фраза, но два совершенно разных исполнения.
00:00:07Я просто ввел «начать нормально», а затем постепенно перешел в гневную тираду.
00:00:11Вот и всё.
00:00:12Никакой разметки, никаких API, отправляющих ваши данные куда-то еще.
00:00:15Это Qwen 3 TTS.
00:00:17Их новая открытая голосовая модель, которая позволяет управлять тоном и действительно слушает.
00:00:22Давайте посмотрим, как она выглядит на фоне Eleven Labs или даже Chatterbox.
00:00:30Многим открытым голосовым моделям не хватает каких-либо эмоций.
00:00:34Я пробовал Chatterbox, и это было вполне прилично.
00:00:37Зная, что у Qwen есть такая функция, я хотел проверить не только клонирование голоса,
00:00:41но и то, как их эмоциональность речи сопоставима с другими.
00:00:44И, честно говоря, я был приятно удивлен.
00:00:47В Chatterbox есть ползунок эмоций, а здесь, в Qwen,
00:00:50вы буквально текстом пишете, как это должно звучать, что дает больше свободы.
00:00:55В облегченной модели есть клонирование голоса по трем секундам, мы это проверим.
00:00:59Когда мы переходим на версию 1.7 B, клонирование пропадает,
00:01:02но мы получаем потоковую передачу в реальном времени с задержкой 97 мс,
00:01:0510 языков с естественным переключением между ними, и всё это 100% локально.
00:01:09Это бесплатно.
00:01:09Лицензия Apache 2.0.
00:01:11А это значит: быстрое прототипирование, приватные голосовые агенты, инструменты доступности.
00:01:16Если вы ищете новейшие инструменты, обязательно подпишитесь.
00:01:19У нас постоянно выходят новые видео.
00:01:21Итак, клонировать легко.
00:01:22С эмоциями сложнее.
00:01:23Давайте попробуем выжать из неё максимум.
00:01:25Сначала протестируем клонирование.
00:01:28Для начала я загружу свой заранее записанный голос в качестве образца.
00:01:32Затем в поле эталонного текста нужно вписать то, что я сказал в этой записи.
00:01:37А в поле целевого текста я введу то, что хочу получить на выходе.
00:01:42Вот и всё.
00:01:43На самом деле это заняло гораздо больше времени, чем я ожидал.
00:01:46Я надеялся, что качество будет на уровне, но давайте послушаем.
00:01:49«Как звучит голос при использовании этой модели?»
00:01:51Ну, для облегченной модели, тем более от Qwen, это неплохо,
00:01:55но отчетливо слышны моменты, где звук кажется искусственным.
00:01:59Так что результат не то чтобы потрясающий.
00:02:01Лучшее клонирование голоса, что я встречал, — это Vibe Voice от Microsoft, оно было безумным.
00:02:07А здесь — просто нормально.
00:02:08Окей.
00:02:09С клонированием голоса закончили.
00:02:10Галочка поставлена.
00:02:11А теперь возьмем тяжелую артиллерию — модель 1.7B — и перейдем к добавлению эмоций
00:02:16в текст, чтобы посмотреть, как Qwen с этим справится.
00:02:19Покажу вам кое-что действительно полезное.
00:02:22Я напишу в поле инструкций: «рассказывай как напряженный диктор»,
00:02:26«медленное нагнетание, а в конце — облегченный смех».
00:02:28А здесь я хочу, чтобы она озвучила базовую информацию о Qwen, раз уж мы о ней говорим.
00:02:32Почему бы и нет?
00:02:33Слушаем.
00:02:34«Новая открытая модель синтеза речи от Alibaba, которая
00:02:37наконец-то звучит так, будто вы говорите с настоящим актером озвучки».
00:02:42Окей.
00:02:42Тут была небольшая заминка.
00:02:44Модель уловила не все интонации, но во многом попала в точку.
00:02:47Никаких выпадающих списков или пресетов.
00:02:49Мы сами направляем её, задавая нужное звучание.
00:02:51Теперь создадим голос, который похож на реального человека для общения.
00:02:55Допустим, мы работаем над проектом.
00:02:57Добавим сюда текст.
00:02:58Я напишу что-нибудь про написание тестов.
00:03:01А в поле инструкций укажем: «молодой,
00:03:03полный энтузиазма голос разработчика, слегка саркастичный, но дружелюбный».
00:03:07Заметьте, я не выбираю «пресет №12».
00:03:10Я точно описываю характер персонажа, который мне нужен.
00:03:13Давайте послушаем.
00:03:14«Написание тестов кода означает тщательную проверку того, что ваша программа делает именно то, что должна».
00:03:20Вы можете спросить: а как она в сравнении с остальными?
00:03:22Ну, Eleven Labs всё еще лидер, но это стоит денег, и ваши данные уходят на их серверы.
00:03:26Chatterbox отличная.
00:03:28Одна из лучших, что я пробовал, и у неё хорошие эмоции.
00:03:31Если же вам нужно именно клонирование голоса, я остаюсь при мнении, что Vibe Voice пугающе хорош.
00:03:36Qwen TTS побеждает там, где нужно естественно описать голос и быстро вносить правки.
00:03:41Очевидно, что здесь есть свои плюсы.
00:03:43Мне нравится управление на естественном языке для быстрых итераций.
00:03:47Она полностью локальна, приватна и готова к потоковой передаче
00:03:50для голосовых агентов реального времени. Дизайн голоса здесь кажется более интуитивным.
00:03:55Теперь о том, что нам — или, точнее, мне —
00:03:57не нравится. Это всё-таки новая модель, верно?
00:04:00Так что в некоторых языках она еще не до конца отточена.
00:04:03Как и для любого TTS, для лучшей производительности рекомендуется видеокарта (GPU).
00:04:06Хотя на процессоре (CPU) тоже работает.
00:04:07Просто будет медленнее.
00:04:09И эмоции сильно зависят от того, насколько хорошо вы составите промпт и инструкцию.
00:04:13Если указания расплывчаты, то и результат будет таким же.
00:04:16Главный вопрос: мучительна ли настройка?
00:04:19Нет, абсолютно нет.
00:04:20Всё предельно просто.
00:04:22Клонируете репозиторий, ставите зависимости, запускаете веб-интерфейс, открываете localhost.
00:04:26Это всё, что я сделал: от нуля до рабочего демо буквально за пару минут.
00:04:32Никаких API-ключей.
00:04:33Никаких счетов к оплате.
00:04:34Всё работает только на вашем компьютере.
00:04:35Именно таким и должен быть открытый софт для работы с голосом.
00:04:38Поэтому так интересно изучать эти инструменты и смотреть на их возможности.
00:04:43Qwen 3 TTS: быстрая, приватная и дает больше контроля разработчику.
00:04:46Попробуйте сами.
00:04:48Ссылки я оставил внизу.
00:04:49И если хотите больше обзоров на локальные инструменты, обязательно подписывайтесь.
00:04:52Увидимся в следующем видео.