00:00:00Модель с 82 миллионами параметров только что побила гораздо более крупные системы TTS, и она работает локально на
00:00:06ноутбуке быстрее, чем большинство платных API.
00:00:09В прошлом месяце я платил за облачный TTS, но все равно сталкивался с задержками.
00:00:13Для меня это не имело никакого смысла.
00:00:14Как некоторые из этих моделей с открытым исходным кодом умудряются их обходить?
00:00:17Это Kokoro 82M, и некоторые разработчики уже внедряют её в свои продукты.
00:00:22Давайте посмотрим, как это работает и, что еще важнее, как это звучит.
00:00:30Итак, если вы создаете что-то с использованием синтеза речи, обычно вы выбираете между двумя плохими вариантами.
00:00:36Первый вариант — это, очевидно, облачные API, верно?
00:00:39Их легко запустить, но теперь у вас есть счета, скачки задержки и еще одна зависимость
00:00:44каждый раз, когда ваше приложение начинает говорить.
00:00:46Следующим вариантом будут такие вот большие открытые модели, но теперь вам нужно гораздо
00:00:51больше мощностей, больше памяти, и, давайте признаем, они все равно не такие уж быстрые.
00:00:56В итоге то, что должно работать плавно, оказывается медленным, дорогим или просто
00:01:00банально ломается.
00:01:02Именно здесь на сцену выходит Kokoro.
00:01:04Она была обучена менее чем на 100 часах данных, но все равно занимает верхние строчки в рейтингах.
00:01:09Она побеждает гораздо более крупные модели при крошечном размере, имеет лицензию Apache 2.0, работает на CPU,
00:01:15летает на Apple Silicon и генерирует речь, честно говоря, безумно быстро.
00:01:19Теперь локальные голосовые приложения и агенты реального времени действительно обретают смысл.
00:01:24Если вам нравятся подобные инструменты для программирования и советы, обязательно подпишитесь.
00:01:27У нас видео выходят постоянно.
00:01:29Хорошо, теперь позвольте мне показать вам это.
00:01:31Я запускаю все это локально на Mac M4 Pro.
00:01:34Настройка занимает секунд 30, я просто запущу эту команду pip.
00:01:39Я нахожусь в среде conda, но это, собственно, и всё.
00:01:42У меня есть готовый Python-скрипт из их официального репозитория, мне не пришлось ничего менять,
00:01:47чтобы протестировать это, всё работает «из коробки», и мы получаем все эти результаты.
00:01:51Я могу выбрать голос и язык прямо здесь, но для первого прогона я оставлю всё
00:01:56как есть, потому что, честно говоря, звучит очень здорово.
00:02:00Я запускаю, а теперь давайте послушаем.
00:02:02Better Stack — это ведущая платформа для мониторинга систем.
00:02:05Она делает мониторинг простым.
00:02:07В ней есть AI SRE, логи, метрики, трассировки и отслеживание ошибок.
00:02:12И реагирование на инциденты — всё в одном месте.
00:02:14Не буду лгать, это было довольно неплохо, и результат появился очень быстро.
00:02:19Теперь, если я переключу тумблер, давайте выберем французский и переключимся на французский голос.
00:02:24Немного изменим текст и снова запустим.
00:02:26Better Stack — это параллельная платформа для мониторинга.
00:02:29Она упрощает наблюдение.
00:02:31Окей, мой французский немного заржавел, так что не переводите это слово в слово, но звучало
00:02:36тоже весьма недурно.
00:02:37Впрочем, судить об этом вам.
00:02:39Всё сохраняется в виде WAV-файлов, так что я могу скачивать их по своему желанию.
00:02:43Никаких облаков.
00:02:44Никаких GPU.
00:02:45Это было просто безумие.
00:02:47Так что же на самом деле представляет собой Kokoro 82M?
00:02:49На высоком уровне это модель StyleTTS2 с легким вокодером.
00:02:55Это значит, что она создана для хорошего звучания без огромного размера, и в этом ключевое
00:02:59отличие.
00:03:00Большинство других вариантов идут по пути увеличения.
00:03:01XTTS, Cozy Voice, F5 TTS — это от сотен миллионов до более чем миллиарда параметров.
00:03:08Затем облачные инструменты вроде Eleven Labs или OpenAI решают проблему «железа», но теперь мы
00:03:13платим за каждый запрос и отправляем свои данные вовне.
00:03:16Kokoro идет в другом направлении.
00:03:19Она маленькая, быстро запускается и работает локально, плюс потребляет гораздо меньше памяти.
00:03:24Но есть и недостатки: она не делает клонирование голоса с одного примера (zero-shot) из коробки,
00:03:29вместо этого она фокусируется на эффективности и качестве, которые мы можем внедрить намного быстрее.
00:03:33У нас всё еще есть 8 языков, 54 голоса и довольно хороший контроль с их импортом Misaki.
00:03:39Я вижу, где всё это отлично впишется в различные типы агентов, но
00:03:42вы не получаете никаких эмоций, а это именно то, что я очень хотел здесь увидеть.
00:03:47ИИ без эмоций всё равно будет звучать как типичный ИИ, что, полагаю, может быть
00:03:52полезно в определенных случаях, верно?
00:03:53Но было бы забавно поиграть с этими эмоциями.
00:03:56Так почему разработчики на самом деле используют это?
00:03:58Что ж, если я еще не показал, давайте коснемся этого, потому что она исправляет вещи, которые обычно
00:04:02портят голосовые функции.
00:04:04Во-первых, это скорость.
00:04:05Если ваш агент делает слишком длинную паузу и перестает казаться живым, Kokoro значительно сокращает эту задержку.
00:04:11Далее — работа в офлайне.
00:04:13Никакого интернета, никаких API-ключей, у меня нет случайных сбоев.
00:04:16Это замечательно.
00:04:17Конфиденциальность — это важный момент, потому что Kokoro хранит всё локально, так что для меня и многих из вас
00:04:22это может быть огромным преимуществом.
00:04:23И, наконец, стоимость при масштабировании.
00:04:26Поскольку она такая легкая, вы можете запускать гораздо больше экземпляров на одной машине.
00:04:30Что в ней хорошо, а что нет? Мне понравилось, что она быстрая и маленькая.
00:04:33Она звучит естественно для длинного контента.
00:04:35Это было действительно круто.
00:04:36Я перепробовал кучу подобных штук.
00:04:38Она под лицензией Apache 2.0, так что её можно выпускать, и после настройки она практически бесплатна.
00:04:43Все эти моменты действительно радуют.
00:04:44Да, мне это понравилось.
00:04:45Это было круто.
00:04:46Но есть вещи, которые мне не пришлись по душе.
00:04:47Отсутствие встроенного клонирования голоса — ну, это зависит от того, нужно ли оно вам вообще.
00:04:51Могло бы и быть.
00:04:52Эмоциональный фон довольно нейтральный.
00:04:54Отлично подходит для озвучки текста, но не годится для чего-то драматичного.
00:04:56Я имею в виду, здесь реально нет возможности менять эмоции, плюс неанглийские голоса
00:05:02всё еще совершенствуются.
00:05:03Так что это нужно добавить, а может и нет — зависит от того, как на это смотреть.
00:05:07Так идеальна ли она?
00:05:08Нет.
00:05:09Но для проблем, с которыми сталкивается большинство из нас — стоимость, задержка, приватность, деплой —
00:05:14она, похоже, предлагает правильные решения прямо сейчас.
00:05:18Попробуйте поиграть с ней и дайте мне знать.
00:05:19Kokoro 82M доказывает, что не нужна массивная модель, чтобы получить действительно хороший TTS.
00:05:24Меньше значит быстрее, быстрее значит применимо, а применимо обычно значит, что вы можете это
00:05:29реально запустить в продакшн.
00:05:30Если вы создаете голосовых агентов или локальные инструменты, её стоит попробовать.
00:05:34Если вам нравятся такие инструменты и советы, обязательно подпишитесь на канал Better Stack.
00:05:38Увидимся в следующем видео.