00:00:00Это SpeechBrain — open-source инструментарий на базе PyTorch, который позволяет создавать
00:00:05и внедрять функции речевого ИИ с помощью предобученных моделей. От удаления шума
00:00:10и верификации диктора до ASR. Без обучения и тонкой настройки. Проверим голос в деле.
00:00:15Наверняка вы ждете звука покачественнее. Что ж, здесь это получается само собой. Судя по всему,
00:00:19я — это не я, и всё потому, что во втором клипе я использую голосовой трансформер.
00:00:23Значит, верификация голоса работает. Теперь посмотрим, на что еще он способен. У нас постоянно
00:00:28выходят новые видео, так что подписывайтесь. Краткий обзор перед первыми демо.
00:00:38В SpeechBrain есть улучшение речи, разделение, ID диктора, TTS — по сути, полный стек технологий.
00:00:44А вот важная часть для тех, кто реально что-то создает: 9000+ звезд на GitHub, тесная интеграция
00:00:51с Hugging Face, установка одной командой, а загрузка модели — еще парой строк. Это создано для тех,
00:00:56кто хочет быстрее выкатывать продукт, а не тратить время на чтение доков. Вот исходный код,
00:01:02который я расширил для запуска. Многое я взял прямо с сайта документации. В качестве UI
00:01:08я выбрал Gradio. Это Python-библиотека для ML-приложений, которая отлично подходит для таких задач.
00:01:14Окей, следующая часть выглядит неправдоподобно, если не знать контекст. Обычно в демо
00:01:20хитрят с идеальным звуком. Я же сделаю наоборот: прямо сейчас врублю фоновый шум.
00:01:24В основном музыку. Поехали. Я говорю обычным голосом, записывая себя поверх этой музыки.
00:01:31Вот исходное аудио. Да, звучит довольно паршиво. А теперь зацените результат обработки.
00:01:37Я говорю как обычно. Тот же голос, шум вырезан, и никаких хаков с постобработкой. Главный вывод:
00:01:44это работает за считанные секунды. Внедряйте в звонки, подкасты, чистку записей, на носимые устройства —
00:01:51куда угодно, где есть микрофон и плохая акустика. Код прост: загрузил модель, вызвал enhanced batch, и готово.
00:01:57Но документация, честно говоря, сыровата, так что мне пришлось допиливать код под Mac.
00:02:02Постоянно возникали ошибки. Далее у нас верификация диктора, которую я упоминал в начале.
00:02:07Для справки: когда люди слышат про голосовую аутентификацию, им кажется, что это сложно. Спешу расстроить —
00:02:13это вовсе не так, по крайней мере здесь. Сейчас я зарегистрирую свой голос. Привет, это мой голос.
00:02:20Это была первая запись. Теперь я сделаю то же самое во второй раз.
00:02:26Привет, это мой голос. Теперь проверка: тот же диктор. Балл высокий, совпадение подтверждено.
00:02:36У нас есть оценка и рейтинг в выводе. Если я попробую еще раз, но без голосового трансформера,
00:02:42посмотрим, что выйдет. Что у тебя было на завтрак? Окей, а теперь изменю тон. Только не смейтесь
00:02:48слишком сильно. Что у тебя было на завтрак? Степень сходства немного упала,
00:02:56но система все равно подтверждает, что это я. Модель предобучена на VoxCeleb.
00:03:01И снова быстрый тест с трансформером. Это мой обычный голос. Теперь я включаю
00:03:08голосовой трансформер: это мой обычный голос. Просто чтобы вы понимали, второй клип
00:03:17звучит вот так. Это мой обычный голос. Да уж, жестковато, правда?
00:03:22Работу трансформера отчетливо слышно. Голоса вообще не совпадают, и в выводе это подтверждается.
00:03:27Если вы строите многопользовательские приложения с доступом по голосу, это именно то, что нужно.
00:03:32В моем финальном демо — да, это должно быть основой. Демо живой транскрибации (ASR) обычно
00:03:37впечатляют, пока не попробуешь на реальной речи. Сейчас я буду говорить нормально.
00:03:43На самом деле эта функция работает не очень, да и документация не особо помогла,
00:03:48так что я даже не знаю, как к этому относиться. Ощущается как обычный перевод речи в текст.
00:03:53Тут должна была быть авто-подписка, но возникла куча проблем, и даже это не сработало.
00:03:58Да, он транскрибирует, но так умеют десятки других библиотек. Конкретно эта функция
00:04:04меня не впечатлила, по крайней мере в плане авто-транскрибации. Просто не взлетело.
00:04:08В общем, тут есть реально крутые штуки, так? Мы видели верификацию голоса, подавление шума,
00:04:13но некоторые моменты еще не докручены. Вот такой он, SpeechBrain, если вкратце.
00:04:18В целом — быстро, открыто и заточено под разработчиков. Можете пощупать сами.
00:04:22Ссылки я оставил в описании, и увидимся с вами в следующем
00:04:26видео.