Я попробовал open-source альтернативу ElevenLabs (Voicebox)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Говорят, это Olama в мире голосового ИИ. Он клонирует голоса, генерирует речь, диктует текст в любых приложениях,
00:00:07и общается с агентами голосами, которые действительно принадлежат вам. Это VoiceBox, и вот что о нем говорят
00:00:13прямо здесь. Это бесплатная локальная альтернатива ElevenLabs, и, честно говоря, это просто безумие.
00:00:19У него около 30 000 звезд на GitHub. Он работает локально, и в ближайшие 60 секунд
00:00:24я покажу вам локальное клонирование голоса, генерацию и диктовку прямо в редакторе.
00:00:29Насколько это полезно для нас и насколько легко начать работу? Мы сейчас это выясним.
00:00:39Итак, VoiceBox — это локальная студия голосового ИИ с открытым исходным кодом. Проще всего думать о нем так.
00:00:46Olama предназначена для локальных текстовых моделей. VoiceBox пытается стать тем же самым для голоса. Так что это не просто преобразование текста в речь.
00:00:54Он выполняет клонирование голоса, системную диктовку, творческое редактирование, у него даже есть истории и
00:01:00таймлайны, и он подключается к ИИ-агентам. Это дает нам реальный контроль и еще больше приватности.
00:01:06Я хочу создавать вещи, не спрашивая себя: сколько кредитов я только что потратил на проверку? VoiceBox
00:01:12этого не требует, потому что он работает на вашем компьютере. Здесь нет подписок. Нет
00:01:17ограничений на количество символов. Кроме того, он объединяет клонирование, диктовку на базе Whisper, многодорожечный редактор,
00:01:23настольное приложение, поддержку MCP и локальный REST API. Так что вместо пяти разных инструментов
00:01:29вы получаете одно настольное приложение, в котором есть всё. Я собираюсь сделать три вещи в этом видео.
00:01:36Я клонирую голос, заставлю его говорить, а затем использую диктовку внутри
00:01:41редактора. После этого я покажу вам, почему интеграция с агентами — это круто, или, по крайней мере,
00:01:46мы обсудим это. Если вам нравятся инструменты для программирования, которые ускоряют рабочий процесс, обязательно
00:01:50подпишитесь. Мы постоянно выпускаем новые видео. Итак, я запускаю это на своем Mac M4.
00:01:55Вот VoiceBox. У меня уже готов голосовой профиль, но процесс был очень простым. Сейчас вы можете
00:02:02запустить это с помощью Docker, да, но я сделал это, и у меня ушло почти 30 минут на настройку контейнеров.
00:02:08Поэтому для этого случая я решил воспользоваться настольным приложением, что было намного быстрее, и оно действительно
00:02:13хорошее. Я могу назвать аудио здесь. Я могу добавить описание и даже сказать ему, как вести себя с
00:02:19моделями. Затем я могу либо записать себя, либо загрузить короткий файл для анализа, попутно
00:02:26добавив транскрипцию этого аудио. Теперь я наберу фразу, которую хотел бы использовать. Итак,
00:02:32может быть, как разработчику, это дает мне полный контроль над голосовым ИИ без облачных затрат и проблем с
00:02:38приватностью. Я выберу свой голосовой профиль. Я могу выбрать нужную модель и нажать
00:02:44на генерацию. При первом запуске придется скачать модель. Так что это может занять
00:02:50некоторое время, но после этого, когда мы всё запустим, мы получим аудиосигналы. Давайте послушаем.
00:02:57Как разработчику, это дает мне полный контроль над голосовым ИИ без облачных затрат и проблем с
00:03:02приватностью. Это аудио было сгенерировано локально на моем компьютере, и я клонировал собственный голос. Никаких вкладок в браузере.
00:03:09Мне не нужны были API-ключи, но вот что действительно похоже на настоящий рабочий процесс — это системная
00:03:16диктовка. Я могу нажать горячую клавишу и сказать всё, о чем думаю в данный момент. Если вам нравится
00:03:22находить такие инструменты и трюки для программирования, заглядывайте на наш канал. Теперь это попадает прямо в мой редактор.
00:03:29Это очень полезно для заметок, комментариев или чего-то подобного.
00:03:33Но все эти моменты, когда говорить быстрее, чем печатать, — это очень важно. Это
00:03:38нужно не только для того, чтобы вы общались с компьютером. Ваши агенты теперь тоже могут отвечать вам.
00:03:43Claude Code, Cursor или ваш собственный локальный агент могут вызывать речь через VoiceBox,
00:03:49вместо того чтобы просто вываливать текст в терминал. Мы и так уже получаем обратную связь от ИИ.
00:03:55Почему бы не сделать так, чтобы он заговорил? Давайте сравним это с инструментами, которые мы уже знаем.
00:03:59По понятным причинам, у нас есть ElevenLabs. ElevenLabs великолепен. Браво. Я уже делал сравнения
00:04:05раньше. Он облачный. Мы знаем, что качество потрясающее. Но опять же, он работает в облаке. Он
00:04:11платный. Так что мы платим за это. Мы отправляем свои данные в облако.
00:04:16VoiceBox — это полная противоположность. Почему? Ну, он локальный. Бесплатный. Безлимитный. Мы
00:04:22контролируем все данные, которые в него попадают. ElevenLabs, возможно, все еще лучше, если вы используете его целый день,
00:04:27но думаю, я оставлю VoiceBox, мне понравилось, как это просто. И, честно говоря, звучит он очень прилично
00:04:33тоже. Для нас, разработчиков, лучший инструмент не всегда тот, у которого самый красивый вывод. Нам часто
00:04:38на это наплевать. Иногда важнее то, что вы можете реально контролировать. А еще есть
00:04:43сторона open source. Вы уже могли использовать такие инструменты, как Piper, Whisper и кучу отдельных скриптов.
00:04:50Но опять же, главное здесь в том, что они все отдельные, верно? У нас один инструмент для транскрипции,
00:04:56один для клонирования, один для TTS, один для интерфейса — все это мы просто кое-как склеиваем вместе.
00:05:03VoiceBox упаковывает весь рабочий процесс в одно студийное приложение. Ввод, вывод, редактирование, профили,
00:05:09документация, интеграция с агентами и, черт возьми, вы также можете использовать MCP-сервер. Как я и сказал,
00:05:14это значит, что Claude или Cursor могут вызывать VoiceBox как инструмент, вместо того чтобы ваш агент отвечал
00:05:20только текстом. Теперь он отвечает вам голосом. Но хотите ли вы слышать, как вы говорите сами с собой? Не знаю.
00:05:25Может, стоит сменить голос для этого. Но представьте, что ваш агент для кодинга говорит: “Сборка не удалась. Три тестовых
00:05:30модуля сломали модуль аутентификации”. Это звучит нереально, пока вы не поймете, сколько раз в день вы уже
00:05:36получаете обратную связь от своих инструментов. VoiceBox просто дает этим обновлениям настоящий голос.
00:05:42Так почему же мне он так понравился по сравнению с остальными? Ну, ладно, приватность и стоимость. Честно,
00:05:48это очень большие плюсы, по крайней мере для меня. Это простые победы. Для голосовых сэмплов, аудио,
00:05:53внутреннего контента или чего-то по-настоящему чувствительного, локальное решение — это именно то, что нам нужно. Это здорово.
00:05:57Затем интеграция с агентами, которую я не стал полностью тестировать здесь, но разработчики уже
00:06:02говорят об этом, интегрируя его в Claude Code, Cursor. VoiceBox дает этим системам
00:06:08голосовой слой без необходимости в облачном провайдере. Рабочий процесс был довольно приятным. Мне нравится,
00:06:14что все это в интерфейсе, который мы можем контролировать. Это очень легко. И если вы на Apple Silicon,
00:06:18то локальная производительность — одна из причин, почему это ощущается так хорошо. Но вот что
00:06:23нужно иметь в виду. Он вышел в этом году. Он еще на ранней стадии. Так что будут
00:06:28проблемы. Некоторые пользователи могут столкнуться с трудностями, если вы на Windows, особенно с
00:06:33обнаружением GPU, настройкой моделей и экспортом. Если это случится, просто перезапустите приложение. У меня такая проблема
00:06:39на Mac. Перезапуск решает её. Согласованность длинных текстов все еще может уступать ElevenLabs.
00:06:46Контроль эмоций улучшается, но это зависит от выбранной модели. Если вы выберете
00:06:50Shatterbox TTS Turbo, то у нас будут встроенные эмоции.
00:06:55Так стоит ли устанавливать VoiceBox? Честно говоря, это было очень просто. Его определенно стоит попробовать,
00:07:00потому что он устраняет массу трений, которые возникают из-за рабочих процессов, которые мы просто
00:07:04собираем по кусочкам. Главная ценность не просто в качестве голоса. Это действительно контроль,
00:07:09который нам здесь дают. Контроль над данными, контроль над расходами, над интеграцией. Вот
00:07:15почему это все действительно важно. Начало работы было предельно простым. Даже обезьяна справится. Зайдите на
00:07:20сайт VoiceBox или релизы на GitHub, скачайте установщик для вашей платформы, запустите приложение,
00:07:25а затем скачайте необходимые локальные модели. Но сама основная идея здесь очень сильная,
00:07:30и он уже достаточно полезен, чтобы его установить. Если вам нравятся подобные инструменты для кодинга,
00:07:35обязательно подпишитесь на канал BetterStack. Увидимся в следующем видео.