Я попробовал open-source альтернативу ElevenLabs (Voicebox)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Говорят, это Olama в мире голосового ИИ. Он клонирует голоса, генерирует речь, диктует текст в любых приложениях,
00:00:07и общается с агентами голосами, которые действительно принадлежат вам. Это VoiceBox, и вот что о нем говорят
00:00:13прямо здесь. Это бесплатная локальная альтернатива ElevenLabs, и, честно говоря, это просто безумие.
00:00:19У него около 30 000 звезд на GitHub. Он работает локально, и в ближайшие 60 секунд
00:00:24я покажу вам локальное клонирование голоса, генерацию и диктовку прямо в редакторе.
00:00:29Насколько это полезно для нас и насколько легко начать работу? Мы сейчас это выясним.
00:00:39Итак, VoiceBox — это локальная студия голосового ИИ с открытым исходным кодом. Проще всего думать о нем так.
00:00:46Olama предназначена для локальных текстовых моделей. VoiceBox пытается стать тем же самым для голоса. Так что это не просто преобразование текста в речь.
00:00:54Он выполняет клонирование голоса, системную диктовку, творческое редактирование, у него даже есть истории и
00:01:00таймлайны, и он подключается к ИИ-агентам. Это дает нам реальный контроль и еще больше приватности.
00:01:06Я хочу создавать вещи, не спрашивая себя: сколько кредитов я только что потратил на проверку? VoiceBox
00:01:12этого не требует, потому что он работает на вашем компьютере. Здесь нет подписок. Нет
00:01:17ограничений на количество символов. Кроме того, он объединяет клонирование, диктовку на базе Whisper, многодорожечный редактор,
00:01:23настольное приложение, поддержку MCP и локальный REST API. Так что вместо пяти разных инструментов
00:01:29вы получаете одно настольное приложение, в котором есть всё. Я собираюсь сделать три вещи в этом видео.
00:01:36Я клонирую голос, заставлю его говорить, а затем использую диктовку внутри
00:01:41редактора. После этого я покажу вам, почему интеграция с агентами — это круто, или, по крайней мере,
00:01:46мы обсудим это. Если вам нравятся инструменты для программирования, которые ускоряют рабочий процесс, обязательно
00:01:50подпишитесь. Мы постоянно выпускаем новые видео. Итак, я запускаю это на своем Mac M4.
00:01:55Вот VoiceBox. У меня уже готов голосовой профиль, но процесс был очень простым. Сейчас вы можете
00:02:02запустить это с помощью Docker, да, но я сделал это, и у меня ушло почти 30 минут на настройку контейнеров.
00:02:08Поэтому для этого случая я решил воспользоваться настольным приложением, что было намного быстрее, и оно действительно
00:02:13хорошее. Я могу назвать аудио здесь. Я могу добавить описание и даже сказать ему, как вести себя с
00:02:19моделями. Затем я могу либо записать себя, либо загрузить короткий файл для анализа, попутно
00:02:26добавив транскрипцию этого аудио. Теперь я наберу фразу, которую хотел бы использовать. Итак,
00:02:32может быть, как разработчику, это дает мне полный контроль над голосовым ИИ без облачных затрат и проблем с
00:02:38приватностью. Я выберу свой голосовой профиль. Я могу выбрать нужную модель и нажать
00:02:44на генерацию. При первом запуске придется скачать модель. Так что это может занять
00:02:50некоторое время, но после этого, когда мы всё запустим, мы получим аудиосигналы. Давайте послушаем.
00:02:57Как разработчику, это дает мне полный контроль над голосовым ИИ без облачных затрат и проблем с
00:03:02приватностью. Это аудио было сгенерировано локально на моем компьютере, и я клонировал собственный голос. Никаких вкладок в браузере.
00:03:09Мне не нужны были API-ключи, но вот что действительно похоже на настоящий рабочий процесс — это системная
00:03:16диктовка. Я могу нажать горячую клавишу и сказать всё, о чем думаю в данный момент. Если вам нравится
00:03:22находить такие инструменты и трюки для программирования, заглядывайте на наш канал. Теперь это попадает прямо в мой редактор.
00:03:29Это очень полезно для заметок, комментариев или чего-то подобного.
00:03:33Но все эти моменты, когда говорить быстрее, чем печатать, — это очень важно. Это
00:03:38нужно не только для того, чтобы вы общались с компьютером. Ваши агенты теперь тоже могут отвечать вам.
00:03:43Claude Code, Cursor или ваш собственный локальный агент могут вызывать речь через VoiceBox,
00:03:49вместо того чтобы просто вываливать текст в терминал. Мы и так уже получаем обратную связь от ИИ.
00:03:55Почему бы не сделать так, чтобы он заговорил? Давайте сравним это с инструментами, которые мы уже знаем.
00:03:59По понятным причинам, у нас есть ElevenLabs. ElevenLabs великолепен. Браво. Я уже делал сравнения
00:04:05раньше. Он облачный. Мы знаем, что качество потрясающее. Но опять же, он работает в облаке. Он
00:04:11платный. Так что мы платим за это. Мы отправляем свои данные в облако.
00:04:16VoiceBox — это полная противоположность. Почему? Ну, он локальный. Бесплатный. Безлимитный. Мы
00:04:22контролируем все данные, которые в него попадают. ElevenLabs, возможно, все еще лучше, если вы используете его целый день,
00:04:27но думаю, я оставлю VoiceBox, мне понравилось, как это просто. И, честно говоря, звучит он очень прилично
00:04:33тоже. Для нас, разработчиков, лучший инструмент не всегда тот, у которого самый красивый вывод. Нам часто
00:04:38на это наплевать. Иногда важнее то, что вы можете реально контролировать. А еще есть
00:04:43сторона open source. Вы уже могли использовать такие инструменты, как Piper, Whisper и кучу отдельных скриптов.
00:04:50Но опять же, главное здесь в том, что они все отдельные, верно? У нас один инструмент для транскрипции,
00:04:56один для клонирования, один для TTS, один для интерфейса — все это мы просто кое-как склеиваем вместе.
00:05:03VoiceBox упаковывает весь рабочий процесс в одно студийное приложение. Ввод, вывод, редактирование, профили,
00:05:09документация, интеграция с агентами и, черт возьми, вы также можете использовать MCP-сервер. Как я и сказал,
00:05:14это значит, что Claude или Cursor могут вызывать VoiceBox как инструмент, вместо того чтобы ваш агент отвечал
00:05:20только текстом. Теперь он отвечает вам голосом. Но хотите ли вы слышать, как вы говорите сами с собой? Не знаю.
00:05:25Может, стоит сменить голос для этого. Но представьте, что ваш агент для кодинга говорит: “Сборка не удалась. Три тестовых
00:05:30модуля сломали модуль аутентификации”. Это звучит нереально, пока вы не поймете, сколько раз в день вы уже
00:05:36получаете обратную связь от своих инструментов. VoiceBox просто дает этим обновлениям настоящий голос.
00:05:42Так почему же мне он так понравился по сравнению с остальными? Ну, ладно, приватность и стоимость. Честно,
00:05:48это очень большие плюсы, по крайней мере для меня. Это простые победы. Для голосовых сэмплов, аудио,
00:05:53внутреннего контента или чего-то по-настоящему чувствительного, локальное решение — это именно то, что нам нужно. Это здорово.
00:05:57Затем интеграция с агентами, которую я не стал полностью тестировать здесь, но разработчики уже
00:06:02говорят об этом, интегрируя его в Claude Code, Cursor. VoiceBox дает этим системам
00:06:08голосовой слой без необходимости в облачном провайдере. Рабочий процесс был довольно приятным. Мне нравится,
00:06:14что все это в интерфейсе, который мы можем контролировать. Это очень легко. И если вы на Apple Silicon,
00:06:18то локальная производительность — одна из причин, почему это ощущается так хорошо. Но вот что
00:06:23нужно иметь в виду. Он вышел в этом году. Он еще на ранней стадии. Так что будут
00:06:28проблемы. Некоторые пользователи могут столкнуться с трудностями, если вы на Windows, особенно с
00:06:33обнаружением GPU, настройкой моделей и экспортом. Если это случится, просто перезапустите приложение. У меня такая проблема
00:06:39на Mac. Перезапуск решает её. Согласованность длинных текстов все еще может уступать ElevenLabs.
00:06:46Контроль эмоций улучшается, но это зависит от выбранной модели. Если вы выберете
00:06:50Shatterbox TTS Turbo, то у нас будут встроенные эмоции.
00:06:55Так стоит ли устанавливать VoiceBox? Честно говоря, это было очень просто. Его определенно стоит попробовать,
00:07:00потому что он устраняет массу трений, которые возникают из-за рабочих процессов, которые мы просто
00:07:04собираем по кусочкам. Главная ценность не просто в качестве голоса. Это действительно контроль,
00:07:09который нам здесь дают. Контроль над данными, контроль над расходами, над интеграцией. Вот
00:07:15почему это все действительно важно. Начало работы было предельно простым. Даже обезьяна справится. Зайдите на
00:07:20сайт VoiceBox или релизы на GitHub, скачайте установщик для вашей платформы, запустите приложение,
00:07:25а затем скачайте необходимые локальные модели. Но сама основная идея здесь очень сильная,
00:07:30и он уже достаточно полезен, чтобы его установить. Если вам нравятся подобные инструменты для кодинга,
00:07:35обязательно подпишитесь на канал BetterStack. Увидимся в следующем видео.

Key Takeaway

VoiceBox превращает разрозненные open-source инструменты для работы с голосом в единую локальную студию, обеспечивая полный контроль над приватностью и затратами без необходимости использования платных облачных API.

Highlights

  • VoiceBox предоставляет бесплатную локальную альтернативу облачным сервисам голосового ИИ, таким как ElevenLabs.

  • Инструмент объединяет клонирование голоса, синтез речи (TTS), диктовку на базе Whisper и многодорожечный редактор в одном настольном приложении.

  • Отсутствие облачной обработки позволяет избежать затрат на кредиты, ограничений по количеству символов и проблем с приватностью данных.

  • VoiceBox поддерживает интеграцию с ИИ-агентами (например, Claude Code или Cursor) через локальный REST API и MCP-серверы.

  • Установка приложения занимает значительно меньше времени, чем настройка Docker-контейнеров, хотя возможны начальные трудности с определением GPU на Windows.

Timeline

Возможности и преимущества VoiceBox

  • VoiceBox является локальным аналогом ElevenLabs с открытым исходным кодом.
  • Приложение работает автономно на компьютере пользователя, исключая подписки и лимиты.
  • Функционал объединяет транскрипцию Whisper, клонирование голоса, системную диктовку и поддержку ИИ-агентов.

Проект позиционируется как Olama для голосового ИИ. Он позволяет создавать клоны голосов и генерировать речь без отправки данных в облако, что критично для чувствительного контента. Вместо использования пяти разных инструментов пользователь получает единую среду с поддержкой настольного приложения, MCP и REST API.

Практическая работа и интеграция

  • Настройка через настольное приложение происходит быстрее, чем через Docker-контейнеры.
  • Системная диктовка позволяет вводить текст в редакторы с помощью голоса, используя локальные модели.
  • ИИ-агенты могут использовать VoiceBox для голосового вывода ответов вместо текстового отображения в терминале.

В процессе работы VoiceBox позволяет клонировать голос через запись или загрузку аудиофайла. После скачивания необходимой модели генерация аудио происходит локально. Интеграция с инструментами программирования вроде Cursor или Claude Code добавляет голосовой слой обратной связи, оповещая разработчика, например, о результатах сборки кода.

Сравнение и ограничения

  • VoiceBox выигрывает в вопросах контроля данных и отсутствия затрат, несмотря на то, что качество синтеза ElevenLabs может быть выше.
  • На ранней стадии разработки пользователи могут сталкиваться с проблемами настройки GPU на Windows или стабильности при длинных текстах.
  • Использование модели Shatterbox TTS Turbo позволяет добавлять в речь эмоциональную окраску.

Инструмент устраняет трения, связанные со склеиванием различных скриптов вроде Piper или Whisper. Хотя качество длинных аудиозаписей пока уступает облачным конкурентам, локальная природа VoiceBox делает его предпочтительным выбором для задач, требующих конфиденциальности и автономности. Перезапуск приложения обычно решает возникающие технические ошибки.

Community Posts

View all posts