Ich habe die Open-Source-Alternative zu ElevenLabs (Voicebox) ausprobiert
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술
Transcript
00:00:00Man sagt, dies sei das Ollama der Sprach-KI. Es klont Stimmen, erzeugt Sprache, diktiert in jede App,
00:00:07und spricht mit Agenten in Stimmen, die Ihnen tatsächlich gehören. Das ist VoiceBox, und genau das steht
00:00:13hier geschrieben. Es ist kostenlos und eine lokale Alternative zu ElevenLabs, und ehrlich gesagt war das wahnsinnig.
00:00:19Es hat etwa 30.000 Sterne auf GitHub. Es läuft lokal, und in den nächsten 60 Sekunden
00:00:24zeige ich Ihnen lokales Stimmenklonen, Spracherzeugung und Diktat innerhalb eines Editors.
00:00:29Wie nützlich ist das für uns und wie einfach ist es überhaupt, damit anzufangen? Wir finden es gleich heraus.
00:00:39VoiceBox ist ein quelloffenes, lokales KI-Sprachstudio. Man kann es sich am einfachsten so vorstellen:
00:00:46Ollama ist für lokale Textmodelle. VoiceBox versucht, dasselbe für Sprache zu sein. Es ist also nicht nur Text-zu-Sprache.
00:00:54Es bietet Stimmenklonen, systemweites Diktat, kreative Bearbeitung, und es hat sogar Geschichten und
00:01:00Zeitachsen und lässt sich mit KI-Agenten verbinden. Das gibt uns echte Kontrolle und noch mehr Privatsphäre.
00:01:06Ich möchte Dinge bauen, ohne mich fragen zu müssen: Wie viele Credits habe ich gerade verbraucht, um das zu testen? VoiceBox
00:01:12fragt das nicht, denn VoiceBox läuft auf unserem Rechner. Es gibt also kein Abonnement. Es gibt keine
00:01:17Zeichenbegrenzungen. Außerdem vereint es Klonen, Whisper-gestütztes Diktat, einen Multi-Track-Editor,
00:01:23eine Desktop-App, MCP-Unterstützung und eine lokale REST-API. Statt fünf separater Tools
00:01:29erhalten Sie eine Desktop-App mit allem, was Sie brauchen. Ich werde in diesem Video drei Dinge tun.
00:01:36Ich werde eine Stimme klonen, sie sprechen lassen und dann das Diktat innerhalb des
00:01:41Editors verwenden. Danach zeige ich Ihnen, warum die Agenten-Integration so genial ist, oder zumindest
00:01:46werden wir darüber sprechen. Wenn Sie Coding-Tools mögen, die Ihren Workflow beschleunigen, abonnieren Sie.
00:01:50Wir veröffentlichen ständig neue Videos. Also, ich lasse das jetzt auf meinem Mac M4 laufen.
00:01:55Hier ist VoiceBox. Ich habe bereits ein Stimmprofil bereit, aber der Ablauf war wirklich einfach. Man kann
00:02:02das natürlich mit Docker starten, ja, aber ich habe das gemacht und es hat fast 30 Minuten gedauert, die Container zum Laufen zu bringen.
00:02:08Also habe ich mich dafür entschieden, die Desktop-App zu nehmen, was viel schneller war, und sie ist wirklich
00:02:13gut. Ich kann das Audio hier benennen. Ich kann eine Beschreibung hinzufügen und dem Modell sogar sagen, wie es
00:02:19agieren soll. Dann kann ich entweder mich selbst beim Sprechen aufnehmen oder eine kurze Datei hochladen, die es analysieren soll,
00:02:26während ich die Transkription des Audios einfüge. Jetzt tippe ich einen Satz ein, den ich tatsächlich verwenden möchte. Vielleicht
00:02:32gibt mir das als Entwickler die volle Kontrolle über Sprach-KI ohne Cloud-Kosten und den ganzen Datenschutz-Kram.
00:02:38Ich wähle mein Stimmprofil. Ich kann das Modell wählen, das ich möchte, und auf „Generieren“ klicken.
00:02:44Beim ersten Ausführen muss das Modell heruntergeladen werden. Es könnte also tatsächlich einige Zeit dauern,
00:02:50aber nachdem wir es ausgeführt haben, erhalten wir Wellenformen. Hören wir mal rein.
00:02:57Als Entwickler gibt mir das die volle Kontrolle über Sprach-KI ohne Cloud-Kosten und all den Datenschutz-Kram.
00:03:02Dieses Audio wurde lokal auf meinem Rechner generiert und ich habe meine eigene Stimme geklont. Es gab keinen Browser-Tab.
00:03:09Ich brauchte keine API-Schlüssel, aber hier ist der Teil, der sich wie ein echter Workflow anfühlt: das systemweite
00:03:16Diktat. Ich könnte einen globalen Hotkey drücken und sagen, was ich gerade denke. Wenn Sie
00:03:22Coding-Tools und Tricks wie diesen mögen, schauen Sie auf unserem Kanal vorbei. Es landet jetzt direkt in meinem Editor.
00:03:29Das war also ziemlich nützlich für Notizen, Kommentare oder irgendetwas in der Art.
00:03:33Aber all diese Momente, in denen Sprechen tatsächlich schneller ist als Tippen, das ist riesig. Das
00:03:38ist nicht nur dafür gedacht, dass Sie mit dem Computer sprechen. Ihre Agenten könnten jetzt auch zurücksprechen.
00:03:43Claude Code, Cursor oder Ihr eigener lokaler Agent können die Sprachausgabe über VoiceBox triggern,
00:03:49anstatt sie nur in Ihr Terminal auszugeben. Wir erhalten bereits Feedback von unseren KIs.
00:03:55Warum nicht sie zu uns sprechen lassen? Vergleichen wir das jetzt mit Tools, die wir bereits kennen.
00:03:59Aus offensichtlichen Gründen, richtig, haben wir ElevenLabs. ElevenLabs ist großartig. Bravo. Ich habe Vergleiche dazu
00:04:05schon früher gemacht. Es ist gehostet. Wir wissen, dass die Qualität erstaunlich ist. Aber andererseits ist es cloudbasiert.
00:04:11Es ist abonnementbasiert. Wir zahlen also dafür. Wir laden unsere Sachen in die Cloud hoch.
00:04:16VoiceBox ist das genaue Gegenteil davon. Warum? Nun, es ist lokal. Es ist kostenlos. Es ist unbegrenzt. Wir
00:04:22kontrollieren alle Daten, die hineinfließen. ElevenLabs mag immer noch gewinnen, wenn man es den ganzen Tag nutzt,
00:04:27aber ich denke, ich werde VoiceBox behalten, da ich es so einfach fand. Und ehrlich gesagt klingt es auch
00:04:33sehr ordentlich. Für uns Entwickler ist das beste Tool nicht immer das mit der schönsten Ausgabe. Das interessiert uns
00:04:38oft nicht so sehr. Manchmal ist es das Tool, das man tatsächlich kontrollieren kann. Dann gibt es die
00:04:43ganze Open-Source-Seite. Sie könnten bereits Tools wie Piper, Whisper und eine Reihe separater Skripte verwenden.
00:04:50Aber noch einmal: Der springende Punkt dabei ist, Leute, dass sie alle getrennt sind, oder? Wir haben ein Tool für die Transkription,
00:04:56eines zum Klonen, eines für TTS, eines für die Benutzeroberfläche, all das, was wir wirklich nur zusammenwürfeln.
00:05:03VoiceBox packt den gesamten Workflow in eine Studio-App. Eingabe, Ausgabe, Bearbeitung, Profile,
00:05:09Dokumentation, Agenten-Integration, und verdammt, Sie könnten auch den MCP-Server verwenden. Wie gesagt,
00:05:14das bedeutet, dass Claude oder Cursor VoiceBox wie ein Werkzeug aufrufen können, anstatt dass Ihr Agent nur mit
00:05:20Text antwortet. Er spricht jetzt zurück zu Ihnen. Aber möchten Sie sich selbst zurücksprechen hören? Ich weiß nicht.
00:05:25Vielleicht ändern Sie die Stimme dafür. Aber stellen Sie sich vor, Ihr Coding-Agent sagt: Build fehlgeschlagen. Drei Testmodule
00:05:30haben das Auth-Modul beschädigt. Das klingt unrealistisch, bis Sie erkennen, wie oft am Tag Sie bereits
00:05:36Feedback von Ihren Tools erhalten. VoiceBox gibt diesen Updates einfach eine echte Stimme.
00:05:42Warum mochte ich dieses so sehr im Vergleich zu anderen? Nun, okay, Privatsphäre und Kosten. Ehrlich gesagt,
00:05:48sind das die wirklich großen Vorteile, zumindest für mich. Das sind einfache Siege. Für Sprachbeispiele, Audio,
00:05:53interne Inhalte oder wirklich alles Sensible ist lokal der erste Weg, den wir wollen. Es ist großartig.
00:05:57Dann ist da noch die Agenten-Integration, die ich hier nicht im vollständigen Test hatte, aber Entwickler sprechen bereits
00:06:02darüber, während sie es in Claude Code, Cursor integrieren. VoiceBox gibt diesen Systemen eine
00:06:08Sprachebene, ohne einen gehosteten Sprachanbieter zu benötigen. Der Workflow war ziemlich sauber. Ich mag,
00:06:14dass es alles in einer Benutzeroberfläche ist, die wir kontrollieren können. Es ist wirklich einfach. Und wenn Sie Apple Silicon nutzen,
00:06:18ist die lokale Leistung besonders einer der Gründe, warum sich das so gut angefühlt hat. Aber hier ist die
00:06:23Sache, die man bei all dem beachten sollte. Es ist dieses Jahr erschienen. Es ist noch früh. Es wird also
00:06:28Probleme geben. Einige Benutzer werden auf schwierige Stellen stoßen, wenn Sie Windows nutzen, besonders bei der
00:06:33GPU-Erkennung, Modelleinrichtung und Exporten. Wenn das passiert, starten Sie die App einfach neu. Ich habe das Problem
00:06:39auf meinem Mac. Ein Neustart behebt das. Die Konsistenz bei längeren Texten kann auch noch hinter ElevenLabs zurückfallen.
00:06:46Bei der Emotionssteuerung verbessert es sich, aber das hängt vom Modell ab, das Sie wählen. Wenn Sie
00:06:50Shatterbox TTS Turbo wählen, haben wir diese Emotionen bereits eingebaut.
00:06:55Sollten Sie also VoiceBox installieren? Ehrlich gesagt, war es super einfach. Es ist absolut einen Versuch wert,
00:07:00weil es viel von dieser Reibung beseitigt, die wir bei Workflows haben, die wir nur
00:07:04zusammensetzen. Der Hauptwert ist nicht nur die Sprachqualität. Es ist wirklich die Kontrolle,
00:07:09die uns hier gegeben wird. Es ist die Kontrolle über Daten, die Kontrolle über Kosten, über die Integration. Das ist
00:07:15der Grund, warum das alles wirklich zählt. Der Einstieg war todsicher einfach. Ein Affe könnte es tun. Gehen Sie auf die
00:07:20VoiceBox-Website oder GitHub-Releases, laden Sie den Installer für Ihre Plattform herunter, starten Sie die App,
00:07:25und ziehen Sie dann die lokalen Modelle, die Sie benötigen. Aber die ganze Kernidee hier ist wirklich stark,
00:07:30und es ist bereits nützlich genug, um es tatsächlich zu installieren. Wenn Sie Coding-Tools wie dieses mögen,
00:07:35abonnieren Sie den BetterStack-Kanal. Wir sehen uns im nächsten Video.