Ich habe die Open-Source-Alternative zu ElevenLabs (Voicebox) ausprobiert

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Man sagt, dies sei das Ollama der Sprach-KI. Es klont Stimmen, erzeugt Sprache, diktiert in jede App,

00:00:07und spricht mit Agenten in Stimmen, die Ihnen tatsächlich gehören. Das ist VoiceBox, und genau das steht

00:00:13hier geschrieben. Es ist kostenlos und eine lokale Alternative zu ElevenLabs, und ehrlich gesagt war das wahnsinnig.

00:00:19Es hat etwa 30.000 Sterne auf GitHub. Es läuft lokal, und in den nächsten 60 Sekunden

00:00:24zeige ich Ihnen lokales Stimmenklonen, Spracherzeugung und Diktat innerhalb eines Editors.

00:00:29Wie nützlich ist das für uns und wie einfach ist es überhaupt, damit anzufangen? Wir finden es gleich heraus.

00:00:39VoiceBox ist ein quelloffenes, lokales KI-Sprachstudio. Man kann es sich am einfachsten so vorstellen:

00:00:46Ollama ist für lokale Textmodelle. VoiceBox versucht, dasselbe für Sprache zu sein. Es ist also nicht nur Text-zu-Sprache.

00:00:54Es bietet Stimmenklonen, systemweites Diktat, kreative Bearbeitung, und es hat sogar Geschichten und

00:01:00Zeitachsen und lässt sich mit KI-Agenten verbinden. Das gibt uns echte Kontrolle und noch mehr Privatsphäre.

00:01:06Ich möchte Dinge bauen, ohne mich fragen zu müssen: Wie viele Credits habe ich gerade verbraucht, um das zu testen? VoiceBox

00:01:12fragt das nicht, denn VoiceBox läuft auf unserem Rechner. Es gibt also kein Abonnement. Es gibt keine

00:01:17Zeichenbegrenzungen. Außerdem vereint es Klonen, Whisper-gestütztes Diktat, einen Multi-Track-Editor,

00:01:23eine Desktop-App, MCP-Unterstützung und eine lokale REST-API. Statt fünf separater Tools

00:01:29erhalten Sie eine Desktop-App mit allem, was Sie brauchen. Ich werde in diesem Video drei Dinge tun.

00:01:36Ich werde eine Stimme klonen, sie sprechen lassen und dann das Diktat innerhalb des

00:01:41Editors verwenden. Danach zeige ich Ihnen, warum die Agenten-Integration so genial ist, oder zumindest

00:01:46werden wir darüber sprechen. Wenn Sie Coding-Tools mögen, die Ihren Workflow beschleunigen, abonnieren Sie.

00:01:50Wir veröffentlichen ständig neue Videos. Also, ich lasse das jetzt auf meinem Mac M4 laufen.

00:01:55Hier ist VoiceBox. Ich habe bereits ein Stimmprofil bereit, aber der Ablauf war wirklich einfach. Man kann

00:02:02das natürlich mit Docker starten, ja, aber ich habe das gemacht und es hat fast 30 Minuten gedauert, die Container zum Laufen zu bringen.

00:02:08Also habe ich mich dafür entschieden, die Desktop-App zu nehmen, was viel schneller war, und sie ist wirklich

00:02:13gut. Ich kann das Audio hier benennen. Ich kann eine Beschreibung hinzufügen und dem Modell sogar sagen, wie es

00:02:19agieren soll. Dann kann ich entweder mich selbst beim Sprechen aufnehmen oder eine kurze Datei hochladen, die es analysieren soll,

00:02:26während ich die Transkription des Audios einfüge. Jetzt tippe ich einen Satz ein, den ich tatsächlich verwenden möchte. Vielleicht

00:02:32gibt mir das als Entwickler die volle Kontrolle über Sprach-KI ohne Cloud-Kosten und den ganzen Datenschutz-Kram.

00:02:38Ich wähle mein Stimmprofil. Ich kann das Modell wählen, das ich möchte, und auf „Generieren“ klicken.

00:02:44Beim ersten Ausführen muss das Modell heruntergeladen werden. Es könnte also tatsächlich einige Zeit dauern,

00:02:50aber nachdem wir es ausgeführt haben, erhalten wir Wellenformen. Hören wir mal rein.

00:02:57Als Entwickler gibt mir das die volle Kontrolle über Sprach-KI ohne Cloud-Kosten und all den Datenschutz-Kram.

00:03:02Dieses Audio wurde lokal auf meinem Rechner generiert und ich habe meine eigene Stimme geklont. Es gab keinen Browser-Tab.

00:03:09Ich brauchte keine API-Schlüssel, aber hier ist der Teil, der sich wie ein echter Workflow anfühlt: das systemweite

00:03:16Diktat. Ich könnte einen globalen Hotkey drücken und sagen, was ich gerade denke. Wenn Sie

00:03:22Coding-Tools und Tricks wie diesen mögen, schauen Sie auf unserem Kanal vorbei. Es landet jetzt direkt in meinem Editor.

00:03:29Das war also ziemlich nützlich für Notizen, Kommentare oder irgendetwas in der Art.

00:03:33Aber all diese Momente, in denen Sprechen tatsächlich schneller ist als Tippen, das ist riesig. Das

00:03:38ist nicht nur dafür gedacht, dass Sie mit dem Computer sprechen. Ihre Agenten könnten jetzt auch zurücksprechen.

00:03:43Claude Code, Cursor oder Ihr eigener lokaler Agent können die Sprachausgabe über VoiceBox triggern,

00:03:49anstatt sie nur in Ihr Terminal auszugeben. Wir erhalten bereits Feedback von unseren KIs.

00:03:55Warum nicht sie zu uns sprechen lassen? Vergleichen wir das jetzt mit Tools, die wir bereits kennen.

00:03:59Aus offensichtlichen Gründen, richtig, haben wir ElevenLabs. ElevenLabs ist großartig. Bravo. Ich habe Vergleiche dazu

00:04:05schon früher gemacht. Es ist gehostet. Wir wissen, dass die Qualität erstaunlich ist. Aber andererseits ist es cloudbasiert.

00:04:11Es ist abonnementbasiert. Wir zahlen also dafür. Wir laden unsere Sachen in die Cloud hoch.

00:04:16VoiceBox ist das genaue Gegenteil davon. Warum? Nun, es ist lokal. Es ist kostenlos. Es ist unbegrenzt. Wir

00:04:22kontrollieren alle Daten, die hineinfließen. ElevenLabs mag immer noch gewinnen, wenn man es den ganzen Tag nutzt,

00:04:27aber ich denke, ich werde VoiceBox behalten, da ich es so einfach fand. Und ehrlich gesagt klingt es auch

00:04:33sehr ordentlich. Für uns Entwickler ist das beste Tool nicht immer das mit der schönsten Ausgabe. Das interessiert uns

00:04:38oft nicht so sehr. Manchmal ist es das Tool, das man tatsächlich kontrollieren kann. Dann gibt es die

00:04:43ganze Open-Source-Seite. Sie könnten bereits Tools wie Piper, Whisper und eine Reihe separater Skripte verwenden.

00:04:50Aber noch einmal: Der springende Punkt dabei ist, Leute, dass sie alle getrennt sind, oder? Wir haben ein Tool für die Transkription,

00:04:56eines zum Klonen, eines für TTS, eines für die Benutzeroberfläche, all das, was wir wirklich nur zusammenwürfeln.

00:05:03VoiceBox packt den gesamten Workflow in eine Studio-App. Eingabe, Ausgabe, Bearbeitung, Profile,

00:05:09Dokumentation, Agenten-Integration, und verdammt, Sie könnten auch den MCP-Server verwenden. Wie gesagt,

00:05:14das bedeutet, dass Claude oder Cursor VoiceBox wie ein Werkzeug aufrufen können, anstatt dass Ihr Agent nur mit

00:05:20Text antwortet. Er spricht jetzt zurück zu Ihnen. Aber möchten Sie sich selbst zurücksprechen hören? Ich weiß nicht.

00:05:25Vielleicht ändern Sie die Stimme dafür. Aber stellen Sie sich vor, Ihr Coding-Agent sagt: Build fehlgeschlagen. Drei Testmodule

00:05:30haben das Auth-Modul beschädigt. Das klingt unrealistisch, bis Sie erkennen, wie oft am Tag Sie bereits

00:05:36Feedback von Ihren Tools erhalten. VoiceBox gibt diesen Updates einfach eine echte Stimme.

00:05:42Warum mochte ich dieses so sehr im Vergleich zu anderen? Nun, okay, Privatsphäre und Kosten. Ehrlich gesagt,

00:05:48sind das die wirklich großen Vorteile, zumindest für mich. Das sind einfache Siege. Für Sprachbeispiele, Audio,

00:05:53interne Inhalte oder wirklich alles Sensible ist lokal der erste Weg, den wir wollen. Es ist großartig.

00:05:57Dann ist da noch die Agenten-Integration, die ich hier nicht im vollständigen Test hatte, aber Entwickler sprechen bereits

00:06:02darüber, während sie es in Claude Code, Cursor integrieren. VoiceBox gibt diesen Systemen eine

00:06:08Sprachebene, ohne einen gehosteten Sprachanbieter zu benötigen. Der Workflow war ziemlich sauber. Ich mag,

00:06:14dass es alles in einer Benutzeroberfläche ist, die wir kontrollieren können. Es ist wirklich einfach. Und wenn Sie Apple Silicon nutzen,

00:06:18ist die lokale Leistung besonders einer der Gründe, warum sich das so gut angefühlt hat. Aber hier ist die

00:06:23Sache, die man bei all dem beachten sollte. Es ist dieses Jahr erschienen. Es ist noch früh. Es wird also

00:06:28Probleme geben. Einige Benutzer werden auf schwierige Stellen stoßen, wenn Sie Windows nutzen, besonders bei der

00:06:33GPU-Erkennung, Modelleinrichtung und Exporten. Wenn das passiert, starten Sie die App einfach neu. Ich habe das Problem

00:06:39auf meinem Mac. Ein Neustart behebt das. Die Konsistenz bei längeren Texten kann auch noch hinter ElevenLabs zurückfallen.

00:06:46Bei der Emotionssteuerung verbessert es sich, aber das hängt vom Modell ab, das Sie wählen. Wenn Sie

00:06:50Shatterbox TTS Turbo wählen, haben wir diese Emotionen bereits eingebaut.

00:06:55Sollten Sie also VoiceBox installieren? Ehrlich gesagt, war es super einfach. Es ist absolut einen Versuch wert,

00:07:00weil es viel von dieser Reibung beseitigt, die wir bei Workflows haben, die wir nur

00:07:04zusammensetzen. Der Hauptwert ist nicht nur die Sprachqualität. Es ist wirklich die Kontrolle,

00:07:09die uns hier gegeben wird. Es ist die Kontrolle über Daten, die Kontrolle über Kosten, über die Integration. Das ist

00:07:15der Grund, warum das alles wirklich zählt. Der Einstieg war todsicher einfach. Ein Affe könnte es tun. Gehen Sie auf die

00:07:20VoiceBox-Website oder GitHub-Releases, laden Sie den Installer für Ihre Plattform herunter, starten Sie die App,

00:07:25und ziehen Sie dann die lokalen Modelle, die Sie benötigen. Aber die ganze Kernidee hier ist wirklich stark,

00:07:30und es ist bereits nützlich genug, um es tatsächlich zu installieren. Wenn Sie Coding-Tools wie dieses mögen,

00:07:35abonnieren Sie den BetterStack-Kanal. Wir sehen uns im nächsten Video.

Key Takeaway

VoiceBox bietet Entwicklern durch die lokale Ausführung volle Kontrolle über Sprach-KI ohne Cloud-Kosten, Datenschutzbedenken oder Nutzungsbeschränkungen durch ElevenLabs.

Highlights

VoiceBox ist eine kostenlose, lokale Open-Source-Alternative zu ElevenLabs für Stimmenklonen und Sprachsynthese.
Die Anwendung benötigt kein Abonnement und unterliegt keinen Zeichenbegrenzungen, da die gesamte Verarbeitung lokal auf dem Rechner erfolgt.
Die Desktop-App vereint Stimmenklonen, Whisper-gestütztes Diktat, Multi-Track-Bearbeitung und eine lokale REST-API in einer einzigen Oberfläche.
Die Software unterstützt MCP (Model Context Protocol), was Coding-Agenten wie Claude oder Cursor ermöglicht, Sprache direkt auszugeben.
Die Installation per Desktop-App ist wesentlich schneller als die Einrichtung über Docker-Container, die etwa 30 Minuten in Anspruch nehmen kann.

Timeline

VoiceBox-Konzept und Vorteile

VoiceBox fungiert als lokales Pendant zu Ollama für Textmodelle.
Die Anwendung bietet Datenschutz durch lokale Datenverarbeitung.
Der Wegfall von Abonnements und Credits ermöglicht uneingeschränkte Nutzung.

VoiceBox zielt darauf ab, Sprach-KI lokal verfügbar zu machen. Anstatt sich auf cloudbasierte Dienste mit Abonnementmodellen zu verlassen, wird die gesamte Verarbeitung auf dem eigenen Rechner ausgeführt. Dies eliminiert die Abhängigkeit von API-Limits und Cloud-Kosten.

Praktische Implementierung und Workflow

Die Desktop-App ist effizienter als Docker-Container.
Stimmprofile lassen sich durch Aufnahme oder Dateiupload erstellen.
Das systemweite Diktat ermöglicht die direkte Eingabe in Editoren.

Die Einrichtung der Desktop-App gestaltet sich unkompliziert. Nutzer definieren ein Stimmprofil, laden Modelle und können direkt mit der Generierung von Audio oder dem Diktat beginnen. Das System fungiert dabei als nahtlose Schnittstelle für Notizen und Kommentare innerhalb des Entwickler-Workflows.

Agenten-Integration und Vergleich

VoiceBox ermöglicht Coding-Agenten eine akustische Rückmeldung via MCP.
ElevenLabs übertrifft VoiceBox in der Audioqualität, bietet jedoch keine lokale Kontrolle.
Die Integration aller Funktionen in eine einzige App vermeidet den Aufwand, verschiedene Skripte wie Piper oder Whisper manuell zu kombinieren.

Die Fähigkeit, VoiceBox als Tool in Claude Code oder Cursor einzubinden, transformiert die Interaktion mit KI-Agenten. Anstatt Feedback nur als Text im Terminal zu erhalten, können Agenten nun direkt zu dem Nutzer sprechen. Dies verbessert die Feedbackschleifen bei der Softwareentwicklung.

Einschränkungen und Fazit

Frühe Softwarephasen können technische Probleme bei der GPU-Erkennung verursachen.
Die Konsistenz bei sehr langen Texten ist noch ausbaufähig.
Ein Neustart der App löst die meisten anfänglichen Probleme.

Obwohl VoiceBox erhebliche Vorteile bei Datenschutz und Kosten bietet, ist die Software noch in einem frühen Entwicklungsstadium. Nutzer sollten sich auf gelegentliche Hürden bei der Konfiguration einstellen. Dennoch überwiegt der Nutzen durch die gewonnene Autonomie über den gesamten Sprach-KI-Stack.

Community Posts

Write about this video