Ich habe meine eigene Stimme mit Microsofts Open-Source-Modell geklont

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Das ist Vibe Voice von Microsoft, und ich habe es benutzt, um meine eigene Stimme zu klonen.
00:00:04Ein Open-Source-Speech-Stack, der bereits mit 11 Labs, Chatterbox und Whisper verglichen wird.
00:00:10Aber er läuft offline und kann 90 Minuten Multi-Speaker-Audio in einem Durchgang generieren.
00:00:1590 Minuten oder auch nur annähernd so viel klingt ein wenig verrückt. Ist das also für Entwickler wirklich brauchbar,
00:00:20oder ist es nur ein weiteres Forschungs-Repo, das klammheimlich unsere GPUs röstet? Ich zeige euch ein paar Demos,
00:00:26und dann schauen wir uns an, wie es im Vergleich zu anderen abschneidet. Wir veröffentlichen ständig neue Videos,
00:00:29also abonniert am besten den Kanal.
00:00:31Ihr bekommt das alles aus deren Repo oder auf Hugging Face. Bevor wir irgendwas vergleichen,
00:00:40schauen wir uns erst mal die Ergebnisse an. Das hier ist alles vorbereitet, eingerichtet und startklar,
00:00:45damit wir uns auf das Wesentliche konzentrieren können. Ich habe schon andere Tools genutzt und bin gespannt, wie Vibe Voice
00:00:51klingt, wie es sich schlägt und wie wir die Ergebnisse sinnvoll nutzen können.
00:00:56Ich werde das Ganze als Multi-Speaker-Output, Echtzeit-TTS und dann als Voice-Cloning testen.
00:01:02Hier ist ein kurzes Skript im Podcast-Stil mit drei Sprechern, sauberen Sprecherwechseln und Audio-Emotionen.
00:01:08Bei den meisten TTS-Demos erwartet man, dass es erst gut klingt und dann anfängt abzuweichen,
00:01:14aber hört euch mal an, was hier passiert. Die Konsistenz der Sprecher scheint stabil zu bleiben,
00:01:18und die Übergänge brechen nicht ein. Hören wir mal rein.
00:01:26Klingt doch ganz ordentlich, oder? Es wirkt nicht so, als würde es nach 20 Sekunden den Kontext verlieren,
00:01:41oder? Da haben wir's. Das ist der entscheidende Punkt: Microsoft hat das nicht nur für kleine Spielereien entwickelt.
00:01:46Es ist für die Audiogenerierung mit langem Kontext gedacht – und das offline. Aber beim Hinzufügen von Emotions-Tags
00:01:52fängt es an zu bröckeln. Im Gegensatz zu Chatterbox etwa erkennt es Emotionen automatisch anhand des Textes,
00:01:58und das ist ehrlich gesagt nicht besonders gut. Das hat mir nicht gefallen. Chatterbox liegt hier immer noch vorn.
00:02:02Aber wenn man Dinge wie KI-Podcasts, vertonte Dokumente, Long-Form-Agents
00:02:07oder einfach Trainingsdaten erstellt, könnte das hier einen ziemlich guten Job machen.
00:02:11Kommen wir nun zum Echtzeit-Modus. Dieser läuft viel schneller als die Multi-Speaker-Variante,
00:02:16deren Generierung ehrlich gesagt ziemlich lange gedauert hat. Das hier ist nun inkrementelles Streaming, also ideal für
00:02:22Chatbot-Antworten, Sprach-Agents und Assistenten. Die erste Latenz liegt bei etwa 300 Millisekunden,
00:02:28was brauchbar ist. Es ist nicht das schnellste Tool, das ich je benutzt habe. Hören wir mal rein.
00:02:32Stell dir vor, du trinkst heiße Schokolade in Japan unter Kirschblüten.
00:02:35Okay. Und ja, sie behaupten, es könne singen oder sogar Hintergrundmusik erzeugen. Wenn man es darauf anlegt...
00:02:40das hat nicht geklappt. Ich habe es versucht, aber es hat nicht funktioniert. Der Punkt ist jedoch:
00:02:43Ist das hier reif für den produktiven Echtzeit-Einsatz? Ich denke nicht. Aber zum Experimentieren und für Agents
00:02:48ist es wirklich gut. Jetzt zum spaßigen Teil. Reden wir über das Voice-Cloning, denn das
00:02:53war wirklich extrem cool. Hier war mein Setup dafür: Zuerst habe ich mich mit Sprachmemos aufgenommen.
00:02:58Ich nutze einen Mac. Die Datei habe ich dann in eine WAV-Datei umgewandelt und Gradio mit diesem Befehl gestartet.
00:03:04Über dieses interaktive Interface kann ich dann meine eigene Stimme als Zielsprache wählen.
00:03:10Das ist alles. Nur eine ganz normale Aufnahme. Man würde jetzt etwas erwarten, das meiner Stimme ähnelt,
00:03:14aber offensichtlich künstlich ist. Hört euch das mal an. Das ist meine mit Vibe Voice geklonte Stimme.
00:03:19Es klingt ehrlich gesagt richtig gut. Fast schon zu gut, denn ich habe nichts davon jemals gesagt. Das
00:03:25klang mir zwar ähnlich, aber wenn man mich kennt, würde man wahrscheinlich trotzdem merken, dass es ein Fake ist. Hoffe ich zumindest.
00:03:30Es ist nicht perfekt, aber konsistent, stabil und lässt sich für längere Ausgaben nutzen. Das ist
00:03:36super. Microsoft sagt, dieser Stack könne Long-Form-Generierung in einem Rutsch bewältigen, und in der Praxis
00:03:41bleibt es bei längeren Audioaufnahmen spürbar stabiler als Pipelines im Whisper-Stil. Und
00:03:47wer schon mal versucht hat, eine Stimme für mehr als nur einen kurzen Clip zu klonen, weiß, warum das wichtig ist. Also ja,
00:03:52die Demos waren beeindruckend. Das Klonen hat Spaß gemacht, aber ich habe mir die Dokumentation, die Issues und einige Threads angesehen,
00:03:56und das Feedback anderer Entwickler ist gemischt. Zuerst die Vorteile, dann die Probleme,
00:04:02auf die ihr stoßen werdet. Die Pluspunkte sind größtenteils solide. Es ist definitiv für lange Formate geeignet.
00:04:08Die meisten TTS-Systeme driften ab, werden eintönig oder brechen nach ein paar Minuten ab. Vibe Voice ist für
00:04:14längere Audios gemacht, und das hat man hier und in meinen längeren Demos gesehen. Dann: Effizienz plus Ausdrucksstärke.
00:04:20Es nutzt Low-Frequency Audio Tokenizer, was den Kontext handhabbar hält. In Kombination aus Diffusion und einem
00:04:27LLM-Backbone erhält man ausdrucksstarke Sprache ohne absurden Rechenaufwand. Es wirkte vom Design her etwas entwicklerfreundlicher,
00:04:33was angenehm war. Es ist MIT-lizenziert und läuft offline. Auf Consumer-GPUs braucht es etwa 7 GB VRAM für Echtzeit.
00:04:40Und der Code für das Fine-Tuning ist dabei, besonders für ASR. Das ist kein abgeschottetes System, sondern wirklich gut.
00:04:47Schließlich bietet es, wie andere Open-Source-Projekte auch, strukturierten ASR-Output. Ein riesiger Vorteil.
00:04:53Sprecher-Diarisierung und Zeitstempel direkt ab Werk sparen später viel Zeit. Jeder, der schon
00:04:59Transkriptions-Pipelines gebaut hat, weiß, dass das keine Kleinigkeit ist. Nun zu den Nachteilen, die mir aufgefallen sind.
00:05:04Es fühlt sich noch sehr nach Forschungssoftware an. Microsoft hat einige TTS-Codepfade wegen Deepfake-Bedenken entfernt,
00:05:11das sagt eigentlich schon alles. Das SDK ist kein Volltreffer und nicht wirklich ausgereift. Es gibt
00:05:17natürlich einige Audio-Macken, wie ich sie auch bei anderer Software gefunden habe. Manchmal klingt die Betonung etwas roboterhaft.
00:05:23Gelegentlich wirkt das Tempo unpassend, und bei Szenen mit mehr als zwei oder drei Sprechern lässt die Qualität nach.
00:05:28Entwickler scheinen den Tokenizer zu lieben, hassen aber die VRAM-Spitzen. Zudem ist die Sprachunterstützung begrenzt.
00:05:33Chinesisch und Englisch funktionieren super, aber wenn man andere Sprachen benötigt, ist Vibe Voice nicht das Richtige.
00:05:40Ein letzter Nachteil ist das fehlende semantische Verständnis: Das Tool liest Text, versteht ihn aber nicht.
00:05:46Emotions-Tags können zwar helfen, führen aber oft zu Fehlern, wenn man sie einsetzt.
00:05:51Ganz ehrlich: Es ist ein unglaubliches Werkzeug zum Experimentieren, aber ob es sich
00:05:56langfristig durchsetzen wird, bin ich mir nicht sicher. Nun zur Frage, die euch wirklich brennt:
00:06:02Lohnt es sich im Vergleich zu dem, was ihr bereits in euren Workflows nutzt? Wie gut schlägt sich
00:06:06Vibe Voice gegen die üblichen Konkurrenten? Fangen wir mit Vibe Voice gegen Chatterbox an.
00:06:11Ich habe früher schon mal ein Video zu Chatterbox gemacht. Das war wirklich klasse. Chatterbox hatte eine
00:06:16Latenz von unter 200 Millisekunden, stärkere Emotionen und bessere kurze Antworten für Agents.
00:06:22Man könnte also meinen, Chatterbox gewinnt haushoch, aber Vibe Voice schlägt es bei langen Formaten um Längen.
00:06:28Chatterbox ist für Monologe unter 30 Minuten oder Podcast-Ausschnitte gedacht; Vibe Voice meistert diese langen Formate viel besser.
00:06:35Es ist also ein Abwägen. Dann haben wir natürlich Vibe Voice und 11 Labs. Das ist recht simpel:
00:06:4211 Labs gewinnt durch die geschliffene Aussprache, das Zero-Shot Voice-Cloning und die UX. Wo Vibe Voice
00:06:48jedoch punktet, sind die Kosten. Es ist kostenlos, offline und Open Source. Das ist ein riesiger Pluspunkt.
00:06:54Man zahlt nicht für die Software. Vergleicht man Vibe Voice mit Whisper oder Cozy Voice, schlägt es Whisper,
00:07:00sobald das Audio lang und strukturiert wird. Es ist ausdrucksstärker als Cozy Voice, und obwohl Qwen-basierte
00:07:06TTS-Modelle bei Dialekten aufholen, führt Vibe Voice immer noch bei der Content-Länge. Wenn du ein Entwickler bist,
00:07:13der lokal arbeitet, Open Source mag und Wert auf lange Audioformate legt, ist Vibe Voice deine Zeit wert.
00:07:18Wenn du etwas suchst, das eher „Plug-and-Play“ und sofort produktionsreif ist, kannst du das hier vorerst überspringen.
00:07:23Es ist einfach ein cooles Projekt zum Ausprobieren, besonders wegen des Voice-Clonings.
00:07:28Vibe Voice ist ungeschliffen, mächtig, aber auch spannend. Es ist einer der stärksten Open-Source-Audio-Stacks,
00:07:33die wir seit langem für KI-Sprache in Langform gesehen haben. Probiert die Hugging Face Demo aus,
00:07:37lest die Doku, und wir sehen uns im nächsten Video.
00:07:43read some docs, and we'll see you in another video.

Key Takeaway

Microsofts Vibe Voice ist ein mächtiges, wenn auch ungeschliffenes Open-Source-Tool, das seine Stärken vor allem in der stabilen Generierung von sehr langen Audioformaten und im effizienten Offline-Voice-Cloning ausspielt.

Highlights

Vibe Voice von Microsoft ist ein Open-Source-Speech-Stack

Timeline

Einführung in Vibe Voice und seine Kernfunktionen

Der Sprecher stellt Vibe Voice als neues Open-Source-Modell von Microsoft vor, das mit etablierten Diensten wie 11 Labs und Whisper konkurriert. Ein besonderes Merkmal ist die Fähigkeit, bis zu 90 Minuten Audio mit mehreren Sprechern in einem einzigen Durchgang zu generieren. Die Software wird direkt über GitHub oder Hugging Face bereitgestellt und läuft lokal auf der eigenen Hardware des Nutzers. Der Fokus des Tests liegt auf der Brauchbarkeit für Entwickler und der Analyse, ob es sich um ein echtes Werkzeug oder nur ein Forschungsprojekt handelt. Erste Demos sollen die Leistung in den Bereichen Multi-Speaker-Output, Echtzeit-TTS und Voice-Cloning unter Beweis stellen.

Analyse der Langform-Generierung und Emotionen

In diesem Abschnitt wird ein Podcast-Skript mit drei Sprechern getestet, um die Konsistenz über längere Zeiträume zu prüfen. Im Gegensatz zu vielen anderen TTS-Systemen bleibt die Stimme bei Vibe Voice auch nach längerer Dauer stabil und verliert nicht den Kontext. Der Sprecher lobt die sauberen Übergänge zwischen den Personen, kritisiert jedoch die automatische Emotionserkennung deutlich. Während Konkurrenten wie Chatterbox hier präziser arbeiten, wirken die von Vibe Voice generierten Emotionen oft unnatürlich oder fehlerhaft. Dennoch eignet sich das Tool hervorragend für KI-Podcasts oder vertonte Dokumente, bei denen die Länge der entscheidende Faktor ist.

Echtzeit-Modus und technisches Setup des Voice-Clonings

Der Sprecher demonstriert den Echtzeit-Modus, der eine Latenz von etwa 300 Millisekunden aufweist und sich für Sprach-Assistenten eignet. Ein Highlight ist das Voice-Cloning, für das lediglich einfache Sprachmemos im WAV-Format und ein Befehl über die Gradio-Oberfläche nötig sind. Das Ergebnis des Klonens wird als überraschend gut und konsistent beschrieben, auch wenn feine Nuancen für Bekannte des Sprechers als künstlich erkennbar bleiben könnten. Microsoft nutzt hier Low-Frequency Audio Tokenizer und ein LLM-Backbone, um Ausdrucksstärke bei moderatem Rechenaufwand zu erreichen. Diese technische Architektur sorgt dafür, dass die Pipeline im Vergleich zu Whisper-basierten Ansätzen bei langen Aufnahmen deutlich stabiler bleibt.

Vorteile, Nachteile und Entwickler-Feedback

Hier erfolgt eine detaillierte Zusammenfassung der Pro- und Contra-Argumente basierend auf Dokumentationen und Nutzerfeedback. Positiv hervorgehoben werden die MIT-Lizenz, der Offline-Betrieb und die nützliche Sprecher-Diarisierung ab Werk. Auf der negativen Seite steht der Eindruck, dass es sich noch um eine unreife Forschungssoftware handelt, bei der Microsoft einige Funktionen aus Sicherheitsbedenken entfernt hat. Zudem gibt es Probleme mit VRAM-Spitzen und eine sehr eingeschränkte Sprachunterstützung, die fast nur Englisch und Chinesisch umfasst. Der Sprecher betont, dass das Tool den Text zwar flüssig liest, aber kein echtes semantisches Verständnis besitzt, was zu falscher Betonung führen kann.

Vergleich mit der Konkurrenz und Fazit

Im abschließenden Vergleich tritt Vibe Voice gegen Chatterbox, 11 Labs und Whisper an. Während Chatterbox bei kurzen Agent-Antworten und Emotionen gewinnt, dominiert Vibe Voice bei der reinen Content-Länge. 11 Labs bleibt der Spitzenreiter in Sachen Benutzerfreundlichkeit und polierter Audioqualität, ist aber im Gegensatz zur kostenlosen Open-Source-Alternative Vibe Voice mit Kosten verbunden. Der Sprecher empfiehlt das Modell ausdrücklich für Entwickler, die lokal arbeiten wollen und Wert auf lange Formate legen. Für sofortige, produktionsreife "Plug-and-Play"-Lösungen sei es jedoch noch etwas zu ungeschliffen, biete aber ein spannendes Experimentierfeld.

Community Posts

View all posts