00:00:00Das ist Vibe Voice von Microsoft, und ich habe es benutzt, um meine eigene Stimme zu klonen.
00:00:04Ein Open-Source-Speech-Stack, der bereits mit 11 Labs, Chatterbox und Whisper verglichen wird.
00:00:10Aber er läuft offline und kann 90 Minuten Multi-Speaker-Audio in einem Durchgang generieren.
00:00:1590 Minuten oder auch nur annähernd so viel klingt ein wenig verrückt. Ist das also für Entwickler wirklich brauchbar,
00:00:20oder ist es nur ein weiteres Forschungs-Repo, das klammheimlich unsere GPUs röstet? Ich zeige euch ein paar Demos,
00:00:26und dann schauen wir uns an, wie es im Vergleich zu anderen abschneidet. Wir veröffentlichen ständig neue Videos,
00:00:29also abonniert am besten den Kanal.
00:00:31Ihr bekommt das alles aus deren Repo oder auf Hugging Face. Bevor wir irgendwas vergleichen,
00:00:40schauen wir uns erst mal die Ergebnisse an. Das hier ist alles vorbereitet, eingerichtet und startklar,
00:00:45damit wir uns auf das Wesentliche konzentrieren können. Ich habe schon andere Tools genutzt und bin gespannt, wie Vibe Voice
00:00:51klingt, wie es sich schlägt und wie wir die Ergebnisse sinnvoll nutzen können.
00:00:56Ich werde das Ganze als Multi-Speaker-Output, Echtzeit-TTS und dann als Voice-Cloning testen.
00:01:02Hier ist ein kurzes Skript im Podcast-Stil mit drei Sprechern, sauberen Sprecherwechseln und Audio-Emotionen.
00:01:08Bei den meisten TTS-Demos erwartet man, dass es erst gut klingt und dann anfängt abzuweichen,
00:01:14aber hört euch mal an, was hier passiert. Die Konsistenz der Sprecher scheint stabil zu bleiben,
00:01:18und die Übergänge brechen nicht ein. Hören wir mal rein.
00:01:26Klingt doch ganz ordentlich, oder? Es wirkt nicht so, als würde es nach 20 Sekunden den Kontext verlieren,
00:01:41oder? Da haben wir's. Das ist der entscheidende Punkt: Microsoft hat das nicht nur für kleine Spielereien entwickelt.
00:01:46Es ist für die Audiogenerierung mit langem Kontext gedacht – und das offline. Aber beim Hinzufügen von Emotions-Tags
00:01:52fängt es an zu bröckeln. Im Gegensatz zu Chatterbox etwa erkennt es Emotionen automatisch anhand des Textes,
00:01:58und das ist ehrlich gesagt nicht besonders gut. Das hat mir nicht gefallen. Chatterbox liegt hier immer noch vorn.
00:02:02Aber wenn man Dinge wie KI-Podcasts, vertonte Dokumente, Long-Form-Agents
00:02:07oder einfach Trainingsdaten erstellt, könnte das hier einen ziemlich guten Job machen.
00:02:11Kommen wir nun zum Echtzeit-Modus. Dieser läuft viel schneller als die Multi-Speaker-Variante,
00:02:16deren Generierung ehrlich gesagt ziemlich lange gedauert hat. Das hier ist nun inkrementelles Streaming, also ideal für
00:02:22Chatbot-Antworten, Sprach-Agents und Assistenten. Die erste Latenz liegt bei etwa 300 Millisekunden,
00:02:28was brauchbar ist. Es ist nicht das schnellste Tool, das ich je benutzt habe. Hören wir mal rein.
00:02:32Stell dir vor, du trinkst heiße Schokolade in Japan unter Kirschblüten.
00:02:35Okay. Und ja, sie behaupten, es könne singen oder sogar Hintergrundmusik erzeugen. Wenn man es darauf anlegt...
00:02:40das hat nicht geklappt. Ich habe es versucht, aber es hat nicht funktioniert. Der Punkt ist jedoch:
00:02:43Ist das hier reif für den produktiven Echtzeit-Einsatz? Ich denke nicht. Aber zum Experimentieren und für Agents
00:02:48ist es wirklich gut. Jetzt zum spaßigen Teil. Reden wir über das Voice-Cloning, denn das
00:02:53war wirklich extrem cool. Hier war mein Setup dafür: Zuerst habe ich mich mit Sprachmemos aufgenommen.
00:02:58Ich nutze einen Mac. Die Datei habe ich dann in eine WAV-Datei umgewandelt und Gradio mit diesem Befehl gestartet.
00:03:04Über dieses interaktive Interface kann ich dann meine eigene Stimme als Zielsprache wählen.
00:03:10Das ist alles. Nur eine ganz normale Aufnahme. Man würde jetzt etwas erwarten, das meiner Stimme ähnelt,
00:03:14aber offensichtlich künstlich ist. Hört euch das mal an. Das ist meine mit Vibe Voice geklonte Stimme.
00:03:19Es klingt ehrlich gesagt richtig gut. Fast schon zu gut, denn ich habe nichts davon jemals gesagt. Das
00:03:25klang mir zwar ähnlich, aber wenn man mich kennt, würde man wahrscheinlich trotzdem merken, dass es ein Fake ist. Hoffe ich zumindest.
00:03:30Es ist nicht perfekt, aber konsistent, stabil und lässt sich für längere Ausgaben nutzen. Das ist
00:03:36super. Microsoft sagt, dieser Stack könne Long-Form-Generierung in einem Rutsch bewältigen, und in der Praxis
00:03:41bleibt es bei längeren Audioaufnahmen spürbar stabiler als Pipelines im Whisper-Stil. Und
00:03:47wer schon mal versucht hat, eine Stimme für mehr als nur einen kurzen Clip zu klonen, weiß, warum das wichtig ist. Also ja,
00:03:52die Demos waren beeindruckend. Das Klonen hat Spaß gemacht, aber ich habe mir die Dokumentation, die Issues und einige Threads angesehen,
00:03:56und das Feedback anderer Entwickler ist gemischt. Zuerst die Vorteile, dann die Probleme,
00:04:02auf die ihr stoßen werdet. Die Pluspunkte sind größtenteils solide. Es ist definitiv für lange Formate geeignet.
00:04:08Die meisten TTS-Systeme driften ab, werden eintönig oder brechen nach ein paar Minuten ab. Vibe Voice ist für
00:04:14längere Audios gemacht, und das hat man hier und in meinen längeren Demos gesehen. Dann: Effizienz plus Ausdrucksstärke.
00:04:20Es nutzt Low-Frequency Audio Tokenizer, was den Kontext handhabbar hält. In Kombination aus Diffusion und einem
00:04:27LLM-Backbone erhält man ausdrucksstarke Sprache ohne absurden Rechenaufwand. Es wirkte vom Design her etwas entwicklerfreundlicher,
00:04:33was angenehm war. Es ist MIT-lizenziert und läuft offline. Auf Consumer-GPUs braucht es etwa 7 GB VRAM für Echtzeit.
00:04:40Und der Code für das Fine-Tuning ist dabei, besonders für ASR. Das ist kein abgeschottetes System, sondern wirklich gut.
00:04:47Schließlich bietet es, wie andere Open-Source-Projekte auch, strukturierten ASR-Output. Ein riesiger Vorteil.
00:04:53Sprecher-Diarisierung und Zeitstempel direkt ab Werk sparen später viel Zeit. Jeder, der schon
00:04:59Transkriptions-Pipelines gebaut hat, weiß, dass das keine Kleinigkeit ist. Nun zu den Nachteilen, die mir aufgefallen sind.
00:05:04Es fühlt sich noch sehr nach Forschungssoftware an. Microsoft hat einige TTS-Codepfade wegen Deepfake-Bedenken entfernt,
00:05:11das sagt eigentlich schon alles. Das SDK ist kein Volltreffer und nicht wirklich ausgereift. Es gibt
00:05:17natürlich einige Audio-Macken, wie ich sie auch bei anderer Software gefunden habe. Manchmal klingt die Betonung etwas roboterhaft.
00:05:23Gelegentlich wirkt das Tempo unpassend, und bei Szenen mit mehr als zwei oder drei Sprechern lässt die Qualität nach.
00:05:28Entwickler scheinen den Tokenizer zu lieben, hassen aber die VRAM-Spitzen. Zudem ist die Sprachunterstützung begrenzt.
00:05:33Chinesisch und Englisch funktionieren super, aber wenn man andere Sprachen benötigt, ist Vibe Voice nicht das Richtige.
00:05:40Ein letzter Nachteil ist das fehlende semantische Verständnis: Das Tool liest Text, versteht ihn aber nicht.
00:05:46Emotions-Tags können zwar helfen, führen aber oft zu Fehlern, wenn man sie einsetzt.
00:05:51Ganz ehrlich: Es ist ein unglaubliches Werkzeug zum Experimentieren, aber ob es sich
00:05:56langfristig durchsetzen wird, bin ich mir nicht sicher. Nun zur Frage, die euch wirklich brennt:
00:06:02Lohnt es sich im Vergleich zu dem, was ihr bereits in euren Workflows nutzt? Wie gut schlägt sich
00:06:06Vibe Voice gegen die üblichen Konkurrenten? Fangen wir mit Vibe Voice gegen Chatterbox an.
00:06:11Ich habe früher schon mal ein Video zu Chatterbox gemacht. Das war wirklich klasse. Chatterbox hatte eine
00:06:16Latenz von unter 200 Millisekunden, stärkere Emotionen und bessere kurze Antworten für Agents.
00:06:22Man könnte also meinen, Chatterbox gewinnt haushoch, aber Vibe Voice schlägt es bei langen Formaten um Längen.
00:06:28Chatterbox ist für Monologe unter 30 Minuten oder Podcast-Ausschnitte gedacht; Vibe Voice meistert diese langen Formate viel besser.
00:06:35Es ist also ein Abwägen. Dann haben wir natürlich Vibe Voice und 11 Labs. Das ist recht simpel:
00:06:4211 Labs gewinnt durch die geschliffene Aussprache, das Zero-Shot Voice-Cloning und die UX. Wo Vibe Voice
00:06:48jedoch punktet, sind die Kosten. Es ist kostenlos, offline und Open Source. Das ist ein riesiger Pluspunkt.
00:06:54Man zahlt nicht für die Software. Vergleicht man Vibe Voice mit Whisper oder Cozy Voice, schlägt es Whisper,
00:07:00sobald das Audio lang und strukturiert wird. Es ist ausdrucksstärker als Cozy Voice, und obwohl Qwen-basierte
00:07:06TTS-Modelle bei Dialekten aufholen, führt Vibe Voice immer noch bei der Content-Länge. Wenn du ein Entwickler bist,
00:07:13der lokal arbeitet, Open Source mag und Wert auf lange Audioformate legt, ist Vibe Voice deine Zeit wert.
00:07:18Wenn du etwas suchst, das eher „Plug-and-Play“ und sofort produktionsreif ist, kannst du das hier vorerst überspringen.
00:07:23Es ist einfach ein cooles Projekt zum Ausprobieren, besonders wegen des Voice-Clonings.
00:07:28Vibe Voice ist ungeschliffen, mächtig, aber auch spannend. Es ist einer der stärksten Open-Source-Audio-Stacks,
00:07:33die wir seit langem für KI-Sprache in Langform gesehen haben. Probiert die Hugging Face Demo aus,
00:07:37lest die Doku, und wir sehen uns im nächsten Video.
00:07:43read some docs, and we'll see you in another video.