Qwen TTS hat gerade Open-Source-Sprachsynthese revolutioniert

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00Das hätte man auch per E-Mail klären können.
00:00:02Das hätte man auch per E-Mail klären können.
00:00:04Derselbe Satz, zwei völlig unterschiedliche Darbietungen.
00:00:07Ich habe erst normal getippt und bin dann langsam in eine frustrierte Schimpftirade verfallen.
00:00:11Das war's schon.
00:00:12Kein Markup, keine API, die deine Daten irgendwohin schickt.
00:00:15Das ist Qwen2-Audio TTS.
00:00:17Ihr neues Open-Source-Sprachmodell, bei dem man den Tonfall steuern kann und das wirklich zuhört.
00:00:22Mal sehen, wie es im Vergleich zu ElevenLabs oder Chatterbox abschneidet.
00:00:30Vielen Open-Source-Sprachmodellen fehlt es an jeglicher Emotion.
00:00:34Ich habe Chatterbox ausprobiert, und das war eigentlich ganz ordentlich.
00:00:37Da Qwen das jetzt auch kann, wollte ich mir nicht nur das Voice Cloning ansehen,
00:00:41sondern auch, wie die Emotionen der Sprache im Vergleich zur Konkurrenz abschneiden.
00:00:44Und ehrlich gesagt war ich angenehm überrascht.
00:00:47Chatterbox hat einen Emotionsregler, während man bei Qwen
00:00:50buchstäblich eintippt, wie es klingen soll. Das lässt uns mehr Freiheiten.
00:00:55Das leichtere Modell bietet Voice Cloning in drei Sekunden, das schauen wir uns gleich an.
00:00:59Wenn wir auf das 1,7B-Modell hochstufen, verlieren wir zwar das Cloning,
00:01:02erhalten dafür aber Echtzeit-Streaming mit einer Latenz von 97 Millisekunden,
00:01:0510 Sprachen mit natürlichem Code-Switching – und das alles 100 % lokal.
00:01:09Es ist kostenlos.
00:01:09Es steht unter der Apache 2.0-Lizenz.
00:01:11Das bedeutet schnelleres Prototyping, private Sprachassistenten und Barrierefreiheits-Tools.
00:01:16Wenn ihr immer auf der Suche nach den neuesten Tools seid, abonniert den Kanal.
00:01:19Wir veröffentlichen ständig neue Videos.
00:01:21Cloning ist einfach.
00:01:22Emotionen sind schwieriger.
00:01:23Also versuchen wir mal, das System an seine Grenzen zu bringen.
00:01:25Zuerst testen wir das Cloning.
00:01:28Dazu lade ich hier meine bereits aufgenommene Stimme als Referenz hoch.
00:01:32Im Feld “Reference Text” muss ich eintippen, was ich in diesem Audio gesagt habe.
00:01:37Im Feld “Target Text” tippe ich dann das ein, was am Ende ausgegeben werden soll.
00:01:42Das ist alles.
00:01:43Es hat tatsächlich viel länger gedauert, als ich dachte, bis es fertig war.
00:01:46Ich hatte gehofft, dass die Qualität überzeugt. Hören wir mal rein.
00:01:49Wie klingt das mit diesem Modell?
00:01:51Na ja, für ein kleineres Modell, speziell von Qwen, war das okay,
00:01:55aber man hört an manchen Stellen deutlich, dass es künstlich generiert ist.
00:01:59Es war also keineswegs überragend.
00:02:01Das beste Voice-Cloning-Audio, das ich bisher gefunden habe, war Vibe Voice von Microsoft – das war Wahnsinn.
00:02:07Das hier war nur ordentlich.
00:02:08Okay.
00:02:09Voice Cloning: erledigt.
00:02:10Check.
00:02:11Aber jetzt rüsten wir auf das 1,7B-Modell auf und fügen Emotionen
00:02:16zum Text hinzu, um zu sehen, wie Qwen damit umgeht.
00:02:19Ich zeige euch mal etwas, das wirklich nützlich erscheint.
00:02:22Ich tippe hier in das Anweisungsfeld: “Erzähle das wie ein spannungsgeladener Erzähler,
00:02:26langsamer Aufbau und ein erleichtertes Lachen am Ende.”
00:02:28Und hier soll es ein paar grundlegende Infos über Qwen sagen, einfach weil wir gerade dabei sind.
00:02:32Warum nicht?
00:02:33Hören wir mal rein.
00:02:34Alibabas neues Open-Source-Text-to-Speech-Modell,
00:02:37bei dem man endlich das Gefühl hat, mit einem echten Sprecher zu reden.
00:02:42Okay.
00:02:42Es gab eine kleine Abweichung.
00:02:44Es hat nicht jeden Tonfall getroffen, aber vieles war richtig.
00:02:47Es gibt keine Dropdown-Menüs oder Voreinstellungen.
00:02:49Wir geben vor, wie es klingen soll.
00:02:51Jetzt erstellen wir eine Stimme, mit der man tatsächlich interagieren möchte.
00:02:55Vielleicht bauen wir gerade ein Projekt.
00:02:57Schreiben wir hier mal was rein.
00:02:58Ich nehme einen Text über das Schreiben von Tests.
00:03:01Und in das Anweisungsfeld schreiben wir: “junge,
00:03:03enthusiastische Entwicklerstimme, etwas sarkastisch, aber freundlich.”
00:03:07Das ist nicht so, als würde ich einfach “Stimme Preset 12” wählen.
00:03:10Ich habe genau beschrieben, wie diese Persönlichkeit klingen soll.
00:03:13Hören wir mal rein.
00:03:14Code-Tests zu schreiben bedeutet, sorgfältig zu prüfen, ob dein Programm das tut, was es tun soll.
00:03:20Jetzt denkt ihr vielleicht: Wie schlägt sich das im Vergleich?
00:03:22Nun, ElevenLabs ist immer noch die Nummer eins, aber es kostet Geld und deine Daten verlassen deinen Rechner.
00:03:26Chatterbox ist exzellent.
00:03:28Eines der besseren Tools, die ich genutzt habe, mit guten Emotionen.
00:03:31Wenn es euch rein um Voice Cloning geht, bleibe ich bei Vibe Voice, das war unheimlich gut.
00:03:36Qwen gewinnt beim TTS, wenn man die Stimme natürlich beschreiben und schnell iterieren will.
00:03:41Offensichtlich gibt es hier einige Pluspunkte.
00:03:43Mir gefällt die Steuerung durch natürliche Sprache für schnellste Iteration.
00:03:47Es ist komplett lokal, privat und bereit für Streaming
00:03:50in Echtzeit-Agenten. Das Voice Design fühlt sich hier intuitiver an.
00:03:55Kommen wir zu dem, was mir weniger gefällt.
00:03:57Es ist ein recht neues Modell, richtig?
00:04:00In manchen Sprachen muss es also noch ausreifen.
00:04:03Wie bei jedem TTS wird eine GPU für die beste Performance empfohlen.
00:04:06Die CPU funktioniert zwar auch,
00:04:07ist aber einfach langsamer.
00:04:09Und die Emotionen hängen stark davon ab, wie gut der Prompt bzw. die Anweisung ist.
00:04:13Wenn die Regieanweisung vage ist, wird auch das Ergebnis vage sein.
00:04:16Bleibt die große Frage: Ist die Einrichtung mühsam?
00:04:19Nein, absolut nicht.
00:04:20Super unkompliziert.
00:04:22Repo klonen, Abhängigkeiten installieren, Web-UI starten, Localhost öffnen.
00:04:26Das ist alles, was ich getan habe – von null bis zur funktionierenden Demo in wenigen Minuten.
00:04:32Keine API-Keys.
00:04:33Keine Kosten.
00:04:34Und es läuft direkt auf deinem Rechner.
00:04:35Genauso sollte sich Open-Source-Sprachtechnologie anfühlen.
00:04:38Deshalb ist es so spannend, mit diesen Open-Source-Tools herumzuspielen und die Unterschiede zu sehen.
00:04:43Qwen TTS: schnell, privat und mehr Kontrolle für Entwickler.
00:04:46Probiert es selbst aus.
00:04:48Ich habe die Links unten verlinkt.
00:04:49Und wenn ihr mehr solcher lokalen Tools sehen wollt, abonniert den Kanal.
00:04:52Wir sehen uns im nächsten Video.

Key Takeaway

Qwen2-Audio TTS revolutioniert die Open-Source-Sprachsynthese durch lokal ausführbare, emotionsgesteuerte Sprachgenerierung ohne die Datenschutzbedenken oder Kosten proprietärer Cloud-Lösungen.

Highlights

Qwen2-Audio TTS ist ein neues Open-Source-Sprachmodell von Alibaba

Timeline

Einführung in Qwen2-Audio TTS

Der Sprecher demonstriert die beeindruckende Fähigkeit des Modells, denselben Satz mit völlig unterschiedlichen Emotionen wiederzugeben. Er erklärt, dass Qwen2-Audio TTS ohne komplexes Markup oder externe APIs auskommt und direkt auf die Anweisungen des Nutzers hört. Dieses neue Open-Source-Modell erlaubt eine präzise Kontrolle über den Tonfall, was es von herkömmlichen TTS-Systemen abhebt. Es wird als ernsthafte Konkurrenz zu etablierten Playern wie ElevenLabs oder Chatterbox positioniert. Die Einleitung unterstreicht den Vorteil der lokalen Ausführung für maximale Privatsphäre.

Technische Spezifikationen und Modellvergleich

In diesem Abschnitt werden die technischen Vorzüge von Qwen gegenüber Chatterbox und anderen Open-Source-Modellen beleuchtet. Während andere Tools oft emotionslos wirken, punktet Qwen durch die Eingabe von Regieanweisungen in Textform anstelle von Schiebereglern. Das 1,7B-Modell glänzt mit einer extrem geringen Latenz von nur 97 Millisekunden und unterstützt fließendes Code-Switching in zehn Sprachen. Da es unter der Apache 2.0-Lizenz steht, ist es völlig kostenlos und ideal für Prototyping oder Barrierefreiheits-Tools. Diese Flexibilität macht es besonders attraktiv für Entwickler, die private Sprachassistenten bauen möchten.

Praxistest: Voice Cloning

Der Sprecher unterzieht die Voice-Cloning-Funktion einem harten Praxistest unter Verwendung einer eigenen Sprachreferenz. Der Prozess wird als einfach beschrieben: Man lädt eine Referenzdatei hoch, gibt den gesprochenen Text sowie den gewünschten Zieltext ein. Das Ergebnis wird als ordentlich, aber nicht unbedingt überragend bewertet, da an einigen Stellen künstliche Artefakte hörbar sind. Der Vergleich mit Microsofts "Vibe Voice" zeigt, dass es beim reinen Klonen noch Luft nach oben gibt. Dennoch bleibt die Geschwindigkeit des Modells ein bemerkenswerter Faktor für lokale Anwendungen.

Emotionssteuerung und Voice Design

Hier liegt der Fokus auf der Fähigkeit des 1,7B-Modells, komplexe emotionale Anweisungen umzusetzen. Der Sprecher nutzt Prompts wie "spannungsgeladener Erzähler" mit einem "erleichterten Lachen am Ende", um die Grenzen des Systems auszuloten. Ein weiteres Beispiel zeigt eine "junge, enthusiastische Entwicklerstimme", die sarkastisch, aber freundlich klingt. Diese Art des "Voice Designs" wird als intuitiver und mächtiger als vordefinierte Presets beschrieben. Es wird deutlich, dass die Qualität der Sprachausgabe massiv von der Präzision der schriftlichen Anweisungen abhängt.

Fazit, Vor- und Nachteile sowie Installation

Zum Abschluss erfolgt eine Zusammenfassung der Stärken: Qwen gewinnt beim TTS durch die natürliche Sprachsteuerung und die lokale Datensicherheit. Kritisch angemerkt wird, dass für optimale Performance eine GPU nötig ist und die Ergebnisse bei vagen Prompts ebenfalls ungenau ausfallen. Die Installation wird als denkbar einfach beschrieben, da keine API-Keys erforderlich sind und das System innerhalb weniger Minuten einsatzbereit ist. Der Sprecher betont, dass dies genau der Weg sei, wie Open-Source-Technologie funktionieren sollte. Er lädt die Zuschauer ein, das Tool über die bereitgestellten Links selbst zu testen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video