00:00:00Das hätte man auch per E-Mail klären können.
00:00:02Das hätte man auch per E-Mail klären können.
00:00:04Derselbe Satz, zwei völlig unterschiedliche Darbietungen.
00:00:07Ich habe erst normal getippt und bin dann langsam in eine frustrierte Schimpftirade verfallen.
00:00:11Das war's schon.
00:00:12Kein Markup, keine API, die deine Daten irgendwohin schickt.
00:00:15Das ist Qwen2-Audio TTS.
00:00:17Ihr neues Open-Source-Sprachmodell, bei dem man den Tonfall steuern kann und das wirklich zuhört.
00:00:22Mal sehen, wie es im Vergleich zu ElevenLabs oder Chatterbox abschneidet.
00:00:30Vielen Open-Source-Sprachmodellen fehlt es an jeglicher Emotion.
00:00:34Ich habe Chatterbox ausprobiert, und das war eigentlich ganz ordentlich.
00:00:37Da Qwen das jetzt auch kann, wollte ich mir nicht nur das Voice Cloning ansehen,
00:00:41sondern auch, wie die Emotionen der Sprache im Vergleich zur Konkurrenz abschneiden.
00:00:44Und ehrlich gesagt war ich angenehm überrascht.
00:00:47Chatterbox hat einen Emotionsregler, während man bei Qwen
00:00:50buchstäblich eintippt, wie es klingen soll. Das lässt uns mehr Freiheiten.
00:00:55Das leichtere Modell bietet Voice Cloning in drei Sekunden, das schauen wir uns gleich an.
00:00:59Wenn wir auf das 1,7B-Modell hochstufen, verlieren wir zwar das Cloning,
00:01:02erhalten dafür aber Echtzeit-Streaming mit einer Latenz von 97 Millisekunden,
00:01:0510 Sprachen mit natürlichem Code-Switching – und das alles 100 % lokal.
00:01:09Es ist kostenlos.
00:01:09Es steht unter der Apache 2.0-Lizenz.
00:01:11Das bedeutet schnelleres Prototyping, private Sprachassistenten und Barrierefreiheits-Tools.
00:01:16Wenn ihr immer auf der Suche nach den neuesten Tools seid, abonniert den Kanal.
00:01:19Wir veröffentlichen ständig neue Videos.
00:01:21Cloning ist einfach.
00:01:22Emotionen sind schwieriger.
00:01:23Also versuchen wir mal, das System an seine Grenzen zu bringen.
00:01:25Zuerst testen wir das Cloning.
00:01:28Dazu lade ich hier meine bereits aufgenommene Stimme als Referenz hoch.
00:01:32Im Feld “Reference Text” muss ich eintippen, was ich in diesem Audio gesagt habe.
00:01:37Im Feld “Target Text” tippe ich dann das ein, was am Ende ausgegeben werden soll.
00:01:42Das ist alles.
00:01:43Es hat tatsächlich viel länger gedauert, als ich dachte, bis es fertig war.
00:01:46Ich hatte gehofft, dass die Qualität überzeugt. Hören wir mal rein.
00:01:49Wie klingt das mit diesem Modell?
00:01:51Na ja, für ein kleineres Modell, speziell von Qwen, war das okay,
00:01:55aber man hört an manchen Stellen deutlich, dass es künstlich generiert ist.
00:01:59Es war also keineswegs überragend.
00:02:01Das beste Voice-Cloning-Audio, das ich bisher gefunden habe, war Vibe Voice von Microsoft – das war Wahnsinn.
00:02:07Das hier war nur ordentlich.
00:02:08Okay.
00:02:09Voice Cloning: erledigt.
00:02:10Check.
00:02:11Aber jetzt rüsten wir auf das 1,7B-Modell auf und fügen Emotionen
00:02:16zum Text hinzu, um zu sehen, wie Qwen damit umgeht.
00:02:19Ich zeige euch mal etwas, das wirklich nützlich erscheint.
00:02:22Ich tippe hier in das Anweisungsfeld: “Erzähle das wie ein spannungsgeladener Erzähler,
00:02:26langsamer Aufbau und ein erleichtertes Lachen am Ende.”
00:02:28Und hier soll es ein paar grundlegende Infos über Qwen sagen, einfach weil wir gerade dabei sind.
00:02:32Warum nicht?
00:02:33Hören wir mal rein.
00:02:34Alibabas neues Open-Source-Text-to-Speech-Modell,
00:02:37bei dem man endlich das Gefühl hat, mit einem echten Sprecher zu reden.
00:02:42Okay.
00:02:42Es gab eine kleine Abweichung.
00:02:44Es hat nicht jeden Tonfall getroffen, aber vieles war richtig.
00:02:47Es gibt keine Dropdown-Menüs oder Voreinstellungen.
00:02:49Wir geben vor, wie es klingen soll.
00:02:51Jetzt erstellen wir eine Stimme, mit der man tatsächlich interagieren möchte.
00:02:55Vielleicht bauen wir gerade ein Projekt.
00:02:57Schreiben wir hier mal was rein.
00:02:58Ich nehme einen Text über das Schreiben von Tests.
00:03:01Und in das Anweisungsfeld schreiben wir: “junge,
00:03:03enthusiastische Entwicklerstimme, etwas sarkastisch, aber freundlich.”
00:03:07Das ist nicht so, als würde ich einfach “Stimme Preset 12” wählen.
00:03:10Ich habe genau beschrieben, wie diese Persönlichkeit klingen soll.
00:03:13Hören wir mal rein.
00:03:14Code-Tests zu schreiben bedeutet, sorgfältig zu prüfen, ob dein Programm das tut, was es tun soll.
00:03:20Jetzt denkt ihr vielleicht: Wie schlägt sich das im Vergleich?
00:03:22Nun, ElevenLabs ist immer noch die Nummer eins, aber es kostet Geld und deine Daten verlassen deinen Rechner.
00:03:26Chatterbox ist exzellent.
00:03:28Eines der besseren Tools, die ich genutzt habe, mit guten Emotionen.
00:03:31Wenn es euch rein um Voice Cloning geht, bleibe ich bei Vibe Voice, das war unheimlich gut.
00:03:36Qwen gewinnt beim TTS, wenn man die Stimme natürlich beschreiben und schnell iterieren will.
00:03:41Offensichtlich gibt es hier einige Pluspunkte.
00:03:43Mir gefällt die Steuerung durch natürliche Sprache für schnellste Iteration.
00:03:47Es ist komplett lokal, privat und bereit für Streaming
00:03:50in Echtzeit-Agenten. Das Voice Design fühlt sich hier intuitiver an.
00:03:55Kommen wir zu dem, was mir weniger gefällt.
00:03:57Es ist ein recht neues Modell, richtig?
00:04:00In manchen Sprachen muss es also noch ausreifen.
00:04:03Wie bei jedem TTS wird eine GPU für die beste Performance empfohlen.
00:04:06Die CPU funktioniert zwar auch,
00:04:07ist aber einfach langsamer.
00:04:09Und die Emotionen hängen stark davon ab, wie gut der Prompt bzw. die Anweisung ist.
00:04:13Wenn die Regieanweisung vage ist, wird auch das Ergebnis vage sein.
00:04:16Bleibt die große Frage: Ist die Einrichtung mühsam?
00:04:19Nein, absolut nicht.
00:04:20Super unkompliziert.
00:04:22Repo klonen, Abhängigkeiten installieren, Web-UI starten, Localhost öffnen.
00:04:26Das ist alles, was ich getan habe – von null bis zur funktionierenden Demo in wenigen Minuten.
00:04:32Keine API-Keys.
00:04:33Keine Kosten.
00:04:34Und es läuft direkt auf deinem Rechner.
00:04:35Genauso sollte sich Open-Source-Sprachtechnologie anfühlen.
00:04:38Deshalb ist es so spannend, mit diesen Open-Source-Tools herumzuspielen und die Unterschiede zu sehen.
00:04:43Qwen TTS: schnell, privat und mehr Kontrolle für Entwickler.
00:04:46Probiert es selbst aus.
00:04:48Ich habe die Links unten verlinkt.
00:04:49Und wenn ihr mehr solcher lokalen Tools sehen wollt, abonniert den Kanal.
00:04:52Wir sehen uns im nächsten Video.