00:00:00Das ist SpeechBrain, ein Open-Source-Toolkit auf PyTorch-Basis, mit dem wir Speech-AI-Funktionen
00:00:05mithilfe vortrainierter Modelle erstellen und implementieren können – von Rauschunterdrückung
00:00:10über Sprecherverifizierung bis hin zu ASR. Ganz ohne Training oder Fine-Tuning. Kurzer Check:
00:00:15Ihr erwartet jetzt sicher eine bessere Audioqualität. Und genau das passiert hier ganz natürlich.
00:00:19Laut System bin ich nicht dieselbe Person, weil ich im zweiten Clip einen Voice-Transformer nutze.
00:00:23Die Sprecherverifizierung funktioniert also. Schauen wir mal, was das Tool sonst noch kann.
00:00:28Wir veröffentlichen ständig neue Videos, also abonniert uns gerne. Hier eine kurze Übersicht.
00:00:38SpeechBrain bietet ASR-Verbesserung, Kanaltrennung, Sprecher-ID, TTS – im Grunde den kompletten Stack.
00:00:44Und für alle Entwickler: Über 9.000 GitHub-Sterne, enge Hugging-Face-Integration,
00:00:51Installation per Einzeiler und das Laden von Modellen in wenigen Schritten. Perfekt für alle,
00:00:56die schnell Ergebnisse liefern wollen, statt ewig Doku zu lesen. Hier ist der Startcode,
00:01:02den ich für dieses Projekt erweitert habe. Vieles davon stammt direkt aus der Dokumentation.
00:01:08Für das UI habe ich Gradio verwendet – eine Python-Library für ML-Apps, die dafür ideal ist.
00:01:14Der nächste Teil wirkt fast zu gut, um wahr zu sein. Viele Demos schummeln mit perfektem Audio.
00:01:20Ich mache das Gegenteil und spiele jetzt extrem laute Hintergrundgeräusche ein.
00:01:24Hauptsächlich Musik. Los geht's: Ich spreche ganz normal und nehme mich dabei auf.
00:01:31Hier ist die Rohaufnahme. Klingt ziemlich übel, oder? Und jetzt achtet auf das Ergebnis.
00:01:37Ich spreche ganz normal: dieselbe Stimme, Rauschen weg, ohne irgendwelche Post-Processing-Tricks.
00:01:44Das Fazit: Es läuft in Sekunden. Ideal für Call-Apps, Podcasts, Cleanups oder Edge-Devices –
00:01:51überall dort, wo Mikros und schlechte Akustik aufeinandertreffen. Modell laden, Batch aufrufen, fertig.
00:01:57Die Doku war etwas lückenhaft, daher musste ich den Code für meinen Mac anpassen.
00:02:02Es gab anfangs ein paar Probleme. Kommen wir zur Sprecherverifizierung, die ich kurz erwähnt hatte.
00:02:07Viele denken, Voice-Authentifizierung sei kompliziert. Aber Überraschung: Ist es gar nicht.
00:02:13Zumindest nicht hiermit. Ich registriere hier kurz meine Stimme: “Hey, das ist meine Stimme.”
00:02:20Das war die erste Aufnahme. Jetzt mache ich dasselbe noch einmal für den zweiten Clip.
00:02:26“Hey, das ist meine Stimme.” Test: Gleicher Sprecher. Der Score ist hoch, Übereinstimmung bestätigt.
00:02:36Wir sehen den Wert direkt im Output. Machen wir einen Gegentest ohne Voice-Transformer.
00:02:42“Was hattest du zum Frühstück?” Okay, und jetzt verstelle ich meine Stimme etwas.
00:02:48Lacht mich bitte nicht aus: “Was hattest du zum Frühstück?” Der Similarity-Score sinkt zwar,
00:02:56aber das System erkennt mich immer noch als denselben Sprecher. Es ist auf VoxCeleb trainiert.
00:03:01Noch ein schneller Test mit dem Voice-Transformer. Das hier ist meine normale Stimme.
00:03:08Und mit aktiviertem Transformer klingt es so... Ich spiele euch den zweiten Clip mal vor.
00:03:17“Das ist meine normale Stimme.” Klingt ziemlich verzerrt, oder? Da hört man den Effekt deutlich.
00:03:22Sie stimmen überhaupt nicht überein, und das spiegelt sich auch im Ergebnis wider.
00:03:27Wenn ihr Multi-User-Apps baut oder wissen müsst, wer gerade spricht, ist das genau das Richtige.
00:03:32In meiner letzten Demo geht es um das Herzstück. Live-Transkriptionen (ASR) klingen oft toll,
00:03:37bis man sie mit echter Sprache testet. Ich rede jetzt einfach mal ganz normal weiter.
00:03:43Dieses Feature funktioniert ehrlich gesagt nicht so gut, und die Dokumentation war keine Hilfe.
00:03:48Ich weiß nicht recht, was ich davon halten soll. Es wirkt wie ganz gewöhnliches Speech-to-Text.
00:03:53Eigentlich sollte es automatisch transkribieren, aber es gab zahllose Fehler. Nicht mal das klappt.
00:03:58Sicher, es transkribiert – aber das können unzählige andere Libraries auch.
00:04:04Die Auto-Transkription hat mich persönlich nicht beeindruckt. Es wollte einfach nicht laufen.
00:04:08Es gibt also echt coole Ansätze, wie wir bei der Verifizierung und Rauschunterdrückung gesehen haben,
00:04:13aber manche Dinge sind noch nicht ganz ausgereift. Das war SpeechBrain im Schnelldurchlauf.
00:04:18Insgesamt: Es ist schnell, Open Source und für Entwickler gemacht. Schaut es euch selbst mal an.
00:04:22Die Links stehen in der Beschreibung. Wir sehen uns dann im nächsten Video!