00:00:00Ein Modell mit nur 82 Millionen Parametern hat gerade viel größere TTS-Systeme geschlagen, und es läuft lokal auf
00:00:06einem Laptop schneller als die meisten kostenpflichtigen APIs.
00:00:09Letzten Monat habe ich für eine Cloud-TTS bezahlt, hatte aber trotzdem Verzögerungen.
00:00:13Das ergab für mich keinen Sinn.
00:00:14Wie können einige dieser Open-Source-Modelle das schlagen?
00:00:17Das hier ist Kokoro 82M, und es wird bereits von einigen Entwicklern eingesetzt.
00:00:22Schauen wir uns an, wie das funktioniert und vor allem, wie es klingt.
00:00:30Okay, wenn Sie mit Text-to-Speech arbeiten, wählen Sie normalerweise zwischen zwei schlechten Optionen.
00:00:36Die erste Option sind offensichtlich Cloud-APIs, richtig?
00:00:39Sie sind einfach zu starten, aber jetzt haben Sie diese Rechnungen, Latenzspitzen und eine weitere Abhängigkeit,
00:00:44jedes Mal, wenn Ihre App spricht.
00:00:46Die nächste Option wären dann Dinge wie diese großen offenen Modelle, aber dafür brauchen Sie viel
00:00:51mehr Hardware, mehr Speicher, und es ist – seien wir ehrlich – immer noch nicht so schnell.
00:00:56Was sich also reibungslos anfühlen sollte, fühlt sich am Ende langsam oder teuer an, oder es
00:01:00geht einfach kaputt.
00:01:02Hier kommt Kokoro ins Spiel.
00:01:04Es wurde mit weniger als 100 Stunden Daten trainiert, steht aber dennoch an der Spitze der Bestenlisten.
00:01:09Es schlägt viel größere Modelle mit einem Bruchteil der Größe, ist Apache 2.0, läuft auf einer CPU
00:01:15und rast auf Apple Silicon; es generiert Sprache ehrlich gesagt wahnsinnig schnell.
00:01:19Jetzt ergeben lokale Sprach-Apps und Echtzeit-Agenten tatsächlich mehr Sinn.
00:01:24Wenn Ihnen solche Coding-Tools und Tipps gefallen, sollten Sie unbedingt abonnieren.
00:01:27Wir bringen ständig neue Videos heraus.
00:01:29Alles klar, jetzt zeige ich Ihnen das mal.
00:01:31Ich lasse das alles lokal auf einem Mac M4 Pro laufen.
00:01:34Die Einrichtung dauert etwa 30 Sekunden, ich führe es einfach mit diesem pip-Befehl hier aus.
00:01:39Ich befinde mich in einer Conda-Umgebung, aber das ist eigentlich auch schon alles.
00:01:42Ich habe dieses komplette Python-Skript aus ihrem offiziellen Repo, ich musste nichts ändern,
00:01:47um es zu testen; es ist einfach Drag-and-Drop, wir erhalten all diese Ausgaben.
00:01:51Ich kann hier direkt eine Stimme und eine Sprache wählen, aber für die erste Runde lasse ich es
00:01:56so eingestellt, wie es ist, weil es ehrlich gesagt wirklich gut klingt.
00:02:00Ich lasse es laufen und dann hören wir mal rein.
00:02:02"Better Stack ist die führende Observability-Plattform."
00:02:05"Die Monitoring einfach macht."
00:02:07"Sie bietet AI-SRE, Logs, Metriken, Traces und Fehlerverfolgung."
00:02:12"Und Incident Response an einem Ort."
00:02:14Ich werde nicht lügen, das war ziemlich gut, und es kam wirklich schnell heraus.
00:02:19Wenn ich jetzt den Schalter umlege, nehmen wir Französisch und wechseln zur französischen Stimme.
00:02:24Ändern den Text ein wenig und lassen es erneut laufen.
00:02:26"Better Stack ist die Plattform für Observability in Echtzeit."
00:02:29"Es vereinfacht das Monitoring."
00:02:31Okay, mein Französisch ist eingerostet, also übersetzen Sie das nicht wortwörtlich, aber das klang
00:02:36ebenfalls ziemlich gut.
00:02:37Aber das können Sie selbst beurteilen.
00:02:39Alles wird als WAV-Datei gespeichert, sodass ich sie nach Belieben herunterladen kann.
00:02:43Es gibt keine Cloud.
00:02:44Es gibt keine GPU.
00:02:45Das war ziemlich verrückt.
00:02:47Was also ist Kokoro 82M eigentlich?
00:02:49Grob gesagt ist es ein Style-TTS2-Modell mit einem leichtgewichtigen Vocoder.
00:02:55Das bedeutet nur, dass es darauf ausgelegt ist, gut zu klingen, ohne riesig zu sein, und das ist der entscheidende
00:02:59Unterschied hier.
00:03:00Die meisten anderen Optionen werden immer größer.
00:03:01XTTS, Cozy Voice, F5 TTS – hunderte Millionen bis über eine Milliarde Parameter.
00:03:08Cloud-Tools wie ElevenLabs oder OpenAI lösen zwar das Hardware-Problem, aber dafür
00:03:13zahlen wir pro Anfrage und geben unsere Daten nach außen.
00:03:16Kokoro geht den anderen Weg.
00:03:19Es ist klein, schnell startklar, läuft lokal und verbraucht viel weniger Speicher.
00:03:24Aber die Nachteile sind: Es beherrscht standardmäßig kein Zero-Shot Voice Cloning; stattdessen
00:03:29konzentriert es sich auf Effizienz und Qualität, die wir viel schneller ausliefern könnten.
00:03:33Wir bekommen trotzdem 8 Sprachen, 54 Stimmen und eine gute Kontrolle durch den Import Misaki.
00:03:39Ich sehe, dass das in verschiedenen Arten von Agenten sehr gut passen wird, aber man
00:03:42bekommt keinerlei Emotionen, was ich eigentlich gerne gesehen hätte.
00:03:47Eine KI ohne Emotionen wird immer noch sehr nach KI klingen, was wohl
00:03:52manchmal auch gut sein kann, oder?
00:03:53Aber es würde Spaß machen, mit Emotionen herumzuspielen.
00:03:56Warum also nutzen Entwickler das tatsächlich?
00:03:58Nun, falls ich es noch nicht gezeigt habe, gehen wir kurz darauf ein, denn es behebt die Dinge, die normalerweise
00:04:02Sprachfunktionen zunichtemachen.
00:04:04Erstens die Geschwindigkeit.
00:04:05Wenn Ihr Agent zu lange pausiert und aufhört, sich echt anzufühlen, reduziert Kokoro diese Verzögerung massiv.
00:04:11Dann ist da die Offline-Nutzung.
00:04:13Kein Internet, keine API-Keys, keine zufälligen Ausfälle. Das ist großartig.
00:04:16Die Privatsphäre ist ein großer Punkt, da Kokoro alles lokal behält, was für mich und viele von Ihnen
00:04:17ein riesiger Gewinn sein könnte.
00:04:22Und schließlich die Kosten bei Skalierung.
00:04:23Da es so leichtgewichtig ist, kann man viel mehr Instanzen auf einer Maschine laufen lassen.
00:04:26Was ist gut und was nicht? Ich fand es toll, dass es schnell und klein ist.
00:04:30Es klingt natürlich für Long-Form-Inhalte.
00:04:33Das war wirklich cool.
00:04:35Ich habe schon mit vielen davon herumgespielt.
00:04:36Es ist Apache 2.0, man kann es also ausliefern, und nach der Einrichtung ist es im Grunde kostenlos.
00:04:38All das ist wirklich, wirklich schön.
00:04:43Das fand ich super.
00:04:44Das war cool.
00:04:45Aber es gab auch Dinge, die mir nicht gefielen.
00:04:46Kein natives Voice Cloning – es kommt darauf an, ob man Voice Cloning braucht, okay, man hätte es
00:04:47haben können.
00:04:51Die Emotion ist ziemlich neutral.
00:04:52Großartig für Erzählungen, aber nicht so gut für alles Dramatische.
00:04:54Es gibt hier wirklich keine Möglichkeit, die Emotionen zu ändern, und die nicht-englischen Stimmen
00:04:56werden noch verbessert.
00:05:02Das muss also noch hinzugefügt werden; vielleicht auch nicht, je nachdem, wie man es sieht.
00:05:03Ist es also perfekt?
00:05:07Nein.
00:05:08Aber für die Probleme, die die meisten von uns tatsächlich haben – Kosten, Latenz, Datenschutz, Deployment –
00:05:09scheint es im Moment genau die richtigen zu lösen.
00:05:14Spielen Sie damit herum und lassen Sie es mich wissen.
00:05:18Kokoro 82M beweist, dass man kein massives Modell braucht, um wirklich gute TTS zu erhalten.
00:05:19Kleiner bedeutet schneller, schneller bedeutet nutzbar, und nutzbar bedeutet normalerweise, dass man es tatsächlich
00:05:24veröffentlichen kann.
00:05:29Wenn Sie Sprach-Agenten oder lokale Tools bauen, ist dies einen Versuch wert.
00:05:30Wenn Ihnen solche Coding-Tools und Tipps gefallen, abonnieren Sie unbedingt den Better Stack Kanal.
00:05:34Wir sehen uns in einem anderen Video.
00:05:38Bis bald!