00:00:00Un modelo de 82 millones de parámetros acaba de vencer a sistemas TTS mucho más grandes, y se ejecuta localmente en
00:00:06una computadora portátil más rápido que la mayoría de las API de pago.
00:00:09El mes pasado pagué por un TTS en la nube, pero aún así tenía algo de retraso.
00:00:13Eso no tenía sentido para mí.
00:00:14¿Cómo es que algunos de estos modelos de código abierto están venciendo a esto?
00:00:17Este es Kokoro 82M, y ya está siendo implementado por algunos desarrolladores."
00:00:22Veamos cómo funciona y, mejor aún, cómo suena.
00:00:30Bien, ahora, si estás construyendo con texto a voz, normalmente eliges entre dos malas opciones.
00:00:36La primera opción son obviamente las API en la nube, ¿verdad?
00:00:39Son fáciles de empezar, pero ahora tienes estas facturas, picos de latencia y una dependencia más
00:00:44cada vez que tu aplicación habla.
00:00:46Luego, la siguiente opción sería algo como estos grandes modelos abiertos, pero ahora necesitas mucho
00:00:51más hardware, más memoria y, seamos sinceros, todavía no es tan rápido.
00:00:56Así que lo que se supone que debe sentirse fluido termina sintiéndose lento, costoso o simplemente
00:01:00se rompe.
00:01:02Aquí es donde encaja Kokoro.
00:01:04Fue entrenado con menos de 100 horas de datos, pero aun así ocupa los primeros puestos en las tablas de clasificación.
00:01:09Vence a modelos mucho más grandes con una fracción del tamaño, es Apache 2.0, se ejecuta en una CPU,
00:01:15vuela en Apple Silicon y genera voz, honestamente, de forma increíblemente rápida.
00:01:19Así que ahora las aplicaciones de voz locales y los agentes en tiempo real realmente empiezan a tener más sentido.
00:01:24Si disfrutas de herramientas de programación y consejos como este, asegúrate de suscribirte.
00:01:27Tenemos videos que salen todo el tiempo.
00:01:29Muy bien, ahora déjame mostrarte esto.
00:01:31Estoy ejecutando todo esto localmente en una Mac M4 Pro.
00:01:34La configuración toma unos 30 segundos, simplemente ejecutaré este comando pip aquí.
00:01:39Estoy en un entorno conda, pero eso es prácticamente todo.
00:01:42Tengo todo este script de Python de su repositorio oficial, no tuve que cambiar nada
00:01:47para probar esto, es solo arrastrar y soltar, obtenemos todos estos resultados.
00:01:51Puedo elegir una voz y un idioma justo aquí, pero para la primera ronda lo voy a dejar
00:01:56configurado como está porque, honestamente, suena muy bien.
00:02:00Lo voy a ejecutar y luego escuchemos.
00:02:02Better Stack es la plataforma de observabilidad líder.
00:02:05Que hace que el monitoreo sea sencillo.
00:02:07Tiene AI SRE, registros, métricas, trazas, seguimiento de errores.
00:02:12Y respuesta a incidentes, todo en un solo lugar.
00:02:14No voy a mentir, eso fue bastante bueno y salió muy rápido.
00:02:19Ahora, si cambio el interruptor, probemos con francés y cambiemos a la voz en francés.
00:02:24Cambiamos un poco el texto y, de nuevo, ejecutémoslo.
00:02:26Better Stack es la plataforma para la observabilidad en paralelo.
00:02:29Simplifica el monitoreo.
00:02:31Bien, mi francés está algo oxidado, así que no traduzcas eso palabra por palabra, pero eso sonó bastante
00:02:36bien también.
00:02:37Ustedes pueden ser los jueces de eso.
00:02:39Todo se guarda como un archivo WAV para que pueda descargarlos como quiera.
00:02:43No hay nube.
00:02:44No hay GPU.
00:02:45Eso fue bastante loco.
00:02:47¿Qué es realmente Kokoro 82M?
00:02:49A un alto nivel, es un modelo style TTS2 con un vocoder ligero.
00:02:55Todo lo que eso significa es que está diseñado para sonar bien sin ser enorme, y esa es realmente la clave
00:02:59de la diferencia aquí.
00:03:00La mayoría de las otras opciones van a lo grande.
00:03:01Como XTTS, Cozy Voice, F5 TTS, de cientos de millones a más de mil millones de parámetros.
00:03:08Luego, las herramientas en la nube como 11 Labs o OpenAI resuelven el problema del hardware, pero ahora
00:03:13pagamos por solicitud y enviamos nuestros datos fuera.
00:03:16Kokoro va en la otra dirección.
00:03:19Es pequeño, es rápido de iniciar y se ejecuta localmente, además usa mucha menos memoria.
00:03:24Pero las desventajas son que no hace clonación de voz zero-shot de fábrica, sino que
00:03:29se centra en la eficiencia y la calidad que realmente podríamos implementar mucho más rápido.
00:03:33Aún así tenemos 8 idiomas, 54 voces y un control bastante bueno con su importación Misaki.
00:03:39Puedo ver dónde todo esto va a encajar muy bien en diferentes tipos de agentes, pero
00:03:42no obtienes ningún tipo de emoción, que es lo que realmente quería ver aquí.
00:03:47Una IA sin emoción todavía va a sonar mucho como una IA, lo cual supongo que puede ser bueno
00:03:52a veces, ¿verdad?
00:03:53Pero sería divertido jugar con esa emoción.
00:03:56Entonces, ¿por qué los desarrolladores están usando esto realmente?
00:03:58Bueno, si no te lo mostré, toquémoslo, porque soluciona las cosas que usualmente
00:04:02rompen las funciones de voz.
00:04:04Primero es la velocidad.
00:04:05Si tu agente pausa demasiado y deja de sentirse real, Kokoro reduce mucho ese retraso.
00:04:11Luego, el uso fuera de línea está aquí.
00:04:13No hay internet, no hay claves API, no tengo fallos aleatorios.
00:04:16Eso es genial.
00:04:17La privacidad es bastante importante porque Kokoro mantiene todo local, así que para mí, y para muchos de ustedes,
00:04:22eso podría ser una gran victoria.
00:04:23Y finalmente, el costo a escala.
00:04:26Debido a que es tan ligero, puedes ejecutar muchas más instancias en una sola máquina.
00:04:30Qué es genial y qué no, me encantó, es rápido y pequeño.
00:04:33Suena natural para contenido de larga duración.
00:04:35Eso fue realmente genial.
00:04:36He jugado con un montón de estos.
00:04:38Es Apache 2.0, así que podrías distribuirlo, y después de la configuración, es básicamente gratis.
00:04:43Todos estos son puntos muy, muy agradables.
00:04:44Ahora, me encantan esos.
00:04:45Eso fue genial.
00:04:46Pero hay cosas que no me gustaron.
00:04:47La falta de clonación de voz nativa, depende de si necesitas clonación de voz, vale, podría haber
00:04:51tenido eso.
00:04:52La emoción es bastante neutral.
00:04:54Genial para narración, no es genial para nada dramático.
00:04:56Quiero decir, realmente no hay capacidad para cambiar la emoción aquí, además las voces que no son en inglés
00:05:02todavía están mejorando.
00:05:03Así que eso necesita ser añadido, tal vez no, depende de cómo veas esto.
00:05:07Entonces, ¿es perfecto?
00:05:08No.
00:05:09Pero para los problemas que la mayoría de nosotros tenemos: costo, latencia, privacidad, implementación.
00:05:14Parece resolver los correctos en este momento.
00:05:18Juega con él y cuéntame.
00:05:19Kokoro 82m demuestra que no necesitas un modelo masivo para obtener un TTS realmente bueno.
00:05:24Más pequeño significa más rápido, más rápido significa utilizable, y lo utilizable generalmente significa que realmente puedes
00:05:29lanzarlo al mercado.
00:05:30Si estás construyendo agentes de voz o herramientas locales, vale la pena probar esto.
00:05:34Si disfrutas de herramientas de programación y consejos como este, asegúrate de suscribirte al canal de Better Stack.
00:05:38Nos vemos en otro video.