Este pequeño modelo de 82M acaba de superar a la mayoría de las API de TTS (Ejecución local)

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00Un modelo de 82 millones de parámetros acaba de vencer a sistemas TTS mucho más grandes, y se ejecuta localmente en
00:00:06una computadora portátil más rápido que la mayoría de las API de pago.
00:00:09El mes pasado pagué por un TTS en la nube, pero aún así tenía algo de retraso.
00:00:13Eso no tenía sentido para mí.
00:00:14¿Cómo es que algunos de estos modelos de código abierto están venciendo a esto?
00:00:17Este es Kokoro 82M, y ya está siendo implementado por algunos desarrolladores."
00:00:22Veamos cómo funciona y, mejor aún, cómo suena.
00:00:30Bien, ahora, si estás construyendo con texto a voz, normalmente eliges entre dos malas opciones.
00:00:36La primera opción son obviamente las API en la nube, ¿verdad?
00:00:39Son fáciles de empezar, pero ahora tienes estas facturas, picos de latencia y una dependencia más
00:00:44cada vez que tu aplicación habla.
00:00:46Luego, la siguiente opción sería algo como estos grandes modelos abiertos, pero ahora necesitas mucho
00:00:51más hardware, más memoria y, seamos sinceros, todavía no es tan rápido.
00:00:56Así que lo que se supone que debe sentirse fluido termina sintiéndose lento, costoso o simplemente
00:01:00se rompe.
00:01:02Aquí es donde encaja Kokoro.
00:01:04Fue entrenado con menos de 100 horas de datos, pero aun así ocupa los primeros puestos en las tablas de clasificación.
00:01:09Vence a modelos mucho más grandes con una fracción del tamaño, es Apache 2.0, se ejecuta en una CPU,
00:01:15vuela en Apple Silicon y genera voz, honestamente, de forma increíblemente rápida.
00:01:19Así que ahora las aplicaciones de voz locales y los agentes en tiempo real realmente empiezan a tener más sentido.
00:01:24Si disfrutas de herramientas de programación y consejos como este, asegúrate de suscribirte.
00:01:27Tenemos videos que salen todo el tiempo.
00:01:29Muy bien, ahora déjame mostrarte esto.
00:01:31Estoy ejecutando todo esto localmente en una Mac M4 Pro.
00:01:34La configuración toma unos 30 segundos, simplemente ejecutaré este comando pip aquí.
00:01:39Estoy en un entorno conda, pero eso es prácticamente todo.
00:01:42Tengo todo este script de Python de su repositorio oficial, no tuve que cambiar nada
00:01:47para probar esto, es solo arrastrar y soltar, obtenemos todos estos resultados.
00:01:51Puedo elegir una voz y un idioma justo aquí, pero para la primera ronda lo voy a dejar
00:01:56configurado como está porque, honestamente, suena muy bien.
00:02:00Lo voy a ejecutar y luego escuchemos.
00:02:02Better Stack es la plataforma de observabilidad líder.
00:02:05Que hace que el monitoreo sea sencillo.
00:02:07Tiene AI SRE, registros, métricas, trazas, seguimiento de errores.
00:02:12Y respuesta a incidentes, todo en un solo lugar.
00:02:14No voy a mentir, eso fue bastante bueno y salió muy rápido.
00:02:19Ahora, si cambio el interruptor, probemos con francés y cambiemos a la voz en francés.
00:02:24Cambiamos un poco el texto y, de nuevo, ejecutémoslo.
00:02:26Better Stack es la plataforma para la observabilidad en paralelo.
00:02:29Simplifica el monitoreo.
00:02:31Bien, mi francés está algo oxidado, así que no traduzcas eso palabra por palabra, pero eso sonó bastante
00:02:36bien también.
00:02:37Ustedes pueden ser los jueces de eso.
00:02:39Todo se guarda como un archivo WAV para que pueda descargarlos como quiera.
00:02:43No hay nube.
00:02:44No hay GPU.
00:02:45Eso fue bastante loco.
00:02:47¿Qué es realmente Kokoro 82M?
00:02:49A un alto nivel, es un modelo style TTS2 con un vocoder ligero.
00:02:55Todo lo que eso significa es que está diseñado para sonar bien sin ser enorme, y esa es realmente la clave
00:02:59de la diferencia aquí.
00:03:00La mayoría de las otras opciones van a lo grande.
00:03:01Como XTTS, Cozy Voice, F5 TTS, de cientos de millones a más de mil millones de parámetros.
00:03:08Luego, las herramientas en la nube como 11 Labs o OpenAI resuelven el problema del hardware, pero ahora
00:03:13pagamos por solicitud y enviamos nuestros datos fuera.
00:03:16Kokoro va en la otra dirección.
00:03:19Es pequeño, es rápido de iniciar y se ejecuta localmente, además usa mucha menos memoria.
00:03:24Pero las desventajas son que no hace clonación de voz zero-shot de fábrica, sino que
00:03:29se centra en la eficiencia y la calidad que realmente podríamos implementar mucho más rápido.
00:03:33Aún así tenemos 8 idiomas, 54 voces y un control bastante bueno con su importación Misaki.
00:03:39Puedo ver dónde todo esto va a encajar muy bien en diferentes tipos de agentes, pero
00:03:42no obtienes ningún tipo de emoción, que es lo que realmente quería ver aquí.
00:03:47Una IA sin emoción todavía va a sonar mucho como una IA, lo cual supongo que puede ser bueno
00:03:52a veces, ¿verdad?
00:03:53Pero sería divertido jugar con esa emoción.
00:03:56Entonces, ¿por qué los desarrolladores están usando esto realmente?
00:03:58Bueno, si no te lo mostré, toquémoslo, porque soluciona las cosas que usualmente
00:04:02rompen las funciones de voz.
00:04:04Primero es la velocidad.
00:04:05Si tu agente pausa demasiado y deja de sentirse real, Kokoro reduce mucho ese retraso.
00:04:11Luego, el uso fuera de línea está aquí.
00:04:13No hay internet, no hay claves API, no tengo fallos aleatorios.
00:04:16Eso es genial.
00:04:17La privacidad es bastante importante porque Kokoro mantiene todo local, así que para mí, y para muchos de ustedes,
00:04:22eso podría ser una gran victoria.
00:04:23Y finalmente, el costo a escala.
00:04:26Debido a que es tan ligero, puedes ejecutar muchas más instancias en una sola máquina.
00:04:30Qué es genial y qué no, me encantó, es rápido y pequeño.
00:04:33Suena natural para contenido de larga duración.
00:04:35Eso fue realmente genial.
00:04:36He jugado con un montón de estos.
00:04:38Es Apache 2.0, así que podrías distribuirlo, y después de la configuración, es básicamente gratis.
00:04:43Todos estos son puntos muy, muy agradables.
00:04:44Ahora, me encantan esos.
00:04:45Eso fue genial.
00:04:46Pero hay cosas que no me gustaron.
00:04:47La falta de clonación de voz nativa, depende de si necesitas clonación de voz, vale, podría haber
00:04:51tenido eso.
00:04:52La emoción es bastante neutral.
00:04:54Genial para narración, no es genial para nada dramático.
00:04:56Quiero decir, realmente no hay capacidad para cambiar la emoción aquí, además las voces que no son en inglés
00:05:02todavía están mejorando.
00:05:03Así que eso necesita ser añadido, tal vez no, depende de cómo veas esto.
00:05:07Entonces, ¿es perfecto?
00:05:08No.
00:05:09Pero para los problemas que la mayoría de nosotros tenemos: costo, latencia, privacidad, implementación.
00:05:14Parece resolver los correctos en este momento.
00:05:18Juega con él y cuéntame.
00:05:19Kokoro 82m demuestra que no necesitas un modelo masivo para obtener un TTS realmente bueno.
00:05:24Más pequeño significa más rápido, más rápido significa utilizable, y lo utilizable generalmente significa que realmente puedes
00:05:29lanzarlo al mercado.
00:05:30Si estás construyendo agentes de voz o herramientas locales, vale la pena probar esto.
00:05:34Si disfrutas de herramientas de programación y consejos como este, asegúrate de suscribirte al canal de Better Stack.
00:05:38Nos vemos en otro video.

Key Takeaway

Kokoro 82M elimina la latencia y los costos de escalado en agentes de voz al ejecutar síntesis de alta calidad localmente con solo 82 millones de parámetros bajo licencia Apache 2.0.

Highlights

Kokoro 82M es un modelo de texto a voz con solo 82 millones de parámetros que supera en velocidad a la mayoría de las API de pago.

El sistema funciona localmente en una CPU o Apple Silicon sin necesidad de conexión a internet ni llaves de API externas.

La configuración inicial en entornos locales como Mac M4 Pro requiere aproximadamente 30 segundos mediante un comando pip.

El modelo cuenta con licencia Apache 2.0 y admite 8 idiomas diferentes con un catálogo de 54 voces disponibles.

La arquitectura se basa en StyleTTS2 con un vocoder ligero para priorizar la eficiencia de memoria sobre el tamaño masivo.

El entrenamiento del modelo se completó utilizando menos de 100 horas de datos de audio.

Timeline

Limitaciones de las soluciones TTS actuales

  • Las API en la nube introducen picos de latencia, facturas recurrentes y dependencias externas obligatorias.
  • Los modelos abiertos de gran tamaño exigen hardware costoso y mucha memoria para funcionar con fluidez.
  • Kokoro 82M resuelve el dilema entre facilidad de uso de la nube y la privacidad de la ejecución local.

La dependencia de servicios externos como ElevenLabs u OpenAI genera cuellos de botella en aplicaciones de tiempo real. Los desarrolladores enfrentan el problema de hardware insuficiente cuando intentan mover estos sistemas a entornos locales. Kokoro aparece como una alternativa que no sacrifica la velocidad por la privacidad.

Arquitectura y rendimiento de Kokoro 82M

  • El modelo utiliza la arquitectura StyleTTS2 para generar voz natural sin requerir una GPU dedicada.
  • La ejecución en una Mac M4 Pro muestra resultados casi instantáneos con almacenamiento directo en formato WAV.
  • La integración mediante scripts de Python permite cambiar de idioma y voz de forma inmediata.

Aunque fue entrenado con menos de 100 horas de datos, el modelo ocupa posiciones altas en las tablas de clasificación frente a modelos de más de mil millones de parámetros. Durante las pruebas en francés e inglés, la generación de audio ocurre más rápido que la reproducción en tiempo real. La ausencia de procesos en la nube garantiza que los datos nunca salgan de la máquina local.

Comparativa técnica y funcionalidades

  • Kokoro es significativamente más pequeño que competidores como XTTS, Cozy Voice o F5 TTS.
  • El sistema incluye 54 voces y control de pronunciación a través de la importación Misaki.
  • La principal carencia actual es la falta de clonación de voz zero-shot nativa.

Mientras que otros modelos se enfocan en el crecimiento de parámetros para mejorar la calidad, Kokoro se centra en la eficiencia del vocoder. El modelo ofrece una entonación neutral ideal para narraciones largas, aunque carece de rangos emocionales dinámicos. Esta neutralidad lo hace predecible para aplicaciones de asistencia técnica y agentes de voz empresariales.

Ventajas operativas y casos de uso

  • La reducción del retraso en las pausas permite que los agentes de IA se sientan más naturales en la conversación.
  • La licencia Apache 2.0 permite la distribución gratuita del modelo dentro de productos comerciales.
  • El bajo consumo de recursos permite ejecutar múltiples instancias del modelo en una sola máquina.

La velocidad de Kokoro evita que las conversaciones con IA se rompan debido a esperas largas entre respuestas. Al ser un software gratuito tras la configuración inicial, elimina el costo por solicitud que afecta el escalado de aplicaciones. Resulta especialmente útil para herramientas que requieren funcionamiento fuera de línea o máxima protección de datos personales.

Community Posts

View all posts