00:00:00¿De verdad se puede entrenar a un modelo para ser un mejor gestor?
00:00:02Moonshot lanzó hace poco Kimi 2.5 y lo calificó como el modelo de código abierto más potente hasta la fecha.
00:00:08Esa afirmación ya es errónea, porque es de pesos abiertos, no de código abierto.
00:00:11Hay una diferencia, pero ese no es el punto ahora.
00:00:13Kimi 2.5 hace dos promesas que realmente vale la pena poner a prueba.
00:00:17Primero, dice que fue entrenado desde cero para orquestar enjambres de agentes,
00:00:21con hasta 100 subagentes funcionando en paralelo.
00:00:23El sistema de aprendizaje por refuerzo no solo premia las respuestas correctas,
00:00:27sino también la eficacia del modelo al distribuir el trabajo entre los agentes.
00:00:30Segundo, afirma poseer inteligencia agéntica visual,
00:00:33y asegura haber generado animaciones de altísimo nivel con una sola instrucción.
00:00:37Ahora, ya no son los usuarios quienes dicen haberlo hecho a la primera; son los propios creadores quienes lo afirman.
00:00:42Así que pedimos a un miembro de nuestro equipo que probara ambas funciones.
00:00:44Algunos resultados estuvieron a la altura de las expectativas, otros no tanto.
00:00:48Como mencioné, Kimi 2.5 presume de ser un modelo de código abierto.
00:00:51En realidad, Kimi 2.5 no es un modelo de código abierto.
00:00:54Según la definición de la Open Source Initiative,
00:00:57un modelo de código abierto implica que el código, los datos de entrenamiento y las metodologías deben ser públicos,
00:01:02permitiendo que cualquiera pueda inspeccionarlos, modificarlos y distribuirlos.
00:01:05Pero en este caso, es simplemente un modelo de pesos abiertos.
00:01:07Un modelo de pesos abiertos solo pone a disposición los pesos finales,
00:01:10lo que significa que ni el código de entrenamiento ni el conjunto de datos son públicos.
00:01:14Solo incluye los pesos, liberados para que otros puedan ajustar, adaptar o desplegar el modelo en sus propios proyectos.
00:01:20Ahora bien, la arquitectura de este modelo es muy similar a la de "mezcla de expertos" de DeepSeek.
00:01:25Tiene 1 billón de parámetros, pero solo se activan 32.000 millones.
00:01:30¿Significa eso que no estamos usando el modelo a toda su capacidad?
00:01:33Responde con la misma precisión que un modelo de 1 billón de parámetros,
00:01:36pero con una potencia de procesamiento y un coste mucho menores.
00:01:39Esta diferencia entre los parámetros totales y los activados
00:01:43es la razón principal por la que se dice que es uno de los modelos de pesos abiertos más rápidos del mercado.
00:01:47Al activar pocos parámetros, solo se usan unos cuantos por consulta,
00:01:52y esto acelera el modelo considerablemente.
00:01:54Este es el motivo central por el que resulta tan económico comparado con otros modelos.
00:01:57Dicen que es un modelo multimodal nativo y que ofrece capacidades punteras en visión y programación.
00:02:03Pero esto es lo mismo que prometen todos: ser los mejores, superar al resto y demás.
00:02:08Así que nuestro equipo tuvo que ponerlo a prueba para verificarlo, y ahora les mostraremos los resultados.
00:02:12Pero antes de pasar a sus funciones realmente únicas, un mensaje de nuestro patrocinador.
00:02:16Opera Neon. Este es el primer navegador agéntico de Opera,
00:02:19diseñado específicamente para usuarios avanzados listos para experimentar el futuro.
00:02:23Neon utiliza "Tasks", que sustituye el caos de las pestañas por espacios de trabajo enfocados
00:02:27donde la IA puede analizar y actuar en múltiples pestañas dentro del mismo contexto.
00:02:32Imagina que necesitas una herramienta rápida para el trabajo.
00:02:34En lugar de abrir un IDE, simplemente usa Neon Make.
00:02:37Escribe algo como "Crea un temporizador Pomodoro estilo Cyberpunk"
00:02:40y el navegador abrirá una máquina virtual para generar el plan,
00:02:43escribir el código y desplegar la aplicación al instante.
00:02:45Es un ahorro de tiempo increíble para el flujo de trabajo diario, permitiéndote prototipar conceptos
00:02:50o automatizar investigaciones con Neon Do sin interrumpir tu ritmo.
00:02:53Actúa como un desarrollador junior integrado directamente en la interfaz.
00:02:56Sin duda usaré estas tarjetas de Neon para automatizar mis instrucciones.
00:02:59Puedes suscribirte a Opera Neon hoy mismo. No te limites a observar el cambio agéntico.
00:03:03Sé parte de él. Tienes el enlace en la descripción.
00:03:05El modelo Kimi es capaz de dirigir un enjambre de agentes, coordinando tareas entre ellos.
00:03:10Quizás pienses que Claude también hace eso y crea múltiples subagentes según la tarea.
00:03:15Pero aquí es donde este modelo marca la diferencia.
00:03:17Kimi 2.5 ha aprendido a autodirigir un enjambre de hasta 100 subagentes,
00:03:23ejecutando flujos de trabajo paralelos en 1.500 pasos coordinados mediante aprendizaje por refuerzo de agentes en paralelo.
00:03:29Para quienes no lo sepan, el aprendizaje por refuerzo es un proceso donde el modelo recibe una recompensa
00:03:33cuando lo hace bien y es penalizado cuando se desvía del objetivo.
00:03:36La mayoría de los modelos son recompensados solo por su rendimiento final.
00:03:39Pero en este caso, el modelo también recibe premios por lo bien que logra paralelizar los pasos
00:03:43y actuar como orquestador.
00:03:44En pocas palabras, Kimi está entrenado para ser un gestor de tareas.
00:03:48Su criterio de éxito es su capacidad para crear subagentes y asignar labores.
00:03:53El orquestador viene con herramientas integradas para crear subagentes, asignar tareas y otras funciones relacionadas.
00:03:58Crea subagentes para diversas tareas, les asigna el trabajo,
00:04:02recibe los resultados y luego coordina todo para dar una respuesta final.
00:04:06Según ellos, usaron este método de enjambre para mejorar el rendimiento en tareas complejas.
00:04:11En evaluaciones internas, esto supuso una reducción del 80% en el tiempo total de ejecución.
00:04:16Esto significa que pudieron ejecutar tareas mucho más complejas y de largo aliento.
00:04:20Lo compararon con los mejores modelos para tareas de largo alcance,
00:04:23concretamente Opus 4.5 y Kimi 2.5 sin el enjambre,
00:04:26y descubrieron que el enjambre de agentes de Kimi 2.5 superó a todos los modelos en sus pruebas.
00:04:32También lograron ahorrar un tiempo considerable usando agentes en lugar de ejecutar un solo agente.
00:04:36Todo eso eran afirmaciones basadas en lo que ellos decían.
00:04:39Para comprobarlo, instalamos la CLI de KimiCode,
00:04:42un nuevo agente de programación lanzado con este modelo.
00:04:45Teníamos una interfaz ya construida y queríamos migrarla a una estructura de componentes diferente.
00:04:49La interfaz se hizo con ShadCN y queríamos reconstruirla usando Material UI.
00:04:53El proyecto tenía varias páginas,
00:04:55así que le pedimos a Kimi que cambiara la UI de todo el proyecto de ShadCN a Material UI,
00:05:00y que usara agentes para gestionar cada página,
00:05:02de modo que la migración fuera más rápida al hacerse en paralelo.
00:05:05Empezó a explorar el directorio, de forma similar a como lo hace ClaudCode.
00:05:08Creó una lista de tareas con cada página que debía convertirse a Material UI.
00:05:13Agrupó las páginas similares,
00:05:15como las de autenticación (registro, inicio de sesión y recuperación de contraseña) para manejarlas con más eficiencia.
00:05:20Sin embargo, activó más agentes de los que esperábamos,
00:05:23lo cual descubrimos más tarde que era un error en la interfaz de comandos.
00:05:26Acabó usando solo cinco agentes para la tarea,
00:05:28algo comprensible para un producto nuevo.
00:05:30Tardó unos 15 minutos en completar el trabajo,
00:05:32un tiempo que pensamos que se reduciría con los agentes en paralelo.
00:05:35Terminó verificando y limpiando todo.
00:05:38Algunos componentes ya no se usaban tras la migración,
00:05:41y también se encargó de eliminarlos.
00:05:43Se aseguró de que todas las dependencias estuvieran instaladas y actualizadas,
00:05:45incluidos los archivos de prueba, y validó el resto.
00:05:48Al terminar, garantizó que se borraran todas las dependencias de ShadCN,
00:05:53dejando el proyecto sin dependencias innecesarias,
00:05:55algo que la mayoría de los agentes olvidan, terminando por sobrecargar el proyecto sin necesidad.
00:05:59Hizo algunos retoques leves en la interfaz.
00:06:01Por ejemplo, la sección principal tenía originalmente texto e imágenes uno al lado del otro,
00:06:05pero los cambió para que aparecieran apilados verticalmente.
00:06:07Aparte de eso, todo se veía casi igual,
00:06:10solo que con el cambio de componentes.
00:06:12Aunque era una tarea grande, solo usó el 25% de la ventana de contexto,
00:06:16lo que significa que puede trabajar eficazmente con agentes de larga duración.
00:06:19Así que el enjambre de agentes funciona, pero no siempre es más rápido
00:06:22y tardará más en bases de código a gran escala.
00:06:24Probablemente habrán notado que creamos muchas cosas en estos videos.
00:06:27Las instrucciones, el código, las plantillas... ya saben,
00:06:29todo eso que normalmente tendrías que pausar para copiar de la pantalla.
00:06:32Está todo en nuestra comunidad: lo de este video y lo de todos los anteriores también.
00:06:35Tienen los enlaces en la descripción.
00:06:37El punto fuerte de Kimi 2.5 es su inteligencia agéntica visual.
00:06:41Se afirma que es especialmente potente en capacidades de front-end.
00:06:44Puede interactuar e implementar diseños interactivos y animaciones complejas,
00:06:48como el desplazamiento de texto.
00:06:50Mostraron varios ejemplos de animaciones que estaban muy bien logradas.
00:06:53Y aquí es donde realmente destaca.
00:06:55Kimi 2.5 sobresale programando con visión, yendo más allá de simples peticiones de texto e imagen.
00:07:00Incluso puede tomar videos como entrada y generar código,
00:07:03siendo uno de los primeros modelos capaces de hacerlo.
00:07:06Esto facilitó mucho la explicación de los flujos de código.
00:07:08Esta capacidad multimodal no se añadió después del entrenamiento.
00:07:12Se integró durante el entrenamiento del modelo.
00:07:14La mayoría de los modelos incorporan funciones adicionales
00:07:16solo cuando sus capacidades de texto son lo bastante fuertes,
00:07:19lo que a menudo obliga a elegir entre visión y texto.
00:07:23Pero con la metodología de entrenamiento de Kimi 2.5,
00:07:25ese dilema desaparece y ambas capacidades mejoran a la vez.
00:07:29Ahora, teníamos que probarlo por nuestra cuenta.
00:07:30Grabamos la pantalla navegando por la interfaz de una página nueva de Notion y usando comandos de barra diagonal.
00:07:35Hicimos una grabación corta porque la documentación menciona que los videos están limitados a 40 megabytes.
00:07:40Le dimos la ruta de la grabación de Notion y le pedimos que clonara el sitio web mostrado en el video.
00:07:45No le especificamos en la instrucción qué había en la grabación,
00:07:48así que usó la herramienta de lectura de archivos multimedia para analizar el video.
00:07:52Concluyó que la interfaz era tipo Notion, identificó todas las funciones,
00:07:56y determinó que era un clon de Notion con una ventana estilo Mac OS.
00:07:59Una vez listado el contenido del archivo, empezó a implementarlo.
00:08:02Si van a usar procesamiento de video en sus propios proyectos, recuerden esto:
00:08:06Los videos y las imágenes pueden agotar la ventana de contexto rápidamente,
00:08:09así que tengan cuidado con los archivos grandes y vigilen la saturación del contexto.
00:08:12Cuando replicó la interfaz, fue muy preciso.
00:08:15La UI era editable, incluyendo los iconos de página y funciones de Notion,
00:08:18aunque algunas no eran totalmente funcionales al principio.
00:08:21Los comandos de barra no funcionaban todavía, pero la interfaz general era exacta.
00:08:25Habría sido mejor que los comandos estuvieran implementados, ya que son clave en el flujo de trabajo.
00:08:29Pero fue un detalle menor que se podía arreglar con otra iteración.
00:08:32Así que le dimos una instrucción pidiéndole que corrigiera los problemas de la implementación.
00:08:37A partir de ahí, se auto-iteró, aplicando correcciones, revisando resultados,
00:08:41y asegurándose de que la función marchara bien sin necesidad de más instrucciones por nuestra parte.
00:08:46Esta repetición acabó arreglando el problema de los comandos,
00:08:49haciendo que toda la interfaz pareciera un clon de Notion totalmente funcional.
00:08:52Así que sí está cumpliendo con lo que promete el modelo.
00:08:54Tras resolver algunos fallos, creemos que podría ser una alternativa más barata a Claude Code,
00:08:58sabiendo que los planes de Claude son caros y los de Kimi tienen precios más bajos.
00:09:03Con esto llegamos al final del video.
00:09:05Si quieren apoyar al canal y ayudarnos a seguir creando contenido como este,
00:09:08pueden hacerlo uniéndose a AI Labs Pro.
00:09:10Como siempre, gracias por vernos, ¡y nos vemos en el próximo video!