Nunca había visto nada igual

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00¿De verdad se puede entrenar a un modelo para ser un mejor gestor?
00:00:02Moonshot lanzó hace poco Kimi 2.5 y lo calificó como el modelo de código abierto más potente hasta la fecha.
00:00:08Esa afirmación ya es errónea, porque es de pesos abiertos, no de código abierto.
00:00:11Hay una diferencia, pero ese no es el punto ahora.
00:00:13Kimi 2.5 hace dos promesas que realmente vale la pena poner a prueba.
00:00:17Primero, dice que fue entrenado desde cero para orquestar enjambres de agentes,
00:00:21con hasta 100 subagentes funcionando en paralelo.
00:00:23El sistema de aprendizaje por refuerzo no solo premia las respuestas correctas,
00:00:27sino también la eficacia del modelo al distribuir el trabajo entre los agentes.
00:00:30Segundo, afirma poseer inteligencia agéntica visual,
00:00:33y asegura haber generado animaciones de altísimo nivel con una sola instrucción.
00:00:37Ahora, ya no son los usuarios quienes dicen haberlo hecho a la primera; son los propios creadores quienes lo afirman.
00:00:42Así que pedimos a un miembro de nuestro equipo que probara ambas funciones.
00:00:44Algunos resultados estuvieron a la altura de las expectativas, otros no tanto.
00:00:48Como mencioné, Kimi 2.5 presume de ser un modelo de código abierto.
00:00:51En realidad, Kimi 2.5 no es un modelo de código abierto.
00:00:54Según la definición de la Open Source Initiative,
00:00:57un modelo de código abierto implica que el código, los datos de entrenamiento y las metodologías deben ser públicos,
00:01:02permitiendo que cualquiera pueda inspeccionarlos, modificarlos y distribuirlos.
00:01:05Pero en este caso, es simplemente un modelo de pesos abiertos.
00:01:07Un modelo de pesos abiertos solo pone a disposición los pesos finales,
00:01:10lo que significa que ni el código de entrenamiento ni el conjunto de datos son públicos.
00:01:14Solo incluye los pesos, liberados para que otros puedan ajustar, adaptar o desplegar el modelo en sus propios proyectos.
00:01:20Ahora bien, la arquitectura de este modelo es muy similar a la de "mezcla de expertos" de DeepSeek.
00:01:25Tiene 1 billón de parámetros, pero solo se activan 32.000 millones.
00:01:30¿Significa eso que no estamos usando el modelo a toda su capacidad?
00:01:33Responde con la misma precisión que un modelo de 1 billón de parámetros,
00:01:36pero con una potencia de procesamiento y un coste mucho menores.
00:01:39Esta diferencia entre los parámetros totales y los activados
00:01:43es la razón principal por la que se dice que es uno de los modelos de pesos abiertos más rápidos del mercado.
00:01:47Al activar pocos parámetros, solo se usan unos cuantos por consulta,
00:01:52y esto acelera el modelo considerablemente.
00:01:54Este es el motivo central por el que resulta tan económico comparado con otros modelos.
00:01:57Dicen que es un modelo multimodal nativo y que ofrece capacidades punteras en visión y programación.
00:02:03Pero esto es lo mismo que prometen todos: ser los mejores, superar al resto y demás.
00:02:08Así que nuestro equipo tuvo que ponerlo a prueba para verificarlo, y ahora les mostraremos los resultados.
00:02:12Pero antes de pasar a sus funciones realmente únicas, un mensaje de nuestro patrocinador.
00:02:16Opera Neon. Este es el primer navegador agéntico de Opera,
00:02:19diseñado específicamente para usuarios avanzados listos para experimentar el futuro.
00:02:23Neon utiliza "Tasks", que sustituye el caos de las pestañas por espacios de trabajo enfocados
00:02:27donde la IA puede analizar y actuar en múltiples pestañas dentro del mismo contexto.
00:02:32Imagina que necesitas una herramienta rápida para el trabajo.
00:02:34En lugar de abrir un IDE, simplemente usa Neon Make.
00:02:37Escribe algo como "Crea un temporizador Pomodoro estilo Cyberpunk"
00:02:40y el navegador abrirá una máquina virtual para generar el plan,
00:02:43escribir el código y desplegar la aplicación al instante.
00:02:45Es un ahorro de tiempo increíble para el flujo de trabajo diario, permitiéndote prototipar conceptos
00:02:50o automatizar investigaciones con Neon Do sin interrumpir tu ritmo.
00:02:53Actúa como un desarrollador junior integrado directamente en la interfaz.
00:02:56Sin duda usaré estas tarjetas de Neon para automatizar mis instrucciones.
00:02:59Puedes suscribirte a Opera Neon hoy mismo. No te limites a observar el cambio agéntico.
00:03:03Sé parte de él. Tienes el enlace en la descripción.
00:03:05El modelo Kimi es capaz de dirigir un enjambre de agentes, coordinando tareas entre ellos.
00:03:10Quizás pienses que Claude también hace eso y crea múltiples subagentes según la tarea.
00:03:15Pero aquí es donde este modelo marca la diferencia.
00:03:17Kimi 2.5 ha aprendido a autodirigir un enjambre de hasta 100 subagentes,
00:03:23ejecutando flujos de trabajo paralelos en 1.500 pasos coordinados mediante aprendizaje por refuerzo de agentes en paralelo.
00:03:29Para quienes no lo sepan, el aprendizaje por refuerzo es un proceso donde el modelo recibe una recompensa
00:03:33cuando lo hace bien y es penalizado cuando se desvía del objetivo.
00:03:36La mayoría de los modelos son recompensados solo por su rendimiento final.
00:03:39Pero en este caso, el modelo también recibe premios por lo bien que logra paralelizar los pasos
00:03:43y actuar como orquestador.
00:03:44En pocas palabras, Kimi está entrenado para ser un gestor de tareas.
00:03:48Su criterio de éxito es su capacidad para crear subagentes y asignar labores.
00:03:53El orquestador viene con herramientas integradas para crear subagentes, asignar tareas y otras funciones relacionadas.
00:03:58Crea subagentes para diversas tareas, les asigna el trabajo,
00:04:02recibe los resultados y luego coordina todo para dar una respuesta final.
00:04:06Según ellos, usaron este método de enjambre para mejorar el rendimiento en tareas complejas.
00:04:11En evaluaciones internas, esto supuso una reducción del 80% en el tiempo total de ejecución.
00:04:16Esto significa que pudieron ejecutar tareas mucho más complejas y de largo aliento.
00:04:20Lo compararon con los mejores modelos para tareas de largo alcance,
00:04:23concretamente Opus 4.5 y Kimi 2.5 sin el enjambre,
00:04:26y descubrieron que el enjambre de agentes de Kimi 2.5 superó a todos los modelos en sus pruebas.
00:04:32También lograron ahorrar un tiempo considerable usando agentes en lugar de ejecutar un solo agente.
00:04:36Todo eso eran afirmaciones basadas en lo que ellos decían.
00:04:39Para comprobarlo, instalamos la CLI de KimiCode,
00:04:42un nuevo agente de programación lanzado con este modelo.
00:04:45Teníamos una interfaz ya construida y queríamos migrarla a una estructura de componentes diferente.
00:04:49La interfaz se hizo con ShadCN y queríamos reconstruirla usando Material UI.
00:04:53El proyecto tenía varias páginas,
00:04:55así que le pedimos a Kimi que cambiara la UI de todo el proyecto de ShadCN a Material UI,
00:05:00y que usara agentes para gestionar cada página,
00:05:02de modo que la migración fuera más rápida al hacerse en paralelo.
00:05:05Empezó a explorar el directorio, de forma similar a como lo hace ClaudCode.
00:05:08Creó una lista de tareas con cada página que debía convertirse a Material UI.
00:05:13Agrupó las páginas similares,
00:05:15como las de autenticación (registro, inicio de sesión y recuperación de contraseña) para manejarlas con más eficiencia.
00:05:20Sin embargo, activó más agentes de los que esperábamos,
00:05:23lo cual descubrimos más tarde que era un error en la interfaz de comandos.
00:05:26Acabó usando solo cinco agentes para la tarea,
00:05:28algo comprensible para un producto nuevo.
00:05:30Tardó unos 15 minutos en completar el trabajo,
00:05:32un tiempo que pensamos que se reduciría con los agentes en paralelo.
00:05:35Terminó verificando y limpiando todo.
00:05:38Algunos componentes ya no se usaban tras la migración,
00:05:41y también se encargó de eliminarlos.
00:05:43Se aseguró de que todas las dependencias estuvieran instaladas y actualizadas,
00:05:45incluidos los archivos de prueba, y validó el resto.
00:05:48Al terminar, garantizó que se borraran todas las dependencias de ShadCN,
00:05:53dejando el proyecto sin dependencias innecesarias,
00:05:55algo que la mayoría de los agentes olvidan, terminando por sobrecargar el proyecto sin necesidad.
00:05:59Hizo algunos retoques leves en la interfaz.
00:06:01Por ejemplo, la sección principal tenía originalmente texto e imágenes uno al lado del otro,
00:06:05pero los cambió para que aparecieran apilados verticalmente.
00:06:07Aparte de eso, todo se veía casi igual,
00:06:10solo que con el cambio de componentes.
00:06:12Aunque era una tarea grande, solo usó el 25% de la ventana de contexto,
00:06:16lo que significa que puede trabajar eficazmente con agentes de larga duración.
00:06:19Así que el enjambre de agentes funciona, pero no siempre es más rápido
00:06:22y tardará más en bases de código a gran escala.
00:06:24Probablemente habrán notado que creamos muchas cosas en estos videos.
00:06:27Las instrucciones, el código, las plantillas... ya saben,
00:06:29todo eso que normalmente tendrías que pausar para copiar de la pantalla.
00:06:32Está todo en nuestra comunidad: lo de este video y lo de todos los anteriores también.
00:06:35Tienen los enlaces en la descripción.
00:06:37El punto fuerte de Kimi 2.5 es su inteligencia agéntica visual.
00:06:41Se afirma que es especialmente potente en capacidades de front-end.
00:06:44Puede interactuar e implementar diseños interactivos y animaciones complejas,
00:06:48como el desplazamiento de texto.
00:06:50Mostraron varios ejemplos de animaciones que estaban muy bien logradas.
00:06:53Y aquí es donde realmente destaca.
00:06:55Kimi 2.5 sobresale programando con visión, yendo más allá de simples peticiones de texto e imagen.
00:07:00Incluso puede tomar videos como entrada y generar código,
00:07:03siendo uno de los primeros modelos capaces de hacerlo.
00:07:06Esto facilitó mucho la explicación de los flujos de código.
00:07:08Esta capacidad multimodal no se añadió después del entrenamiento.
00:07:12Se integró durante el entrenamiento del modelo.
00:07:14La mayoría de los modelos incorporan funciones adicionales
00:07:16solo cuando sus capacidades de texto son lo bastante fuertes,
00:07:19lo que a menudo obliga a elegir entre visión y texto.
00:07:23Pero con la metodología de entrenamiento de Kimi 2.5,
00:07:25ese dilema desaparece y ambas capacidades mejoran a la vez.
00:07:29Ahora, teníamos que probarlo por nuestra cuenta.
00:07:30Grabamos la pantalla navegando por la interfaz de una página nueva de Notion y usando comandos de barra diagonal.
00:07:35Hicimos una grabación corta porque la documentación menciona que los videos están limitados a 40 megabytes.
00:07:40Le dimos la ruta de la grabación de Notion y le pedimos que clonara el sitio web mostrado en el video.
00:07:45No le especificamos en la instrucción qué había en la grabación,
00:07:48así que usó la herramienta de lectura de archivos multimedia para analizar el video.
00:07:52Concluyó que la interfaz era tipo Notion, identificó todas las funciones,
00:07:56y determinó que era un clon de Notion con una ventana estilo Mac OS.
00:07:59Una vez listado el contenido del archivo, empezó a implementarlo.
00:08:02Si van a usar procesamiento de video en sus propios proyectos, recuerden esto:
00:08:06Los videos y las imágenes pueden agotar la ventana de contexto rápidamente,
00:08:09así que tengan cuidado con los archivos grandes y vigilen la saturación del contexto.
00:08:12Cuando replicó la interfaz, fue muy preciso.
00:08:15La UI era editable, incluyendo los iconos de página y funciones de Notion,
00:08:18aunque algunas no eran totalmente funcionales al principio.
00:08:21Los comandos de barra no funcionaban todavía, pero la interfaz general era exacta.
00:08:25Habría sido mejor que los comandos estuvieran implementados, ya que son clave en el flujo de trabajo.
00:08:29Pero fue un detalle menor que se podía arreglar con otra iteración.
00:08:32Así que le dimos una instrucción pidiéndole que corrigiera los problemas de la implementación.
00:08:37A partir de ahí, se auto-iteró, aplicando correcciones, revisando resultados,
00:08:41y asegurándose de que la función marchara bien sin necesidad de más instrucciones por nuestra parte.
00:08:46Esta repetición acabó arreglando el problema de los comandos,
00:08:49haciendo que toda la interfaz pareciera un clon de Notion totalmente funcional.
00:08:52Así que sí está cumpliendo con lo que promete el modelo.
00:08:54Tras resolver algunos fallos, creemos que podría ser una alternativa más barata a Claude Code,
00:08:58sabiendo que los planes de Claude son caros y los de Kimi tienen precios más bajos.
00:09:03Con esto llegamos al final del video.
00:09:05Si quieren apoyar al canal y ayudarnos a seguir creando contenido como este,
00:09:08pueden hacerlo uniéndose a AI Labs Pro.
00:09:10Como siempre, gracias por vernos, ¡y nos vemos en el próximo video!

Key Takeaway

Kimi 2.5 revoluciona el panorama de la IA mediante un sistema de enjambre de agentes orquestado por aprendizaje por refuerzo y una capacidad visual nativa capaz de clonar interfaces complejas a partir de video.

Highlights

Lanzamiento de Kimi 2.5 por Moonshot

Timeline

Introducción y Definición de Kimi 2.5

El video comienza cuestionando si un modelo de IA puede ser entrenado específicamente para actuar como un gestor de tareas. Se introduce a Kimi 2.5 de Moonshot, aclarando la distinción técnica entre un modelo de "código abierto" y uno de "pesos abiertos". El orador critica la terminología de la empresa, señalando que al ser de pesos abiertos, los datos y metodologías de entrenamiento permanecen privados. Esta sección establece las dos promesas principales del modelo: la orquestación de enjambres de agentes y la inteligencia visual avanzada. Es un contexto crucial para entender que Kimi no es solo un modelo de lenguaje, sino un sistema diseñado para la gestión de subagentes.

Arquitectura y Eficiencia del Modelo

Se detalla la arquitectura de Kimi 2.5, la cual utiliza una estrategia de "mezcla de expertos" similar a la de DeepSeek. Posee un total de 1 billón de parámetros, pero su eficiencia radica en que solo activa 32.000 millones durante el procesamiento, reduciendo drásticamente los costes y aumentando la velocidad. El modelo se promociona como multimodal nativo, destacando en áreas de visión y programación sin sacrificar una capacidad por la otra. El narrador explica que esta estructura permite obtener la precisión de un modelo masivo con la agilidad de uno mucho más pequeño. Este apartado es fundamental para comprender por qué Kimi 2.5 se posiciona como uno de los modelos de pesos abiertos más rápidos del mercado actual.

Publicidad de Opera Neon

El video hace una pausa para presentar a Opera Neon, descrito como el primer navegador agéntico diseñado para usuarios avanzados. El patrocinador ofrece funciones como "Tasks" y "Neon Make", que permiten automatizar flujos de trabajo y generar aplicaciones mediante una máquina virtual integrada. Se menciona el ejemplo de crear un temporizador Pomodoro estilo Cyberpunk simplemente con una instrucción de texto. El navegador actúa como un desarrollador junior que ayuda a prototipar conceptos sin interrumpir el ritmo de trabajo del usuario. Esta sección resalta la tendencia actual de integrar la IA directamente en las herramientas de navegación web cotidianas.

Orquestación de Enjambres y Aprendizaje por Refuerzo

El orador profundiza en la capacidad de Kimi para dirigir hasta 100 subagentes de forma simultánea. A diferencia de otros modelos, Kimi 2.5 utiliza aprendizaje por refuerzo para premiar no solo la respuesta correcta, sino la eficacia en la distribución y paralelización del trabajo. Se menciona que el modelo puede coordinar flujos de trabajo complejos en hasta 1.500 pasos, actuando genuinamente como un gestor de proyectos. Según las métricas presentadas, este enfoque de enjambre permite una reducción del 80% en el tiempo de ejecución en comparación con modelos que no usan agentes. Es una característica distintiva que permite abordar tareas de larga duración que antes eran inalcanzables para modelos estándar.

Prueba de Programación: Migración de Interfaz

El equipo de producción pone a prueba el modelo utilizando la CLI de KimiCode para migrar un proyecto de ShadCN a Material UI. Durante el proceso, el modelo analizó el directorio, creó listas de tareas y agrupó páginas de autenticación para optimizar la conversión. Aunque hubo un pequeño error inicial en la cantidad de agentes activados, Kimi logró completar la migración en 15 minutos, limpiando dependencias obsoletas y validando el código. El resultado fue una interfaz funcional y organizada, utilizando solo el 25% de su ventana de contexto disponible. Esta prueba real demuestra la capacidad del modelo para gestionar bases de código complejas con una mínima intervención humana.

Inteligencia Visual y Clonación de Sitios

En la fase final, se explora la inteligencia agéntica visual, donde Kimi 2.5 destaca al procesar video para generar código front-end de alta calidad. El equipo grabó una sesión de navegación en Notion y el modelo fue capaz de identificar elementos específicos y replicar la interfaz de manera casi exacta. A pesar de algunos fallos iniciales en los comandos de barra, el modelo utilizó un proceso de auto-iteración para corregir sus propios errores sin nuevas instrucciones. El video concluye sugiriendo que Kimi 2.5 es una alternativa económica y potente a herramientas como Claude Code. Se finaliza invitando a la comunidad a unirse a AI Labs Pro para acceder a las instrucciones y recursos utilizados en la demostración.

Community Posts

View all posts