Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

BBetter Stack
Computing/SoftwareAdvertising/MarketingSmall Business/StartupsInternet Technology

Transcript

00:00:00Un momento, me acabo de dar cuenta.
00:00:01El informe se basa en información pública disponible a fecha de enero de 2025.
00:00:06Oh, no, no... 2025 no, eso no es lo que pedí.
00:00:15Moonshot AI ha lanzado su modelo de IA más reciente, Kimi K 2.5, y ha causado furor
00:00:22esta semana en todo internet.
00:00:24Hay quienes incluso se atreven a decir que este podría ser su modelo favorito hasta la fecha.
00:00:29Así que, lógicamente, tenía que probarlo para ver a qué viene tanto revuelo y determinar si
00:00:34realmente es algo innovador o simplemente otro modelo inflado por un marketing llamativo.
00:00:39Eso es precisamente lo que vamos a descubrir en el vídeo de hoy.
00:00:42Va a ser muy divertido, así que vamos a ello.
00:00:49Kimi K 2.5 es el último modelo de código abierto desarrollado por una empresa china llamada Moonshot
00:00:55AI.
00:00:56Hace apenas seis meses, Richard ya analizó el K2 en detalle, y hoy volvemos
00:01:01para ver qué hay de nuevo en el K2.5.
00:01:05Entonces, ¿qué tiene de especial este modelo?
00:01:06¿En qué se diferencia de los otros mil modelos nuevos que salen casi a diario?
00:01:12Bueno, destacan dos cosas.
00:01:13En primer lugar, afirma ser excelente en visión y programación.
00:01:17Incluso llegan a etiquetarse como el "SOTA" del código abierto.
00:01:21SOTA.
00:01:22¿Sabéis lo que significa?
00:01:24En realidad, tuve que buscarlo yo mismo porque no tenía ni idea.
00:01:27Ah, vale, significa "State Of The Art", es decir, vanguardista o lo último en tecnología.
00:01:30Bueno, hoy he aprendido algo nuevo.
00:01:32En fin, que es lo máximo en pruebas de rendimiento agénticas, visión y programación.
00:01:37Y lo segundo que destaca es una nueva funcionalidad llamada
00:01:42Agent Swarm (Enjambre de Agentes).
00:01:44Es capaz de desplegar hasta cien subagentes y realizar 1500 llamadas a herramientas
00:01:51de forma concurrente, lo que resulta en un rendimiento 4,5 veces más rápido.
00:01:55Para este modelo utilizaron un nuevo método de entrenamiento llamado "Parallel Agent Reinforcement Learning"
00:02:00o PARL (Aprendizaje por Refuerzo de Agentes en Paralelo).
00:02:01Esto significa que el modelo puede autodirigir todo el enjambre creando un
00:02:06agente orquestador entrenable, que básicamente dirige el cotarro descomponiendo tareas en
00:02:12subtareas paralelizables y vigilando a todos los agentes para asegurar que la operación
00:02:18no sufra un colapso en serie, algo que suele ocurrir en estos flujos de trabajo multiagente.
00:02:23Lo solucionaron dando recompensas a cada subagente en etapas críticas independientes,
00:02:28y todo este sistema permite que el K 2.5 logre mejoras de rendimiento notables.
00:02:34Así que, sin duda, vamos a ponerlo a prueba.
00:02:35No voy a entrar en demasiados detalles sobre los diferentes benchmarks porque,
00:02:40sinceramente, cada vídeo que veo ahora solo alaba esas cifras y ya no sé
00:02:44si podemos fiarnos de esos números, la verdad.
00:02:47¡Si ni siquiera pueden alinear bien los gráficos de rendimiento, por favor!
00:02:51Así que me voy a centrar en las dos cosas que dicen que este modelo
00:02:55hace realmente bien.
00:02:56La visión y programación, y la nueva función de enjambre de agentes.
00:03:00Vamos con el test.
00:03:02También tienen su propia herramienta de línea de comandos llamada Kimi CLI.
00:03:06Así que esa es la que voy a usar hoy para mis pruebas.
00:03:09Una de las funciones más impresionantes que prometen es la capacidad de tomar una
00:03:13grabación de vídeo de la interfaz de una web y replicarla en código.
00:03:19Eso es increíble.
00:03:20Para comprobarlo, grabé la página del iPad Air de Apple con todas esas
00:03:25animaciones y transiciones tan sofisticadas.
00:03:28Y he creado una carpeta que solo contiene el archivo de esa grabación.
00:03:32Ahora le voy a pedir al K 2.5 que cree una web promocional para el iPad Air
00:03:38basándose en este vídeo.
00:03:39Antes de ejecutar comandos en la terminal, nos preguntará si damos permiso; le diré que sí
00:03:44para esta sesión.
00:03:46Ya está en marcha.
00:03:48Y esto es interesante.
00:03:49Ha detectado que el archivo era demasiado grande.
00:03:51Así que ha usado FFmpeg para comprimirlo por su cuenta.
00:03:56Tenía mucha curiosidad por saber cómo procesa y entiende un vídeo este modelo.
00:04:01Resulta que coge el vídeo y, de nuevo usando FFmpeg, extrae
00:04:06fotogramas clave para usarlos como guía visual al construir la web.
00:04:11Al modelo le llevó unos cinco minutos y medio terminar la tarea.
00:04:15Desde luego, no es el modelo más rápido que existe.
00:04:18Y recordad que estoy usando su propia API, no una versión local.
00:04:23Sea como sea, una vez terminado, aquí vemos que nos da un resumen detallado
00:04:28de lo que ha hecho.
00:04:29Echemos un vistazo al sitio.
00:04:30¡Oh, vaya!
00:04:31Mirad eso.
00:04:32Ha clavado la estética de diseño de Apple e incluso ha creado este iPad flotante en 3D
00:04:38en el centro.
00:04:39Y parece que también reacciona al movimiento del ratón.
00:04:42Mola mucho.
00:04:43Luego tenemos esta sección de carrusel con diferentes ventanas, pero por desgracia
00:04:48no responde al hacer clic en los puntos, aunque visualmente es muy elegante.
00:04:52Después hay otra sección con algunas animaciones.
00:04:55¡Ah! Y aquí sí tenemos un carrusel navegable con diferentes diseños.
00:05:00Qué bueno.
00:05:01Y un par de secciones más que mantienen totalmente el estilo de Apple.
00:05:06Sinceramente, está muy bien.
00:05:07El hecho de que haya podido crear una web tan atractiva y con animaciones
00:05:12solo con un vídeo de referencia y un prompt corto es genial.
00:05:16Muy bien.
00:05:17Pero Apple es una marca muy conocida.
00:05:18Seguro que su estética forma parte de los datos de entrenamiento del modelo.
00:05:23Así que probablemente sea una tarea sencilla para la IA.
00:05:26Intentemos algo más interesante y un poco más peculiar.
00:05:29He creado otra carpeta con una sola imagen del Sr. Burns, de Los Simpson.
00:05:34Veamos qué tan creativo puede ser Kimi K 2.5.
00:05:37He puesto este prompt: "El Sr. Burns se presenta a presidente".
00:05:40"Quiero que crees una web de campaña presidencial para el Sr. Burns que incluya sus políticas
00:05:45y agenda política basadas en los rasgos y motivaciones del personaje".
00:05:49A ver qué tal sale.
00:05:51En cuanto empieza el proceso de razonamiento, vemos cómo plantea el diseño.
00:05:55El concepto está claro.
00:05:56Montgomery Burns con su clásico traje verde oscuro y corbata color melocotón.
00:06:01Esta es la referencia visual clave para la estética de la campaña.
00:06:05Qué puntazo.
00:06:06Y esta parte tardó incluso más en terminar.
00:06:08Fueron unos seis minutos en total.
00:06:11Pero ahora que está listo, otra vez vemos el desglose de lo generado:
00:06:16ha añadido una sección de visión, otra de políticas, materiales promocionales, etc.
00:06:22Y fijaos en esto.
00:06:23Incluso ha metido un "huevo de pascua" oculto por pura diversión.
00:06:26Eso sí que es una pasada.
00:06:27Veamos cómo ha quedado la web.
00:06:29¡Wow!
00:06:30Mirad eso.
00:06:31"Excelencia en la gobernanza".
00:06:33"Haciendo que este país vuelva a ser grande... para mí".
00:06:36Ah, y hay un botoncito nuclear por ahí.
00:06:40¿Qué pasa si le doy?
00:06:41"Smithers, tráeme un café".
00:06:43Qué bueno.
00:06:44Incluso hay una página detallada sobre el candidato.
00:06:46Y una sección de "Prosperidad".
00:06:49Las animaciones son súper fluidas.
00:06:50Vaya.
00:06:51Se ve que Kimi K 2.5 sabe crear gráficos con mucho impacto.
00:06:55Está a años luz de esos diseños genéricos y aburridos que
00:07:01producen otros modelos.
00:07:02Y mirad esto.
00:07:04"Políticas para la élite".
00:07:05Madre mía.
00:07:06Hay un montón de bromas geniales.
00:07:08Es increíble.
00:07:10"Vales de salud canjeables solo en los centros médicos Burns".
00:07:14"Listas de espera para trasplantes ordenadas por patrimonio neto".
00:07:18"Muro fronterizo hecho de oro".
00:07:21¿Qué dice la gente?
00:07:22Vale, aquí pone citas de personajes de Los Simpson, el formulario de contacto y la página
00:07:29de donaciones de campaña.
00:07:30Hasta ha añadido una tienda de merchandising.
00:07:31Bueno, esa sección pone "Próximamente".
00:07:33Claro, porque es una página HTML estática.
00:07:35De acuerdo.
00:07:36Ahora quiero activar el huevo de pascua.
00:07:38¿Cómo se hace?
00:07:39Dice que tengo que introducir el código Konami.
00:07:43¿Qué es el código Konami?
00:07:45Ah, vale.
00:07:46Es un truco famosísimo de los videojuegos.
00:07:49Vaya.
00:07:50No lo sabía.
00:07:51Una vez más, hoy he aprendido algo.
00:07:52Así que es: arriba, arriba, abajo, abajo, izquierda, derecha, izquierda, derecha, A, B. Vale.
00:07:58Ahí está.
00:07:59Ahora sale un texto gigante de "JA JA JA" por toda la página y el eslogan cambia a "Excelente".
00:08:06Es muy gracioso.
00:08:07Sinceramente, hay tantos detalles geniales que voy a dejar un enlace en
00:08:10la descripción a esta página para que la veáis por vosotros mismos.
00:08:14Los fans de Los Simpson lo van a disfrutar mucho.
00:08:17Es realmente impresionante.
00:08:19No esperaba que crease una web tan divertida solo con una imagen y un poco de texto.
00:08:24Muy bien.
00:08:25Pero ahora quiero probar la función de enjambre de agentes de la que todo el mundo habla.
00:08:29Mirando sus propios ejemplos, parece que esta función es muy buena para tareas como
00:08:33recopilar investigación sobre un tema o cualquier acción que se beneficie de un
00:08:39enfoque multihilo.
00:08:40Pero para probar esta función en todo su esplendor, lo mejor es usar la página oficial de Kimi
00:08:46y ejecutarlo en su chatbot, porque han añadido elementos visuales
00:08:50y animaciones que hacen que el proceso del enjambre se vea genial.
00:08:54Lo veréis en un segundo.
00:08:56Para esta prueba, le pediré al enjambre de agentes que reúna toda la información posible
00:09:00sobre diferentes modelos, cuáles son los más usados, y le pediré al K2.5 que recoja
00:09:06todo eso y lo consolide en un documento PDF bien formateado.
00:09:10Además, si quieres que el modelo use el enjambre, conviene pedírselo explícitamente porque
00:09:16en una prueba anterior le encargué una tarea y el K2.5 decidió por su cuenta
00:09:23que no necesitaba el enjambre y me devolvió algunos créditos de tokens.
00:09:27Así que si de verdad queréis activarlo, hacédselo saber.
00:09:31Bien.
00:09:32Lancemos la tarea.
00:09:33En cuanto empieza, vemos esas animaciones tan chulas que tiene la interfaz de Kimi.
00:09:39Esto es algo que he notado que Moonshot AI hace de maravilla.
00:09:43Destacan por ofrecer una experiencia de usuario muy juguetona y gamificada, lo que
00:09:49hace que usar sus herramientas sea mucho más ameno.
00:09:52Kimi vuelve a ponerse gracioso durante el proceso mientras el modelo asigna los
00:09:57agentes.
00:09:58Incluso les pone tarjetas de identificación a cada uno.
00:10:01Y podemos seguir el estado de sus tareas en tiempo real.
00:10:05A medida que los agentes van terminando, podemos ver su progreso en la ventana
00:10:10principal.
00:10:11Vemos las páginas web que visitan y el código que van generando.
00:10:15Llegados a este punto, hasta puedes apostar por ver qué agente terminará su tarea
00:10:20más rápido.
00:10:21Cuando un agente termina, aparece una pequeña burbuja sobre su avatar.
00:10:26Unos 10 minutos y medio después, mi enjambre ha terminado la tarea y nos
00:10:31da este PDF como resultado.
00:10:33Parece que hay un texto aquí, pero no alcanzo a verlo bien.
00:10:39Vale, he tenido que copiarlo y pegarlo en otro sitio para leerlo.
00:10:43Bien, dice: "Modelos de programación, análisis comparativo".
00:10:46Vale, vale.
00:10:47Bueno, una elección de diseño pésima para empezar.
00:10:50Pero no nos precipitemos.
00:10:53Veamos el resto del informe.
00:10:55Tenemos un resumen ejecutivo.
00:10:58Principales hallazgos.
00:10:59El 81% de los desarrolladores usa o planea usar IA.
00:11:03El 59% de los desarrolladores usa tres herramientas de IA en paralelo.
00:11:06Vale, interesante.
00:11:08Y vemos aquí que Claude Code Opus 4.5 domina las listas.
00:11:13Luego vemos tendencias de mercado.
00:11:16El 46% de los desarrolladores desconfía de los resultados de la IA.
00:11:20Y vaya, esto es sorprendente.
00:11:22GitHub Copilot es el líder del mercado con un 42% de cuota.
00:11:26Guau.
00:11:27Llama 4 Scout parece tener la ventana de contexto más grande con 10 millones de tokens.
00:11:31Eso es muy impresionante.
00:11:32Aquí llega.
00:11:33La parte jugosa.
00:11:34Conclusiones clave.
00:11:35A ver.
00:11:36"No hay un único ganador".
00:11:37Venga ya.
00:11:39Qué decepción.
00:11:41El 45% del código generado por IA tiene vulnerabilidades.
00:11:43Sí, eso es algo de lo que preocuparse, sin duda.
00:11:46Esperad, me acabo de fijar... el informe se basa en información pública de enero
00:11:52de 2025.
00:11:54Oh, no.
00:11:56No, no, no.
00:11:572025.
00:11:59No es lo que pedí.
00:12:02Le pedí específicamente información sobre los modelos más usados actualmente.
00:12:09¿Por qué no usaste datos de enero de 2026?
00:12:14"Tienes toda la razón".
00:12:15"Debería haber investigado datos de 2025 y enero de 2026".
00:12:21Comportamiento típico de un LLM.
00:12:23Estoy muy decepcionado contigo, Kimi.
00:12:25He gastado un montón de tokens y 10 minutos de mi tiempo para obtener información desfasada.
00:12:30En fin.
00:12:31Pues ahí lo tenéis.
00:12:32Ese es Kimi K2.5.
00:12:35A pesar de mi total decepción con su capacidad para seguir instrucciones en la última prueba, sigo
00:12:40pensando que es un modelo bastante bueno.
00:12:42No diría que es revolucionario ni lo más avanzado del mundo, pero tiene sus ventajas.
00:12:47Lo recomendaría sin duda si quieres crear una web realmente bonita, ya sabes,
00:12:51algo digno de aparecer en awwwards.com.
00:12:55Para eso elegiría el K2.5 antes que uno de los modelos de Claude Code, por ejemplo.
00:13:01Y debo admitir que la función de enjambre se ve genial y es muy divertida de
00:13:06usar.
00:13:07Pero, ¿sabías que puedes tener esa misma función usando Claude Code?
00:13:10Richard acaba de publicar un vídeo estupendo explorando ese tema, así que no os lo
00:13:14perdáis.
00:13:15Y gente, si el vídeo os ha parecido útil o al menos entretenido, hacédmelo saber
00:13:19reventando ese botón de "me gusta" de aquí abajo.
00:13:22Y no olvidéis suscribiros al canal para no perderos ninguno de nuestros futuros
00:13:26análisis técnicos.
00:13:28Soy Andris, de Better Stack, y nos vemos en los próximos vídeos.

Key Takeaway

Kimi K2.5 destaca como un modelo de IA excepcionalmente creativo y visual para el desarrollo web, aunque presenta limitaciones actuales en la precisión temporal de sus investigaciones agénticas.

Highlights

Moonshot AI lanza Kimi K2.5

Timeline

Introducción y Contexto de Kimi K2.5

El analista presenta el lanzamiento de Kimi K2.5 por parte de la empresa china Moonshot AI, subrayando el gran interés generado en la comunidad tecnológica. Se define al modelo como "SOTA" (State Of The Art), destacando su enfoque en visión, programación y rendimiento en pruebas agénticas. El orador menciona que este modelo llega solo seis meses después de la versión anterior, mostrando un ritmo de desarrollo acelerado. Esta sección establece las expectativas sobre si el modelo es una innovación real o simplemente marketing. Es fundamental entender que el análisis se realiza desde una perspectiva práctica y crítica del usuario.

Arquitectura y la Tecnología Agent Swarm

Se explica en detalle la función de "Enjambre de Agentes", la cual permite realizar hasta 1500 llamadas a herramientas de forma concurrente para acelerar procesos. El modelo introduce el método PARL, que utiliza un agente orquestador para descomponer tareas y evitar colapsos en los flujos de trabajo multiagente. El sistema otorga recompensas a los subagentes en etapas críticas para optimizar el rendimiento final, logrando ser 4,5 veces más rápido. El presentador admite cierto escepticismo hacia los benchmarks tradicionales y prefiere centrarse en pruebas de uso real. Esta tecnología promete resolver problemas comunes de la IA cuando se enfrenta a tareas complejas y secuenciales.

Prueba de Visión: Replicando el Diseño de Apple

Utilizando la herramienta Kimi CLI, el presentador pone a prueba la capacidad del modelo para convertir una grabación de vídeo en código web funcional. Kimi K2.5 procesa el vídeo del iPad Air extrayendo fotogramas clave mediante FFmpeg y genera una web en aproximadamente cinco minutos y medio. El resultado es sorprendente, logrando replicar la estética de diseño de Apple con elementos 3D reactivos y animaciones fluidas. Aunque algunas funcionalidades interactivas menores no funcionan, la calidad visual supera a otros modelos del mercado. Esta prueba demuestra que el modelo tiene un entendimiento profundo de las jerarquías visuales y el estilo de marcas premium.

Creatividad al Límite: La Campaña del Sr. Burns

Para evaluar la creatividad pura, el analista solicita la creación de una web de campaña presidencial para el personaje de Los Simpson, Montgomery Burns. El modelo no solo diseña una interfaz acorde al personaje, sino que genera contenido humorístico y políticas satíricas basadas en su personalidad. Se destaca la inclusión de un "huevo de pascua" activable mediante el código Konami, lo que cambia el eslogan a la icónica frase "Excelente". El tiempo de generación fue de seis minutos, pero el nivel de detalle en los textos y gráficos justificó la espera. Esta sección concluye que Kimi K2.5 es ideal para proyectos que requieran un impacto visual y narrativo único.

Evaluación del Enjambre de Agentes y Fallo de Datos

El presentador utiliza la interfaz web de Kimi para ejecutar una tarea de investigación compleja que requiere el uso explícito del enjambre. La interfaz muestra una experiencia gamificada donde se puede seguir el progreso individual de cada subagente con tarjetas de identificación y animaciones. Tras diez minutos de procesamiento, el modelo entrega un informe en PDF sobre tendencias de modelos de programación. Sin embargo, se descubre un error crítico: el modelo utilizó datos de enero de 2025 a pesar de que el usuario necesitaba información de 2026. Este fallo de seguimiento de instrucciones genera una gran decepción, evidenciando que la potencia técnica no siempre garantiza la precisión contextual.

Conclusiones Finales y Recomendaciones

En el cierre del vídeo, el analista resume su experiencia calificando a Kimi K2.5 como un modelo sólido pero no revolucionario. Lo recomienda especialmente para desarrolladores front-end que buscan crear sitios web con estándares estéticos de nivel profesional. Comenta que, aunque la función de enjambre es divertida y visual, existen alternativas competitivas como Claude Code que ofrecen capacidades similares. Finalmente, invita a la audiencia a interactuar con el contenido y suscribirse para más análisis técnicos. El veredicto final es positivo en cuanto a creatividad, pero cauteloso respecto a su fiabilidad para investigaciones de datos en tiempo real.

Community Posts

View all posts