Pourquoi tout le monde est OBSÉDÉ par le nouveau modèle IA Kimi K2.5

BBetter Stack
컴퓨터/소프트웨어마케팅/광고창업/스타트업AI/미래기술

Transcript

00:00:00Attendez, je viens de remarquer un truc.
00:00:01Le rapport est basé sur des informations publiques datant de janvier 2025.
00:00:06Oh non, pas 2025... non, ce n'est pas ce que j'avais demandé.
00:00:15Moonshot AI a sorti son tout nouveau modèle, Kimi K 2.5, et il fait fureur
00:00:22sur Internet cette semaine.
00:00:24Certains vont même jusqu'à dire que c'est leur modèle préféré à ce jour.
00:00:29Naturellement, j'ai dû le tester pour voir de quoi il retourne et déterminer s'il s'agit
00:00:34vraiment d'une nouveauté ou d'un simple coup de com' marketing.
00:00:39C'est ce que nous allons découvrir dans la vidéo d'aujourd'hui.
00:00:42Ça va être très sympa, alors c'est parti.
00:00:49Kimi K 2.5 est le dernier modèle open source développé par une entreprise chinoise appelée
00:00:55Moonshot AI.
00:00:56Il y a tout juste six mois, Richard avait déjà couvert le K2 en détail. Aujourd'hui, nous
00:01:01analysons les nouveautés de cette version 2.5.
00:01:05Alors, pourquoi tout ce foin autour de ce modèle ?
00:01:06En quoi se distingue-t-il des milliers d'autres qui sortent presque quotidiennement ?
00:01:12Eh bien, il y a deux points majeurs.
00:01:13D'abord, il prétend être excellent en vision et en programmation.
00:01:17Il va même jusqu'à se qualifier de "SOTA" open source.
00:01:21SOTA.
00:01:22Vous voyez ce que ça veut dire ?
00:01:24En fait, j'ai dû chercher moi-même, car je ne le savais pas.
00:01:27D'accord, ça signifie "State Of The Art", soit le nec plus ultra.
00:01:30Bon, j'aurai appris quelque chose aujourd'hui.
00:01:32Quoi qu'il en soit, il est au sommet des benchmarks d'agents, de vision et de code.
00:01:37Le deuxième point fort de ce modèle, c'est sa nouvelle fonctionnalité appelée
00:01:42Agent Swarm (Essaim d'agents).
00:01:44Il est capable de lancer jusqu'à 100 sous-agents et 1 500 appels d'outils en
00:01:51simultané, ce qui permet des performances 4,5 fois plus rapides.
00:01:55Pour ce modèle, ils ont utilisé une nouvelle méthode d'entraînement appelée PARL
00:02:00(Parallel Agent Reinforcement Learning).
00:02:01Cela signifie que le modèle peut piloter lui-même tout l'essaim en créant un agent
00:02:06orchestrateur entraînable, qui dirige les opérations en décomposant les tâches en
00:02:12sous-tâches parallélisables, tout en surveillant chaque agent pour s'assurer que
00:02:18le flux de travail ne s'effondre pas, un problème fréquent en multi-agents.
00:02:23Ils ont résolu cela en récompensant chaque sous-agent à des étapes critiques,
00:02:28ce qui permet au K 2.5 d'obtenir des gains de performance notables.
00:02:34Nous allons donc tester tout ça.
00:02:35Je ne vais pas m'attarder sur tous les différents benchmarks car, honnêtement,
00:02:40chaque vidéo ne fait que vanter ces chiffres, et je ne pense même plus qu'on puisse
00:02:44s'y fier vraiment.
00:02:47Ils ne sont même pas capables d'aligner correctement leurs graphiques, franchement.
00:02:51Je vais plutôt me concentrer sur les deux promesses du modèle :
00:02:55la vision/programmation et la nouvelle fonction d'essaim d'agents.
00:02:56Mettons-le à l'épreuve.
00:03:00Ils ont aussi leur propre outil en ligne de commande, Kimi CLI.
00:03:02C'est ce que je vais utiliser aujourd'hui pour mes tests.
00:03:06L'une des fonctionnalités les plus impressionnantes annoncées est la capacité
00:03:09de prendre une vidéo de l'interface d'un site web et de la répliquer en code.
00:03:13C'est assez bluffant.
00:03:19Pour tester ça, j'ai filmé la page produit de l'iPad Air d'Apple avec toutes ses
00:03:20animations et transitions sophistiquées.
00:03:25J'ai créé un dossier contenant uniquement ce fichier vidéo.
00:03:28Et maintenant, je demande au K 2.5 de créer un site promotionnel pour l'iPad Air
00:03:32en se basant sur cette vidéo.
00:03:38Avant d'exécuter des commandes shell, il demande l'autorisation. Je vais l'accepter
00:03:39pour cette session.
00:03:44Et c'est parti.
00:03:46C'est intéressant.
00:03:48Il a détecté que le fichier était trop volumineux.
00:03:49Il a donc utilisé de lui-même FFmpeg pour le compresser.
00:03:51J'étais curieux de savoir comment ce modèle traite et comprend un fichier vidéo.
00:03:56Il s'avère qu'il utilise à nouveau FFmpeg pour extraire des images clés
00:04:01de la vidéo afin de s'en servir comme guide visuel pour construire le site.
00:04:06Il a fallu environ cinq minutes et demie au modèle pour terminer la tâche.
00:04:11Ce n'est donc pas le modèle le plus rapide du marché.
00:04:15Et précisons que j'utilise leur propre API, pas une version locale.
00:04:18Bref, une fois terminé, il nous donne un aperçu détaillé de ce qu'il a fait.
00:04:23Voyons maintenant le site lui-même.
00:04:28Oh, wow.
00:04:29Regardez ça.
00:04:30On retrouve parfaitement l'esthétique Apple. Il a même créé cet iPad flottant en 3D
00:04:31au milieu.
00:04:32Et il semble même réagir aux mouvements de la souris.
00:04:38C'est vraiment cool.
00:04:39On a ensuite cette section carrousel élégante, mais malheureusement, elle ne
00:04:42réagit pas quand je clique sur les points. C'est quand même très propre.
00:04:43Puis une autre section avec des animations.
00:04:48Ah, ici on a un vrai carrousel fonctionnel avec différents designs.
00:04:52C'est pas mal du tout.
00:04:55Et encore quelques sections qui respectent toutes l'esthétique d'Apple.
00:05:00Honnêtement, c'est du bon travail.
00:05:01Réussir à produire un site aussi beau avec ces animations à partir d'une simple
00:05:06vidéo de référence et un court prompt, c'est impressionnant.
00:05:07Très bien.
00:05:12Mais Apple est une marque connue. Je suis sûr que leur esthétique fait
00:05:16partie des données d'entraînement du modèle.
00:05:17C'est donc probablement une tâche facile pour lui.
00:05:18Tentons maintenant quelque chose de plus intéressant et d'un peu décalé.
00:05:23J'ai créé un autre dossier avec une seule image de M. Burns des Simpson.
00:05:26Voyons la créativité de Kimi K 2.5.
00:05:29J'ai ajouté ce prompt : "M. Burns se présente à la présidence."
00:05:34Je veux que tu crées un site de campagne pour lui, incluant son programme et ses
00:05:37ambitions politiques basés sur ses traits de caractère et ses motivations.
00:05:40Voyons ce que ça donne.
00:05:45Dès que le processus de réflexion commence, on voit comment il conçoit le design.
00:05:49L'image est claire : Montgomery Burns dans son costume vert sombre et cravate pêche.
00:05:51C'est la référence visuelle clé pour l'esthétique de la campagne.
00:05:55Pas mal.
00:05:56Et cette partie a pris encore plus de temps à se terminer.
00:06:01Environ six minutes au total.
00:06:05Mais maintenant que c'est fait, on a à nouveau un compte rendu détaillé : une section
00:06:06vision, une section programme, du matériel promotionnel, etc.
00:06:08Et regardez ça !
00:06:11Il a même ajouté un "Easter egg" caché pour s'amuser.
00:06:16Ça, c'est vraiment génial.
00:06:22Voyons à quoi ressemble le site.
00:06:23Wow.
00:06:26Regardez-moi ça.
00:06:27"L'excellence dans la gouvernance".
00:06:29"Je rends ce pays formidable à nouveau... pour moi".
00:06:30Oh, et il y a un petit bouton nucléaire là-bas.
00:06:31Que se passe-t-il si je clique dessus ?
00:06:33I'm making this country great again for me.
00:06:36C'est cool.
00:06:40Il y a même une page "À propos" très détaillée.
00:06:41Et une section sur la prospérité.
00:06:43Les animations sont super fluides.
00:06:44Wow.
00:06:46Kimi K 2.5 sait vraiment comment créer des graphismes percutants.
00:06:49C'est bien meilleur que tous ces designs génériques violacés qu'on voit
00:06:50produits par d'autres modèles.
00:06:51Et regardez ça :
00:06:55"Des politiques pour l'élite".
00:07:01Oh mon Dieu.
00:07:02Il y a tellement de bonnes blagues ici.
00:07:04C'est incroyable.
00:07:05"Bons de santé valables uniquement dans les centres médicaux Burns".
00:07:06"Listes d'attente pour transplantations triées par fortune nette".
00:07:08"Mur frontalier en or".
00:07:10Que disent les gens ?
00:07:14Ici, on a des citations de personnages des Simpson, un formulaire de contact
00:07:18et une page de dons pour la campagne.
00:07:21Il a même ajouté une boutique de produits dérivés.
00:07:22Bon, cette section est "bientôt disponible".
00:07:29Forcément, c'est une page HTML statique.
00:07:30D'accord.
00:07:31Maintenant, je veux déclencher l'Easter egg.
00:07:33Comment faire ?
00:07:35Le code Konami... il faut entrer le code Konami.
00:07:36C'est quoi, le code Konami ?
00:07:38Ah, d'accord.
00:07:39C'est un célèbre code de triche dans les jeux vidéo.
00:07:43Wow.
00:07:45Je ne savais pas.
00:07:46Encore une chose apprise aujourd'hui.
00:07:49Alors c'est : Haut, Haut, Bas, Bas, Gauche, Droite, Gauche, Droite, A, B. Ok.
00:07:50Et voilà !
00:07:51Un énorme "HA HA HA" s'affiche sur la page et le slogan devient "Excellent".
00:07:52C'est plutôt mignon.
00:07:58Honnêtement, il y a tellement de pépites que je vais laisser un lien
00:07:59dans la description pour que vous puissiez explorer cette page vous-même.
00:08:06Les fans des Simpson apprécieront.
00:08:07C'est vraiment impressionnant.
00:08:10Je ne pensais pas qu'il créerait un site aussi fun avec une image et un court texte.
00:08:14Très bien.
00:08:17Passons maintenant à la fonction d'essaim d'agents dont tout le monde parle.
00:08:19D'après leurs propres exemples, cette fonction est idéale pour des tâches
00:08:24comme la recherche sur un sujet précis, ou toute action nécessitant une
00:08:25approche multi-threadée.
00:08:29Pour tester cette fonctionnalité dans toute sa splendeur, il vaut mieux utiliser
00:08:33leur chatbot officiel sur le site de Kimi, car ils ont ajouté des éléments
00:08:39visuels et des animations qui rendent le processus d'essaim très stylé.
00:08:40Vous allez voir dans un instant.
00:08:46Pour ce test, je vais demander à l'essaim de recueillir un maximum d'infos sur
00:08:50les différents modèles IA, lesquels sont les plus utilisés, et de consolider
00:08:54tout ça dans un document PDF bien formaté.
00:08:56Précision : si vous voulez que le modèle utilise l'essaim, mieux vaut lui demander,
00:09:00car lors d'un précédent test, le K 2.5 a jugé de lui-même qu'il n'en avait pas besoin
00:09:06et m'a rendu des jetons.
00:09:10Donc, pour l'activer à coup sûr, précisez-le.
00:09:16C'est parti.
00:09:23Dès le lancement, on voit les superbes animations de l'interface Kimi.
00:09:27C'est d'ailleurs une force de Moonshot AI.
00:09:31Ils excellent dans l'expérience utilisateur ludique et "gamifiée",
00:09:32ce qui rend l'utilisation de leurs outils beaucoup plus plaisante.
00:09:33Kimi joue encore la carte de l'humour pendant que le modèle assigne
00:09:39les agents.
00:09:43Il donne même des badges d'identification à chacun d'eux.
00:09:49On peut aussi suivre l'avancement de leurs tâches en temps réel.
00:09:52À mesure que les agents travaillent, on peut suivre leur progression sur
00:09:57la fenêtre principale.
00:09:58On voit les pages web qu'ils visitent et le code qu'ils produisent.
00:10:01À ce stade, vous pouvez même parier sur l'agent qui finira sa tâche
00:10:05le premier.
00:10:10Quand un agent termine, une petite bulle apparaît au-dessus de son avatar.
00:10:11Environ 10 minutes plus tard, mon essaim a terminé et j'obtiens ce PDF.
00:10:15On dirait qu'il y a du texte ici, mais je n'arrive pas bien à le voir.
00:10:20Bon, j'ai dû le copier-coller ailleurs pour comprendre.
00:10:21Ok, c'est marqué : "Modèles de code, analyse comparative".
00:10:26D'accord.
00:10:31Mauvais choix de design dès le départ, mais bon.
00:10:33Ne tirons pas de conclusions hâtives, regardons le reste du rapport.
00:10:39On a un résumé exécutif.
00:10:43Principales conclusions.
00:10:4681 % des développeurs utilisent ou prévoient d'utiliser l'IA.
00:10:4759 % utilisent trois outils d'IA en parallèle.
00:10:50D'accord, intéressant.
00:10:53On voit que Claude Code Opus 4.5 domine les classements.
00:10:55Ensuite, les tendances du marché.
00:10:5846 % des développeurs se méfient activement des résultats de l'IA.
00:10:59Et wow, c'est surprenant :
00:11:03GitHub Copilot est leader du marché avec 42 % de parts de marché.
00:11:06La vache.
00:11:08Llama 4 Scout semble avoir la plus grande fenêtre de contexte avec 10 millions de jetons.
00:11:13C'est assez impressionnant.
00:11:16Et voici la partie croustillante.
00:11:20Les points clés à retenir.
00:11:22Voyons voir.
00:11:26Pas de gagnant unique.
00:11:27Oh, allez...
00:11:31C'est décevant.
00:11:3245 % du code généré par IA contient des vulnérabilités.
00:11:33Ça, c'est inquiétant, c'est sûr.
00:11:34Attendez, je viens de voir que le rapport est basé sur des infos publiques
00:11:35datant de janvier 2025.
00:11:36Oh, non.
00:11:37Oh, non.
00:11:392025.
00:11:41Non, ce n'est pas ce que j'ai demandé.
00:11:43J'ai spécifiquement demandé les modèles les plus utilisés *actuellement*.
00:11:46Pourquoi ne pas avoir utilisé les données de janvier 2026 ?
00:11:52Vous avez raison, j'aurais dû chercher des données de 2025 et de janvier 2026.
00:11:54Comportement typique d'un LLM.
00:11:56Je suis très déçu, Kimi.
00:11:57Je viens de gâcher des jetons et 10 minutes de mon temps pour des infos périmées.
00:11:59Enfin bref.
00:12:02Voilà pour Kimi K 2.5.
00:12:09Malgré ma déception sur sa capacité à suivre les ordres lors du dernier test, je
00:12:14pense que c'est quand même un bon modèle.
00:12:15Je ne dirais pas qu'il est révolutionnaire, mais il a ses avantages.
00:12:21Je le recommanderais si vous voulez créer un site web vraiment magnifique,
00:12:23du genre de ceux qu'on voit sur Awwwards.com.
00:12:25Pour ça, je choisirais K 2.5 plutôt qu'un modèle Claude Code, par exemple.
00:12:30Et je dois l'admettre, la fonction d'essaim est très cool et amusante.
00:12:31Mais saviez-vous qu'on peut avoir la même chose avec Claude Code ?
00:12:32Richard a fait une excellente vidéo sur le sujet, n'hésitez pas à la regarder.
00:12:35Et voilà, si vous avez trouvé cette vidéo utile ou divertissante, faites-le moi
00:12:40savoir en cliquant sur le bouton "J'aime".
00:12:42Pensez aussi à vous abonner pour ne pas rater nos prochaines analyses techniques.
00:12:47C'était Andris de Better Stack, et je vous dis à bientôt pour de prochaines vidéos.
00:12:51something that you can display on awards dot com.
00:12:55Then I would definitely go with K2.5 opposed to one of the Claude Code models, for instance.
00:13:01And I got to be honest, the swarm feature looks very cool and it's definitely fun to
00:13:06use.
00:13:07But did you know that you can get the same feature using Claude Code?
00:13:10Richard just did a great video exploring that topic, so be sure to check that video out as
00:13:14well.
00:13:15And folks, if you found this video useful or at least entertaining, then let me know by
00:13:19smashing that like button underneath the video.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

Kimi K2.5 s'impose comme un outil de création web et de programmation visuelle exceptionnel grâce à son architecture multi-agents, bien qu'il nécessite une vigilance accrue sur la fraîcheur de ses sources d'information.

Highlights

Kimi K2.5

Timeline

Introduction et présentation de Kimi K2.5

Andris présente le nouveau modèle de Moonshot AI, le Kimi K2.5, qui suscite un vif intérêt dans la communauté tech. Ce modèle se distingue par ses capacités SOTA (State Of The Art) en vision et en codage, surpassant de nombreux benchmarks actuels. Le point technique majeur réside dans sa fonction "Agent Swarm" capable de gérer 1 500 appels d'outils simultanément grâce à un orchestrateur intelligent. Cette section explique également l'utilisation de la méthode PARL pour éviter les erreurs classiques des systèmes multi-agents. L'objectif est de vérifier si ces promesses techniques se traduisent par une réelle valeur ajoutée pratique.

Test de vision et programmation : Réplication du site Apple

L'analyste utilise l'outil en ligne de commande Kimi CLI pour tester la capacité du modèle à coder un site web à partir d'une vidéo. En fournissant une vidéo de la page de l'iPad Air, Kimi K2.5 utilise FFmpeg pour extraire des images clés et comprendre la structure visuelle. Le résultat final est impressionnant, produisant un site avec des animations fluides et une esthétique fidèle à celle d'Apple. Bien que le processus prenne environ cinq minutes et demie, la qualité du rendu 3D réactif est jugée exceptionnelle pour un modèle IA. Cela démontre une compréhension profonde des principes de design moderne et des interactions utilisateur.

Créativité et humour : La campagne électorale de M. Burns

Pour pousser le modèle dans ses retranchements créatifs, Andris demande la création d'un site de campagne pour M. Burns des Simpson à partir d'une seule image. Le modèle surprend par sa capacité à intégrer des éléments narratifs cohérents, comme des politiques pour l'élite et un bouton nucléaire interactif. Kimi K2.5 va jusqu'à insérer un "Easter egg" déclenché par le célèbre code Konami, transformant l'ambiance du site. Cette étape prouve que le modèle ne se contente pas de copier des styles existants mais peut générer du contenu thématique original et humoristique. Les animations et la structure du site surpassent largement les designs génériques produits par d'autres modèles concurrents.

Analyse de la fonction Agent Swarm et déception sur les données

La fonctionnalité d'essaim d'agents est mise à l'épreuve via l'interface web officielle pour générer un rapport sur le marché de l'IA. L'interface propose une expérience utilisateur immersive où l'on peut suivre chaque agent identifié par un badge unique dans ses recherches. Cependant, le résultat final révèle une faille majeure : le modèle a utilisé des données obsolètes de janvier 2025 au lieu de 2026. Malgré des statistiques intéressantes sur l'utilisation de GitHub Copilot et Claude Code, l'erreur de date mine la crédibilité du rapport de recherche. Cette section souligne l'importance pour l'utilisateur de spécifier explicitement le besoin de données en temps réel pour éviter les comportements paresseux du LLM.

Conclusion et recommandations finales

Andris conclut son analyse en nuançant son avis sur Kimi K2.5 suite à la déception sur l'actualité des données. Il recommande vivement ce modèle pour les projets de design web haut de gamme, notamment pour ceux visant des standards esthétiques comme ceux du site Awwwards. Le modèle est jugé supérieur à Claude Code pour le développement visuel pur, malgré les capacités d'agents similaires chez ce dernier. La vidéo se termine sur un rappel de l'importance de l'expérience utilisateur ludique qui rend l'outil agréable à utiliser au quotidien. Enfin, il invite les spectateurs à s'abonner pour suivre d'autres analyses techniques approfondies sur les nouveaux outils d'IA.

Community Posts

View all posts