00:00:00Peut-on réellement entraîner un modèle à devenir un meilleur manager ?
00:00:02Moonshot a récemment lancé Kimi 2.5, le présentant comme le modèle open-source le plus puissant à ce jour.
00:00:08Cette affirmation est déjà fausse, car il s'agit d'un modèle "open-weight" (poids ouverts), et non open-source.
00:00:11Il y a une différence, mais là n'est pas la question.
00:00:13Kimi 2.5 avance deux promesses qui méritent vraiment d'être testées.
00:00:17D'abord, il affirme avoir été conçu dès le départ pour orchestrer des essaims d'agents,
00:00:21avec jusqu'à 100 sous-agents tournant en parallèle.
00:00:23Le système d'apprentissage par renforcement ne récompense pas seulement les bonnes réponses,
00:00:27mais aussi l'efficacité avec laquelle le modèle répartit le travail entre les agents.
00:00:30Ensuite, il prétend posséder une intelligence agentique visuelle,
00:00:33capable de générer des animations de très haut niveau à partir d'une simple requête.
00:00:37Désormais, ce ne sont plus les utilisateurs qui prétendent avoir tout créé d'un coup, mais les créateurs eux-mêmes.
00:00:42Nous avons donc demandé à l'un de nos membres de tester ces deux aspects.
00:00:44Certains résultats sont à la hauteur du battage médiatique, d'autres non.
00:00:48Comme je l'ai dit, Kimi 2.5 se revendique comme un modèle open-source.
00:00:51En réalité, ce n'est pas le cas.
00:00:54Selon la définition de l'Open Source Initiative,
00:00:57un modèle open-source doit rendre publics son code, ses données d'entraînement et ses méthodologies,
00:01:02permettant à chacun de les inspecter, de les modifier et de les distribuer.
00:01:05Mais ici, il ne s'agit que d'un modèle "open-weight".
00:01:07Cela signifie que seuls les poids finaux sont accessibles,
00:01:10et que ni le code ni le jeu de données d'entraînement ne sont diffusés publiquement.
00:01:14Seuls les poids sont fournis pour que d'autres puissent affiner, adapter ou déployer le modèle sur leurs propres projets.
00:01:20L'architecture de ce modèle est très proche du mélange d'experts (MoE) de DeepSeek.
00:01:25Il compte 1 000 milliards de paramètres, dont seulement 32 milliards sont activés.
00:01:30Est-ce que cela signifie qu'on n'utilise pas le modèle à pleine capacité ?
00:01:33Il offre la même précision qu'un modèle de 1 000 milliards de paramètres,
00:01:36mais avec une puissance de calcul et un coût bien moindres.
00:01:39Cet écart entre paramètres totaux et paramètres activés
00:01:43est la raison majeure pour laquelle il est considéré comme l'un des modèles à poids ouverts les plus rapides du marché.
00:01:47Peu de paramètres activés signifie que peu sont sollicités par requête,
00:01:52ce qui accélère considérablement le traitement.
00:01:54C'est la raison fondamentale pour laquelle il est si abordable comparé aux autres.
00:01:57On nous dit que c'est un modèle multimodal natif, ultra-performant en code et en vision.
00:02:03Mais c'est le refrain habituel de chaque nouveau modèle qui prétend être le meilleur.
00:02:08Notre équipe a donc voulu vérifier tout cela par elle-même, et voici nos conclusions.
00:02:12Mais avant de découvrir ses capacités uniques, un mot sur notre sponsor.
00:02:16Opera Neon. C'est le premier navigateur agentique d'Opera,
00:02:19conçu spécialement pour les utilisateurs intensifs prêts à vivre l'avenir.
00:02:23Neon utilise "Tasks", qui remplace le chaos des onglets par des espaces de travail ciblés
00:02:27où l'IA peut analyser et agir sur plusieurs onglets dans un même contexte.
00:02:32Imaginez avoir besoin d'un petit utilitaire pour votre travail.
00:02:34Plutôt que d'ouvrir un IDE, utilisez simplement Neon Make.
00:02:37Tapez une commande comme "Crée un minuteur Pomodoro Cyberpunk"
00:02:40et le navigateur lance une machine virtuelle pour générer le planning,
00:02:43écrire le code et déployer l'application instantanément.
00:02:45C'est un gain de temps énorme au quotidien, permettant de prototyper des concepts
00:02:50ou d'automatiser des recherches via Neon Do sans jamais briser votre élan.
00:02:53C'est comme avoir un développeur junior intégré directement à l'interface.
00:02:56Je vais clairement utiliser ces cartes Neon pour automatiser mes requêtes.
00:02:59Vous pouvez vous abonner à Opera Neon dès aujourd'hui. Ne vous contentez pas d'observer la révolution agentique.
00:03:03Prenez-en part. Le lien est dans la description.
00:03:05Le modèle Kimi est capable de diriger un essaim d'agents en coordonnant leurs tâches.
00:03:10Vous vous dites sûrement que Claude le fait aussi, en générant plusieurs sous-agents selon les besoins.
00:03:15Mais voici en quoi ce modèle est différent.
00:03:17Kimi 2.5 a appris à auto-diriger un essaim pouvant aller jusqu'à 100 sous-agents,
00:03:23exécutant des flux de travail parallèles sur 1 500 étapes coordonnées grâce au renforcement parallèle.
00:03:29Pour rappel, l'apprentissage par renforcement récompense le modèle
00:03:33quand il réussit et le pénalise quand il s'éloigne de l'objectif.
00:03:36La plupart des modèles sont récompensés uniquement sur leur performance.
00:03:39Ici, le modèle est aussi récompensé sur sa capacité à paralléliser les étapes
00:03:43et à agir en véritable chef d'orchestre.
00:03:44Pour faire simple, Kimi est entraîné pour être un orchestrateur.
00:03:48Son succès dépend de son aptitude à créer des sous-agents et à leur attribuer des tâches.
00:03:53Cet orchestrateur intègre des outils pour créer des agents, assigner des missions, etc.
00:03:58Il crée des sous-agents pour diverses tâches, les leur confie,
00:04:02récupère les résultats et coordonne le tout pour obtenir le rendu final.
00:04:06Selon les développeurs, cette méthode en essaim améliore les performances sur les tâches complexes.
00:04:11Lors d'évaluations internes, cela a réduit le temps d'exécution total de 80 %.
00:04:16Cela permet de gérer des tâches bien plus complexes et de longue haleine.
00:04:20Ils l'ont comparé aux meilleurs modèles du genre,
00:04:23comme Opus 4.5 ou Kimi 2.5 sans l'option essaim,
00:04:26et l'essaim d'agents de Kimi 2.5 a surpassé tous ses concurrents sur leurs benchmarks.
00:04:32L'utilisation d'agents multiples a également permis de gagner un temps précieux par rapport à un agent unique.
00:04:36Voilà pour les promesses officielles.
00:04:39Pour vérifier tout ça, nous avons installé KimiCode CLI,
00:04:42le nouvel agent de codage sorti avec ce modèle.
00:04:45Nous avions déjà une interface utilisateur et voulions la migrer vers une structure différente.
00:04:49L'interface était en ShadCN, et nous voulions la reconstruire avec Material UI.
00:04:53Le projet comportait plusieurs pages,
00:04:55nous avons donc demandé à Kimi de migrer tout le projet de ShadCN vers Material UI,
00:05:00en utilisant des agents pour chaque page,
00:05:02afin que cette migration se fasse plus rapidement en parallèle.
00:05:05Il a commencé par explorer le répertoire, un peu comme le fait Claude Code.
00:05:08Il a créé une liste de tâches contenant chaque page à convertir vers Material UI.
00:05:13Il a regroupé les pages similaires,
00:05:15comme les pages d'authentification (inscription, connexion, mot de passe oublié) pour plus d'efficacité.
00:05:20Cependant, il a lancé plus d'agents que prévu,
00:05:23ce qui s'est avéré être un bug de l'interface en ligne de commande (CLI).
00:05:26Il n'a finalement utilisé que cinq agents pour la tâche,
00:05:28ce qui est compréhensible pour un nouveau produit.
00:05:30La tâche a pris environ 15 minutes,
00:05:32un temps que nous espérions voir réduit grâce à la parallélisation.
00:05:35Il a terminé par une phase de vérification et de nettoyage.
00:05:38Certains composants n'étaient plus utilisés après la migration,
00:05:41et il s'est chargé de les supprimer.
00:05:43Il a veillé à ce que toutes les dépendances soient installées et à jour,
00:05:45fichiers de test inclus, et a validé le reste.
00:05:48Une fois terminé, il a supprimé toutes les dépendances liées à ShadCN,
00:05:53évitant ainsi de laisser des fichiers inutiles,
00:05:55ce que beaucoup d'agents oublient, finissant par alourdir le projet.
00:05:59Il a légèrement modifié l'interface.
00:06:01Par exemple, dans la section d'accueil, le texte et les visuels étaient côte à côte,
00:06:05mais il les a empilés verticalement.
00:06:07À part ça, tout semblait quasiment identique,
00:06:10avec simplement un changement de composants.
00:06:12Malgré l'ampleur de la tâche, il n'a utilisé que 25 % de sa fenêtre de contexte,
00:06:16ce qui prouve son efficacité sur des sessions de longue durée.
00:06:19L'essaim d'agents fonctionne, mais il n'est pas toujours plus rapide
00:06:22et prendra plus de temps sur une base de code massive.
00:06:24Vous avez sans doute remarqué qu'on construit beaucoup de choses dans ces vidéos.
00:06:27Les requêtes, le code, les modèles...
00:06:29tout ce que vous devriez normalement copier en mettant la vidéo sur pause.
00:06:32Tout est disponible dans notre communauté, pour cette vidéo et toutes les précédentes.
00:06:35Les liens sont dans la description.
00:06:37L'argument de vente majeur de Kimi 2.5, c'est son intelligence agentique visuelle.
00:06:41Il est censé être particulièrement performant en développement front-end.
00:06:44Il peut interagir avec des mises en page complexes et implémenter des animations riches,
00:06:48comme des effets de défilement de texte.
00:06:50Les exemples d'animations fournis étaient tous très réussis.
00:06:53Mais voici là où il se démarque vraiment.
00:06:55Kimi 2.5 excelle dans le codage par la vision, dépassant les simples requêtes texte-image.
00:07:00Il peut même analyser des vidéos pour générer du code,
00:07:03ce qui en fait l'un des premiers modèles capables de le faire.
00:07:06Cela rend l'explication des flux de code beaucoup plus simple.
00:07:08Cette capacité multimodale n'a pas été ajoutée après coup.
00:07:12Elle a été intégrée pendant l'entraînement du modèle.
00:07:14La plupart des modèles n'intègrent des fonctions avancées
00:07:16qu'une fois que leurs capacités textuelles sont jugées suffisantes,
00:07:19ce qui crée souvent un déséquilibre entre vision et texte.
00:07:23Mais avec la méthode d'entraînement de Kimi 2.5,
00:07:25ce compromis disparaît et les deux capacités progressent ensemble.
00:07:29Nous avons donc voulu tester cela nous-mêmes.
00:07:30Nous avons enregistré notre écran en naviguant sur l'interface de création de page de Notion.
00:07:35La vidéo est restée courte car la documentation limite les fichiers à 40 Mo.
00:07:40Nous lui avons donné l'accès à l'enregistrement en lui demandant de cloner le site affiché.
00:07:45Sans lui préciser la nature du contenu dans la requête,
00:07:48il a utilisé son outil d'analyse média pour décrypter la vidéo.
00:07:52Il a conclu que l'interface ressemblait à celle de Notion, a identifié toutes les fonctionnalités,
00:07:56et a déduit qu'il s'agissait d'un clone de Notion dans une fenêtre de style Mac OS.
00:07:59Une fois le contenu listé, il a commencé l'implémentation.
00:08:02Si vous utilisez le traitement vidéo dans vos projets, n'oubliez pas ceci :
00:08:06les vidéos et images saturent vite la fenêtre de contexte,
00:08:09soyez donc vigilants avec les gros fichiers pour éviter la saturation.
00:08:12La réplique de l'interface était très fidèle.
00:08:15L'interface était éditable, avec les icônes de pages et les fonctions de Notion,
00:08:18même si certaines n'étaient pas totalement opérationnelles au début.
00:08:21Les commandes par slash ne marchaient pas encore, mais le visuel était précis.
00:08:25Il aurait été préférable que ces commandes soient incluses dès le départ.
00:08:29Mais c'était un problème mineur rectifiable par itération.
00:08:32Nous lui avons donc demandé de corriger les problèmes rencontrés.
00:08:37À partir de là, il a itéré de lui-même, corrigeant les bugs et vérifiant les résultats,
00:08:41s'assurant que tout fonctionnait sans que nous ayons à intervenir davantage.
00:08:46Ce processus a fini par régler le problème des commandes par slash,
00:08:49rendant l'interface aussi fonctionnelle qu'un vrai clone de Notion.
00:08:52Le modèle tient donc ses promesses.
00:08:54Après quelques ajustements, nous pensons qu'il pourrait être une alternative moins coûteuse à Claude Code,
00:08:58sachant que les forfaits de Claude sont réputés onéreux alors que ceux de Kimi sont plus abordables.
00:09:03C'est la fin de cette vidéo.
00:09:05Si vous voulez soutenir la chaîne et nous aider à continuer,
00:09:08vous pouvez rejoindre AI Labs Pro.
00:09:10Comme toujours, merci de nous avoir suivis, et à la prochaine !