Je n'ai jamais rien vu de pareil

AAI LABS
Computing/SoftwareSmall Business/StartupsManagementInternet Technology

Transcript

00:00:00Peut-on réellement entraîner un modèle à devenir un meilleur manager ?
00:00:02Moonshot a récemment lancé Kimi 2.5, le présentant comme le modèle open-source le plus puissant à ce jour.
00:00:08Cette affirmation est déjà fausse, car il s'agit d'un modèle "open-weight" (poids ouverts), et non open-source.
00:00:11Il y a une différence, mais là n'est pas la question.
00:00:13Kimi 2.5 avance deux promesses qui méritent vraiment d'être testées.
00:00:17D'abord, il affirme avoir été conçu dès le départ pour orchestrer des essaims d'agents,
00:00:21avec jusqu'à 100 sous-agents tournant en parallèle.
00:00:23Le système d'apprentissage par renforcement ne récompense pas seulement les bonnes réponses,
00:00:27mais aussi l'efficacité avec laquelle le modèle répartit le travail entre les agents.
00:00:30Ensuite, il prétend posséder une intelligence agentique visuelle,
00:00:33capable de générer des animations de très haut niveau à partir d'une simple requête.
00:00:37Désormais, ce ne sont plus les utilisateurs qui prétendent avoir tout créé d'un coup, mais les créateurs eux-mêmes.
00:00:42Nous avons donc demandé à l'un de nos membres de tester ces deux aspects.
00:00:44Certains résultats sont à la hauteur du battage médiatique, d'autres non.
00:00:48Comme je l'ai dit, Kimi 2.5 se revendique comme un modèle open-source.
00:00:51En réalité, ce n'est pas le cas.
00:00:54Selon la définition de l'Open Source Initiative,
00:00:57un modèle open-source doit rendre publics son code, ses données d'entraînement et ses méthodologies,
00:01:02permettant à chacun de les inspecter, de les modifier et de les distribuer.
00:01:05Mais ici, il ne s'agit que d'un modèle "open-weight".
00:01:07Cela signifie que seuls les poids finaux sont accessibles,
00:01:10et que ni le code ni le jeu de données d'entraînement ne sont diffusés publiquement.
00:01:14Seuls les poids sont fournis pour que d'autres puissent affiner, adapter ou déployer le modèle sur leurs propres projets.
00:01:20L'architecture de ce modèle est très proche du mélange d'experts (MoE) de DeepSeek.
00:01:25Il compte 1 000 milliards de paramètres, dont seulement 32 milliards sont activés.
00:01:30Est-ce que cela signifie qu'on n'utilise pas le modèle à pleine capacité ?
00:01:33Il offre la même précision qu'un modèle de 1 000 milliards de paramètres,
00:01:36mais avec une puissance de calcul et un coût bien moindres.
00:01:39Cet écart entre paramètres totaux et paramètres activés
00:01:43est la raison majeure pour laquelle il est considéré comme l'un des modèles à poids ouverts les plus rapides du marché.
00:01:47Peu de paramètres activés signifie que peu sont sollicités par requête,
00:01:52ce qui accélère considérablement le traitement.
00:01:54C'est la raison fondamentale pour laquelle il est si abordable comparé aux autres.
00:01:57On nous dit que c'est un modèle multimodal natif, ultra-performant en code et en vision.
00:02:03Mais c'est le refrain habituel de chaque nouveau modèle qui prétend être le meilleur.
00:02:08Notre équipe a donc voulu vérifier tout cela par elle-même, et voici nos conclusions.
00:02:12Mais avant de découvrir ses capacités uniques, un mot sur notre sponsor.
00:02:16Opera Neon. C'est le premier navigateur agentique d'Opera,
00:02:19conçu spécialement pour les utilisateurs intensifs prêts à vivre l'avenir.
00:02:23Neon utilise "Tasks", qui remplace le chaos des onglets par des espaces de travail ciblés
00:02:27où l'IA peut analyser et agir sur plusieurs onglets dans un même contexte.
00:02:32Imaginez avoir besoin d'un petit utilitaire pour votre travail.
00:02:34Plutôt que d'ouvrir un IDE, utilisez simplement Neon Make.
00:02:37Tapez une commande comme "Crée un minuteur Pomodoro Cyberpunk"
00:02:40et le navigateur lance une machine virtuelle pour générer le planning,
00:02:43écrire le code et déployer l'application instantanément.
00:02:45C'est un gain de temps énorme au quotidien, permettant de prototyper des concepts
00:02:50ou d'automatiser des recherches via Neon Do sans jamais briser votre élan.
00:02:53C'est comme avoir un développeur junior intégré directement à l'interface.
00:02:56Je vais clairement utiliser ces cartes Neon pour automatiser mes requêtes.
00:02:59Vous pouvez vous abonner à Opera Neon dès aujourd'hui. Ne vous contentez pas d'observer la révolution agentique.
00:03:03Prenez-en part. Le lien est dans la description.
00:03:05Le modèle Kimi est capable de diriger un essaim d'agents en coordonnant leurs tâches.
00:03:10Vous vous dites sûrement que Claude le fait aussi, en générant plusieurs sous-agents selon les besoins.
00:03:15Mais voici en quoi ce modèle est différent.
00:03:17Kimi 2.5 a appris à auto-diriger un essaim pouvant aller jusqu'à 100 sous-agents,
00:03:23exécutant des flux de travail parallèles sur 1 500 étapes coordonnées grâce au renforcement parallèle.
00:03:29Pour rappel, l'apprentissage par renforcement récompense le modèle
00:03:33quand il réussit et le pénalise quand il s'éloigne de l'objectif.
00:03:36La plupart des modèles sont récompensés uniquement sur leur performance.
00:03:39Ici, le modèle est aussi récompensé sur sa capacité à paralléliser les étapes
00:03:43et à agir en véritable chef d'orchestre.
00:03:44Pour faire simple, Kimi est entraîné pour être un orchestrateur.
00:03:48Son succès dépend de son aptitude à créer des sous-agents et à leur attribuer des tâches.
00:03:53Cet orchestrateur intègre des outils pour créer des agents, assigner des missions, etc.
00:03:58Il crée des sous-agents pour diverses tâches, les leur confie,
00:04:02récupère les résultats et coordonne le tout pour obtenir le rendu final.
00:04:06Selon les développeurs, cette méthode en essaim améliore les performances sur les tâches complexes.
00:04:11Lors d'évaluations internes, cela a réduit le temps d'exécution total de 80 %.
00:04:16Cela permet de gérer des tâches bien plus complexes et de longue haleine.
00:04:20Ils l'ont comparé aux meilleurs modèles du genre,
00:04:23comme Opus 4.5 ou Kimi 2.5 sans l'option essaim,
00:04:26et l'essaim d'agents de Kimi 2.5 a surpassé tous ses concurrents sur leurs benchmarks.
00:04:32L'utilisation d'agents multiples a également permis de gagner un temps précieux par rapport à un agent unique.
00:04:36Voilà pour les promesses officielles.
00:04:39Pour vérifier tout ça, nous avons installé KimiCode CLI,
00:04:42le nouvel agent de codage sorti avec ce modèle.
00:04:45Nous avions déjà une interface utilisateur et voulions la migrer vers une structure différente.
00:04:49L'interface était en ShadCN, et nous voulions la reconstruire avec Material UI.
00:04:53Le projet comportait plusieurs pages,
00:04:55nous avons donc demandé à Kimi de migrer tout le projet de ShadCN vers Material UI,
00:05:00en utilisant des agents pour chaque page,
00:05:02afin que cette migration se fasse plus rapidement en parallèle.
00:05:05Il a commencé par explorer le répertoire, un peu comme le fait Claude Code.
00:05:08Il a créé une liste de tâches contenant chaque page à convertir vers Material UI.
00:05:13Il a regroupé les pages similaires,
00:05:15comme les pages d'authentification (inscription, connexion, mot de passe oublié) pour plus d'efficacité.
00:05:20Cependant, il a lancé plus d'agents que prévu,
00:05:23ce qui s'est avéré être un bug de l'interface en ligne de commande (CLI).
00:05:26Il n'a finalement utilisé que cinq agents pour la tâche,
00:05:28ce qui est compréhensible pour un nouveau produit.
00:05:30La tâche a pris environ 15 minutes,
00:05:32un temps que nous espérions voir réduit grâce à la parallélisation.
00:05:35Il a terminé par une phase de vérification et de nettoyage.
00:05:38Certains composants n'étaient plus utilisés après la migration,
00:05:41et il s'est chargé de les supprimer.
00:05:43Il a veillé à ce que toutes les dépendances soient installées et à jour,
00:05:45fichiers de test inclus, et a validé le reste.
00:05:48Une fois terminé, il a supprimé toutes les dépendances liées à ShadCN,
00:05:53évitant ainsi de laisser des fichiers inutiles,
00:05:55ce que beaucoup d'agents oublient, finissant par alourdir le projet.
00:05:59Il a légèrement modifié l'interface.
00:06:01Par exemple, dans la section d'accueil, le texte et les visuels étaient côte à côte,
00:06:05mais il les a empilés verticalement.
00:06:07À part ça, tout semblait quasiment identique,
00:06:10avec simplement un changement de composants.
00:06:12Malgré l'ampleur de la tâche, il n'a utilisé que 25 % de sa fenêtre de contexte,
00:06:16ce qui prouve son efficacité sur des sessions de longue durée.
00:06:19L'essaim d'agents fonctionne, mais il n'est pas toujours plus rapide
00:06:22et prendra plus de temps sur une base de code massive.
00:06:24Vous avez sans doute remarqué qu'on construit beaucoup de choses dans ces vidéos.
00:06:27Les requêtes, le code, les modèles...
00:06:29tout ce que vous devriez normalement copier en mettant la vidéo sur pause.
00:06:32Tout est disponible dans notre communauté, pour cette vidéo et toutes les précédentes.
00:06:35Les liens sont dans la description.
00:06:37L'argument de vente majeur de Kimi 2.5, c'est son intelligence agentique visuelle.
00:06:41Il est censé être particulièrement performant en développement front-end.
00:06:44Il peut interagir avec des mises en page complexes et implémenter des animations riches,
00:06:48comme des effets de défilement de texte.
00:06:50Les exemples d'animations fournis étaient tous très réussis.
00:06:53Mais voici là où il se démarque vraiment.
00:06:55Kimi 2.5 excelle dans le codage par la vision, dépassant les simples requêtes texte-image.
00:07:00Il peut même analyser des vidéos pour générer du code,
00:07:03ce qui en fait l'un des premiers modèles capables de le faire.
00:07:06Cela rend l'explication des flux de code beaucoup plus simple.
00:07:08Cette capacité multimodale n'a pas été ajoutée après coup.
00:07:12Elle a été intégrée pendant l'entraînement du modèle.
00:07:14La plupart des modèles n'intègrent des fonctions avancées
00:07:16qu'une fois que leurs capacités textuelles sont jugées suffisantes,
00:07:19ce qui crée souvent un déséquilibre entre vision et texte.
00:07:23Mais avec la méthode d'entraînement de Kimi 2.5,
00:07:25ce compromis disparaît et les deux capacités progressent ensemble.
00:07:29Nous avons donc voulu tester cela nous-mêmes.
00:07:30Nous avons enregistré notre écran en naviguant sur l'interface de création de page de Notion.
00:07:35La vidéo est restée courte car la documentation limite les fichiers à 40 Mo.
00:07:40Nous lui avons donné l'accès à l'enregistrement en lui demandant de cloner le site affiché.
00:07:45Sans lui préciser la nature du contenu dans la requête,
00:07:48il a utilisé son outil d'analyse média pour décrypter la vidéo.
00:07:52Il a conclu que l'interface ressemblait à celle de Notion, a identifié toutes les fonctionnalités,
00:07:56et a déduit qu'il s'agissait d'un clone de Notion dans une fenêtre de style Mac OS.
00:07:59Une fois le contenu listé, il a commencé l'implémentation.
00:08:02Si vous utilisez le traitement vidéo dans vos projets, n'oubliez pas ceci :
00:08:06les vidéos et images saturent vite la fenêtre de contexte,
00:08:09soyez donc vigilants avec les gros fichiers pour éviter la saturation.
00:08:12La réplique de l'interface était très fidèle.
00:08:15L'interface était éditable, avec les icônes de pages et les fonctions de Notion,
00:08:18même si certaines n'étaient pas totalement opérationnelles au début.
00:08:21Les commandes par slash ne marchaient pas encore, mais le visuel était précis.
00:08:25Il aurait été préférable que ces commandes soient incluses dès le départ.
00:08:29Mais c'était un problème mineur rectifiable par itération.
00:08:32Nous lui avons donc demandé de corriger les problèmes rencontrés.
00:08:37À partir de là, il a itéré de lui-même, corrigeant les bugs et vérifiant les résultats,
00:08:41s'assurant que tout fonctionnait sans que nous ayons à intervenir davantage.
00:08:46Ce processus a fini par régler le problème des commandes par slash,
00:08:49rendant l'interface aussi fonctionnelle qu'un vrai clone de Notion.
00:08:52Le modèle tient donc ses promesses.
00:08:54Après quelques ajustements, nous pensons qu'il pourrait être une alternative moins coûteuse à Claude Code,
00:08:58sachant que les forfaits de Claude sont réputés onéreux alors que ceux de Kimi sont plus abordables.
00:09:03C'est la fin de cette vidéo.
00:09:05Si vous voulez soutenir la chaîne et nous aider à continuer,
00:09:08vous pouvez rejoindre AI Labs Pro.
00:09:10Comme toujours, merci de nous avoir suivis, et à la prochaine !

Key Takeaway

Kimi 2.5 se distingue par son architecture MoE ultra-rapide et sa capacité unique à orchestrer des essaims d'agents pour automatiser des tâches de développement complexes à partir de supports visuels et textuels.

Highlights

Kimi 2.5 est un modèle à "poids ouverts" (open-weight) de 1 000 milliards de paramètres utilisant une architecture Mixture-of-Experts (MoE).

La capacité d'orchestration d'essaims permet de diriger jusqu'à 100 sous-agents en parallèle pour des tâches complexes.

L'entraînement par renforcement récompense spécifiquement l'efficacité de la répartition du travail et la parallélisation.

Le modèle possède une intelligence agentique visuelle native capable d'analyser des vidéos pour générer du code front-end.

KimiCode CLI a démontré une gestion efficace du nettoyage de code et de la migration de bibliothèques (ShadCN vers Material UI).

Le modèle est présenté comme une alternative plus rapide et plus abordable que ses concurrents comme Claude ou GPT-4.

Timeline

Introduction et clarification sur l'Open Source

L'auteur introduit Kimi 2.5 de Moonshot en apportant une correction technique cruciale sur la nature du modèle. Il explique que Kimi n'est pas réellement "open-source" au sens de l'OSI, mais plutôt un modèle "open-weight" car ses données d'entraînement restent privées. Cette distinction est fondamentale pour comprendre l'accessibilité réelle du modèle pour les développeurs. Le présentateur souligne les deux promesses majeures : l'orchestration d'essaims d'agents et l'intelligence visuelle avancée. Cette section pose le cadre de l'analyse en opposant le discours marketing à la réalité technique.

Architecture et performances techniques

Le modèle utilise une architecture de mélange d'experts (MoE) similaire à celle de DeepSeek, avec 1 000 milliards de paramètres au total. Seuls 32 milliards de paramètres sont activés par requête, ce qui garantit une vitesse de traitement exceptionnelle et des coûts réduits. Cette efficacité permet d'obtenir la précision d'un modèle massif sans la lourdeur de calcul habituelle. L'auteur mentionne que le modèle est nativement multimodal, excellant tant dans le code que dans la vision. Ce segment explique pourquoi Kimi 2.5 est considéré comme l'un des modèles les plus rapides du marché actuel.

Sponsor : Opera Neon

Cette section présente Opera Neon, un navigateur conçu pour l'ère agentique et les utilisateurs intensifs. Le navigateur intègre des fonctionnalités comme "Tasks" pour organiser les espaces de travail et "Neon Make" pour générer des applications via une machine virtuelle intégrée. L'exemple d'un minuteur Pomodoro Cyberpunk illustre la capacité du navigateur à coder et déployer instantanément des outils. Le narrateur compare l'expérience à celle d'avoir un développeur junior intégré directement dans l'interface de navigation. Ce segment souligne l'évolution des outils de productivité vers une intégration profonde de l'IA.

L'orchestration d'essaims d'agents

Kimi 2.5 se différencie par sa capacité à auto-diriger jusqu'à 100 sous-agents exécutant des flux de travail en parallèle. Contrairement à d'autres modèles, son apprentissage par renforcement valorise la capacité à agir en chef d'orchestre efficace. Les tests internes montrent une réduction du temps d'exécution de 80 % sur des tâches de longue haleine grâce à cette coordination. Le modèle gère de manière autonome l'attribution des missions, la récupération des résultats et la synthèse finale du projet. Cette approche surpasse les benchmarks de modèles concurrents comme Opus sur des tâches complexes nécessitant une multi-expertise.

Test pratique de migration de code

L'équipe teste KimiCode CLI en lui demandant de migrer un projet web de ShadCN vers Material UI. Le modèle analyse l'arborescence, planifie les tâches et parallélise la conversion des pages d'authentification et de contenu. Bien qu'un bug mineur ait limité le nombre d'agents actifs, la migration a été complétée en 15 minutes avec un nettoyage rigoureux des fichiers inutilisés. Kimi se distingue en supprimant les dépendances obsolètes, une étape souvent oubliée par les autres agents d'IA. La gestion de la fenêtre de contexte s'est avérée très efficace, n'utilisant que 25 % de sa capacité pour cette tâche complexe.

Intelligence visuelle et clonage d'interface

L'intelligence agentique visuelle est présentée comme l'atout majeur de Kimi 2.5 pour le développement front-end. Le modèle est capable d'analyser une vidéo d'enregistrement d'écran pour comprendre les interactions et la mise en page d'un site. Lors d'un test de clonage de l'interface Notion, Kimi a identifié les composants spécifiques et la structure sans description textuelle préalable. L'intégration native de la vision durant l'entraînement permet d'éviter les déséquilibres de performance entre le texte et l'image. L'auteur avertit toutefois que les fichiers vidéo peuvent saturer rapidement la fenêtre de contexte si l'on n'y prend pas garde.

Itération, débogage et conclusion

Le test final montre la capacité de Kimi à itérer de lui-même pour corriger des fonctionnalités manquantes, comme les commandes par slash du clone de Notion. Le modèle a vérifié ses propres résultats et a ajusté le code jusqu'à obtenir une application parfaitement fonctionnelle. L'auteur conclut que Kimi 2.5 représente une alternative économique et performante à Claude Code pour les développeurs. La vidéo se termine par une invitation à rejoindre la communauté AI Labs Pro pour accéder aux ressources de codage. Le succès des promesses de Moonshot semble confirmé par ces tests pratiques rigoureux.

Community Posts

View all posts