00:00:00Alors, d'accord.
00:00:02Quel est le meilleur modèle d'IA en ce moment ?
00:00:04Claude, GPT, Gemini.
00:00:07Et honnêtement, je pense que ce n'est pas la bonne question.
00:00:11Vraiment pas la bonne question.
00:00:14Juste rapidement, je m'appelle Daniel.
00:00:16Je suis développeur iOS depuis plus de huit ans.
00:00:20J'ai commencé en freelance, à concevoir des interfaces,
00:00:24passant d'un client à l'autre,
00:00:25réalisant les idées des autres
00:00:27tout en essayant de trouver les miennes.
00:00:28Puis après la WWDC 25, je me suis lancé en solo.
00:00:33Plus de clients, plus de filet de sécurité.
00:00:36Depuis, j'ai créé plus de 15 de mes propres applications,
00:00:39tout en SwiftUI, tout en public.
00:00:41Et là, honnêtement, toute l'énergie que j'ai
00:00:44sert à transformer ce studio solo
00:00:46en quelque chose qui dure vraiment.
00:00:49Pas juste des versions bêta rapides ou du contenu généré par IA,
00:00:52mais de vraies applis qui tiennent la route.
00:00:55Et tout ce processus,
00:00:57tout ce parcours chaotique est sur crafterslab.
00:01:00C'est sur crafterslab.dev,
00:01:01et ce n'est pas un cimetière de tutos ou une usine à clones IA.
00:01:06C'est vraiment mon quartier général,
00:01:08conçu pour les développeurs solo qui utilisent l'IA comme un vrai coéquipier.
00:01:12Pas comme un distributeur automatique qu'on sollicite quand on est coincé
00:01:14en espérant que ça marche.
00:01:16Si vous aimez le travail bien fait,
00:01:18si vous voulez vraiment progresser
00:01:20et construire des choses qui durent,
00:01:23alors vous vous y sentirez chez vous.
00:01:24Et si vous êtes encore sur Patreon,
00:01:26merci beaucoup, mais attention.
00:01:29Tout a été transféré sur crafterslab.dev.
00:01:32C'est là que toute l'équipe se trouve désormais.
00:01:33Venez construire avec nous.
00:01:35Alors, voici ce qui m'a fait réfléchir à tout ça.
00:01:38Une étude est sortie récemment.
00:01:41Des chercheurs ont publié un benchmark appelé "Epic's Agent".
00:01:45Et ce qui le différencie de tous les autres benchmarks
00:01:49dont les gens débattent en ligne,
00:01:51c'est qu'il teste les agents sur du vrai travail professionnel,
00:01:55pas sur des énigmes de code ou des QCM.
00:01:58On parle de tâches réelles que des consultants, des avocats,
00:02:03ou des analystes font quotidiennement.
00:02:05Chacune prend environ une à deux heures à un humain.
00:02:08Ils ont donc testé tous les grands modèles de pointe.
00:02:11Le meilleur a réussi ces tâches
00:02:13environ 24 % du temps, soit une fois sur quatre.
00:02:17Et après huit tentatives avec le même modèle,
00:02:20le score n'est monté qu'à environ 40 %.
00:02:23Gardez à l'esprit que ce sont les mêmes modèles
00:02:26qui dépassent les 90 % sur les benchmarks
00:02:29qui rendent tout le monde fou.
00:02:32Donc, soit ces benchmarks sont faussés,
00:02:33soit nous ne mesurons pas la bonne chose.
00:02:36Et je penche pour la deuxième option, n'est-ce pas ?
00:02:37Mais bon, c'est là que ça devient concret pour nous.
00:02:41Les chercheurs ont analysé pourquoi les agents échouaient.
00:02:46Et la réponse n'était pas que les modèles sont stupides.
00:02:49Ils avaient toutes les connaissances nécessaires.
00:02:51Ils arrivaient très bien à raisonner sur les problèmes.
00:02:54Les échecs étaient presque entièrement
00:02:56liés à l'exécution et à l'orchestration.
00:03:00Les agents se perdaient après trop d'étapes.
00:03:02Ils revenaient à des approches qui avaient déjà échoué.
00:03:05Ils perdaient simplement le fil de ce qu'ils devaient
00:03:09faire initialement.
00:03:11Et si vous êtes un développeur solo utilisant Claude Code
00:03:14ou Cursor tous les jours, vous connaissez ça.
00:03:18Vous avez vu l'agent partir en vrille, réessayer la même
00:03:21erreur trois fois de suite,
00:03:23ou oublier complètement le contexte d'il y a 20 étapes.
00:03:26Et vous vous dites :
00:03:28"Je devrais peut-être passer à Opus."
00:03:30"Peut-être qu'il me faut un autre fournisseur,"
00:03:32mais les données disent que ce n'est pas le problème.
00:03:34Le modèle n'est pas le goulot d'étranglement.
00:03:36C'est tout ce qui l'entoure.
00:03:38Et il y a un mot pour ça.
00:03:40Et je pense qu'il va définir 2026
00:03:43comme les agents ont défini 2025.
00:03:46Ce mot, c'est le "harness", le harnais.
00:03:47Un harnais d'agent, c'est toute l'infrastructure
00:03:50autour du modèle : ce qu'il peut voir,
00:03:52les outils auxquels il a accès,
00:03:54comment il récupère quand les choses dérapent,
00:03:56et comment il suit ses actions sur une longue session.
00:03:59OpenAI a carrément publié un article
00:04:02intitulé "Harness Engineering".
00:04:04Anthropic a sorti tout un guide sur la création
00:04:07de harnais efficaces pour les agents de longue durée.
00:04:09Manish, l'entreprise d'IA que Meta vient de racheter,
00:04:13a publié ses leçons sur l'ingénierie de contexte
00:04:16après avoir reconstruit tout son framework d'agent
00:04:19cinq fois en six mois. Cinq fois.
00:04:22Et ils disent tous exactement la même chose.
00:04:24Le vrai travail d'ingénierie réside dans le harnais,
00:04:27pas dans le modèle.
00:04:28Bon, et c'est la partie qui m'a franchement surpris
00:04:32parce que c'est totalement à l'opposé
00:04:34de notre façon habituelle de voir ces outils.
00:04:38Il y a cette histoire venant de Vercel.
00:04:41Ils avaient un agent de texte vers SQL.
00:04:43On pose une question, il écrit une requête SQL,
00:04:46et ils l'ont construit comme on construit la plupart des agents.
00:04:49Ils lui ont donné plein d'outils spécialisés,
00:04:51un pour comprendre le schéma de la base de données,
00:04:54un pour écrire les requêtes, un pour valider les résultats.
00:04:58Tout cela entouré d'une gestion d'erreurs complexe,
00:05:01et ça marchait environ 80 % du temps.
00:05:04Ensuite, ils ont tenté quelque chose d'assez radical.
00:05:06Ils ont supprimé 80 % des outils, ils les ont juste virés,
00:05:11pour donner à l'agent des trucs de base : commandes bash, lecture de fichiers,
00:05:15des outils standards de ligne de commande comme grep et cat,
00:05:18le genre de trucs que vous ou moi utiliserions.
00:05:20Et la précision est passée de 80 % à 100 %.
00:05:25Il a utilisé 40 % de tokens en moins,
00:05:28et il était trois fois et demi plus rapide.
00:05:31C'est assez dingue, non ?
00:05:33Et l'ingénieur qui l'a construit a dit une chose
00:05:36qui m'a vraiment marqué.
00:05:38Les modèles deviennent plus intelligents.
00:05:40Les fenêtres de contexte s'agrandissent.
00:05:42Alors peut-être que la meilleure architecture d'agent
00:05:44est de n'avoir presque aucune architecture.
00:05:46Et ça change tout, vous voyez ce que je veux dire ?
00:05:50Parce que l'instinct, surtout quand on est en solo
00:05:54et qu'on veut rendre le système fiable,
00:05:57c'est de rajouter des outils, des garde-fous,
00:06:01plus de logique de routage.
00:06:02On pense que plus de structure va aider,
00:06:04mais ces outils n'aidaient pas le modèle.
00:06:06Ils le gênaient.
00:06:08Et ce n'est pas un cas isolé.
00:06:10Manus a eu exactement la même prise de conscience.
00:06:13Ils ont reconstruit leur framework d'agent
00:06:16cinq fois en six mois,
00:06:19et leurs plus gros gains de performance
00:06:21ne sont pas venus de l'ajout de fonctionnalités.
00:06:23Ils sont venus de leur suppression.
00:06:25Ils ont supprimé la recherche complexe de documents,
00:06:28supprimé la logique de routage sophistiquée,
00:06:29remplacé les agents de gestion par de simples transferts structurés.
00:06:34À chaque itération, le système devenait plus simple et meilleur.
00:06:37Et voici ce que chaque développeur solo
00:06:40utilisant de longues sessions Claude Code doit entendre.
00:06:42Manus a constaté que leur agent faisait en moyenne
00:06:45environ 50 appels d'outils par tâche.
00:06:49C'est énormément d'étapes.
00:06:50Et même avec des modèles qui supportent
00:06:53des fenêtres de contexte gigantesques,
00:06:54la performance se dégrade passé un certain point.
00:06:58Le modèle n'oublie pas tout d'un coup.
00:07:01C'est plutôt que le signal se perd dans le bruit.
00:07:04Vos instructions importantes du début de session
00:07:07se retrouvent noyées sous des centaines de résultats intermédiaires.
00:07:10Leur solution a été simplissime.
00:07:12Ils ont commencé à traiter le système de fichiers
00:07:14comme la mémoire externe du modèle.
00:07:17Au lieu de tout entasser dans la fenêtre de contexte,
00:07:20l'agent écrit les infos clés dans un fichier
00:07:23et les relit quand c'est nécessaire.
00:07:25Et si vous utilisez Claude Code,
00:07:27vous l'avez déjà vu.
00:07:29Les fichiers CLAUDE.md, les listes de tâches, le suivi de progression,
00:07:34c'est exactement ce schéma qui se déroule
00:07:36dans votre terminal tous les jours.
00:07:37Bon, rappelez-vous ce que j'ai dit
00:07:40sur le fait que tout le monde converge vers la même idée.
00:07:44Parce que quand on regarde
00:07:45les trois systèmes d'agents les plus réussis actuellement,
00:07:49ils sont tous arrivés au même point
00:07:51en partant de directions totalement différentes.
00:07:53Codex d'OpenAI utilise cette approche par couches.
00:07:57Un orchestrateur qui planifie,
00:07:59un exécuteur qui gère les tâches individuelles,
00:08:02et une couche de récupération qui gère les échecs.
00:08:06C'est robuste.
00:08:07On peut lui confier un travail et s'en aller.
00:08:09C'est une première philosophie.
00:08:10Claude Code, que j'utilise tous les jours.
00:08:14Le cœur, ce sont littéralement quatre outils.
00:08:16Lire un fichier, écrire, éditer,
00:08:19lancer une commande bash, c'est tout.
00:08:21L'essentiel de l'intelligence réside dans le modèle lui-même.
00:08:23Le harnais reste minimal.
00:08:25Et quand on a besoin de plus, l'extensibilité passe par le MCP
00:08:28et des compétences que l'agent acquiert au besoin.
00:08:30Et puis Manus a abouti à ce que j'appellerais
00:08:33"réduire, décharger, isoler" : réduire activement le contexte,
00:08:38utiliser le système de fichiers pour la mémoire,
00:08:40créer des sous-agents pour les tâches lourdes,
00:08:43et ne ramener que le résumé.
00:08:45Trois approches totalement différentes,
00:08:47qui convergent toutes vers la même idée.
00:08:50Le harnais compte plus que le modèle.
00:08:52Et pour les développeurs solo,
00:08:55ça change ce sur quoi vous devriez réellement
00:08:57devriez consacrer votre temps.
00:08:59Parce que, vous le savez, nos heures ne sont pas infinies.
00:09:01Chaque heure passée sur Reddit à débattre
00:09:05de Claude contre GPT est une heure où vous ne produisez rien.
00:09:08Et il y a cette idée de Richard Sutton,
00:09:11l'un des créateurs de l'apprentissage par renforcement,
00:09:14appelée « la leçon amère ».
00:09:16L'argument central est que
00:09:18les approches qui évoluent avec la puissance de calcul
00:09:21finissent toujours par battre les approches
00:09:23qui reposent sur des connaissances conçues manuellement
00:09:26appliquées à ce que nous faisons.
00:09:27Cela signifie quelque chose de très spécifique.
00:09:29À mesure que les modèles deviennent plus intelligents,
00:09:31votre structure devrait devenir plus simple,
00:09:33et non plus complexe.
00:09:34Si vous ajoutez plus de logique codée à la main,
00:09:36plus de pipelines personnalisés à chaque mise à jour du modèle,
00:09:40vous nagez à contre-courant.
00:09:42Et honnêtement, ce sur-ingénierie
00:09:44est probablement la raison pour laquelle votre agent plante sans cesse.
00:09:47Alors voici ce que j'essaierais concrètement.
00:09:49D'abord, faites l'expérience Vercel vous-même.
00:09:52Si vous avez n'importe quel type de configuration d'agent,
00:09:54épurez-la, retirez les outils spécialisés,
00:09:57donnez-lui un terminal Bash et un accès de base aux fichiers
00:10:00et voyez simplement ce qui se passe.
00:10:02Le modèle est probablement plus intelligent
00:10:03que le pipeline d'outils que vous avez construit autour de lui.
00:10:06Deuxièmement, ajoutez un fichier de suivi de progression.
00:10:08Demandez à votre agent de tenir une liste de tâches
00:10:10qu'il met à jour après chaque étape.
00:10:13Il lit le fichier au début de chaque action,
00:10:15et écrit dedans à la fin.
00:10:17C'est exactement ce que fait Claude Code
00:10:19avec ces fichiers Markdown.
00:10:20Et c'est la même structure sur laquelle Manish a abouti
00:10:22après cinq réécritures complètes.
00:10:24J'ai d'ailleurs tout un système pour cela
00:10:26configuré dans le Lab avec toutes mes instructions d'agent
00:10:29et des modèles .md, prêts à l'emploi si ça vous intéresse.
00:10:33Et troisièmement, commencez à vous intéresser au MCP et aux « skills ».
00:10:37Cela donne au modèle des moyens propres et standardisés
00:10:40de travailler avec des outils externes
00:10:42sans que vous ayez à coder manuellement chaque intégration.
00:10:44C'est là que réside l'extensibilité désormais.
00:10:462025 a été l'année des agents.
00:10:50Et pour l'essentiel, c'est ce qui s'est passé.
00:10:53Mais 2026, je pense que 2026 sera l'année des structures,
00:10:58car le même modèle, exactement le même modèle,
00:11:03se comporte de manière totalement différente dans Claude Code
00:11:06par rapport à Cursor ou par rapport à CodeX.
00:11:08Choisissez donc votre structure avec soin,
00:11:11que vous utilisiez un agent de codage ou que vous en construisiez un.
00:11:14Et donc, oui, si vous êtes encore là,
00:11:17honnêtement, vous êtes une légende.
00:11:18Je sais que le débat sur les modèles est intense en ce moment.
00:11:22Chaque semaine, il y a une nouvelle sortie, un nouveau benchmark,
00:11:24une nouvelle discussion pour savoir qui est le roi.
00:11:27Mais les données réelles, l'ingénierie concrète
00:11:30qui sort des entreprises qui construisent ces outils,
00:11:32tout pointe vers une autre direction.
00:11:34C'est dans la structure que se trouvent les gains.
00:11:37Et pour les développeurs solo, c'est une excellente nouvelle
00:11:40car construire une meilleure structure
00:11:42est quelque chose que vous pouvez faire dès aujourd'hui
00:11:45sans attendre la sortie du prochain modèle.
00:11:47Et si vous voulez approfondir la façon dont je
00:11:51mets tout cela en place, les fichiers .md, les flux de travail,
00:11:56comment je relie tout cela pour mes propres applications,
00:11:59allez voir crafterslab.dev.
00:12:02Ce n'est pas une simple liste de tutoriels ou une ferme à contenu IA.
00:12:06C'est véritablement ma base, conçue pour les développeurs solo
00:12:09qui considèrent l'IA comme un vrai coéquipier
00:12:11et qui se soucient réellement de ce qu'ils livrent.
00:12:13À l'intérieur, vous trouverez des démonstrations complètes,
00:12:15de courts tutoriels vidéo, des compétences Claude Code
00:12:19que vous pouvez récupérer et utiliser immédiatement,
00:12:21et des ressources téléchargeables à intégrer
00:12:24directement dans vos projets.
00:12:26Les membres échangent dans les commentaires, posent des questions,” screen
00:12:29et discutent ensemble.
00:12:30C'est une vraie conversation, pas un flux de contenu unidirectionnel.
00:12:34Mais le cœur du sujet, ce sont les espaces Notion,
00:12:37mon carnet de bord en direct ; vous avez un siège au premier rang
00:12:40pour voir comment je gère chaque application que je bâtis,
00:12:42les vrais fichiers .md que j'utilise sur mes projets réels,
00:12:46la bibliothèque de prompts, la documentation que j'écris au fur et à mesure,
00:12:49toutes les automatisations en arrière-plan,
00:12:51rien n'est poli pour la caméra, c'est le vrai processus, avec ses imperfections,
00:12:55et il y a aussi Swift Brain,
00:12:58une bibliothèque Swift et SwiftUI sélectionnée
00:13:01que je développe depuis des années, des présentations approfondies,
00:13:04des conférences privées que j'ai payées pour organiser,
00:13:07le genre de matériel qu'on ne trouve pas
00:13:10dans les données d'entraînement publiques.
00:13:11C'est ce que j'utilise pour créer des MCP personnalisés,
00:13:16configurer des compétences pour Claude Code, Cursor, tout cela,
00:13:20toujours en train d'expérimenter et de partager ce qui fonctionne,
00:13:23et puis l'Ops Lab.
00:13:25C'est là que vivent toutes les instructions d'agents IA,
00:13:28les modèles Notion, les compétences Claude Code,
00:13:31les flux de travail, les automatisations déjà configurées
00:13:33et prêtes à être copiées, décortiquées,
00:13:36cassées et reconstruites à votre façon.
00:13:38L'idée est de garder la communauté des indépendants connectée
00:13:41pour que vous ne construisiez jamais seul,
00:13:44même si vous êtes seul devant votre clavier.
00:13:46Bref, si vous voulez nous rejoindre tant que l'équipe est restreinte
00:13:49et que les prix sont bloqués, c'est le moment idéal.
00:13:52On dirait plus un salon de développeurs en coulisses
00:13:55qu'un forum géant et impersonnel.
00:13:57Je serais vraiment ravi de vous y voir.
00:14:00Échanger des avis sur ces histoires de structures,
00:14:02et peut-être apprendre de ce que vous construisez.
00:14:05Continuez à créer, continuez à expérimenter,
00:14:08et ne laissez pas le bruit des benchmarks vous distraire
00:14:10de ce qui compte vraiment.
00:14:12Salut.