Table Ronde : Programmer pour l'Avenir

VVercel
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00(musique entraînante) - Bienvenue au panel sur l'Avenir de l'IA dans le Codage.
00:00:04Merci d'avoir lu le mémo : vous devez tous porter du noir.
00:00:07(rires) Bon,
00:00:08je voudrais couvrir quelques présentations rapides.
00:00:12Je vous connaissais chacun de différentes façons,
00:00:14mais peut-être que l'audience ne vous connaît pas bien.
00:00:17Matan, tu veux commencer ?
00:00:19Quelle est la position de Factory dans le monde plus large de l'IA et du codage ?
00:00:26- Oui,
00:00:26donc chez Factory,
00:00:28notre mission est d'apporter l'autonomie à l'ingénierie logicielle.
00:00:32Et concrètement,
00:00:33nous avons construit des agents de développement logiciel end-to-end appelés droids.
00:00:38Ils ne se concentrent pas seulement sur le codage lui-même,
00:00:40mais vraiment sur tout le cycle de vie du développement logiciel end-to-end.
00:00:43Donc des choses comme la documentation,
00:00:45les tests,
00:00:46les révisions,
00:00:46toutes les parties fastidieuses pour que vous puissiez aussi faire les parties plus amusantes comme le codage lui-même.
00:00:52Et pour les parties du codage que tu ne veux pas faire,
00:00:54tu peux aussi faire faire les droids.
00:00:56Donc tu construis des droids.
00:00:58Tu construis des droids.
00:00:59Et OpenAI a bien sûr besoin peu d'introduction,
00:01:02mais ton rôle dans l'équipe des codecs,
00:01:04je t'ai vu apparaître dans la vidéo des codecs.
00:01:08C'est comme ça que j'ai su que tu travaillais dessus.
00:01:10Mais comment tu vois les codecs ces jours-ci maintenant que c'est tellement expansé ?
00:01:14- Oui,
00:01:15donc plus tôt cette année,
00:01:16nous avons lancé notre premier agent de codage.
00:01:19J'ai travaillé sur la CLI Codex,
00:01:21apportant la puissance de nos modèles de raisonnement sur les ordinateurs des gens.
00:01:26Ensuite nous avons publié Codex Cloud où tu pouvais distribuer et déléguer ces tâches pour qu'elles fonctionnent dans le cloud.
00:01:31Et au cours des derniers mois,
00:01:32nous avons unifié ces expériences.
00:01:34Pour qu'elles fonctionnent aussi facilement que possible.
00:01:36Donc beaucoup de nos efforts portent sur comment rendre les fondamentaux,
00:01:39les primitives aussi utiles que possible.
00:01:41Nous venons de publier le SDK Codex Dev Day.
00:01:43Je pense que l'une des directions clés que nous voyons est non seulement utiliser les agents de codage ou d'exécution de code pour le codage,
00:01:50mais aussi pour des tâches à usage général.
00:01:52Et donc que ce soit l'agent try,
00:01:53sur lequel j'ai travaillé plus tôt cette année,
00:01:55qui exécute réellement du code en arrière-plan pour accomplir certaines tâches,
00:01:58mais en commençant à permettre à nos développeurs de construire sur la base non seulement des modèles de raisonnement,
00:02:03mais aussi des choses comme le sandboxing et toutes les autres primitives que nous avons intégrées dans Codex.
00:02:07- Excellent.
00:02:09V0 ?
00:02:10- L'objectif de V0 est de permettre aux développeurs de faire de la programmation agentique basée sur l'aperçu.
00:02:16Donc aujourd'hui quand tu construis des applications web,
00:02:19tu as probablement un agent ouvert,
00:02:21ton IDE ouvert,
00:02:21une sorte de code,
00:02:22et puis un aperçu de ce que tu es en train de construire.
00:02:25Normalement tu exécutes un serveur de développement.
00:02:26Avec V0,
00:02:27notre objectif est de te permettre d'avoir juste un agent qui tourne et de faire une requête directement contre ton application en cours d'exécution.
00:02:32Et c'est ainsi que nous envisageons l'avenir de l'expérience développeur.
00:02:35- D'accord, excellent.
00:02:36Et tout le monde a différentes surfaces d'accès pour accéder à tes agents de codage.
00:02:40Je pense qu'une des choses qu'on veut vraiment lancer est : à quel point local par rapport au cloud est important ?
00:02:45Tu as commencé en local avec le cloud,
00:02:47tu as commencé en cloud avec le local,
00:02:48tu es cloud uniquement pour l'instant.
00:02:50Quel est l'équilibre ?
00:02:52Est-ce que tout le monde va juste fusionner finalement ?
00:02:55- Oui, donc peut-être je peux commencer là.
00:02:58Je pense qu'au final,
00:02:59le but de ces agents c'est qu'ils soient aussi utiles que possible et qu'ils aient une silhouette très similaire à celle d'un humain avec qui tu pourrais travailler.
00:03:08Et tu n'as pas d'humains locaux et d'humains distants qui sont comme,
00:03:11tu sais,
00:03:11celui-ci ne fonctionne que dans cet environnement,
00:03:14celui-là ne fonctionne que dans cet autre environnement.
00:03:16Généralement,
00:03:16les humains peuvent être utiles que tu sois en réunion avec eux et que vous trouviez une idée,
00:03:21ou que tu sois assis côte à côte à un ordinateur.
00:03:24Donc je suppose qu'asymptotiquement,
00:03:26ceux-ci doivent devenir les mêmes,
00:03:28mais je pense qu'à court terme,
00:03:29distant est généralement,
00:03:31ce que nous voyons c'est que c'est généralement plus utile pour les petites tâches dont tu es plus confiant de pouvoir déléguer de manière fiable.
00:03:39Tandis que local c'est quand tu veux être un peu plus proche de l'agent,
00:03:43c'est peut-être une tâche plus grande ou une tâche plus compliquée que tu vas activement surveiller.
00:03:49Et tu veux que ce soit local donc que si quelque chose tourne mal,
00:03:52tu n'ai pas besoin de tirer cette branche vers le bas puis de commencer à travailler dessus,
00:03:55mais au lieu de cela tu es là pour le guider.
00:03:57- Oui,
00:03:58peut-être que je suis juste avide,
00:04:00mais je veux les deux.
00:04:00Et je pense qu'avoir une modalité,
00:04:02selon le point de vue de Matan,
00:04:04où j'aime réfléchir à quelles sont les formes principales de collaboration que j'ai l'habitude d'avoir et que j'aime avec mes collègues.
00:04:11Souvent ça commence par une session de whiteboarding et peut-être que nous sommes juste en train de d'improviser quelque chose dans une salle.
00:04:17Quand nous construisions,
00:04:19je pense qu'un bon exemple était agents.md,
00:04:21ce sont nos instructions personnalisées destinées à être génériques dans tous les agents de codage différents.
00:04:26La façon dont ça a commencé c'est que Romain et moi étions juste dans une salle en train de réfléchir à cette idée.
00:04:31Puis nous avons juste commencé à faire du whiteboarding,
00:04:33puis avons pris une photo et ensuite l'avons lancé dans Codec CLI en local,
00:04:36juste comme dans un atelier sur une application Next.js sur laquelle nous pouvions travailler,
00:04:40sommes allés déjeuner,
00:04:40sommes revenus.
00:04:41C'était une bonne part de la structure de base.
00:04:44Et ensuite à partir de là,
00:04:45nous avons pu itérer un peu plus étroitement.
00:04:46Donc avoir ce genre d'appairage et ce genre d'expérience de brainstorming.
00:04:49Et puis je pense au deuxième point sur quel genre de tâches tu délègues,
00:04:53je pense qu'historiquement les petites tâches clairement délimitées où tu es très clair sur quel est le résultat,
00:04:59c'est une sorte de modalité appropriée si tu fais un fire and forget.
00:05:02Mais je pense que ce que nous commençons à voir avec,
00:05:05nous avons juste lancé GBD5 Codex il y a deux mois maintenant.
00:05:08Et je pense que l'une des principales différences c'est qu'il peut réellement faire ces tâches plus longues,
00:05:12plus complexes,
00:05:13plus ambiguës,
00:05:14tant que tu es clair sur ce que tu veux à la fin.
00:05:16Donc ça peut fonctionner pendant des heures.
00:05:18Je pense que ce changement à mesure que les modèles augmentent en capacité va commencer à permettre plus de cas d'usage.
00:05:24- Oui.
00:05:24Oui,
00:05:25je pense qu'il y a trois parties pour faire fonctionner un agent.
00:05:27Il y a la boucle d'agent réelle,
00:05:29il y a les appels d'outils qu'il fait,
00:05:30et puis les ressources sur lesquelles les appels d'outils doivent agir.
00:05:34Que tu ailles d'abord en local ou en cloud dépend de l'endroit où se trouvent ces ressources,
00:05:37non ?
00:05:37Si tu essaies de travailler sur un système de fichiers local,
00:05:39ce sont les ressources que tu dois accéder.
00:05:41C'est totalement logique que ta boucle d'agent s'exécute localement,
00:05:44non ?
00:05:44Si tu accèdes à des ressources qui existent généralement dans le cloud tu tires de GitHub,
00:05:48directement d'un référentiel tiers d'une sorte quelconque,
00:05:51alors c'est logique que ton agent commence dans le cloud,
00:05:53non ?
00:05:54Finalement cependant,
00:05:55ces ressources existent aux deux endroits,
00:05:57non ?
00:05:57Chaque développeur s'attend à ce qu'un agent soit capable de travailler à la fois sur le système de fichiers local,
00:06:02ainsi que sur un PR ouvert qui pourrait être hébergé sur GitHub.
00:06:04Et donc ça n'a vraiment pas d'importance où tu commences,
00:06:07je pense,
00:06:07tout le monde converge au même endroit,
00:06:09ce qui est que ta boucle d'agent doit pouvoir s'exécuter n'importe où,
00:06:12tes appels d'outils doivent pouvoir être diffusés du cloud localement ou d'une sauvegarde locale au cloud.
00:06:16Et puis ça dépend juste de l'endroit où se trouvent les ressources sur lesquelles tu veux réellement agir.
00:06:20- Oui, excellent.
00:06:22D'accord,
00:06:22donc nous discutions en coulisse et nous cherchions des questions épicées et des trucs comme ça.
00:06:27Je vraiment aimé celle-ci et je pense qu'elle est très actuelle.
00:06:31Est-ce que vous générez du contenu inutile comme gagne-pain ?
00:06:33Genre on risque potentiellement d'être dans une bulle hype
00:06:40où on croit que c'est une voie durable vers l'AGI ?
00:06:44- Je veux dire,
00:06:45je pense que pour commencer,
00:06:46tu pourrais dire que c'est du contenu inutile pour l'un c'est un trésor pour l'autre,
00:06:50ce qui à certains égards pourrait être vrai.
00:06:52Comme,
00:06:52tu sais,
00:06:53si par exemple tu avais,
00:06:54je ne sais pas,
00:06:55mettons que tu avais un dépôt qui n'avait absolument aucune documentation.
00:07:00Tu pourrais utiliser,
00:07:02tu sais,
00:07:02beaucoup des outils dont nous avons parlé pour aller générer la documentation pour ce dépôt.
00:07:08Maintenant,
00:07:09est-ce que ce va être la pièce de documentation la plus finement élaborée ?
00:07:13Non, mais est-ce que ça apporte de la valeur ?
00:07:16Oui,
00:07:16à mon avis,
00:07:17parce qu'avoir à parcourir une base de code héritée super vieille qui n'a pas de docs c'est beaucoup plus difficile que de regarder une documentation un peu dégradée.
00:07:26Et donc je pense que la grande chose c'est de trouver où tu peux utiliser ces outils pour l'effet de levier et le degré auquel c'est du contenu inutile,
00:07:34je pense aussi que ça dépend beaucoup des conseils que tu fournis.
00:07:38Donc si tu dis juste genre,
00:07:39construis-moi une appli qui fait ça,
00:07:41tu vas probablement obtenir une appli générique inutile qui fait -- - C'est violet.
00:07:44- Oui, bleu, violet genre dégradé, oui.
00:07:48Tandis que si au lieu de ça tu es très méthodique sur exactement ce que tu veux,
00:07:52tu as fourni les outils pour réellement exécuter les tests pour vérifier certaines des capacités que tu demandes.
00:07:58Je pense que ça le rend beaucoup plus structuré,
00:08:01de la même façon que si tu,
00:08:02tu sais,
00:08:03engageais un jeune ingénieur dans ton équipe et que tu disais juste,
00:08:07hé,
00:08:07vas faire ça.
00:08:08Comme ils vont probablement donner un résultat médian parce qu'ils n'ont aucune autre spécification sur laquelle se baser.
00:08:14Et c'est assez ambigu comme ce que tu veux réellement.
00:08:19- Je pense que le mot clé là c'est l'effet de levier, non ?
00:08:21Comme ce que les agents de codage IA te permettent de faire c'est faire 10X plus que tu pourrais faire toi-même avec un plancher assez élevé,
00:08:27non ?
00:08:27Donc si tu traces le niveau de compétence par rapport à la façon dont un agent est utile ou à quel point il est probable,
00:08:31tu sais,
00:08:32la façon dont il est réellement utile pour générer du contenu non-inutile,
00:08:34il y a probablement un plancher assez bas si tu n'as aucune compétence.
00:08:36Tu as un plancher assez élevé, non ?
00:08:38Les agents sont assez bons dès la sortie de la boîte.
00:08:39Si tu ne sais rien sur le développement,
00:08:41l'agent va faire beaucoup plus que tu pourrais éventuellement faire.
00:08:44Mais à mesure que tu atteins des niveaux de compétence plus élevés,
00:08:46senior et principal et ingénieurs distingués utilisent réellement les agents différemment.
00:08:50Ils l'utilisent pour améliorer les choses qu'ils pouvaient déjà faire.
00:08:53Tu sais,
00:08:53un ingénieur principal peut probablement écrire manuellement 5 000 lignes de code par jour.
00:08:57Avec les agents,
00:08:58ils peuvent écrire comme 50 000 lignes de code par jour.
00:09:00Et ça fonctionne vraiment au niveau de la qualité des entrées et des connaissances que tu mets dedans.
00:09:04Donc je pense que nous sommes,
00:09:06tu sais,
00:09:06lentement en train de lever le plancher au fil du temps en,
00:09:09tu sais,
00:09:10construisant de meilleurs agents.
00:09:11Mais je pense vraiment que c'est une forme d'effet de levier.
00:09:14C'est un moyen pour toi d'accélérer les sortes de choses que tu peux déjà faire,
00:09:17les faire plus vite.
00:09:18Et pour les gens qui n'ont pas de compétences,
00:09:20tu sais,
00:09:20c'est quand tu peux réellement vraiment lever le plancher de ce qu'il peut faire.
00:09:23- Absolument,
00:09:24et juste pour ajouter sur ces deux points,
00:09:26je pense qu'ils sont des outils et des amplificateurs de l'artisanat.
00:09:29Si tu l'as, tu peux en faire plus.
00:09:31Si tu ne l'as pas,
00:09:32c'est juste plus difficile,
00:09:33mais ça lève le plancher.
00:09:34Je pense que c'est vraiment worth de le souligner.
00:09:36Je pense que pour les gens qui essaient juste de construire leur premier prototype,
00:09:40ils essaient d'itérer une idée que l'exemple qu'il mentionnait plus tôt.
00:09:44Ce n'est pas que je ne pourrais pas faire un frontend qui est comme un site piloté par le contenu,
00:09:49c'est juste que je n'avais pas le temps.
00:09:51Et c'était plus amusant de juste dessiner sur un tableau blanc,
00:09:54parler,
00:09:54avoir une conversation,
00:09:55et puis le confier à un agent.
00:09:57Mais je pense qu'un des exemples intéressants de ça c'était quand nous construisions beaucoup plus tôt les itérations des Codex et il y a bien plus d'un an.
00:10:03Et nous mettions en face deux archétypes différents,
00:10:06des gens qui faisaient beaucoup d'ingénierie de produit où ils sont habitués à utiliser les outils de la boucle interne locale où ils sont habitués à juste chatter et peut-être itérer.
00:10:19Et puis une modalité complètement différente quand nous parlons aux gens sur les équipes de raisonnement où ils s'assiéraient pendant peut-être cinq minutes juste en définissant la tâche et avoir un problème verbal de la longueur d'un essai pour que l'agent aille faire,
00:10:31et puis ça fonctionnerait pendant une heure.
00:10:33Et c'était effectivement O1 ou des versions antérieures de celui-ci.
00:10:37Et je pense que la partie intéressante c'était juste la façon dont les gens approcheraient de donner la tâche à l'agent était complètement différente basée sur leur compréhension de ce qu'ils pensent qu'il en a besoin.
00:10:48Et donc je pense vraiment qu'il faut mettre l'accent sur la spécificité,
00:10:52être vraiment clair sur ce que tu veux que la sortie soit.
00:10:55Et je pense qu'il y a un élément plus large qui est une responsabilité à la fois sur nous en tant que constructeurs d'agents et les gens formant des modèles à vraiment lever ce plancher et à s'assurer que le plafond pour les gens avec de l'artisanat élevé,
00:11:07avec un goût élevé peuvent l'exercer de la façon qu'ils trouvent appropriée.
00:11:11- Je pense qu'en fait quelque chose que tu as mentionné a apporté cette idée à l'esprit que nous avons commencé à remarquer.
00:11:16Donc notre audience cible c'est l'entreprise.
00:11:19Et quelque chose que nous avons vu se reproduire encore et encore c'est qu'il y a une bimodalité très intéressante en termes d'adoption du développement agent-natif.
00:11:28Et en particulier,
00:11:29normalement plus tôt dans la carrière les développeurs sont plus ouverts d'esprit de commencer à construire de manière agent-native,
00:11:36mais ils n'ont pas l'expérience de gérer les équipes d'ingénierie.
00:11:39Donc peut-être qu'ils ne sont pas très familiers avec la délégation d'une manière qui fonctionne vraiment bien.
00:11:44Pendant ce temps,
00:11:44les ingénieurs plus expérimentés ont beaucoup d'expérience dans la délégation.
00:11:47Ils savent que,
00:11:48hé,
00:11:49si je ne spécifie pas ces choses exactes,
00:11:50ça n'arrivera pas.
00:11:51Et donc ils sont vraiment bons pour,
00:11:53tu sais,
00:11:53écrire ce paragraphe,
00:11:54mais ils sont assez têtus et ils ne veulent vraiment pas changer la façon dont ils construisent et tu vas devoir arracher Emacs de leurs mains froides mortes.
00:12:03Donc c'est un équilibre intéressant là.
00:12:05- C'est drôle que tu dises ça.
00:12:06Similaire ce que nous avons vu dans l'entreprise c'est que les ingénieurs seniors,
00:12:10les gens haut placés vont écrire des tickets.
00:12:12Donc ils vont réellement faire le travail d'écrire tout le spec de ce qui doit être fait.
00:12:16Ils le confient à un jeune ingénieur pour vraiment le faire.
00:12:18Le jeune ingénieur prend ce ticket super bien écrit et le donne à l'agent pour le faire,
00:12:21non ?
00:12:21Donc tu es juste en train d'arbitrer l'idée que le jeune ingénieur va réellement faire le travail de l'agent parce qu'il est plus à l'aise de faire ça.
00:12:28Mais l'ingénieur senior c'est la personne qui est vraiment bonne à écrire le spec,
00:12:32très bonne à comprendre quelles sont les décisions architecturales que nous devrions prendre et en mettant ça dans une sorte de ticket.
00:12:37- Oui,
00:12:38pour ceux qui ne le savent pas,
00:12:39Matan et Factory en général ont écrit et plaidé pour l'ère du développement agent-natif.
00:12:44Donc tu peux en lire plus sur leur site web.
00:12:45Je pense qu'une chose,
00:12:47au fait,
00:12:47je veux soulever peut-être comme une chose de terminologie,
00:12:50ce qui c'est lever le plancher pour toi c'est une bonne chose.
00:12:54Je pense que d'autres gens disent aussi baisser le plancher qui signifient la même chose.
00:12:57Fondamentalement juste genre c'est à propos du niveau de compétence et comme ce qu'ils peuvent faire et juste donner aux gens plus de ressources pour ça.
00:13:05Je pense aussi que l'autre chose c'est que,
00:13:09beaucoup de gens pensent à la couche de modèle,
00:13:13non ?
00:13:13Évidemment vous possédez vos propres modèles,
00:13:17vous deux ne possédez pas.
00:13:18Et je pense qu'il y a un sujet chaud de conversation dans la valeur en ce moment.
00:13:22Airbnb,
00:13:23Brian Chesky a dit que la plupart de la valeur reposait sur Quinn apparemment.
00:13:28À quel point les modèles ouverts sont-ils importants pour vous les gars et vous pouvez,
00:13:32pour ce que vous pouvez aussi peser,
00:13:33mais à quel point la stratégie des modèles ouverts est-elle importante pour vous deux ?
00:13:37- Je serais curieux d'entendre d'abord de toi.
00:13:38- Oui.
00:13:38Aime bien les modèles ouverts.
00:13:42Je pense qu'une des choses importantes,
00:13:44donc juste être capable de parler de modèles,
00:13:46je pense que l'ouverture est vraiment essentielle pour je pense un cycle de développement durable où avec Codex CLI,
00:13:52nous l'avons open-sourcé depuis le départ et une part de la priorité était de comprendre qu'un modèle ouvert allait arriver.
00:13:58Nous voulions nous assurer que nous pourrions au mieux documenter comment utiliser nos modèles de raisonnement.
00:14:03Nous avons vu beaucoup de sortes de confusion sur,
00:14:05quel genre d'outils à donner,
00:14:06quel devrait être l'environnement,
00:14:07les ressources.
00:14:08Et donc nous voulions nous assurer que c'était aussi clair que possible et aussi nous assurer que ça fonctionnait bien avec les modèles ouverts.
00:14:12Donc je pense qu'il y a définitivement beaucoup de cas d'usage,
00:14:16spécialement quand tu entres dans des cas d'usage embarqués ou des cas où tu ne veux pas que les données quittent le périmètre.
00:14:23Il y a beaucoup de vraiment bonnes raisons pour lesquelles tu voudrais faire ça.
00:14:26Et puis je pense que l'avantage des modèles hébergés en cloud,
00:14:29et c'est ce que nous voyons avec beaucoup de modèles ouverts.
00:14:33Ils finissent par être,
00:14:34ils ne s'exécutent pas sur l'appareil,
00:14:35mais ils sont en fait hébergés en cloud quand même,
00:14:38peut-être pour l'efficacité,
00:14:39peut-être pour le coût,
00:14:40qu'il y a toujours beaucoup de valeur juste dans l'intelligence pure que tu obtiens en utilisant un modèle beaucoup plus grand.
00:14:46Et c'est pourquoi nous voyons les gens graviter vraiment vers les modèles d'O3 à GBD5 à GBD5 Codex.
00:14:52Il y a toujours beaucoup de valeur dans ça.
00:14:53Maintenant nous voyons que ce surplomb s'en va toujours,
00:14:57ça se résout où tous les deux mois il y a un nouveau,
00:15:01très petit,
00:15:01très très modèle impressionnant.
00:15:04Et je pense que c'est la magie si nous considérons juste au début de cette année,
00:15:07nous avions O3 mini comme sorte de la frontière et où nous sommes maintenant.
00:15:10Et donc oui,
00:15:11je pense qu'il y a une tonne de valeur dans les modèles ouverts,
00:15:14mais toujours,
00:15:15je pense personnellement,
00:15:16du point de vue de l'utilisation,
00:15:18plus de valeur en utilisant les modèles hébergés en cloud.
00:15:21- Oui, je vais juste intervenir un peu.
00:15:23Ford tient vraiment à la vie privée,
00:15:25la sécurité,
00:15:25la robustesse des agents.
00:15:27Et donc si tu le rencontres, parle-lui plus de ça.
00:15:30Mais pour vous les gars,
00:15:32peut-être que tu veux commencer par,
00:15:33en fait,
00:15:34quel est ton ballpark du pourcentage de tokens du modèle ouvert générés dans tes applications respectives ?
00:15:39Et va-t-il monter ou descendre ?
00:15:42- Donc je suppose,
00:15:42donc peut-être pour commencer,
00:15:44parce que je pense que ce que tu as dit est vraiment intéressant.
00:15:47Il y a quelques semaines,
00:15:48quand nous avons publié notre outil Factory CLI,
00:15:50les gens étaient vraiment intéressés parce que nous l'avons aussi publié avec notre score sur ce benchmark appelé Terminal Bench.
00:15:57Et une des premières demandes était,
00:15:58pouvez-vous les gars mettre les modèles open source à l'épreuve ?
00:16:02Parce que notre agent droid est complètement agnostique au modèle.
00:16:04Donc immédiatement les gens étaient genre,
00:16:06jette les modèles open source et montre-nous comment ça se passe.
00:16:09Et je pense que quelque chose qui était particulièrement surprenant c'était que les modèles open source,
00:16:14et en particulier GLM,
00:16:15étaient vraiment,
00:16:16vraiment bons.
00:16:17Ils étaient en fait évidemment moins performants que les modèles de frontière,
00:16:22mais pas d'une énorme marge.
00:16:24Je pense,
00:16:24donc une chose qui était remarquable cependant c'était quand nous avons benchmarké les modèles open source,
00:16:30sur les sept qui étaient au top,
00:16:32l'un d'eux a été fait aux États-Unis par vous savez qui ici,
00:16:35ce que je pense est un peu une honte.
00:16:37Comme le fait que de loin les modèles de frontière,
00:16:41c'est États-Unis dans tous les cas.
00:16:43Mais alors quand ça vient aux modèles ouverts,
00:16:45nous laissons vraiment tomber.
00:16:47Donc je pense que c'est une chose qui est remarquable et je pense que quelque chose que,
00:16:51au moins quand j'ai vu ça,
00:16:52j'ai vraiment pensé qu'il devrait y avoir un appel aux armes là en termes de changer ça.
00:16:56Parce que je pense pour répondre à ta question,
00:16:58ce que nous avons trouvé c'est que depuis que nous avons publié le support pour les modèles open source,
00:17:03le pourcentage de gens qui utilisent les modèles open source a dramatiquement augmenté.
00:17:08Partiellement à cause du coût et que,
00:17:10tu sais,
00:17:10ça te permet,
00:17:11mettons dans cet exemple de documentation,
00:17:13peut-être tu veux générer des docs,
00:17:15mais tu ne veux pas que ce soit comme,
00:17:16tu sais,
00:17:17sur du super raisonnement élevé,
00:17:18comme au max,
00:17:19comme ça te coûte mille dollars,
00:17:20mais tu veux juste obtenir comme une première passe initiale.
00:17:24Et aussi les gens aiment avoir un peu plus de contrôle.
00:17:28Et je sens qu'ils obtiennent beaucoup plus de ce contrôle avec certains de ces modèles open source,
00:17:34à la fois le contrôle et le coût et juste une sorte d'observabilité dans ce qui se passe réellement là.
00:17:39Donc je pense que la demande a augmenté à un point où je ne m'y attendais pas il y a un an.
00:17:43Je pense qu'il y a un an,
00:17:45j'étais moins optimiste sur les modèles open source que je ne le suis maintenant,
00:17:48open-weight,
00:17:49mais oui.
00:17:49- Oui,
00:17:50je pense que nous utilisons à la fois les modèles open source et closed source dans notre pipeline d'agent global.
00:17:55Et je pense que la façon dont nous les envisageons c'est qu'il y a deux cas d'utilisation différents pour un appel LLM.
00:17:58L'un c'est tu veux le raisonnement de pointe.
00:18:01C'est une question très, très ouverte.
00:18:02Tu ne sais pas réellement quelle est la réponse.
00:18:04L'objectif c'est comme,
00:18:05la fonction objectif n'est pas super bien définie.
00:18:07Dans ces cas,
00:18:08les modèles closed source sont toujours de pointe en ce qui concerne le raisonnement et l'intelligence.
00:18:13Nous utilisons les modèles closed source presque exclusivement pour ce genre de cas d'usage.
00:18:16Il y a un deuxième cas d'utilisation où nous avons une tâche plus de niche avec une fonction objectif beaucoup plus claire.
00:18:22Dans ces cas,
00:18:23nous essayons presque toujours de fine-tuner un modèle open source.
00:18:26Nous sommes heureux de prendre un coup de 20% peut-être en termes de capacité de raisonnement pour que nous puissions réellement fine-tuner un cas d'usage très,
00:18:34très spécifique.
00:18:35Et je pense qu'on a découvert que les modèles open source rattrapent très,
00:18:39très,
00:18:39très vite.
00:18:39Il y a un an et demi,
00:18:41c'était impensable pour nous d'utiliser des modèles open source dans le pipeline de v0.
00:18:45Aujourd'hui,
00:18:45on se demande pour chaque partie du pipeline : on peut intégrer des modèles open source ici ?
00:18:49On peut remplacer ce qu'on fait actuellement avec les modèles state-of-the-art fermés par un fine-tune d'un modèle open source ?
00:18:57Et on a eu énormément de succès avec Qwen,
00:19:00QEMI-K2,
00:19:00et d'autres modèles de ce type.
00:19:02Ouais,
00:19:03je vais signaler que c'est l'une des plus grandes évolutions que j'ai observée partout,
00:19:07parce qu'en début d'année,
00:19:08j'ai fait un podcast avec Ankur de BrainTrust,
00:19:10et il a dit que l'utilisation de modèles open source représentait à peu près 5% dans ce qu'observe BrainTrust,
00:19:16et ça baissait.
00:19:17Et maintenant,
00:19:17je pense que ça va raisonnablement passer à 10 à 20% pour tout le monde.
00:19:22Je pense que c'est intéressant que même les modèles fermés investissent davantage dans leurs petits modèles.
00:19:29Les Haiku,
00:19:29les GPT-5 Mini,
00:19:30les Gemini Flash et autres,
00:19:32et je pense que cette classe de modèles est celle qui rivalise le plus avec l'open source.
00:19:38C'est la petite classe de modèles qui rivalisent avec un fine-tune d'un modèle open source.
00:19:42Et je pense aussi qu'il y a des cas d'usage où utiliser un modèle frontier ce serait juste du surengagement,
00:19:47et si c'est du surengagement,
00:19:49tu vas évidemment être incité à utiliser quelque chose de plus rapide et moins cher.
00:19:53Et je pense que c'est en partie lié à ce delta en termes de pourcentage d'utilisation : c'est le moment où les modèles open source franchissent le seuil où ils suffisent pour la plupart des tâches,
00:20:05et puis pour certaines tâches spécifiques,
00:20:07tu as besoin de ce petit supplément.
00:20:10Je pense qu'on y arrive vraiment avec certains de ces modèles open source,
00:20:13c'est pour ça que je m'attends à voir davantage d'utilisation à l'avenir.
00:20:16Ouais, super, c'est très encourageant.
00:20:18On a un peu de temps avant la dernière question,
00:20:20alors voilà : y a-t-il quelque chose que vos agents ne peuvent pas faire aujourd'hui et que vous aimeriez qu'ils fassent,
00:20:25qu'ils feront probablement l'année prochaine ?
00:20:27Je commence ?
00:20:31D'accord.
00:20:32Ouais,
00:20:32je pense que sur l'année écoulée,
00:20:35pour commencer par un point de repère avec o1,
00:20:38il y a un peu plus d'un an,
00:20:39ou la preview de o1,
00:20:41ce qu'on a vu depuis,
00:20:42quand j'utilisais les premières versions de ce modèle,
00:20:46c'était bien par rapport à GPT-4,
00:20:48mais il manquait tellement de choses.
00:20:51Je ne l'aurais pas mis au même niveau,
00:20:53j'étais dans l'équipe de sécurité à ce moment-là,
00:20:55et il y avait beaucoup de travail et de tâches que je ne pouvais tout simplement pas déléguer à ce modèle.
00:21:00Et quand on compare avec aujourd'hui,
00:21:02où je peux prendre une tâche bien définie,
00:21:04genre deux phrases,
00:21:05quelques points clés pour revenir sur ce que tu disais,
00:21:07et voilà les pièges sur lesquels je pense que tu vas bloquer,
00:21:10et puis tu reviens 30 minutes plus tard,
00:21:12une heure plus tard,
00:21:13c'est fait.
00:21:14On a vu des cas où ça tournait pendant plusieurs heures,
00:21:17peut-être même sept ou huit heures,
00:21:18pratiquement une journée complète,
00:21:20alors que j'occupe une grande partie de ma journée en réunions et que je n'ai pas forcément ce bloc de temps solide.
00:21:26Mais ce n'est que la moitié de ce qu'est vraiment l'ingénierie.
00:21:30Une moitié c'est le codage,
00:21:31l'architecture,
00:21:32le dépannage et le débogage.
00:21:34L'autre moitié c'est la documentation,
00:21:36comprendre le système,
00:21:37convaincre les gens.
00:21:39Et donc je pense qu'on va commencer à voir ce super collaborateur où ce qu'on veut apporter,
00:21:45que ce soit via les codecs ou ces autres interfaces via le modèle codecs,
00:21:49c'est le collaborateur idéal avec lequel tu veux travailler.
00:21:53La personne vers qui tu te tournes d'abord,
00:21:56ce collègue préféré avec qui tu veux discuter d'idées,
00:21:59c'est vraiment ce qu'on veut voir,
00:22:01du moins avec codecs.
00:22:02Pour nous,
00:22:03on a vu beaucoup de progression sur deux fronts différents.
00:22:07Le premier,
00:22:07c'est : combien d'étapes peut-on raisonnablement attendre d'un agent pour avoir une sortie correcte ?
00:22:14L'année dernière,
00:22:14c'était probablement une,
00:22:16maximum trois,
00:22:16d'accord ?
00:22:17Si tu voulais une sortie fiable avec plus de 90% de réussite,
00:22:19tu tournais généralement une à trois étapes d'agent.
00:22:22Aujourd'hui,
00:22:22la plupart des outils font de cinq à 20 avec pas vraiment de taux de fiabilité formidable,
00:22:27au-dessus de 90% de réussite.
00:22:29Je pense que l'année prochaine,
00:22:30on va ajouter ça,
00:22:31genre 100 plus,
00:22:32200 plus,
00:22:32tu lances des tonnes d'étapes en même temps,
00:22:34tu as des tâches longues pendant plusieurs heures et tu es certain que tu vas avoir une sortie utile à la fin.
00:22:40Le second c'est en termes de quelles ressources peuvent être consommées.
00:22:42Il y a un an,
00:22:43c'était tout ce que tu mettais dans le prompt,
00:22:45c'était à peu près tout.
00:22:47Aujourd'hui,
00:22:47tu peux configurer des connexions externes via MCP ou en faisant des appels API directement dans ton application.
00:22:55Tu peux faire ça si tu es compétent,
00:22:57tu as la capacité de configurer les choses.
00:22:58Et je pense que dans un an, ça va juste se faire tout seul.
00:23:00Ça va juste fonctionner.
00:23:02L'objectif c'est que tu ne devrais pas avoir besoin de savoir quelles sources de contexte tu dois fournir à l'agent.
00:23:06L'agent va réellement aller trouver ces sources de contexte de manière proactive.
00:23:09On commence déjà à voir ça aujourd'hui,
00:23:11mais je ne suis pas vraiment confiant que ce soit très fiable et utile aujourd'hui.
00:23:16Je pense qu'à partir de l'année prochaine,
00:23:17ce sera le mode par défaut.
00:23:18Ouais, je serais d'accord avec ça.
00:23:19Je pense que les agents peuvent faire à peu près tout aujourd'hui,
00:23:23mais le degré de fiabilité et de proactivité avec lequel ils le font,
00:23:27c'est le curseur qui va changer.
00:23:29Mais c'est un curseur qui dépend aussi de l'utilisateur.
00:23:31Genre si tu es un utilisateur qui ne change vraiment pas ton comportement et qui ne va pas à la rencontre de l'agent,
00:23:36alors tu pourrais obtenir une fiabilité et une proactivité moins bonnes.
00:23:38Alors que si tu configures correctement ton système ou tu mets en place correctement ton environnement,
00:23:43tu vas pouvoir faire plus de ça de manière fiable et plus proactive.
00:23:45Ouais, c'est fou.
00:23:46Bon, c'est bon, on est à court de temps.
00:23:48Ma contribution c'est la vision par ordinateur.
00:23:49Essayez tous Atlas.
00:23:51Essayez plus de cas d'usage en vision par ordinateur,
00:23:54mais merci beaucoup de votre temps.
00:23:55Merci.
00:23:56(applaudissements du public) (musique optimiste)

Key Takeaway

Les agents IA pour le codage transforment le développement logiciel en tant qu'amplificateurs de compétences qui nécessitent une direction humaine précise pour générer de la valeur réelle et durable.

Highlights

Les agents de développement logiciel révolutionnent le cycle de vie complet du développement, pas seulement le codage, en automatisant la documentation, les tests et les révisions

L'équilibre entre les exécutions locales et cloud dépend de l'emplacement des ressources : local pour les tâches complexes nécessitant une supervision active, cloud pour les petites tâches déléguées

Les modèles open-source gagnent rapidement du terrain, passant de 5% à potentiellement 10-20% d'utilisation, particulièrement pour les tâches spécialisées avec fine-tuning

La spécificité des instructions est cruciale : un ingénieur senior qui écrit des spécifications détaillées crée les meilleures prompts pour les agents

Les agents de codage fonctionnent comme des amplificateurs de compétences qui lèvent le plancher pour les débutants tout en permettant aux experts de 10X leur productivité

La fiabilité et la proactivité des agents augmentent exponentiellement, passant de 1-3 étapes avec 90% de succès à 100+ étapes longues de plusieurs heures l'année prochaine

Timeline

Bienvenue et présentations des panélistes

Le panel démarre sur un ton léger avec une blague sur le code vestimentaire exigeant du noir. Les trois panélistes se présentent ensuite : Matan de Factory expose leur mission d'autonomisation de l'ingénierie logicielle via leurs agents de développement appelés « droids », qui gèrent le cycle de vie complet incluant documentation et tests. L'intervenant d'OpenAI présente leur évolution depuis la CLI Codex jusqu'aux expériences cloud unifiées et au SDK Codex Dev Day, permettant aux développeurs de construire sur les modèles de raisonnement et le sandboxing. V0 est décrit comme une plateforme permettant la programmation agentique basée sur l'aperçu visual, où les développeurs peuvent requêter directement contre leurs applications en cours d'exécution plutôt que d'utiliser les outils traditionnels. Cette introduction établit le contexte fondamental que les agents IA transforment la manière dont les développeurs travaillent en intégrant plusieurs couches de productivité.

Local vs Cloud : l'équilibre des ressources et de la supervision

Le débat central porte sur le positionnement local versus cloud des agents, où les panélistes établissent que l'emplacement dépend principalement de la localisation des ressources à manipuler. Les agents local conviennent mieux aux tâches complexes ou ambiguës nécessitant une supervision active de l'humain, tandis que le cloud est optimal pour les petites tâches délimitées que le développeur veut déléguer avec confiance et oublier. Matan explique que les humains ne sont pas cloisonnés en versions locales et distantes, donc asymptotiquement, les agents doivent converger vers une capacité hybride uniforme. L'intervenant d'OpenAI donne l'exemple concret du projet agents.md où le brainstorming initial en salle sur un tableau blanc, suivi d'une exécution locale dans la CLI Codex sur une application Next.js, s'est avéré plus efficace qu'une délégation pure au cloud. Cette section illustre que la prochaine génération d'agents doit supporter de manière transparente les ressources distribuées entre le système local et les services cloud.

Contenu inutile vs effet de levier : utilité réelle des agents

Abordant une critique fréquente selon laquelle les agents génèrent simplement du contenu inutile, les panélistes démontrent que la valeur dépend fortement de la qualité des instructions fournies. L'exemple de génération de documentation pour un dépôt sans documentation montre que même une documentation imparfaite apporte plus de valeur qu'aucune documentation, car naviguer un code hérité sans docs est plus difficile que lire une documentation dégradée. Les agents fonctionnent comme des amplificateurs : ils lèvent le plancher pour les développeurs inexpérimentés en les aidant à créer un prototype initial, tandis que pour les ingénieurs seniors, ils multiplient par 10 la productivité (5 000 à 50 000 lignes de code par jour). L'intervenant souligne que la relation entre le niveau de compétence et l'utilité est bimodale : le plancher pour les débutants est élevé (l'agent fait beaucoup de lui-même), le plafond pour les experts s'élève continuellement. Cette distinction critique rend les agents utiles à tous les niveaux, mais de manière très différente selon l'expertise.

Bimodalité de l'adoption agent-native en entreprise

Factory constate une bimodalité intéressante dans l'adoption des agents : les développeurs juniors sont mentalement ouverts à la construction agent-native mais manquent d'expérience en délégation efficace, tandis que les ingénieurs seniors ont l'expertise de délégation fine mais résistent souvent au changement de leurs workflows établis. Un pattern observable en entreprise est que les ingénieurs seniors écrivent les spécifications détaillées en tickets bien structurés, les juniors reçoivent ces tickets et les confient aux agents, créant une chaîne de valeur naturelle. Cet arrangement joue sur les forces de chacun : les seniors excellent à définir précisément ce qui doit être fait, les agents excellent à exécuter les spécifications claires, et les juniors gagnent en expérience en observant et itérant. Cette dynamique révèle que l'adoption réussie des agents ne remplace pas les humains mais réorganise les rôles et les responsabilités autour de la délégation.

Modèles open-source vs frontier : stratégies divergentes

Le panel explore stratégiquement comment les modèles open-source et frontier se complètent plutôt que de se concurrencer directement. OpenAI a open-sourcé la CLI Codex depuis le départ, reconnaissant qu'un modèle open-source allait émerger et voulant documenter clairement comment utiliser leurs modèles de raisonnement. Factory rapporte une surprise : les modèles open-source comme GLM se sont avérés remarquablement compétitifs, n'étant « pas d'une énorme marge » moins performants que les modèles frontier, bien que tous les sept meilleurs modèles benchmarkés soient dominés par les États-Unis. Depuis la publication du support open-source, Factory constate une augmentation dramatique du pourcentage d'utilisateurs privilégiant les modèles open-source, motivés par le coût réduit et le contrôle accru. V0 utilise une stratégie hybride : modèles closed-source fermés pour les tâches très ouvertes nécessitant un raisonnement de pointe, fine-tunes d'open-source pour les tâches niche bien définies, découvrant qu'une régression de 20% en raisonnement est acceptable quand on gagne en spécialisation. Cette approche pragmatique montre que les 5% d'utilisation d'open-source observés en début d'année devraient atteindre 10-20% à mesure que les modèles open-source franchissent les seuils de viabilité.

Capacités futures des agents : fiabilité, proactivité et autonomie étendue

Les panélistes esquissent une vision claire de l'évolution à venir : les agents vont progresser selon deux axes majeurs. Le premier axe concerne le nombre d'étapes : l'année dernière, les agents fiables (>90% de succès) ne dépassaient 1-3 étapes, aujourd'hui 5-20 étapes sont possibles, et demain on attend 100+ à 200+ étapes pour des tâches durant plusieurs heures. Le deuxième axe porte sur les ressources consommables : autrefois limités au texte du prompt, les agents peuvent aujourd'hui accéder à des connexions externes via MCP ou appels API, mais demain ils devraient découvrir et accéder de manière proactive aux sources de contexte sans configuration explicite de l'utilisateur. Matan ajoute que les agents doivent devenir le collaborateur idéal auquel on se tourne d'abord, combinant codage, architecture, dépannage ET documentation, comprenant les systèmes entiers et persuadant les parties prenantes. L'intervenant d'OpenAI conclut que les agents peuvent déjà faire à peu près tout aujourd'hui, mais c'est le curseur de fiabilité et de proactivité qui va changer, dépendant aussi du degré auquel l'utilisateur configure correctement son environnement et son système.

Community Posts

View all posts