00:00:00(musique entraînante) - Bienvenue au panel sur l'Avenir de l'IA dans le Codage.
00:00:04Merci d'avoir lu le mémo : vous devez tous porter du noir.
00:00:07(rires) Bon,
00:00:08je voudrais couvrir quelques présentations rapides.
00:00:12Je vous connaissais chacun de différentes façons,
00:00:14mais peut-être que l'audience ne vous connaît pas bien.
00:00:17Matan, tu veux commencer ?
00:00:19Quelle est la position de Factory dans le monde plus large de l'IA et du codage ?
00:00:26- Oui,
00:00:26donc chez Factory,
00:00:28notre mission est d'apporter l'autonomie à l'ingénierie logicielle.
00:00:32Et concrètement,
00:00:33nous avons construit des agents de développement logiciel end-to-end appelés droids.
00:00:38Ils ne se concentrent pas seulement sur le codage lui-même,
00:00:40mais vraiment sur tout le cycle de vie du développement logiciel end-to-end.
00:00:43Donc des choses comme la documentation,
00:00:45les tests,
00:00:46les révisions,
00:00:46toutes les parties fastidieuses pour que vous puissiez aussi faire les parties plus amusantes comme le codage lui-même.
00:00:52Et pour les parties du codage que tu ne veux pas faire,
00:00:54tu peux aussi faire faire les droids.
00:00:56Donc tu construis des droids.
00:00:58Tu construis des droids.
00:00:59Et OpenAI a bien sûr besoin peu d'introduction,
00:01:02mais ton rôle dans l'équipe des codecs,
00:01:04je t'ai vu apparaître dans la vidéo des codecs.
00:01:08C'est comme ça que j'ai su que tu travaillais dessus.
00:01:10Mais comment tu vois les codecs ces jours-ci maintenant que c'est tellement expansé ?
00:01:14- Oui,
00:01:15donc plus tôt cette année,
00:01:16nous avons lancé notre premier agent de codage.
00:01:19J'ai travaillé sur la CLI Codex,
00:01:21apportant la puissance de nos modèles de raisonnement sur les ordinateurs des gens.
00:01:26Ensuite nous avons publié Codex Cloud où tu pouvais distribuer et déléguer ces tâches pour qu'elles fonctionnent dans le cloud.
00:01:31Et au cours des derniers mois,
00:01:32nous avons unifié ces expériences.
00:01:34Pour qu'elles fonctionnent aussi facilement que possible.
00:01:36Donc beaucoup de nos efforts portent sur comment rendre les fondamentaux,
00:01:39les primitives aussi utiles que possible.
00:01:41Nous venons de publier le SDK Codex Dev Day.
00:01:43Je pense que l'une des directions clés que nous voyons est non seulement utiliser les agents de codage ou d'exécution de code pour le codage,
00:01:50mais aussi pour des tâches à usage général.
00:01:52Et donc que ce soit l'agent try,
00:01:53sur lequel j'ai travaillé plus tôt cette année,
00:01:55qui exécute réellement du code en arrière-plan pour accomplir certaines tâches,
00:01:58mais en commençant à permettre à nos développeurs de construire sur la base non seulement des modèles de raisonnement,
00:02:03mais aussi des choses comme le sandboxing et toutes les autres primitives que nous avons intégrées dans Codex.
00:02:07- Excellent.
00:02:09V0 ?
00:02:10- L'objectif de V0 est de permettre aux développeurs de faire de la programmation agentique basée sur l'aperçu.
00:02:16Donc aujourd'hui quand tu construis des applications web,
00:02:19tu as probablement un agent ouvert,
00:02:21ton IDE ouvert,
00:02:21une sorte de code,
00:02:22et puis un aperçu de ce que tu es en train de construire.
00:02:25Normalement tu exécutes un serveur de développement.
00:02:26Avec V0,
00:02:27notre objectif est de te permettre d'avoir juste un agent qui tourne et de faire une requête directement contre ton application en cours d'exécution.
00:02:32Et c'est ainsi que nous envisageons l'avenir de l'expérience développeur.
00:02:35- D'accord, excellent.
00:02:36Et tout le monde a différentes surfaces d'accès pour accéder à tes agents de codage.
00:02:40Je pense qu'une des choses qu'on veut vraiment lancer est : à quel point local par rapport au cloud est important ?
00:02:45Tu as commencé en local avec le cloud,
00:02:47tu as commencé en cloud avec le local,
00:02:48tu es cloud uniquement pour l'instant.
00:02:50Quel est l'équilibre ?
00:02:52Est-ce que tout le monde va juste fusionner finalement ?
00:02:55- Oui, donc peut-être je peux commencer là.
00:02:58Je pense qu'au final,
00:02:59le but de ces agents c'est qu'ils soient aussi utiles que possible et qu'ils aient une silhouette très similaire à celle d'un humain avec qui tu pourrais travailler.
00:03:08Et tu n'as pas d'humains locaux et d'humains distants qui sont comme,
00:03:11tu sais,
00:03:11celui-ci ne fonctionne que dans cet environnement,
00:03:14celui-là ne fonctionne que dans cet autre environnement.
00:03:16Généralement,
00:03:16les humains peuvent être utiles que tu sois en réunion avec eux et que vous trouviez une idée,
00:03:21ou que tu sois assis côte à côte à un ordinateur.
00:03:24Donc je suppose qu'asymptotiquement,
00:03:26ceux-ci doivent devenir les mêmes,
00:03:28mais je pense qu'à court terme,
00:03:29distant est généralement,
00:03:31ce que nous voyons c'est que c'est généralement plus utile pour les petites tâches dont tu es plus confiant de pouvoir déléguer de manière fiable.
00:03:39Tandis que local c'est quand tu veux être un peu plus proche de l'agent,
00:03:43c'est peut-être une tâche plus grande ou une tâche plus compliquée que tu vas activement surveiller.
00:03:49Et tu veux que ce soit local donc que si quelque chose tourne mal,
00:03:52tu n'ai pas besoin de tirer cette branche vers le bas puis de commencer à travailler dessus,
00:03:55mais au lieu de cela tu es là pour le guider.
00:03:57- Oui,
00:03:58peut-être que je suis juste avide,
00:04:00mais je veux les deux.
00:04:00Et je pense qu'avoir une modalité,
00:04:02selon le point de vue de Matan,
00:04:04où j'aime réfléchir à quelles sont les formes principales de collaboration que j'ai l'habitude d'avoir et que j'aime avec mes collègues.
00:04:11Souvent ça commence par une session de whiteboarding et peut-être que nous sommes juste en train de d'improviser quelque chose dans une salle.
00:04:17Quand nous construisions,
00:04:19je pense qu'un bon exemple était agents.md,
00:04:21ce sont nos instructions personnalisées destinées à être génériques dans tous les agents de codage différents.
00:04:26La façon dont ça a commencé c'est que Romain et moi étions juste dans une salle en train de réfléchir à cette idée.
00:04:31Puis nous avons juste commencé à faire du whiteboarding,
00:04:33puis avons pris une photo et ensuite l'avons lancé dans Codec CLI en local,
00:04:36juste comme dans un atelier sur une application Next.js sur laquelle nous pouvions travailler,
00:04:40sommes allés déjeuner,
00:04:40sommes revenus.
00:04:41C'était une bonne part de la structure de base.
00:04:44Et ensuite à partir de là,
00:04:45nous avons pu itérer un peu plus étroitement.
00:04:46Donc avoir ce genre d'appairage et ce genre d'expérience de brainstorming.
00:04:49Et puis je pense au deuxième point sur quel genre de tâches tu délègues,
00:04:53je pense qu'historiquement les petites tâches clairement délimitées où tu es très clair sur quel est le résultat,
00:04:59c'est une sorte de modalité appropriée si tu fais un fire and forget.
00:05:02Mais je pense que ce que nous commençons à voir avec,
00:05:05nous avons juste lancé GBD5 Codex il y a deux mois maintenant.
00:05:08Et je pense que l'une des principales différences c'est qu'il peut réellement faire ces tâches plus longues,
00:05:12plus complexes,
00:05:13plus ambiguës,
00:05:14tant que tu es clair sur ce que tu veux à la fin.
00:05:16Donc ça peut fonctionner pendant des heures.
00:05:18Je pense que ce changement à mesure que les modèles augmentent en capacité va commencer à permettre plus de cas d'usage.
00:05:24- Oui.
00:05:24Oui,
00:05:25je pense qu'il y a trois parties pour faire fonctionner un agent.
00:05:27Il y a la boucle d'agent réelle,
00:05:29il y a les appels d'outils qu'il fait,
00:05:30et puis les ressources sur lesquelles les appels d'outils doivent agir.
00:05:34Que tu ailles d'abord en local ou en cloud dépend de l'endroit où se trouvent ces ressources,
00:05:37non ?
00:05:37Si tu essaies de travailler sur un système de fichiers local,
00:05:39ce sont les ressources que tu dois accéder.
00:05:41C'est totalement logique que ta boucle d'agent s'exécute localement,
00:05:44non ?
00:05:44Si tu accèdes à des ressources qui existent généralement dans le cloud tu tires de GitHub,
00:05:48directement d'un référentiel tiers d'une sorte quelconque,
00:05:51alors c'est logique que ton agent commence dans le cloud,
00:05:53non ?
00:05:54Finalement cependant,
00:05:55ces ressources existent aux deux endroits,
00:05:57non ?
00:05:57Chaque développeur s'attend à ce qu'un agent soit capable de travailler à la fois sur le système de fichiers local,
00:06:02ainsi que sur un PR ouvert qui pourrait être hébergé sur GitHub.
00:06:04Et donc ça n'a vraiment pas d'importance où tu commences,
00:06:07je pense,
00:06:07tout le monde converge au même endroit,
00:06:09ce qui est que ta boucle d'agent doit pouvoir s'exécuter n'importe où,
00:06:12tes appels d'outils doivent pouvoir être diffusés du cloud localement ou d'une sauvegarde locale au cloud.
00:06:16Et puis ça dépend juste de l'endroit où se trouvent les ressources sur lesquelles tu veux réellement agir.
00:06:20- Oui, excellent.
00:06:22D'accord,
00:06:22donc nous discutions en coulisse et nous cherchions des questions épicées et des trucs comme ça.
00:06:27Je vraiment aimé celle-ci et je pense qu'elle est très actuelle.
00:06:31Est-ce que vous générez du contenu inutile comme gagne-pain ?
00:06:33Genre on risque potentiellement d'être dans une bulle hype
00:06:40où on croit que c'est une voie durable vers l'AGI ?
00:06:44- Je veux dire,
00:06:45je pense que pour commencer,
00:06:46tu pourrais dire que c'est du contenu inutile pour l'un c'est un trésor pour l'autre,
00:06:50ce qui à certains égards pourrait être vrai.
00:06:52Comme,
00:06:52tu sais,
00:06:53si par exemple tu avais,
00:06:54je ne sais pas,
00:06:55mettons que tu avais un dépôt qui n'avait absolument aucune documentation.
00:07:00Tu pourrais utiliser,
00:07:02tu sais,
00:07:02beaucoup des outils dont nous avons parlé pour aller générer la documentation pour ce dépôt.
00:07:08Maintenant,
00:07:09est-ce que ce va être la pièce de documentation la plus finement élaborée ?
00:07:13Non, mais est-ce que ça apporte de la valeur ?
00:07:16Oui,
00:07:16à mon avis,
00:07:17parce qu'avoir à parcourir une base de code héritée super vieille qui n'a pas de docs c'est beaucoup plus difficile que de regarder une documentation un peu dégradée.
00:07:26Et donc je pense que la grande chose c'est de trouver où tu peux utiliser ces outils pour l'effet de levier et le degré auquel c'est du contenu inutile,
00:07:34je pense aussi que ça dépend beaucoup des conseils que tu fournis.
00:07:38Donc si tu dis juste genre,
00:07:39construis-moi une appli qui fait ça,
00:07:41tu vas probablement obtenir une appli générique inutile qui fait -- - C'est violet.
00:07:44- Oui, bleu, violet genre dégradé, oui.
00:07:48Tandis que si au lieu de ça tu es très méthodique sur exactement ce que tu veux,
00:07:52tu as fourni les outils pour réellement exécuter les tests pour vérifier certaines des capacités que tu demandes.
00:07:58Je pense que ça le rend beaucoup plus structuré,
00:08:01de la même façon que si tu,
00:08:02tu sais,
00:08:03engageais un jeune ingénieur dans ton équipe et que tu disais juste,
00:08:07hé,
00:08:07vas faire ça.
00:08:08Comme ils vont probablement donner un résultat médian parce qu'ils n'ont aucune autre spécification sur laquelle se baser.
00:08:14Et c'est assez ambigu comme ce que tu veux réellement.
00:08:19- Je pense que le mot clé là c'est l'effet de levier, non ?
00:08:21Comme ce que les agents de codage IA te permettent de faire c'est faire 10X plus que tu pourrais faire toi-même avec un plancher assez élevé,
00:08:27non ?
00:08:27Donc si tu traces le niveau de compétence par rapport à la façon dont un agent est utile ou à quel point il est probable,
00:08:31tu sais,
00:08:32la façon dont il est réellement utile pour générer du contenu non-inutile,
00:08:34il y a probablement un plancher assez bas si tu n'as aucune compétence.
00:08:36Tu as un plancher assez élevé, non ?
00:08:38Les agents sont assez bons dès la sortie de la boîte.
00:08:39Si tu ne sais rien sur le développement,
00:08:41l'agent va faire beaucoup plus que tu pourrais éventuellement faire.
00:08:44Mais à mesure que tu atteins des niveaux de compétence plus élevés,
00:08:46senior et principal et ingénieurs distingués utilisent réellement les agents différemment.
00:08:50Ils l'utilisent pour améliorer les choses qu'ils pouvaient déjà faire.
00:08:53Tu sais,
00:08:53un ingénieur principal peut probablement écrire manuellement 5 000 lignes de code par jour.
00:08:57Avec les agents,
00:08:58ils peuvent écrire comme 50 000 lignes de code par jour.
00:09:00Et ça fonctionne vraiment au niveau de la qualité des entrées et des connaissances que tu mets dedans.
00:09:04Donc je pense que nous sommes,
00:09:06tu sais,
00:09:06lentement en train de lever le plancher au fil du temps en,
00:09:09tu sais,
00:09:10construisant de meilleurs agents.
00:09:11Mais je pense vraiment que c'est une forme d'effet de levier.
00:09:14C'est un moyen pour toi d'accélérer les sortes de choses que tu peux déjà faire,
00:09:17les faire plus vite.
00:09:18Et pour les gens qui n'ont pas de compétences,
00:09:20tu sais,
00:09:20c'est quand tu peux réellement vraiment lever le plancher de ce qu'il peut faire.
00:09:23- Absolument,
00:09:24et juste pour ajouter sur ces deux points,
00:09:26je pense qu'ils sont des outils et des amplificateurs de l'artisanat.
00:09:29Si tu l'as, tu peux en faire plus.
00:09:31Si tu ne l'as pas,
00:09:32c'est juste plus difficile,
00:09:33mais ça lève le plancher.
00:09:34Je pense que c'est vraiment worth de le souligner.
00:09:36Je pense que pour les gens qui essaient juste de construire leur premier prototype,
00:09:40ils essaient d'itérer une idée que l'exemple qu'il mentionnait plus tôt.
00:09:44Ce n'est pas que je ne pourrais pas faire un frontend qui est comme un site piloté par le contenu,
00:09:49c'est juste que je n'avais pas le temps.
00:09:51Et c'était plus amusant de juste dessiner sur un tableau blanc,
00:09:54parler,
00:09:54avoir une conversation,
00:09:55et puis le confier à un agent.
00:09:57Mais je pense qu'un des exemples intéressants de ça c'était quand nous construisions beaucoup plus tôt les itérations des Codex et il y a bien plus d'un an.
00:10:03Et nous mettions en face deux archétypes différents,
00:10:06des gens qui faisaient beaucoup d'ingénierie de produit où ils sont habitués à utiliser les outils de la boucle interne locale où ils sont habitués à juste chatter et peut-être itérer.
00:10:19Et puis une modalité complètement différente quand nous parlons aux gens sur les équipes de raisonnement où ils s'assiéraient pendant peut-être cinq minutes juste en définissant la tâche et avoir un problème verbal de la longueur d'un essai pour que l'agent aille faire,
00:10:31et puis ça fonctionnerait pendant une heure.
00:10:33Et c'était effectivement O1 ou des versions antérieures de celui-ci.
00:10:37Et je pense que la partie intéressante c'était juste la façon dont les gens approcheraient de donner la tâche à l'agent était complètement différente basée sur leur compréhension de ce qu'ils pensent qu'il en a besoin.
00:10:48Et donc je pense vraiment qu'il faut mettre l'accent sur la spécificité,
00:10:52être vraiment clair sur ce que tu veux que la sortie soit.
00:10:55Et je pense qu'il y a un élément plus large qui est une responsabilité à la fois sur nous en tant que constructeurs d'agents et les gens formant des modèles à vraiment lever ce plancher et à s'assurer que le plafond pour les gens avec de l'artisanat élevé,
00:11:07avec un goût élevé peuvent l'exercer de la façon qu'ils trouvent appropriée.
00:11:11- Je pense qu'en fait quelque chose que tu as mentionné a apporté cette idée à l'esprit que nous avons commencé à remarquer.
00:11:16Donc notre audience cible c'est l'entreprise.
00:11:19Et quelque chose que nous avons vu se reproduire encore et encore c'est qu'il y a une bimodalité très intéressante en termes d'adoption du développement agent-natif.
00:11:28Et en particulier,
00:11:29normalement plus tôt dans la carrière les développeurs sont plus ouverts d'esprit de commencer à construire de manière agent-native,
00:11:36mais ils n'ont pas l'expérience de gérer les équipes d'ingénierie.
00:11:39Donc peut-être qu'ils ne sont pas très familiers avec la délégation d'une manière qui fonctionne vraiment bien.
00:11:44Pendant ce temps,
00:11:44les ingénieurs plus expérimentés ont beaucoup d'expérience dans la délégation.
00:11:47Ils savent que,
00:11:48hé,
00:11:49si je ne spécifie pas ces choses exactes,
00:11:50ça n'arrivera pas.
00:11:51Et donc ils sont vraiment bons pour,
00:11:53tu sais,
00:11:53écrire ce paragraphe,
00:11:54mais ils sont assez têtus et ils ne veulent vraiment pas changer la façon dont ils construisent et tu vas devoir arracher Emacs de leurs mains froides mortes.
00:12:03Donc c'est un équilibre intéressant là.
00:12:05- C'est drôle que tu dises ça.
00:12:06Similaire ce que nous avons vu dans l'entreprise c'est que les ingénieurs seniors,
00:12:10les gens haut placés vont écrire des tickets.
00:12:12Donc ils vont réellement faire le travail d'écrire tout le spec de ce qui doit être fait.
00:12:16Ils le confient à un jeune ingénieur pour vraiment le faire.
00:12:18Le jeune ingénieur prend ce ticket super bien écrit et le donne à l'agent pour le faire,
00:12:21non ?
00:12:21Donc tu es juste en train d'arbitrer l'idée que le jeune ingénieur va réellement faire le travail de l'agent parce qu'il est plus à l'aise de faire ça.
00:12:28Mais l'ingénieur senior c'est la personne qui est vraiment bonne à écrire le spec,
00:12:32très bonne à comprendre quelles sont les décisions architecturales que nous devrions prendre et en mettant ça dans une sorte de ticket.
00:12:37- Oui,
00:12:38pour ceux qui ne le savent pas,
00:12:39Matan et Factory en général ont écrit et plaidé pour l'ère du développement agent-natif.
00:12:44Donc tu peux en lire plus sur leur site web.
00:12:45Je pense qu'une chose,
00:12:47au fait,
00:12:47je veux soulever peut-être comme une chose de terminologie,
00:12:50ce qui c'est lever le plancher pour toi c'est une bonne chose.
00:12:54Je pense que d'autres gens disent aussi baisser le plancher qui signifient la même chose.
00:12:57Fondamentalement juste genre c'est à propos du niveau de compétence et comme ce qu'ils peuvent faire et juste donner aux gens plus de ressources pour ça.
00:13:05Je pense aussi que l'autre chose c'est que,
00:13:09beaucoup de gens pensent à la couche de modèle,
00:13:13non ?
00:13:13Évidemment vous possédez vos propres modèles,
00:13:17vous deux ne possédez pas.
00:13:18Et je pense qu'il y a un sujet chaud de conversation dans la valeur en ce moment.
00:13:22Airbnb,
00:13:23Brian Chesky a dit que la plupart de la valeur reposait sur Quinn apparemment.
00:13:28À quel point les modèles ouverts sont-ils importants pour vous les gars et vous pouvez,
00:13:32pour ce que vous pouvez aussi peser,
00:13:33mais à quel point la stratégie des modèles ouverts est-elle importante pour vous deux ?
00:13:37- Je serais curieux d'entendre d'abord de toi.
00:13:38- Oui.
00:13:38Aime bien les modèles ouverts.
00:13:42Je pense qu'une des choses importantes,
00:13:44donc juste être capable de parler de modèles,
00:13:46je pense que l'ouverture est vraiment essentielle pour je pense un cycle de développement durable où avec Codex CLI,
00:13:52nous l'avons open-sourcé depuis le départ et une part de la priorité était de comprendre qu'un modèle ouvert allait arriver.
00:13:58Nous voulions nous assurer que nous pourrions au mieux documenter comment utiliser nos modèles de raisonnement.
00:14:03Nous avons vu beaucoup de sortes de confusion sur,
00:14:05quel genre d'outils à donner,
00:14:06quel devrait être l'environnement,
00:14:07les ressources.
00:14:08Et donc nous voulions nous assurer que c'était aussi clair que possible et aussi nous assurer que ça fonctionnait bien avec les modèles ouverts.
00:14:12Donc je pense qu'il y a définitivement beaucoup de cas d'usage,
00:14:16spécialement quand tu entres dans des cas d'usage embarqués ou des cas où tu ne veux pas que les données quittent le périmètre.
00:14:23Il y a beaucoup de vraiment bonnes raisons pour lesquelles tu voudrais faire ça.
00:14:26Et puis je pense que l'avantage des modèles hébergés en cloud,
00:14:29et c'est ce que nous voyons avec beaucoup de modèles ouverts.
00:14:33Ils finissent par être,
00:14:34ils ne s'exécutent pas sur l'appareil,
00:14:35mais ils sont en fait hébergés en cloud quand même,
00:14:38peut-être pour l'efficacité,
00:14:39peut-être pour le coût,
00:14:40qu'il y a toujours beaucoup de valeur juste dans l'intelligence pure que tu obtiens en utilisant un modèle beaucoup plus grand.
00:14:46Et c'est pourquoi nous voyons les gens graviter vraiment vers les modèles d'O3 à GBD5 à GBD5 Codex.
00:14:52Il y a toujours beaucoup de valeur dans ça.
00:14:53Maintenant nous voyons que ce surplomb s'en va toujours,
00:14:57ça se résout où tous les deux mois il y a un nouveau,
00:15:01très petit,
00:15:01très très modèle impressionnant.
00:15:04Et je pense que c'est la magie si nous considérons juste au début de cette année,
00:15:07nous avions O3 mini comme sorte de la frontière et où nous sommes maintenant.
00:15:10Et donc oui,
00:15:11je pense qu'il y a une tonne de valeur dans les modèles ouverts,
00:15:14mais toujours,
00:15:15je pense personnellement,
00:15:16du point de vue de l'utilisation,
00:15:18plus de valeur en utilisant les modèles hébergés en cloud.
00:15:21- Oui, je vais juste intervenir un peu.
00:15:23Ford tient vraiment à la vie privée,
00:15:25la sécurité,
00:15:25la robustesse des agents.
00:15:27Et donc si tu le rencontres, parle-lui plus de ça.
00:15:30Mais pour vous les gars,
00:15:32peut-être que tu veux commencer par,
00:15:33en fait,
00:15:34quel est ton ballpark du pourcentage de tokens du modèle ouvert générés dans tes applications respectives ?
00:15:39Et va-t-il monter ou descendre ?
00:15:42- Donc je suppose,
00:15:42donc peut-être pour commencer,
00:15:44parce que je pense que ce que tu as dit est vraiment intéressant.
00:15:47Il y a quelques semaines,
00:15:48quand nous avons publié notre outil Factory CLI,
00:15:50les gens étaient vraiment intéressés parce que nous l'avons aussi publié avec notre score sur ce benchmark appelé Terminal Bench.
00:15:57Et une des premières demandes était,
00:15:58pouvez-vous les gars mettre les modèles open source à l'épreuve ?
00:16:02Parce que notre agent droid est complètement agnostique au modèle.
00:16:04Donc immédiatement les gens étaient genre,
00:16:06jette les modèles open source et montre-nous comment ça se passe.
00:16:09Et je pense que quelque chose qui était particulièrement surprenant c'était que les modèles open source,
00:16:14et en particulier GLM,
00:16:15étaient vraiment,
00:16:16vraiment bons.
00:16:17Ils étaient en fait évidemment moins performants que les modèles de frontière,
00:16:22mais pas d'une énorme marge.
00:16:24Je pense,
00:16:24donc une chose qui était remarquable cependant c'était quand nous avons benchmarké les modèles open source,
00:16:30sur les sept qui étaient au top,
00:16:32l'un d'eux a été fait aux États-Unis par vous savez qui ici,
00:16:35ce que je pense est un peu une honte.
00:16:37Comme le fait que de loin les modèles de frontière,
00:16:41c'est États-Unis dans tous les cas.
00:16:43Mais alors quand ça vient aux modèles ouverts,
00:16:45nous laissons vraiment tomber.
00:16:47Donc je pense que c'est une chose qui est remarquable et je pense que quelque chose que,
00:16:51au moins quand j'ai vu ça,
00:16:52j'ai vraiment pensé qu'il devrait y avoir un appel aux armes là en termes de changer ça.
00:16:56Parce que je pense pour répondre à ta question,
00:16:58ce que nous avons trouvé c'est que depuis que nous avons publié le support pour les modèles open source,
00:17:03le pourcentage de gens qui utilisent les modèles open source a dramatiquement augmenté.
00:17:08Partiellement à cause du coût et que,
00:17:10tu sais,
00:17:10ça te permet,
00:17:11mettons dans cet exemple de documentation,
00:17:13peut-être tu veux générer des docs,
00:17:15mais tu ne veux pas que ce soit comme,
00:17:16tu sais,
00:17:17sur du super raisonnement élevé,
00:17:18comme au max,
00:17:19comme ça te coûte mille dollars,
00:17:20mais tu veux juste obtenir comme une première passe initiale.
00:17:24Et aussi les gens aiment avoir un peu plus de contrôle.
00:17:28Et je sens qu'ils obtiennent beaucoup plus de ce contrôle avec certains de ces modèles open source,
00:17:34à la fois le contrôle et le coût et juste une sorte d'observabilité dans ce qui se passe réellement là.
00:17:39Donc je pense que la demande a augmenté à un point où je ne m'y attendais pas il y a un an.
00:17:43Je pense qu'il y a un an,
00:17:45j'étais moins optimiste sur les modèles open source que je ne le suis maintenant,
00:17:48open-weight,
00:17:49mais oui.
00:17:49- Oui,
00:17:50je pense que nous utilisons à la fois les modèles open source et closed source dans notre pipeline d'agent global.
00:17:55Et je pense que la façon dont nous les envisageons c'est qu'il y a deux cas d'utilisation différents pour un appel LLM.
00:17:58L'un c'est tu veux le raisonnement de pointe.
00:18:01C'est une question très, très ouverte.
00:18:02Tu ne sais pas réellement quelle est la réponse.
00:18:04L'objectif c'est comme,
00:18:05la fonction objectif n'est pas super bien définie.
00:18:07Dans ces cas,
00:18:08les modèles closed source sont toujours de pointe en ce qui concerne le raisonnement et l'intelligence.
00:18:13Nous utilisons les modèles closed source presque exclusivement pour ce genre de cas d'usage.
00:18:16Il y a un deuxième cas d'utilisation où nous avons une tâche plus de niche avec une fonction objectif beaucoup plus claire.
00:18:22Dans ces cas,
00:18:23nous essayons presque toujours de fine-tuner un modèle open source.
00:18:26Nous sommes heureux de prendre un coup de 20% peut-être en termes de capacité de raisonnement pour que nous puissions réellement fine-tuner un cas d'usage très,
00:18:34très spécifique.
00:18:35Et je pense qu'on a découvert que les modèles open source rattrapent très,
00:18:39très,
00:18:39très vite.
00:18:39Il y a un an et demi,
00:18:41c'était impensable pour nous d'utiliser des modèles open source dans le pipeline de v0.
00:18:45Aujourd'hui,
00:18:45on se demande pour chaque partie du pipeline : on peut intégrer des modèles open source ici ?
00:18:49On peut remplacer ce qu'on fait actuellement avec les modèles state-of-the-art fermés par un fine-tune d'un modèle open source ?
00:18:57Et on a eu énormément de succès avec Qwen,
00:19:00QEMI-K2,
00:19:00et d'autres modèles de ce type.
00:19:02Ouais,
00:19:03je vais signaler que c'est l'une des plus grandes évolutions que j'ai observée partout,
00:19:07parce qu'en début d'année,
00:19:08j'ai fait un podcast avec Ankur de BrainTrust,
00:19:10et il a dit que l'utilisation de modèles open source représentait à peu près 5% dans ce qu'observe BrainTrust,
00:19:16et ça baissait.
00:19:17Et maintenant,
00:19:17je pense que ça va raisonnablement passer à 10 à 20% pour tout le monde.
00:19:22Je pense que c'est intéressant que même les modèles fermés investissent davantage dans leurs petits modèles.
00:19:29Les Haiku,
00:19:29les GPT-5 Mini,
00:19:30les Gemini Flash et autres,
00:19:32et je pense que cette classe de modèles est celle qui rivalise le plus avec l'open source.
00:19:38C'est la petite classe de modèles qui rivalisent avec un fine-tune d'un modèle open source.
00:19:42Et je pense aussi qu'il y a des cas d'usage où utiliser un modèle frontier ce serait juste du surengagement,
00:19:47et si c'est du surengagement,
00:19:49tu vas évidemment être incité à utiliser quelque chose de plus rapide et moins cher.
00:19:53Et je pense que c'est en partie lié à ce delta en termes de pourcentage d'utilisation : c'est le moment où les modèles open source franchissent le seuil où ils suffisent pour la plupart des tâches,
00:20:05et puis pour certaines tâches spécifiques,
00:20:07tu as besoin de ce petit supplément.
00:20:10Je pense qu'on y arrive vraiment avec certains de ces modèles open source,
00:20:13c'est pour ça que je m'attends à voir davantage d'utilisation à l'avenir.
00:20:16Ouais, super, c'est très encourageant.
00:20:18On a un peu de temps avant la dernière question,
00:20:20alors voilà : y a-t-il quelque chose que vos agents ne peuvent pas faire aujourd'hui et que vous aimeriez qu'ils fassent,
00:20:25qu'ils feront probablement l'année prochaine ?
00:20:27Je commence ?
00:20:31D'accord.
00:20:32Ouais,
00:20:32je pense que sur l'année écoulée,
00:20:35pour commencer par un point de repère avec o1,
00:20:38il y a un peu plus d'un an,
00:20:39ou la preview de o1,
00:20:41ce qu'on a vu depuis,
00:20:42quand j'utilisais les premières versions de ce modèle,
00:20:46c'était bien par rapport à GPT-4,
00:20:48mais il manquait tellement de choses.
00:20:51Je ne l'aurais pas mis au même niveau,
00:20:53j'étais dans l'équipe de sécurité à ce moment-là,
00:20:55et il y avait beaucoup de travail et de tâches que je ne pouvais tout simplement pas déléguer à ce modèle.
00:21:00Et quand on compare avec aujourd'hui,
00:21:02où je peux prendre une tâche bien définie,
00:21:04genre deux phrases,
00:21:05quelques points clés pour revenir sur ce que tu disais,
00:21:07et voilà les pièges sur lesquels je pense que tu vas bloquer,
00:21:10et puis tu reviens 30 minutes plus tard,
00:21:12une heure plus tard,
00:21:13c'est fait.
00:21:14On a vu des cas où ça tournait pendant plusieurs heures,
00:21:17peut-être même sept ou huit heures,
00:21:18pratiquement une journée complète,
00:21:20alors que j'occupe une grande partie de ma journée en réunions et que je n'ai pas forcément ce bloc de temps solide.
00:21:26Mais ce n'est que la moitié de ce qu'est vraiment l'ingénierie.
00:21:30Une moitié c'est le codage,
00:21:31l'architecture,
00:21:32le dépannage et le débogage.
00:21:34L'autre moitié c'est la documentation,
00:21:36comprendre le système,
00:21:37convaincre les gens.
00:21:39Et donc je pense qu'on va commencer à voir ce super collaborateur où ce qu'on veut apporter,
00:21:45que ce soit via les codecs ou ces autres interfaces via le modèle codecs,
00:21:49c'est le collaborateur idéal avec lequel tu veux travailler.
00:21:53La personne vers qui tu te tournes d'abord,
00:21:56ce collègue préféré avec qui tu veux discuter d'idées,
00:21:59c'est vraiment ce qu'on veut voir,
00:22:01du moins avec codecs.
00:22:02Pour nous,
00:22:03on a vu beaucoup de progression sur deux fronts différents.
00:22:07Le premier,
00:22:07c'est : combien d'étapes peut-on raisonnablement attendre d'un agent pour avoir une sortie correcte ?
00:22:14L'année dernière,
00:22:14c'était probablement une,
00:22:16maximum trois,
00:22:16d'accord ?
00:22:17Si tu voulais une sortie fiable avec plus de 90% de réussite,
00:22:19tu tournais généralement une à trois étapes d'agent.
00:22:22Aujourd'hui,
00:22:22la plupart des outils font de cinq à 20 avec pas vraiment de taux de fiabilité formidable,
00:22:27au-dessus de 90% de réussite.
00:22:29Je pense que l'année prochaine,
00:22:30on va ajouter ça,
00:22:31genre 100 plus,
00:22:32200 plus,
00:22:32tu lances des tonnes d'étapes en même temps,
00:22:34tu as des tâches longues pendant plusieurs heures et tu es certain que tu vas avoir une sortie utile à la fin.
00:22:40Le second c'est en termes de quelles ressources peuvent être consommées.
00:22:42Il y a un an,
00:22:43c'était tout ce que tu mettais dans le prompt,
00:22:45c'était à peu près tout.
00:22:47Aujourd'hui,
00:22:47tu peux configurer des connexions externes via MCP ou en faisant des appels API directement dans ton application.
00:22:55Tu peux faire ça si tu es compétent,
00:22:57tu as la capacité de configurer les choses.
00:22:58Et je pense que dans un an, ça va juste se faire tout seul.
00:23:00Ça va juste fonctionner.
00:23:02L'objectif c'est que tu ne devrais pas avoir besoin de savoir quelles sources de contexte tu dois fournir à l'agent.
00:23:06L'agent va réellement aller trouver ces sources de contexte de manière proactive.
00:23:09On commence déjà à voir ça aujourd'hui,
00:23:11mais je ne suis pas vraiment confiant que ce soit très fiable et utile aujourd'hui.
00:23:16Je pense qu'à partir de l'année prochaine,
00:23:17ce sera le mode par défaut.
00:23:18Ouais, je serais d'accord avec ça.
00:23:19Je pense que les agents peuvent faire à peu près tout aujourd'hui,
00:23:23mais le degré de fiabilité et de proactivité avec lequel ils le font,
00:23:27c'est le curseur qui va changer.
00:23:29Mais c'est un curseur qui dépend aussi de l'utilisateur.
00:23:31Genre si tu es un utilisateur qui ne change vraiment pas ton comportement et qui ne va pas à la rencontre de l'agent,
00:23:36alors tu pourrais obtenir une fiabilité et une proactivité moins bonnes.
00:23:38Alors que si tu configures correctement ton système ou tu mets en place correctement ton environnement,
00:23:43tu vas pouvoir faire plus de ça de manière fiable et plus proactive.
00:23:45Ouais, c'est fou.
00:23:46Bon, c'est bon, on est à court de temps.
00:23:48Ma contribution c'est la vision par ordinateur.
00:23:49Essayez tous Atlas.
00:23:51Essayez plus de cas d'usage en vision par ordinateur,
00:23:54mais merci beaucoup de votre temps.
00:23:55Merci.
00:23:56(applaudissements du public) (musique optimiste)