00:00:00Mais, que ce soit sur les 10,
00:00:0320 ou 30 dernières années,
00:00:04combien de modèles rentables y a-t-il eu durant cette période ?
00:00:09La réponse est : une infinité. C'est d'ailleurs prouvable.
00:00:12Bonjour à tous, ici Wall Street Guy.
00:00:21Aujourd'hui, nous allons parler de l'investissement quantitatif.
00:00:24Dans les commentaires YouTube ou par e-mail,
00:00:26certains m'ont demandé d'expliquer le trading quantitatif.
00:00:29Selon mes objectifs et le programme de la chaîne,
00:00:33le trading algorithmique ou quantitatif
00:00:36n'était pas prévu au programme dans l'immédiat.
00:00:38Cependant, parmi l'audience de la chaîne,
00:00:40environ 15 % des abonnés pratiquent déjà ce type de trading.
00:00:44Comme certains aspects actuels m'inquiètent un peu,
00:00:48j'ai décidé de réaliser cette vidéo.
00:00:50Au programme aujourd'hui : d'abord les bases et principes du quant,
00:00:53pour avoir une vue d'ensemble,
00:00:56puis nous verrons 10 points de vigilance essentiels.
00:00:59En gardant ces 10 points à l'esprit, vous éviterez
00:01:04de perdre énormément de temps
00:01:06ou d'utiliser des méthodologies de backtesting erronées
00:01:09qui pourraient vous conduire
00:01:11à subir des pertes massives.
00:01:15Bien que ce soient des notions fondamentales,
00:01:18même les formations payantes très chères sur le marché
00:01:21ne semblent pas les aborder en détail.
00:01:24Au contraire, ces formations ont tendance
00:01:27à embellir la réalité du backtesting et de l'investissement quantitatif.
00:01:31Si vous retenez ces 10 points, peu importe les informations
00:01:35ou les services que vous utiliserez à l'avenir,
00:01:39vous saurez comment vous protéger et rester prudent.
00:01:43Avant de commencer, j'ai publié il y a quelques jours
00:01:47un court message sur un ton assez vif,
00:01:49et je pense avoir fait une erreur.
00:01:51J'écrivais que le marketing viral et la publicité mensongère
00:01:54autour de l'investissement quantitatif devenaient excessifs.
00:01:55Cela a engendré des commentaires haineux
00:01:59visant des personnes ou des entreprises spécifiques.
00:02:02J'ai donc supprimé le post pour ne pas leur porter préjudice.
00:02:06Après tout, il ne s'agit pas de pratiques illégales
00:02:09comme les groupes de signaux frauduleux ou les courtiers illégaux.
00:02:12Je me suis peut-être montré un peu trop intrusif.
00:02:16D'un autre côté, concernant les comptes de prêt illégaux,
00:02:19les utilisateurs savent souvent que c'est hors la loi
00:02:22et y participent par pure cupidité.
00:02:25Mais en observant les débats actuels sur le quant,
00:02:28je vois des gens honnêtes qui veulent simplement s'investir
00:02:33pour améliorer leur gestion financière.
00:02:35Ces personnes qui découvrent l'investissement quantitatif
00:02:37pourraient vraiment en pâtir.
00:02:40Le terme “quantitatif” évoque la science et les statistiques,
00:02:46ce qui peut induire en erreur sur la part de subjectivité réelle.
00:02:51L'illégalité d'un groupe de signaux est flagrante,
00:02:55donc on peut facilement l'éviter,
00:02:56mais ici, des victimes de bonne foi pourraient apparaître.
00:03:01On leur dit qu'on devient expert en quelques jours,
00:03:04ou que telle stratégie est validée par des décennies de données,
00:03:08ou encore que comme elle a rapporté 20 % par an sur 10 ans,
00:03:11elle continuera forcément sur cette lancée.
00:03:14Même si ces propos ne sont pas toujours malveillants,
00:03:18parmi les nombreux investisseurs débutants,
00:03:20certains vont se méprendre.
00:03:23Ils perdront un temps fou en backtesting
00:03:25et finiront par subir des pertes financières.
00:03:27Surtout s'ils accordent une foi aveugle à ces résultats passés.
00:03:32Aux États-Unis, selon les règles de la SEC, un fonds
00:03:35qui ferait un tel marketing serait immédiatement sanctionné.
00:03:38J'aimerais que ceux qui parlent d'investissement quantitatif
00:03:41mesurent davantage la responsabilité qu'implique l'argent d'autrui.
00:03:45Je ne sais pas combien de temps je continuerai YouTube,
00:03:47mais je ne dis pas cela pour jouer les moralisateurs.
00:03:51Ayant moi-même connu de graves problèmes d'argent
00:03:52au milieu de ma vingtaine, je sais ce que l'on ressent.
00:03:56C'est un sentiment que je connais trop bien.
00:03:58C'est d'ailleurs pour cela que je parle souvent du mental
00:04:01et que je partage mes propres échecs de jeunesse.
00:04:05Je reçois énormément de demandes de conseils à ce sujet.
00:04:09Chaque semaine, je reçois plusieurs e-mails d'abonnés
00:04:14qui sont dévastés après avoir perdu des sommes colossales.
00:04:16Les créateurs de contenu sur la finance ou l'immobilier
00:04:20devraient parfois faire leur propre examen de conscience.
00:04:24Moi-même, avec ma série sur les 80 jours d'investissement,
00:04:26j'ai eu l'impression de glisser vers un rôle de donneur de signaux.
00:04:29Dès que ce marché baissier sera passé, je compte revenir aux sources.
00:04:33Cette vidéo est donc faite dans cet esprit de bienveillance.
00:04:37Je ne vise aucune personne ni aucune entreprise en particulier.
00:04:40Les acteurs du marketing quantitatif
00:04:43peuvent aussi ignorer certains de ces aspects.
00:04:46L'idée est que nous progressions tous ensemble
00:04:49en prenant conscience de ces réalités.
00:04:51S'il vous plaît, évitez donc de citer des noms
00:04:55ou de lancer des attaques dans les commentaires.
00:04:57Après cette longue introduction,
00:04:58voyons d'abord les différentes catégories de quant.
00:05:01Le terme “quant” est très vaste et recouvre plusieurs définitions.
00:05:04Pour simplifier, nous pouvons les classer
00:05:07par horizon temporel, en commençant par le trading haute fréquence.
00:05:10Au sein de l'HFT, il y a l'ultra-HFT,
00:05:12où la latence est cruciale.
00:05:14On place les serveurs directement chez les boursiers (colocalisation),
00:05:19on code au niveau du langage machine,
00:05:20et on optimise même les composants matériels.
00:05:22C'est un niveau de trading extrêmement technique.
00:05:24Ensuite, avec un horizon temporel un peu plus long,
00:05:28on trouve le trading algorithmique.
00:05:29Il utilise des indicateurs techniques ou des systèmes basés sur des règles.
00:05:33C'est une approche très prisée par les particuliers
00:05:35et popularisée par les plateformes de backtesting actuelles.
00:05:39Vient ensuite l'arbitrage statistique,
00:05:41comme le “pair trading”.
00:05:42On s'appuie sur des modèles et des méthodes statistiques
00:05:44pour identifier des comportements de prix.
00:05:46On cherche des motifs historiques
00:05:48en supposant un retour à la moyenne,
00:05:50et on base ses transactions là-dessus.
00:05:52Il y a aussi l'investissement factoriel (Factor Investing).
00:05:54C'est plus long terme : on cherche des facteurs de momentum, de valeur, de carry,
00:05:59c'est-à-dire ce qui fait réellement bouger les prix.
00:06:01On essaie de dégager de l'alpha par ce biais.
00:06:03Enfin, un sujet très en vogue ces dernières années
00:06:06est le “Quantamental”.
00:06:07Il s'agit de quantifier et d'automatiser l'analyse fondamentale,
00:06:10en y intégrant l'analyse de données massives
00:06:12et de données alternatives pour l'investissement à long terme.
00:06:16Dans le même esprit, l'apprentissage automatique (Machine Learning),
00:06:18le Big Data et ces données alternatives
00:06:20s'étendent désormais à tous les domaines.
00:06:23Ces distinctions sont faites pour plus de clarté,
00:06:26mais les frontières restent souvent floues.
00:06:28On peut parfois englober tout cela sous le terme
00:06:30de trading algorithmique.
00:06:31Pour aujourd'hui, je vais traiter
00:06:33le trading quantitatif de manière générale,
00:06:35en regroupant toutes ces approches.
00:06:37Les principes du trading quantitatif sont :
00:06:40Premièrement, avoir une idée d'investissement ou une hypothèse.
00:06:42Deuxièmement, effectuer un backtesting.
00:06:44On teste cette idée ou cette hypothèse
00:06:47sur des données historiques.
00:06:50et on vérifie alors si, par le passé,
00:06:51Then, when we applied it to past data like this,
00:06:54elle aurait effectivement généré des profits
00:06:56en conditions réelles.
00:06:57Si le backtesting est concluant,
00:07:00on passe au trading réel,
00:07:01tout en assurant une gestion des risques.
00:07:03C'est ainsi que se décompose le processus en quatre étapes.
00:07:06Jusqu'au milieu des années 2010,
00:07:09le quant était réservé aux institutions,
00:07:13et plus précisément aux fonds spécialisés
00:07:16employant des docteurs en sciences.
00:07:18Mais les outils d'exécution
00:07:21se sont démocratisés au sein des institutions,
00:07:23et avec l'arrivée de services comme Quantopian aux États-Unis,
00:07:25le backtesting est devenu accessible à tous.
00:07:28Désormais, n'importe quel particulier
00:07:30peut s'essayer au trading quantitatif,
00:07:33ce qui est une tendance forte.
00:07:35Malheureusement, cela s'accompagne aussi
00:07:38d'une mauvaise compréhension de la discipline.
00:07:40Prenons un exemple concret.
00:07:42Disons qu'en testant un PBR inférieur à 0,92 sur 15 ans
00:07:46en investissant dans des entreprises en croissance sur 12 mois,
00:07:48on obtient un rendement annuel de 20,2 %.
00:07:51Si on modifie légèrement le PBR,
00:07:53on obtient, par exemple, 14 % ou 17,8 %.
00:07:56En comparant ces différents backtests,
00:07:58on constate que le premier résultat est le meilleur.
00:08:01On conclut alors qu'il faut investir
00:08:03en suivant précisément cette règle.
00:08:04C'est un raisonnement que l'on voit très souvent.
00:08:07Pourtant, c'est l'exemple type d'une erreur fondamentale.
00:08:09Réfléchissez-y un instant.
00:08:12Le backtesting consiste à espérer que les motifs du passé
00:08:14se répéteront dans le futur,
00:08:16ce qui est une hypothèse sans aucune garantie.
00:08:18On cherche simplement ce qui a fonctionné hier.
00:08:21Mais sur une période de 10, 20
00:08:24ou 30 ans,
00:08:26combien existe-t-il de combinaisons
00:08:29qui auraient été rentables ?
00:08:30Faites une pause et essayez de deviner.
00:08:32La réponse est : une infinité.
00:08:34Et c'est mathématiquement prouvable.
00:08:36Comme les paramètres des stratégies sont continus,
00:08:38il existe un nombre illimité de stratégies gagnantes a posteriori.
00:08:42Le vrai problème est : lesquelles fonctionneront encore demain ?
00:08:46C'est là tout le cœur du trading quantitatif.
00:08:50Trouver ce qui a été rentable dans le passé
00:08:52est à la portée de n'importe qui
00:08:55avec un bon outil de backtesting.
00:08:56Mais identifier ce qui restera performant dans le futur
00:09:00est extrêmement difficile.
00:09:02C'est comme chercher une aiguille dans une botte de foin.
00:09:04En parcourant divers blogs et sites
00:09:07en Corée,
00:09:09j'ai vu que la “Formule Magique” de Joel Greenblatt
00:09:12est devenue très célèbre.
00:09:13Il propose une méthode très simple,
00:09:15basée sur des filtres de capitalisation
00:09:17établi une formule de sélection d'actions
00:09:20et a écrit un livre sur cette “Formule Magique” d'investissement.
00:09:24C'est devenu un sujet brûlant,
00:09:25et elle semble être très connue des investisseurs particuliers.
00:09:28Mais cet homme est aussi extrêmement célèbre dans le milieu des hedge funds.
00:09:31Il investit depuis les années 1980,
00:09:33et durant sa période d'activité, il a enregistré
00:09:35des rendements supérieurs à ceux de Warren Buffett.
00:09:37C'est pourquoi sa formule magique a suscité autant d'intérêt.
00:09:40Mais pour en venir au fait,
00:09:42Greenblatt n'est pas un adepte du pur quantitatif,
00:09:44et son fonds n'investissait pas uniquement selon cette formule.
00:09:47Ces excellents rendements ne provenaient pas seulement de la formule.
00:09:50Ce fonds pratiquait l'investissement axé sur la valeur,
00:09:52ainsi que l'investissement dans des “situations spéciales”.
00:09:54Il s'agissait, par exemple, de spin-offs,
00:09:57lorsqu'une entreprise se sépare d'une filiale,
00:09:59en profitant des écarts de prix qui en découlent.
00:10:01Ils captaient ces opportunités spécifiques pour générer du profit
00:10:04en combinant ces différentes méthodologies.
00:10:07Et pour la partie investissement de valeur, je ne pense pas
00:10:10qu'ils utilisaient une formule aussi simpliste.
00:10:12Certes, elle devait servir de cadre de réflexion.
00:10:14Mais ils n'achetaient probablement pas mécaniquement
00:10:18juste parce que la formule le disait.
00:10:20Si l'on effectue un backtesting des résultats
00:10:22depuis la publication de la formule en 2005,
00:10:26la ligne grise représente l'indice S&P 500
00:10:28et la ligne verte la formule magique.
00:10:29Comme vous le voyez, après une forte volatilité,
00:10:32elle a constamment sous-performé.
00:10:34Cela s'apparente aux résultats des ETF actions systématiques.
00:10:37Avec la multiplication de ce type d'investissements
00:10:40et l'efficience accrue des marchés,
00:10:42on peut dire que cet avantage comparatif a disparu.
00:10:44Même une formule aussi célèbre peine aujourd'hui, ce qui prouve
00:10:48qu'il est très facile d'identifier des schémas rentables dans le passé.
00:10:50On peut même en faire un livre.
00:10:53Mais trouver un schéma qui restera rentable à l'avenir
00:10:56demande un travail absolument colossal.
00:11:00Une stratégie offrant 20 % par an en quelques clics
00:11:03et trois jours de réflexion, ça n'existe pas.
00:11:06Un autre exemple est celui de Quantopian.
00:11:08C'est une start-up créée vers 2011 aux États-Unis
00:11:12qui proposait une plateforme facilitant énormément le backtesting.
00:11:16300 000 utilisateurs y ont réalisé 12 millions de backtests,
00:11:20testant et créant une multitude de stratégies quantitatives.
00:11:24Le célèbre milliardaire Steve Cohen y a investi,
00:11:27lui qui est un grand gérant de hedge fund.
00:11:29Et les meilleurs experts de Quantopian
00:11:32ont même publié des articles de recherche
00:11:34sur les critères et les méthodes statistiques
00:11:37permettant de sélectionner les stratégies
00:11:40qui seraient encore performantes à l'avenir.
00:11:41Ils ont mené des recherches très intensives
00:11:44pour sélectionner ces stratégies
00:11:46dans l'idée de lancer un nouveau hedge fund.
00:11:48C'était leur ambition,
00:11:49mais ce fut un échec cuisant.
00:11:51Ils ont fini par mettre la clé sous la porte l'année dernière.
00:11:53Pourquoi de tels phénomènes se produisent-ils ?
00:11:55Et pour vous qui souhaitez vous lancer dans l'investissement quantitatif,
00:11:58comment pouvez-vous éviter un tel résultat ?
00:12:02Évidemment, on ne peut pas l'éviter totalement.
00:12:03C'est une tâche extrêmement ardue selon moi.
00:12:07Néanmoins, si vous voulez relever le défi,
00:12:10gardez à l'esprit au moins ces 10 points
00:12:12et soyez particulièrement vigilants.
00:12:13Je vais vous les détailler un par un.
00:12:16En suivant ces 10 principes,
00:12:17vous éviterez de perdre du temps avec de mauvais backtests
00:12:22et de subir des pertes financières inutiles.
00:12:24Bien sûr, un bon backtesting ne garantit pas des profits.
00:12:27Le premier point est de toujours douter des données.
00:12:31Certains utilisent des données venant de Google ou Yahoo,
00:12:34mais ces données sont souvent très, très “sales”.
00:12:37Ceux qui partent de zéro dans le trading quantitatif
00:12:41rencontrent énormément d'obstacles liés aux données.
00:12:45Ces données gratuites sont souvent erronées et imprécises.
00:12:47Et concernant le nettoyage des données,
00:12:50l'étape où l'on rend les données exploitables,
00:12:51on pourrait croire qu'il suffit de corriger les erreurs.
00:12:54Mais en réalité, le jugement subjectif
00:12:57et les biais de l'analyste s'y glissent inévitablement.
00:12:59Prenons un exemple concret.
00:13:01Supposons qu'une action s'échange entre 41 $ et 43 $
00:13:05avant la clôture du marché.
00:13:06Mais juste avant la fin de la séance,
00:13:08un trader fait une erreur de saisie
00:13:11et une action est exécutée à 28 $.
00:13:14Stricto sensu,
00:13:16le cours le plus bas de la journée est de 28 $.
00:13:18Ce trader a subi une perte à cause de son erreur,
00:13:21mais le point bas enregistré devrait être 28 $.
00:13:24C'est la réalité des faits.
00:13:25Alors, comment fixer les plus hauts et les plus bas ?
00:13:28Ignorer ce prix et fixer le plus bas à 41 $
00:13:31revient à supprimer une transaction
00:13:34et un point bas qui ont réellement existé.
00:13:36Cependant, si vous ne le supprimez pas,
00:13:38et que vous testez par exemple
00:13:40une stratégie qui achète si le cours chute
00:13:44de plus de 5 % en moins de 5 minutes,
00:13:45votre backtest pourrait considérer
00:13:47que vous avez acheté l'action à 28 $.
00:13:48Le logiciel validera cet achat.
00:13:51Il considérera que vous avez acheté à 28 $
00:13:53pour revendre au prix de clôture de 42 $,
00:13:55réalisant ainsi un gain immédiat.
00:13:58Le rendement de cette stratégie
00:13:59serait alors artificiellement gonflé.
00:14:01S'il ne s'agit que d'une action, on peut l'ignorer,
00:14:03mais que se passe-t-il si l'erreur porte
00:14:06sur 10, 100 ou même 10 000 actions ?
00:14:09Ces cas de figure arrivent réellement.
00:14:11Cela se produit de temps à autre.
00:14:14Il y a eu des erreurs massives
00:14:17faisant perdre des dizaines de millions de dollars.
00:14:20Mais des erreurs de 100 ou 1 000 actions
00:14:21sont plus fréquentes qu'on ne le pense.
00:14:23Certes, ces dernières années,
00:14:24avec la généralisation des algorithmes
00:14:25pour l'exécution des ordres,
00:14:27des garde-fous ont été mis en place.
00:14:29C'est donc moins fréquent qu'auparavant,
00:14:31mais pour faire du backtesting,
00:14:33on utilise souvent des données antérieures à ces systèmes,
00:14:36remontant à 2005 ou 2011.
00:14:37Dans ces périodes plus anciennes,
00:14:39on trouve régulièrement ce genre d'anomalies.
00:14:41Comment allez-vous traiter ces données ?
00:14:43De plus, certains actifs sont cotés
00:14:44sur plusieurs places boursières.
00:14:45Dans ce cas, il faut vérifier
00:14:47si les données provenant de ces différentes bourses
00:14:49ont été correctement consolidées
00:14:50pour les prix hauts et bas,
00:14:52ainsi que pour les volumes de transaction.
00:14:53Est-ce une base de données propre et unifiée ?
00:14:56Ou bien s'agit-il de données
00:14:57provenant de quelques bourses seulement,
00:14:59rendant votre backtesting
00:15:01basé sur des données incomplètes ?
00:15:02C'est un risque réel,
00:15:04surtout si le coût des données est bas.
00:15:05Et pour calculer le Drawdown Maximum (MDD),
00:15:07utilisez-vous les prix les plus bas ou les prix de clôture ?
00:15:09Par exemple, pour une stratégie
00:15:11de rééquilibrage mensuel,
00:15:13lors du backtesting,
00:15:14on utilise souvent des données quotidiennes
00:15:15en se basant uniquement sur les prix de clôture.
00:15:17Mais en réalité,
00:15:18pour calculer correctement la perte maximale,
00:15:20il faudrait aussi prendre en compte
00:15:21le drawdown intra-journalier.
00:15:22Ce sont des détails cruciaux.
00:15:24De même, pour les contrats à terme (futures),
00:15:26qui ont une date d'expiration,
00:15:27comment gérez-vous le “rollover” ?
00:15:29En backtesting,
00:15:31on crée souvent des séries temporelles continues
00:15:33en raccordant les différents contrats.
00:15:34Mais la manière
00:15:35dont ce passage d'un contrat à l'autre
00:15:37est comptabilisé est déterminante.
00:15:38Les problèmes de ce genre
00:15:39sont extrêmement nombreux.
00:15:40Avez-vous pris le temps de réfléchir
00:15:42à ces problématiques de données ?
00:15:44Si vous utilisez un service de backtesting tiers,
00:15:47allez-vous simplement leur faire confiance aveuglément ?
00:15:51Il est impératif de vérifier ces éléments,
00:15:53car les erreurs de données sont très fréquentes
00:15:57et peuvent totalement
00:15:59fausser vos résultats.
00:16:01Un autre problème majeur lié aux données
00:16:04est le biais de survie.
00:16:06C'est l'une des erreurs les plus classiques en backtesting.
00:16:08Cette illustration montre une situation
00:16:10datant de la Première ou Seconde Guerre mondiale.
00:16:12L'armée de l'air voulait renforcer ses avions.
00:16:16Ils cherchaient à savoir quelles parties
00:16:18de la carlingue devaient être blindées en priorité.
00:16:20Pour le déterminer,
00:16:21les ingénieurs ont examiné
00:16:24tous les avions revenus du combat
00:16:26pour répertorier
00:16:28les zones les plus touchées par les tirs.
00:16:29Ils ont constaté que certaines zones étaient criblées de balles,
00:16:33et ont donc conclu
00:16:34qu'il fallait renforcer ces endroits précis
00:16:36avec des plaques d'acier plus épaisses.
00:16:38Mais c'était une erreur monumentale.
00:16:40Pourquoi ? Parce que les avions
00:16:42touchés dans les autres zones,
00:16:42comme ici ou là,
00:16:44n'ont pas survécu à leurs dégâts.
00:16:46Ils se sont tous écrasés et ne sont jamais rentrés à la base.
00:16:49Cela illustre le danger de conclure
00:16:50à quel point il est dangereux de tirer des conclusions
00:16:52à partir des seules données fournies.
00:16:54En investissement boursier, le “biais de survie”
00:16:56pourrait s'illustrer ainsi :
00:16:57si l'on regarde aujourd'hui,
00:16:59on se dit que si on avait acheté Apple et Microsoft dans les années 80,
00:17:02on aurait touché le gros lot.
00:17:03C'est ce qu'on a tendance à penser,
00:17:05et on établit alors une stratégie d'achat de ces valeurs technologiques.
00:17:08Pourtant, à cette époque, dans les années 80,
00:17:10des entreprises aussi prometteuses qu'Apple ou Microsoft,
00:17:13il y en avait plus de trente.
00:17:14Et parmi elles, vingt-huit ont disparu.
00:17:17Seules deux ont survécu.
00:17:19Le problème, c'est qu'en ne voyant que ces deux rescapées,
00:17:22on se focalise sur elles
00:17:23en pensant qu'investir de la sorte garantit la fortune.
00:17:27Ainsi, si vous effectuez un backtesting
00:17:30en vous basant uniquement sur les entreprises qui existent encore,
00:17:32vos rendements seront forcément gonflés artificiellement.
00:17:35Et ce problème s'accentue évidemment
00:17:38à mesure que la période de backtesting s'allonge.
00:17:40Car sur une longue période,
00:17:41il y avait forcément au début
00:17:43beaucoup d'entreprises qui ont fini par faire faillite.
00:17:45Pourtant, de nombreux investisseurs débutants,
00:17:47lorsqu'ils commencent un backtesting,
00:17:48définissent leur univers d'actions au départ.
00:17:51Pour déterminer sur quelles actions
00:17:54ils vont tester leur stratégie,
00:17:55ils choisissent des sociétés qui existent aujourd'hui.
00:17:58Puis, au sein de cet échantillon,
00:17:59ils appliquent divers critères
00:18:02pour juger comment ils auraient pu sélectionner
00:18:05les meilleures entreprises parmi elles.
00:18:07Mais en procédant ainsi,
00:18:08toutes les entreprises qui ont fait faillite
00:18:11entre le début du test et aujourd'hui sont exclues.
00:18:13C'est comme si l'on supposait
00:18:16que l'on possédait dès le départ le don divin de les éviter.
00:18:18Le rendement est donc forcément surestimé par rapport à la réalité.
00:18:21C'est pourquoi, pour un backtesting,
00:18:23si vous remontez sur vingt ans,
00:18:25vous devez partir des entreprises qui existaient en 2001
00:18:29pour constituer
00:18:30votre échantillon de base.
00:18:32C'est un point crucial.
00:18:33Petite parenthèse d'ailleurs :
00:18:34les célèbres “super investisseurs” que l'on voit sur YouTube
00:18:37peuvent aussi être le fruit de ce biais de survie.
00:18:40Certes, certains ont réussi grâce à leur talent,
00:18:43mais d'autres ont simplement pris des risques énormes,
00:18:45en misant tout sur une seule action,
00:18:48et il se trouve que ce pari a payé,
00:18:49faisant d'eux des investisseurs à succès.
00:18:51Sauf que pour une personne ayant agi ainsi,
00:18:53il y en avait peut-être trente ou cinquante autres.
00:18:55Mais sur ces cinquante personnes ayant pris les mêmes risques,
00:18:58une seule a survécu,
00:18:59et c'est celle-là que les spectateurs admirent.
00:19:02C'est typiquement le problème du biais de survie.
00:19:05Si on se dit aujourd'hui :
00:19:06et que l'on prend des risques inconsidérés,
00:19:08If you make such an incredibly high-risk investment,
00:19:11le succès n'est absolument pas garanti.
00:19:13On a juste une chance sur cinquante d'être l'heureux élu.
00:19:17Prendre conscience de ces biais
00:19:20permet d'investir de manière beaucoup plus rationnelle et sage.
00:19:22Lorsqu'on utilise une plateforme de backtesting,
00:19:24on a tendance à déléguer à l'entreprise
00:19:27la gestion des données et du biais de survie.
00:19:28On le fait de manière assez naïve.
00:19:31Sans se poser de questions.
00:19:32Mais est-ce que cette entreprise,
00:19:33face à ces problèmes de données,
00:19:35a été réellement rigoureuse ?
00:19:37S'est-elle souciée du rendement réel de l'utilisateur
00:19:39au point d'investir massivement
00:19:41pour s'assurer
00:19:43que ses données soient parfaitement propres ?
00:19:45C'est un point qu'il faut absolument vérifier.
00:19:48Le deuxième point de vigilance,
00:19:50c'est le “biais d'anticipation” (look-ahead bias),
00:19:52qui consiste à regarder l'avenir trop tôt.
00:19:54On pourrait appeler le look-ahead bias
00:19:57le “biais de prescience” ?
00:19:58C'est une façon de l'interpréter.
00:20:00Il s'agit d'utiliser des informations inaccessibles au moment de la transaction.
00:20:03Le backtesting se fait sur des données passées.
00:20:05Mais d'un point de vue chronologique,
00:20:07il arrive qu'une information n'existait pas l'an dernier,
00:20:09mais que la logique du test l'utilise
00:20:12pour décider d'un achat à cette date-là.
00:20:14C'est une erreur que l'on rencontre assez souvent.
00:20:15C'est ce qu'on appelle le look-ahead bias.
00:20:18Un exemple classique de cette erreur :
00:20:21disons qu'en ce mois de septembre 2021,
00:20:24tester toutes les actions coréennes est trop complexe,
00:20:27donc on décide de n'en prendre que cent.
00:20:29C'est le raisonnement de l'utilisateur.
00:20:30Il sélectionne le top 100 des capitalisations boursières du KOSPI
00:20:34et lance son backtesting sur ce groupe.
00:20:35Par exemple, une stratégie basée sur le PER.
00:20:38Il applique cela
00:20:39sur les dix dernières années
00:20:41et obtient un excellent rendement.
00:20:42Mais où est l'erreur ?
00:20:44Il a sélectionné le top 100 de septembre 2021.
00:20:50En ne gardant que ces valeurs,
00:20:51faire un backtesting depuis 2011
00:20:55revient à savoir à l'avance, dès 2011,
00:20:59lesquelles seront dans le top 100 en 2021.
00:21:01Or, une forte capitalisation
00:21:03signifie généralement que le prix de l'action a grimpé régulièrement.
00:21:06Même si les gens font attention,
00:21:08ils se disent souvent que limiter l'échantillon
00:21:11aux quelques centaines plus grosses capitalisations
00:21:12est une bonne idée pour simplifier,
00:21:14mais c'est là qu'ils commettent une erreur majeure.
00:21:15Un autre exemple concerne
00:21:17le backtesting basé sur les fondamentaux et les bilans financiers.
00:21:21Chaque trimestre, les entreprises publient leurs résultats
00:21:24à des dates différentes.
00:21:26Mais lors du test, est-ce que le rééquilibrage
00:21:29ou la transaction
00:21:31a lieu après la publication effective ?
00:21:33L'entreprise publie ses résultats au début du mois suivant,
00:21:36mais le test effectue un rééquilibrage à la fin du mois précédent
00:21:40en utilisant déjà ces informations.
00:21:41On achète donc en connaissant déjà le futur.
00:21:44Ce genre de biais peut s'immiscer dans le backtesting.
00:21:46Un troisième exemple :
00:21:48on décide d'acheter au prix de clôture.
00:21:50On part de ce principe,
00:21:52et on effectue un rééquilibrage quotidien.
00:21:54Pourtant, le prix de clôture n'est connu qu'une fois la journée finie.
00:21:57Si le backtesting place l'ordre
00:22:00cinq minutes avant la fermeture du marché,
00:22:03cela crée un décalage temporel
00:22:05où l'on utilise une information future.
00:22:07C'est ainsi que ce type de biais apparaît.
00:22:09Ensuite, le troisième point est absolument capital.
00:22:11Il s'agit d'éviter le surajustement (overfitting).
00:22:13On ne soulignera jamais assez l'importance de ce point.
00:22:16Le surajustement, c'est quoi ?
00:22:18C'est créer un modèle
00:22:19trop performant sur un échantillon de données précis.
00:22:23Prenons cet échantillon par exemple.
00:22:25Ce que nous voulons vraiment comprendre,
00:22:27c'est la population globale qui est derrière.
00:22:29Nous cherchons à estimer
00:22:32la population réelle dans son ensemble.
00:22:34Au cas où certains ne sauraient pas
00:22:36ce qu'est une “population” en statistiques,
00:22:38permettez-moi de l'expliquer brièvement.
00:22:40Imaginons un sondage électoral.
00:22:41Si l'on interroge chaque citoyen du pays,
00:22:44on obtient le résultat parfait.
00:22:46Avec une précision de 100 %.
00:22:48Mais comme on ne peut pas interroger tout le monde,
00:22:50on tire un échantillon au sein de la population.
00:22:53On suppose que ce petit groupe d'individus est représentatif de l'ensemble.
00:22:58On postule sa représentativité
00:22:59et on s'en sert pour faire des estimations.
00:23:02Pour nos données boursières, la population réelle
00:23:06aura une certaine distribution,
00:23:08et à partir de quelques échantillons prélevés,
00:23:10on tente de deviner la forme de la population globale.
00:23:16Ici, on essaie d'ajuster un modèle à cette forme.
00:23:20Ajuster un modèle signifie
00:23:22trouver une courbe de tendance
00:23:25qui minimise l'erreur par rapport aux données.
00:23:30C'est le but de ces courbes.
00:23:30Mais si vous utilisez un modèle extrêmement complexe
00:23:34et tout entortillé pour qu'il colle parfaitement,
00:23:37l'erreur sur votre échantillon sera de zéro.
00:23:39Il touche chaque point de l'échantillon.
00:23:41C'est donc un modèle parfait, sans aucune erreur,
00:23:44mais uniquement pour cet échantillon.
00:23:47Est-ce qu'il représente bien la population globale ? Probablement pas.
00:23:51Non, n'est-ce pas ?
00:23:51Avec de nouveaux échantillons, l'erreur serait immense.
00:23:54Il faut donc un ajustement modéré
00:23:58pour que, face à de nouvelles données,
00:24:00la somme des erreurs reste faible.
00:24:03À l'inverse, si l'on prend une droite trop simple,
00:24:06l'ajustement sera insuffisant.
00:24:08C'est ce qu'on appelle le sous-ajustement (underfitting).
00:24:10L'erreur est déjà élevée sur l'échantillon même.
00:24:13L'essentiel dans la modélisation,
00:24:16c'est de trouver le juste milieu de l'optimisation.
00:24:18Pourtant, lors d'un backtesting,
00:24:20beaucoup considèrent les données passées comme l'unique vérité.
00:24:24Ils traitent l'échantillon comme la réalité entière.
00:24:26Ils cherchent alors à maximiser le profit sur ces données précises
00:24:29en ajoutant une multitude de règles spécifiques
00:24:32pour obtenir le rendement le plus élevé possible.
00:24:35Par exemple, de 2015 à 2021, le test indique :
00:24:39“Si le PER est entre 13,75 et 17,23,
00:24:43la capitalisation entre 51,7 et 62,3 milliards,
00:24:46Si vous achetez des actions avec un PBR inférieur à 1,17,
00:24:50un rendement annuel de 70 % est possible.
00:24:52C'est le genre de résultat de backtesting qu'on obtient.
00:24:54On voit clairement qu'il s'agit d'un surapprentissage total.
00:24:57C'est une sur-optimisation.
00:24:58Imaginez une entreprise avec un PER de 17,24 mais très peu rentable,
00:25:04qui se trouvait par hasard dans ces données,
00:25:05ou une capitalisation boursière de 51,5 milliards,
00:25:09qui était un mauvais exemple et a servi à fixer ces limites.
00:25:12En se basant si précisément sur cet échantillon de données passées,
00:25:16et en essayant à tout prix de maximiser le rendement,
00:25:19on finit par obtenir ce genre de modèle.
00:25:21Alors, quand de nouvelles données arriveront dans le futur,
00:25:25la marge d'erreur sera énorme.
00:25:27C'est l'idée générale,
00:25:28mais regardons cela d'un peu plus près.
00:25:29Voici un autre exemple de sur-optimisation.
00:25:31On cherche à séparer les points rouges et bleus
00:25:34par une sorte de ligne.
00:25:36C'est notre modèle de ligne.
00:25:37La ligne noire apprend de manière équilibrée,
00:25:40mais la ligne verte toute sinueuse,
00:25:42basée sur ces points bleus et rouges,
00:25:46les sépare de façon absolument parfaite.
00:25:48Sur cet échantillon de données précis,
00:25:50c'est une ligne parfaite avec zéro erreur.
00:25:52Mais dans la population réelle,
00:25:55le bleu pourrait apparaître par ici
00:25:57et le rouge pourrait sortir par là.
00:25:59Dès que de nouvelles données arriveront,
00:26:03cette ligne verte fera énormément d'erreurs.
00:26:05C'est ce qu'on peut anticiper.
00:26:07Si on s'adapte trop précisément aux données passées,
00:26:10ça ne fonctionnera pas dans le futur.
00:26:11C'est un exemple similaire :
00:26:13On collecte des données détaillées sur 100 étudiants actuels.
00:26:15Le but est d'identifier, parmi 100 nouveaux étudiants,
00:26:16ceux qui auront les meilleurs résultats cette année.
00:26:19en se sur-optimisant sur les données
00:26:20Then, for example, if the gender is male,
00:26:22and the height is within this range,
00:26:23des meilleurs élèves de l'année dernière,
00:26:26on établit des règles de classification
00:26:28qui, appliquées aux étudiants de cette année,
00:26:30peuvent devenir totalement absurdes.
00:26:32Si on définit simplement la règle par :
00:26:34et qu'on l'applique aux données de l'an dernier,
00:26:37Once the discrimination rule is set,
00:26:39la précision sera peut-être plus faible
00:26:42qu'avec des critères ultra-détaillés.
00:26:44Même si la précision est un peu moins élevée,
00:26:45en l'appliquant aux étudiants de cette année,
00:26:47elle a beaucoup plus de chances
00:26:49de rester à un niveau correct.
00:26:53Alors, comment atténuer ce problème de sur-optimisation ?
00:26:56Tout backtesting en souffre à un certain degré,
00:27:00il est impossible de l'éliminer totalement.
00:27:01Par exemple, comment savoir si une stratégie testée
00:27:06sur les 5 dernières années sera valable les 3 prochaines ?
00:27:08La réponse parfaite à cette question,
00:27:11c'est d'attendre et de trader pendant 3 ans.
00:27:12Mais c'est une analyse a posteriori.
00:27:15Si vous perdez de l'argent pendant 3 ans,
00:27:17ça n'a plus d'intérêt.
00:27:17Une méthode consiste donc à utiliser
00:27:19c'est-à-dire des données hors échantillon.
00:27:21It involves using out-of-sample data.
00:27:23On les appelle souvent données OOS.
00:27:25Par exemple, au lieu de chercher
00:27:27une stratégie performante sur 6 ans,
00:27:28de septembre 2015 à septembre 2021,
00:27:31puis de commencer à trader en octobre 2021,
00:27:33ce qui ne serait pas idéal,
00:27:34on procède autrement.
00:27:38On utilise les données de septembre 2014
00:27:39à septembre 2020 pour trouver la stratégie.
00:27:42Ensuite, on effectue un second backtesting
00:27:44d'octobre 2020 à septembre 2021.
00:27:46On prend les 6 ans de données depuis 2014
00:27:49pour trouver ce qui fonctionne,
00:27:52puis on simule un trading réel
00:27:55sur l'année suivante en backtesting.
00:27:57Si le résultat est concluant,
00:28:02alors on passe au trading réel en octobre 2021.
00:28:04Bien sûr, cette division
00:28:06pose d'autres problèmes,
00:28:09que nous aborderons plus tard.
00:28:10L'idée que je veux transmettre ici,
00:28:12c'est que si vous avez une telle quantité de données,
00:28:13vous en mettez une partie de côté.
00:28:16Vous travaillez dur sur le premier bloc
00:28:18pour trouver votre stratégie et l'optimiser.
00:28:19Mais avant de vous lancer réellement,
00:28:21vous la testez sur les données mises à part,
00:28:23celles qui n'ont pas servi à élaborer la stratégie.
00:28:24C'est ce qu'on appelle utiliser des données OOS.
00:28:26En science des données, on parle de
00:28:28données d'entraînement, de validation,
00:28:30de test ou de développement.
00:28:31La terminologie exacte importe peu.
00:28:33Le point suivant découle directement de là :
00:28:34Vous n'avez droit qu'à une seule chance de validation.
00:28:35C'est un point absolument crucial.
00:28:38On ne soulignera jamais assez
00:28:39l'importance de cette phrase.
00:28:41Approfondissons ce test sur données hors échantillon.
00:28:42Il existe plusieurs noms pour ces données,
00:28:44mais pour cette vidéo,
00:28:45nous utiliserons “données d'entraînement” et “données de validation”.
00:28:46Dans notre exemple précédent,
00:28:48les données de 2014 à 2020
00:28:50sont les données d'entraînement,
00:28:53celles utilisées pour élaborer la stratégie.
00:28:58L'année suivante, utilisée pour
00:29:01vérifier la stratégie trouvée,
00:29:03sera appelée “données de validation”.
00:29:04Ce graphique montre la complexité
00:29:06d'une règle ou d'un modèle.
00:29:08Plus on va vers la droite,
00:29:09plus le modèle est complexe.
00:29:11Par exemple, fixer des règles précises comme
00:29:12“entre 173 cm et 173,25 cm”
00:29:13augmente la complexité.
00:29:16Ici, nous avons l'erreur de prédiction,
00:29:18c'est-à-dire l'écart constaté
00:29:19lors du passage au réel.
00:29:20Sur les données d'entraînement,
00:29:22plus le modèle est complexe,
00:29:24plus l'erreur diminue.
00:29:26Comme on l'a vu avec les points,
00:29:28en rendant la ligne très sinueuse,
00:29:30on peut réduire l'erreur à zéro
00:29:32sur l'échantillon d'entraînement.
00:29:35En complexifiant à l'extrême,
00:29:36l'erreur tend vers zéro.
00:29:38Mais si on teste ce modèle
00:29:40sur les données de validation mises à part,
00:29:42que se passe-t-il pour l'erreur ?
00:29:44Quand le modèle est très simple,
00:29:45comme une ligne droite,
00:29:47l'erreur est similaire sur les deux.
00:29:49Mais à mesure que la complexité augmente,
00:29:50l'erreur sur les données d'entraînement
00:29:52continue de chuter,
00:29:53tandis que sur les données de validation,
00:29:54elle finit par remonter
00:29:55dès que le modèle devient trop complexe.
00:29:58Si on transpose cela au backtesting,
00:29:59multiplier les tests
00:30:02et fixer des règles ultra-précises,
00:30:03comme ajuster finement
00:30:05des paramètres tels que le PER,
00:30:06fera grimper le rendement
00:30:08sur les données passées.
00:30:12Sur ce graphique, plus c'est bas, mieux c'est.
00:30:14Un backtesting trop ajusté au passé
00:30:16affiche un rendement toujours meilleur,
00:30:18mais en situation réelle,
00:30:19passé un certain point de complexité,
00:30:21le rendement réel s'effondre.
00:30:23C'est ce qui arrive.
00:30:24J'ai associé la baisse de l'erreur
00:30:26à une hausse du rendement,
00:30:28et inversement,
00:30:31mais pour être rigoureux,
00:30:33une erreur plus grande
00:30:35ne signifie pas forcément moins de profit.
00:30:37Plus on fait de sur-apprentissage,
00:30:40plus l'écart entre le backtesting
00:30:42et le rendement futur s'agrandit.
00:30:45Cet écart pourrait être positif,
00:30:47ou négatif, de façon aléatoire.
00:30:51Cependant, en général,
00:30:52le rendement réel finit par être moins bon.
00:30:55Parce qu'en s'adaptant aux données passées,
00:30:56on a tout fait pour gonfler le profit,
00:30:59donc toute erreur ultérieure
00:31:02se fera probablement vers le bas.
00:31:05Alors, comment diviser les données
00:31:08pour effectuer le backtesting ?
00:31:12Prenons l'exemple de la période 2011-2021.
00:31:15Comment organiser cela ?
00:31:17Nous allons voir différentes méthodes.
00:31:18La répartition classique est de 70/30.
00:31:2170 % pour l'entraînement, 30 % pour le test.
00:31:23Mais en finance, l'ordre temporel compte.
00:31:24On ne peut pas mélanger les années au hasard.
00:31:26Il faut respecter la chronologie des marchés.
00:31:28Sinon, on risque d'utiliser le futur pour prédire le passé.
00:31:31C'est ce qu'on appelle le biais de regard vers l'avant.
00:31:32Il est donc crucial de garder les données les plus récentes
00:31:33pour la phase de validation finale.
00:31:34Beaucoup de gens négligent cette étape
00:31:37et s'étonnent de leurs pertes en réel.
00:31:39La discipline est la clé ici.
00:31:42Ne touchez jamais aux données de validation
00:31:45avant d'avoir finalisé votre stratégie.
00:31:47C'est la seule façon d'être honnête avec soi-même.
00:31:49Passons maintenant aux détails techniques
00:31:50de la mise en œuvre de cette division.
00:31:51Mais en général, si une telle erreur se produit,
00:31:53le rendement réel s'avère bien plus mauvais.
00:31:55Parce que lorsqu'on ajuste aux données passées,
00:31:57on cherche à maximiser le rendement
00:31:59en forçant l'ajustement au maximum.
00:32:00Donc, si un écart apparaît par rapport à ce rendement,
00:32:02il se fera généralement vers le bas.
00:32:03Alors, comment diviser les données d'apprentissage
00:32:06et les données de validation pour le backtesting ?
00:32:08Par exemple, prendre 11 ans de données de 2011 à 2021
00:32:11pour l'apprentissage et l'appliquer dès l'année suivante,
00:32:15cela signifie qu'on n'utilise pas de données de validation.
00:32:18On utilise tout pour l'apprentissage avant d'appliquer,
00:32:21et ce n'est pas une méthode recommandée.
00:32:22Une autre façon de diviser, comme je l'ai mentionné,
00:32:25serait d'utiliser 10 ans comme données d'apprentissage,
00:32:28de valider sur la dernière année, en 2021,
00:32:31puis d'appliquer la stratégie à partir de 2022.
00:32:34Mais comme nous le verrons plus tard,
00:32:36ce n'est pas non plus la meilleure méthode.
00:32:38Quelles sont les méthodes un peu plus avancées ?
00:32:40Il existe une approche appelée “Walk-Forward Testing”.
00:32:43En quoi consiste-t-elle ?
00:32:44Par exemple, on apprend sur 3 ans à partir de 1999
00:32:46pour optimiser les paramètres,
00:32:49puis on valide sur l'année suivante.
00:32:52On procède ensuite par roulement, de cette manière.
00:32:55En établissant une stratégie ainsi,
00:32:58si l'on prend un modèle très simple...
00:33:01Même si je pense que faire du backtesting
00:33:04uniquement sur le PER n'a aucun sens,
00:33:05imaginons une stratégie d'achat d'actions sous un certain PER.
00:33:08Sur 10 ans de données,
00:33:11si vous optimisez ce PER,
00:33:13les meilleurs seuils varieront chaque année,
00:33:17et vous finirez par choisir une moyenne correcte.
00:33:20Mais en réduisant la fenêtre,
00:33:22en fixant la valeur du PER sur les 3 dernières années,
00:33:26et en testant de cette façon,
00:33:28vous pouvez ajuster vos paramètres
00:33:30plus souplement au fil du temps.
00:33:32C'est une façon de tester.
00:33:35On peut faire ainsi,
00:33:37ou utiliser la “K-Fold Cross-Validation”.
00:33:38On l'appelle la validation croisée.
00:33:39Voici comment cela fonctionne.
00:33:41La valeur “K” indique en combien de parts on divise.
00:33:45Sur le schéma, K est égal à 5.
00:33:47Si K vaut 5, on divise les données en 5 parts égales.
00:33:50On apprend sur 4 ans,
00:33:53puis on vérifie le rendement sur la 5ème année de validation.
00:33:56Ensuite, on apprend sur 4 autres parts,
00:33:59et on valide sur l'année restante,
00:34:01puis on fait la moyenne de ces cinq rendements.
00:34:05On calcule donc la moyenne des rendements obtenus.
00:34:09On considère que c'est proche du rendement espéré.
00:34:12C'est le principe.
00:34:13Une autre méthode sur 10 ans de données :
00:34:16apprendre sur les années paires
00:34:19et valider sur les années impaires.
00:34:22Toutes ces méthodes ont leurs avantages et inconvénients.
00:34:23L'avantage principal est que
00:34:26les paramètres sont stables face aux changements de régime.
00:34:30Qu'est-ce que cela signifie ?
00:34:31Lors d'une crise financière ou du COVID,
00:34:33la nature du marché change.
00:34:35Si la crise a éclaté en 2008,
00:34:39et que vous apprenez sur les données de 1998 à 2007
00:34:43pour trouver ce qui rapporte le plus,
00:34:45puis que vous validez ensuite,
00:34:46comme la nature du marché a changé,
00:34:49la distribution des données sera différente.
00:34:51Et la situation future du marché
00:34:52ne reflétera pas les schémas du passé.
00:34:55En divisant les données de cette manière,
00:34:57lorsqu'un événement majeur survient
00:35:00et modifie radicalement les comportements du marché,
00:35:02on peut valider la stratégie de façon plus robuste.
00:35:06C'est pourquoi on utilise ces méthodes.
00:35:08Mais attention au risque de “regarder vers le futur”
00:35:11dont j'ai parlé précédemment.
00:35:13Tout dépend de la fréquence de trading,
00:35:16mais pour un trading mensuel,
00:35:18si vos données d'apprentissage
00:35:19incluent l'année 2014,
00:35:22selon les règles ou données utilisées en 2013,
00:35:26des éléments qu'on ne devrait connaître qu'en 2014
00:35:28peuvent s'immiscer dans les données de validation.
00:35:30Le rendement de validation serait alors gonflé artificiellement,
00:35:34car le modèle a appris en connaissant déjà le futur.
00:35:36Soyez donc extrêmement vigilants sur ce point.
00:35:39Pour expliquer cela plus simplement,
00:35:41dans le domaine du Machine Learning,
00:35:44on parle d'hyperparamètres.
00:35:46Les paramètres sont généralement ajustés par le modèle
00:35:50pour réduire l'erreur sur les données d'échantillon.
00:35:54Mais les hyperparamètres doivent être fixés par l'humain.
00:35:57Par exemple, pour une analyse de régression,
00:35:59faut-il utiliser une droite ou une courbe ?
00:36:03Le choix de la complexité de l'équation,
00:36:07le type de modèle à utiliser...
00:36:09Tout cela est décidé par l'humain.
00:36:11Le nombre de ces paramètres constitue les hyperparamètres.
00:36:15Une fois fixés, le modèle cherche à
00:36:18minimiser l'erreur sur les données
00:36:22en ajustant la courbe (le fitting).
00:36:23La pente ou l'ordonnée à l'origine sont alors
00:36:28appris par le modèle : ce sont les paramètres.
00:36:33Il faut tester plusieurs hyperparamètres.
00:36:36On ne divise donc pas juste en entraînement/test,
00:36:40on ajoute souvent un jeu de données de développement (Dev Set).
00:36:42On effectue une première optimisation,
00:36:45on optimise les hyperparamètres sur ce jeu,
00:36:48puis on valide enfin sur les données de test.
00:36:51Les experts en Machine Learning comprendront déjà tout cela.
00:36:55Pour les autres, une brève explication ne suffira pas,
00:36:58alors passons à la suite.
00:37:00Cependant, lors de ce processus, il y a un point
00:37:04tellement crucial qu'on ne le soulignera jamais assez.
00:37:08Il s'agit des données de validation.
00:37:10Vous ne devez JAMAIS regarder ces données deux fois.
00:37:15Leurs résultats sont définitifs.
00:37:16On cherche une stratégie rentable via de nombreux backtests sur les données d'apprentissage.
00:37:22Même si elle est performante sur ces données-là,
00:37:26pour vérifier si elle le restera en conditions réelles,
00:37:31on la teste sur une période ou des données jamais utilisées auparavant.
00:37:38Mais ce test ne doit être fait qu'UNE seule fois.
00:37:41Si le rendement est mauvais au premier essai,
00:37:45peu importent les années d'efforts passées sur cette stratégie,
00:37:50vous devez l'abandonner purement et simplement.
00:37:52Pourquoi ? Parce qu'en réalité, vous n'aurez qu'une chance.
00:37:57On ne peut pas remonter le temps.
00:37:58Pourtant, certains, déçus par les mauvais résultats de validation,
00:38:03retournent aux données d'apprentissage pour ajuster les paramètres
00:38:07jusqu'à obtenir un bon résultat en validation.
00:38:10À cet instant précis, vos données de validation n'en sont plus,
00:38:14elles sont devenues des données d'apprentissage.
00:38:16Vous avez optimisé vos paramètres en incluant la validation.
00:38:21Dès lors, pour la performance future en conditions réelles,
00:38:26nous n'avons plus absolument aucune garantie.
00:38:29C'est un point fondamental.
00:38:31Un autre point crucial pour le backtesting,
00:38:34c'est que les époques changent : le concept de régime de marché.
00:38:37Laissez-moi vous poser une question.
00:38:39Entre un backtesting sur 20 ans et un sur 3 ans,
00:38:42lequel est le plus significatif ?
00:38:44La réponse est déjà dans le titre,
00:38:47mais beaucoup de débutants pensent que plus c'est long, mieux c'est.
00:38:50Ils pensent qu'il faut un maximum de données.
00:38:54Pourtant, entre ces deux options,
00:38:57bien que cela dépende de l'horizon de temps
00:39:00et de la fréquence des transactions,
00:39:01je choisirais presque toujours celui de 3 ans.
00:39:03Plus il y a de données, mieux c'est, c'est vrai.
00:39:06Mais elles doivent provenir de la même distribution.
00:39:09Avoir beaucoup de données est idéal,
00:39:11sauf si l'on y mélange des données d'un environnement déjà révolu.
00:39:17Le problème d'un backtesting trop long,
00:39:20c'est que la nature du marché évolue.
00:39:22Voici un graphique, peut-être des taux réels,
00:39:26ou en tout cas lié aux taux d'intérêt.
00:39:28On voit que le concept même de “taux approprié”
00:39:33fluctue, certes, selon les périodes,
00:39:34mais le niveau de référence change radicalement d'un régime à l'autre.
00:39:38À une époque, c'était ici, puis il y a eu le choc pétrolier...
00:39:41Après cette période, le niveau a encore bougé,
00:39:45et depuis les années 80,
00:39:47le taux d'intérêt standard est devenu celui-ci.
00:39:51Si vous faites du trading d'obligations,
00:39:53et que vous apprenez une stratégie sur cette période passée
00:39:57pour l'appliquer à la période actuelle...
00:39:59Si le régime de marché a changé entre-temps,
00:40:02votre stratégie, si rentable sur les anciennes données,
00:40:07ne fonctionnera plus ici.
00:40:08C'est ce qu'on appelle un changement de régime de marché.
00:40:11C'est une mutation de la nature ou du système du marché.
00:40:14Ces changements peuvent survenir
00:40:17à cause de l'évolution des acteurs du marché.
00:40:20Par exemple, l'afflux massif d'investisseurs particuliers après le COVID
00:40:23a mené à l'affaire GameStop.
00:40:25Avant le COVID,
00:40:27les stratégies de vente à découvert (short selling),
00:40:30utilisées par des hedge funds spécialisés,
00:40:32fonctionnaient extrêmement bien.
00:40:34Mais avec ce changement brutal de la nature du marché,
00:40:37certains ont frôlé la faillite.
00:40:39Il y a aussi les changements de lois et de régulations.
00:40:43Après la crise financière, le trading pour compte propre a été interdit aux banques,
00:40:45et de nouvelles règles sur les dérivés ont transformé le marché.
00:40:49Une stratégie basée sur des données
00:40:50antérieures à la crise financière
00:40:52risque de ne plus être efficace après.
00:40:54Ensuite, les événements exogènes,
00:40:55comme le choc pétrolier, qui sont
00:40:57si massifs qu'ils modifient le marché lui-même.
00:40:59Ce sont des événements macroéconomiques majeurs.
00:41:01Viennent enfin les évolutions macroéconomiques :
00:41:03avec l'augmentation constante de l'endettement,
00:41:06les taux d'intérêt, autrefois à ce niveau,
00:41:08sont entrés dans une ère de taux extrêmement bas.
00:41:11L'assouplissement quantitatif contribue
00:41:13également à ces taux d'intérêt bas,
00:41:15permettant aux actions de croissance de surperformer
00:41:17de manière spectaculaire ces dix dernières années.
00:41:19Mais si vous avez élaboré une stratégie rentable
00:41:22basée sur des données antérieures à cette période,
00:41:24elle pourrait privilégier l'achat d'actions de valeur.
00:41:25Dans ce cas, les résultats auraient été
00:41:27très décevants au cours de la décennie suivante.
00:41:28D'autres facteurs incluent l'émergence de nouvelles technologies
00:41:30ou des changements dans la structure industrielle.
00:41:32Ce sont des éléments à prendre en compte.
00:41:33Alors, lors d'un backtesting sur 20 ans,
00:41:35les données de 2001 sont-elles encore pertinentes ?
00:41:38Bien sûr, le concept de “changement de régime de marché”
00:41:40dépend des facteurs que vous observez.
00:41:42Cela varie selon l'approche adoptée.
00:41:43Au final, cela dépend de la logique,
00:41:45des règles ou du modèle de votre stratégie,
00:41:47des éléments qu'il analyse
00:41:49et des données qu'il utilise.
00:41:51C'est en fonction de cela
00:41:52qu'il faut surveiller si le régime
00:41:53des données a changé.
00:41:55Certaines données voient leurs propriétés
00:41:56évoluer très rapidement, parfois mensuellement,
00:41:58tandis que d'autres restent
00:41:59très stables pendant 10 ou 15 ans.
00:42:01Chaque cycle a sa propre durée.
00:42:03Les cycles, comme celui du COVID, diffèrent tous.
00:42:05En général, on ne peut pas dire
00:42:07que parce que la pandémie a éclaté,
00:42:09tous les modèles antérieurs
00:42:09sont devenus obsolètes.
00:42:12Cependant, utiliser 20 ans de données
00:42:14sans discernement
00:42:15pose clairement un problème.
00:42:17C'est un point de vue valable.
00:42:18Si vous essayez d'utiliser
00:42:20des données très anciennes pour faire des déductions,
00:42:22bien que le régime du marché
00:42:23ait changé plusieurs fois entre-temps,
00:42:24si ces données du passé lointain
00:42:25reflètent d'une manière ou d'une autre
00:42:29la situation actuelle,
00:42:30elles peuvent redevenir utilisables.
00:42:32Certains disent d'ailleurs
00:42:33que l'époque actuelle ressemble aux années 1940.
00:42:35C'est une théorie qui circule,
00:42:37mais c'est une parenthèse.
00:42:38Le trading quantitatif
00:42:41s'est beaucoup démocratisé
00:42:42et est pratiqué par des particuliers.
00:42:44Mais pour l'investissement à long terme,
00:42:45le point faible de l'approche quantitative
00:42:47est que lorsqu'on applique
00:42:49ces méthodes quantitatives sur le long terme,
00:42:51il est difficile d'accumuler assez de données
00:42:53tout en évitant les changements de régime.
00:42:55Prenons une stratégie de trading algorithmique
00:42:57qui utilise des données à la minute.
00:42:59En une heure,
00:43:01vous avez 60 points de données.
00:43:02Puisqu'il y a 60 minutes,
00:43:03cela fait 60 entrées.
00:43:04Imaginons maintenant
00:43:05un contrat à terme négocié 24h/24.
00:43:08En multipliant par 24,
00:43:09on obtient 1 440 points.
00:43:10C'est bien ça ?
00:43:10Oui, 1 440 points par jour.
00:43:12Avec 1 440 points par jour,
00:43:15sur environ 250 jours de trading
00:43:17par an,
00:43:20on obtient plus de 300 000
00:43:21points de données
00:43:23en une seule année.
00:43:25Rien qu'en un an,
00:43:26on dispose de plus de 300 000 données.
00:43:29C'est un échantillon suffisant
00:43:32pour effectuer des validations,
00:43:33utiliser des modèles plus complexes,
00:43:35et ainsi de suite.
00:43:36Mais pour une stratégie de rééquilibrage
00:43:37qui n'opère que mensuellement,
00:43:39vous n'avez que 12 points par an.
00:43:41Même sur 20 ans,
00:43:42cela ne fait que 240 points.
00:43:44Comme on ne peut pas augmenter l'échantillon sur l'axe temporel,
00:43:47on essaie d'analyser de nombreuses actions
00:43:49pour élargir le champ d'observation
00:43:51et gagner en pertinence statistique.
00:43:53Pourtant, sur l'axe du temps,
00:43:54il reste difficile d'éviter les changements de régime.
00:43:57C'est un défi de taille.
00:43:58Après l'apparition du COVID,
00:44:00de nombreux experts quantitatifs...
00:44:02Notamment Inigo Fraser-Jenkins,
00:44:05qui était responsable de la recherche quantitative,
00:44:09a publié un texte expliquant
00:44:11pourquoi il n'était plus un “quant”.
00:44:13L'idée principale est que
00:44:15le travail du quant consiste à prédire l'avenir via le passé.
00:44:19Cependant,
00:44:20face à une crise comme le COVID, les modèles passés deviennent inutiles.
00:44:23Lors d'un changement de régime de marché,
00:44:25les outils des quants perdent de leur efficacité.
00:44:28Certains parlent même d'une crise existentielle
00:44:30pour cette profession.
00:44:31L'année dernière a été très difficile pour eux.
00:44:34Même si quelques-uns s'en sont bien sortis,
00:44:36en moyenne, les performances ont été très mauvaises.
00:44:38Nous en sommes à peu près à la moitié,
00:44:40et une heure et demie s'est déjà écoulée.
00:44:43Nous allons donc conclure cette première partie ici.
00:44:45Demain, dans la partie 2, nous verrons les points 6 à 10,
00:44:49les avantages et les limites,
00:44:50ainsi que le cursus conseillé
00:44:52pour étudier la finance quantitative.
00:44:54On se retrouve pour la deuxième partie.
00:44:55Merci à vous.