[Wall Street Ajae] Les mythes et réalités de l'investissement quantitatif - Partie 1 : Pourquoi une approche superficielle est dangereuse

월가아재의 과학적 투자
StocksAdvertising/MarketingBeginning InvestingInternet Technology

Transcript

00:00:00Mais, que ce soit sur les 10,
00:00:0320 ou 30 dernières années,
00:00:04combien de modèles rentables y a-t-il eu durant cette période ?
00:00:09La réponse est : une infinité. C'est d'ailleurs prouvable.
00:00:12Bonjour à tous, ici Wall Street Guy.
00:00:21Aujourd'hui, nous allons parler de l'investissement quantitatif.
00:00:24Dans les commentaires YouTube ou par e-mail,
00:00:26certains m'ont demandé d'expliquer le trading quantitatif.
00:00:29Selon mes objectifs et le programme de la chaîne,
00:00:33le trading algorithmique ou quantitatif
00:00:36n'était pas prévu au programme dans l'immédiat.
00:00:38Cependant, parmi l'audience de la chaîne,
00:00:40environ 15 % des abonnés pratiquent déjà ce type de trading.
00:00:44Comme certains aspects actuels m'inquiètent un peu,
00:00:48j'ai décidé de réaliser cette vidéo.
00:00:50Au programme aujourd'hui : d'abord les bases et principes du quant,
00:00:53pour avoir une vue d'ensemble,
00:00:56puis nous verrons 10 points de vigilance essentiels.
00:00:59En gardant ces 10 points à l'esprit, vous éviterez
00:01:04de perdre énormément de temps
00:01:06ou d'utiliser des méthodologies de backtesting erronées
00:01:09qui pourraient vous conduire
00:01:11à subir des pertes massives.
00:01:15Bien que ce soient des notions fondamentales,
00:01:18même les formations payantes très chères sur le marché
00:01:21ne semblent pas les aborder en détail.
00:01:24Au contraire, ces formations ont tendance
00:01:27à embellir la réalité du backtesting et de l'investissement quantitatif.
00:01:31Si vous retenez ces 10 points, peu importe les informations
00:01:35ou les services que vous utiliserez à l'avenir,
00:01:39vous saurez comment vous protéger et rester prudent.
00:01:43Avant de commencer, j'ai publié il y a quelques jours
00:01:47un court message sur un ton assez vif,
00:01:49et je pense avoir fait une erreur.
00:01:51J'écrivais que le marketing viral et la publicité mensongère
00:01:54autour de l'investissement quantitatif devenaient excessifs.
00:01:55Cela a engendré des commentaires haineux
00:01:59visant des personnes ou des entreprises spécifiques.
00:02:02J'ai donc supprimé le post pour ne pas leur porter préjudice.
00:02:06Après tout, il ne s'agit pas de pratiques illégales
00:02:09comme les groupes de signaux frauduleux ou les courtiers illégaux.
00:02:12Je me suis peut-être montré un peu trop intrusif.
00:02:16D'un autre côté, concernant les comptes de prêt illégaux,
00:02:19les utilisateurs savent souvent que c'est hors la loi
00:02:22et y participent par pure cupidité.
00:02:25Mais en observant les débats actuels sur le quant,
00:02:28je vois des gens honnêtes qui veulent simplement s'investir
00:02:33pour améliorer leur gestion financière.
00:02:35Ces personnes qui découvrent l'investissement quantitatif
00:02:37pourraient vraiment en pâtir.
00:02:40Le terme “quantitatif” évoque la science et les statistiques,
00:02:46ce qui peut induire en erreur sur la part de subjectivité réelle.
00:02:51L'illégalité d'un groupe de signaux est flagrante,
00:02:55donc on peut facilement l'éviter,
00:02:56mais ici, des victimes de bonne foi pourraient apparaître.
00:03:01On leur dit qu'on devient expert en quelques jours,
00:03:04ou que telle stratégie est validée par des décennies de données,
00:03:08ou encore que comme elle a rapporté 20 % par an sur 10 ans,
00:03:11elle continuera forcément sur cette lancée.
00:03:14Même si ces propos ne sont pas toujours malveillants,
00:03:18parmi les nombreux investisseurs débutants,
00:03:20certains vont se méprendre.
00:03:23Ils perdront un temps fou en backtesting
00:03:25et finiront par subir des pertes financières.
00:03:27Surtout s'ils accordent une foi aveugle à ces résultats passés.
00:03:32Aux États-Unis, selon les règles de la SEC, un fonds
00:03:35qui ferait un tel marketing serait immédiatement sanctionné.
00:03:38J'aimerais que ceux qui parlent d'investissement quantitatif
00:03:41mesurent davantage la responsabilité qu'implique l'argent d'autrui.
00:03:45Je ne sais pas combien de temps je continuerai YouTube,
00:03:47mais je ne dis pas cela pour jouer les moralisateurs.
00:03:51Ayant moi-même connu de graves problèmes d'argent
00:03:52au milieu de ma vingtaine, je sais ce que l'on ressent.
00:03:56C'est un sentiment que je connais trop bien.
00:03:58C'est d'ailleurs pour cela que je parle souvent du mental
00:04:01et que je partage mes propres échecs de jeunesse.
00:04:05Je reçois énormément de demandes de conseils à ce sujet.
00:04:09Chaque semaine, je reçois plusieurs e-mails d'abonnés
00:04:14qui sont dévastés après avoir perdu des sommes colossales.
00:04:16Les créateurs de contenu sur la finance ou l'immobilier
00:04:20devraient parfois faire leur propre examen de conscience.
00:04:24Moi-même, avec ma série sur les 80 jours d'investissement,
00:04:26j'ai eu l'impression de glisser vers un rôle de donneur de signaux.
00:04:29Dès que ce marché baissier sera passé, je compte revenir aux sources.
00:04:33Cette vidéo est donc faite dans cet esprit de bienveillance.
00:04:37Je ne vise aucune personne ni aucune entreprise en particulier.
00:04:40Les acteurs du marketing quantitatif
00:04:43peuvent aussi ignorer certains de ces aspects.
00:04:46L'idée est que nous progressions tous ensemble
00:04:49en prenant conscience de ces réalités.
00:04:51S'il vous plaît, évitez donc de citer des noms
00:04:55ou de lancer des attaques dans les commentaires.
00:04:57Après cette longue introduction,
00:04:58voyons d'abord les différentes catégories de quant.
00:05:01Le terme “quant” est très vaste et recouvre plusieurs définitions.
00:05:04Pour simplifier, nous pouvons les classer
00:05:07par horizon temporel, en commençant par le trading haute fréquence.
00:05:10Au sein de l'HFT, il y a l'ultra-HFT,
00:05:12où la latence est cruciale.
00:05:14On place les serveurs directement chez les boursiers (colocalisation),
00:05:19on code au niveau du langage machine,
00:05:20et on optimise même les composants matériels.
00:05:22C'est un niveau de trading extrêmement technique.
00:05:24Ensuite, avec un horizon temporel un peu plus long,
00:05:28on trouve le trading algorithmique.
00:05:29Il utilise des indicateurs techniques ou des systèmes basés sur des règles.
00:05:33C'est une approche très prisée par les particuliers
00:05:35et popularisée par les plateformes de backtesting actuelles.
00:05:39Vient ensuite l'arbitrage statistique,
00:05:41comme le “pair trading”.
00:05:42On s'appuie sur des modèles et des méthodes statistiques
00:05:44pour identifier des comportements de prix.
00:05:46On cherche des motifs historiques
00:05:48en supposant un retour à la moyenne,
00:05:50et on base ses transactions là-dessus.
00:05:52Il y a aussi l'investissement factoriel (Factor Investing).
00:05:54C'est plus long terme : on cherche des facteurs de momentum, de valeur, de carry,
00:05:59c'est-à-dire ce qui fait réellement bouger les prix.
00:06:01On essaie de dégager de l'alpha par ce biais.
00:06:03Enfin, un sujet très en vogue ces dernières années
00:06:06est le “Quantamental”.
00:06:07Il s'agit de quantifier et d'automatiser l'analyse fondamentale,
00:06:10en y intégrant l'analyse de données massives
00:06:12et de données alternatives pour l'investissement à long terme.
00:06:16Dans le même esprit, l'apprentissage automatique (Machine Learning),
00:06:18le Big Data et ces données alternatives
00:06:20s'étendent désormais à tous les domaines.
00:06:23Ces distinctions sont faites pour plus de clarté,
00:06:26mais les frontières restent souvent floues.
00:06:28On peut parfois englober tout cela sous le terme
00:06:30de trading algorithmique.
00:06:31Pour aujourd'hui, je vais traiter
00:06:33le trading quantitatif de manière générale,
00:06:35en regroupant toutes ces approches.
00:06:37Les principes du trading quantitatif sont :
00:06:40Premièrement, avoir une idée d'investissement ou une hypothèse.
00:06:42Deuxièmement, effectuer un backtesting.
00:06:44On teste cette idée ou cette hypothèse
00:06:47sur des données historiques.
00:06:50et on vérifie alors si, par le passé,
00:06:51Then, when we applied it to past data like this,
00:06:54elle aurait effectivement généré des profits
00:06:56en conditions réelles.
00:06:57Si le backtesting est concluant,
00:07:00on passe au trading réel,
00:07:01tout en assurant une gestion des risques.
00:07:03C'est ainsi que se décompose le processus en quatre étapes.
00:07:06Jusqu'au milieu des années 2010,
00:07:09le quant était réservé aux institutions,
00:07:13et plus précisément aux fonds spécialisés
00:07:16employant des docteurs en sciences.
00:07:18Mais les outils d'exécution
00:07:21se sont démocratisés au sein des institutions,
00:07:23et avec l'arrivée de services comme Quantopian aux États-Unis,
00:07:25le backtesting est devenu accessible à tous.
00:07:28Désormais, n'importe quel particulier
00:07:30peut s'essayer au trading quantitatif,
00:07:33ce qui est une tendance forte.
00:07:35Malheureusement, cela s'accompagne aussi
00:07:38d'une mauvaise compréhension de la discipline.
00:07:40Prenons un exemple concret.
00:07:42Disons qu'en testant un PBR inférieur à 0,92 sur 15 ans
00:07:46en investissant dans des entreprises en croissance sur 12 mois,
00:07:48on obtient un rendement annuel de 20,2 %.
00:07:51Si on modifie légèrement le PBR,
00:07:53on obtient, par exemple, 14 % ou 17,8 %.
00:07:56En comparant ces différents backtests,
00:07:58on constate que le premier résultat est le meilleur.
00:08:01On conclut alors qu'il faut investir
00:08:03en suivant précisément cette règle.
00:08:04C'est un raisonnement que l'on voit très souvent.
00:08:07Pourtant, c'est l'exemple type d'une erreur fondamentale.
00:08:09Réfléchissez-y un instant.
00:08:12Le backtesting consiste à espérer que les motifs du passé
00:08:14se répéteront dans le futur,
00:08:16ce qui est une hypothèse sans aucune garantie.
00:08:18On cherche simplement ce qui a fonctionné hier.
00:08:21Mais sur une période de 10, 20
00:08:24ou 30 ans,
00:08:26combien existe-t-il de combinaisons
00:08:29qui auraient été rentables ?
00:08:30Faites une pause et essayez de deviner.
00:08:32La réponse est : une infinité.
00:08:34Et c'est mathématiquement prouvable.
00:08:36Comme les paramètres des stratégies sont continus,
00:08:38il existe un nombre illimité de stratégies gagnantes a posteriori.
00:08:42Le vrai problème est : lesquelles fonctionneront encore demain ?
00:08:46C'est là tout le cœur du trading quantitatif.
00:08:50Trouver ce qui a été rentable dans le passé
00:08:52est à la portée de n'importe qui
00:08:55avec un bon outil de backtesting.
00:08:56Mais identifier ce qui restera performant dans le futur
00:09:00est extrêmement difficile.
00:09:02C'est comme chercher une aiguille dans une botte de foin.
00:09:04En parcourant divers blogs et sites
00:09:07en Corée,
00:09:09j'ai vu que la “Formule Magique” de Joel Greenblatt
00:09:12est devenue très célèbre.
00:09:13Il propose une méthode très simple,
00:09:15basée sur des filtres de capitalisation
00:09:17établi une formule de sélection d'actions
00:09:20et a écrit un livre sur cette “Formule Magique” d'investissement.
00:09:24C'est devenu un sujet brûlant,
00:09:25et elle semble être très connue des investisseurs particuliers.
00:09:28Mais cet homme est aussi extrêmement célèbre dans le milieu des hedge funds.
00:09:31Il investit depuis les années 1980,
00:09:33et durant sa période d'activité, il a enregistré
00:09:35des rendements supérieurs à ceux de Warren Buffett.
00:09:37C'est pourquoi sa formule magique a suscité autant d'intérêt.
00:09:40Mais pour en venir au fait,
00:09:42Greenblatt n'est pas un adepte du pur quantitatif,
00:09:44et son fonds n'investissait pas uniquement selon cette formule.
00:09:47Ces excellents rendements ne provenaient pas seulement de la formule.
00:09:50Ce fonds pratiquait l'investissement axé sur la valeur,
00:09:52ainsi que l'investissement dans des “situations spéciales”.
00:09:54Il s'agissait, par exemple, de spin-offs,
00:09:57lorsqu'une entreprise se sépare d'une filiale,
00:09:59en profitant des écarts de prix qui en découlent.
00:10:01Ils captaient ces opportunités spécifiques pour générer du profit
00:10:04en combinant ces différentes méthodologies.
00:10:07Et pour la partie investissement de valeur, je ne pense pas
00:10:10qu'ils utilisaient une formule aussi simpliste.
00:10:12Certes, elle devait servir de cadre de réflexion.
00:10:14Mais ils n'achetaient probablement pas mécaniquement
00:10:18juste parce que la formule le disait.
00:10:20Si l'on effectue un backtesting des résultats
00:10:22depuis la publication de la formule en 2005,
00:10:26la ligne grise représente l'indice S&P 500
00:10:28et la ligne verte la formule magique.
00:10:29Comme vous le voyez, après une forte volatilité,
00:10:32elle a constamment sous-performé.
00:10:34Cela s'apparente aux résultats des ETF actions systématiques.
00:10:37Avec la multiplication de ce type d'investissements
00:10:40et l'efficience accrue des marchés,
00:10:42on peut dire que cet avantage comparatif a disparu.
00:10:44Même une formule aussi célèbre peine aujourd'hui, ce qui prouve
00:10:48qu'il est très facile d'identifier des schémas rentables dans le passé.
00:10:50On peut même en faire un livre.
00:10:53Mais trouver un schéma qui restera rentable à l'avenir
00:10:56demande un travail absolument colossal.
00:11:00Une stratégie offrant 20 % par an en quelques clics
00:11:03et trois jours de réflexion, ça n'existe pas.
00:11:06Un autre exemple est celui de Quantopian.
00:11:08C'est une start-up créée vers 2011 aux États-Unis
00:11:12qui proposait une plateforme facilitant énormément le backtesting.
00:11:16300 000 utilisateurs y ont réalisé 12 millions de backtests,
00:11:20testant et créant une multitude de stratégies quantitatives.
00:11:24Le célèbre milliardaire Steve Cohen y a investi,
00:11:27lui qui est un grand gérant de hedge fund.
00:11:29Et les meilleurs experts de Quantopian
00:11:32ont même publié des articles de recherche
00:11:34sur les critères et les méthodes statistiques
00:11:37permettant de sélectionner les stratégies
00:11:40qui seraient encore performantes à l'avenir.
00:11:41Ils ont mené des recherches très intensives
00:11:44pour sélectionner ces stratégies
00:11:46dans l'idée de lancer un nouveau hedge fund.
00:11:48C'était leur ambition,
00:11:49mais ce fut un échec cuisant.
00:11:51Ils ont fini par mettre la clé sous la porte l'année dernière.
00:11:53Pourquoi de tels phénomènes se produisent-ils ?
00:11:55Et pour vous qui souhaitez vous lancer dans l'investissement quantitatif,
00:11:58comment pouvez-vous éviter un tel résultat ?
00:12:02Évidemment, on ne peut pas l'éviter totalement.
00:12:03C'est une tâche extrêmement ardue selon moi.
00:12:07Néanmoins, si vous voulez relever le défi,
00:12:10gardez à l'esprit au moins ces 10 points
00:12:12et soyez particulièrement vigilants.
00:12:13Je vais vous les détailler un par un.
00:12:16En suivant ces 10 principes,
00:12:17vous éviterez de perdre du temps avec de mauvais backtests
00:12:22et de subir des pertes financières inutiles.
00:12:24Bien sûr, un bon backtesting ne garantit pas des profits.
00:12:27Le premier point est de toujours douter des données.
00:12:31Certains utilisent des données venant de Google ou Yahoo,
00:12:34mais ces données sont souvent très, très “sales”.
00:12:37Ceux qui partent de zéro dans le trading quantitatif
00:12:41rencontrent énormément d'obstacles liés aux données.
00:12:45Ces données gratuites sont souvent erronées et imprécises.
00:12:47Et concernant le nettoyage des données,
00:12:50l'étape où l'on rend les données exploitables,
00:12:51on pourrait croire qu'il suffit de corriger les erreurs.
00:12:54Mais en réalité, le jugement subjectif
00:12:57et les biais de l'analyste s'y glissent inévitablement.
00:12:59Prenons un exemple concret.
00:13:01Supposons qu'une action s'échange entre 41 $ et 43 $
00:13:05avant la clôture du marché.
00:13:06Mais juste avant la fin de la séance,
00:13:08un trader fait une erreur de saisie
00:13:11et une action est exécutée à 28 $.
00:13:14Stricto sensu,
00:13:16le cours le plus bas de la journée est de 28 $.
00:13:18Ce trader a subi une perte à cause de son erreur,
00:13:21mais le point bas enregistré devrait être 28 $.
00:13:24C'est la réalité des faits.
00:13:25Alors, comment fixer les plus hauts et les plus bas ?
00:13:28Ignorer ce prix et fixer le plus bas à 41 $
00:13:31revient à supprimer une transaction
00:13:34et un point bas qui ont réellement existé.
00:13:36Cependant, si vous ne le supprimez pas,
00:13:38et que vous testez par exemple
00:13:40une stratégie qui achète si le cours chute
00:13:44de plus de 5 % en moins de 5 minutes,
00:13:45votre backtest pourrait considérer
00:13:47que vous avez acheté l'action à 28 $.
00:13:48Le logiciel validera cet achat.
00:13:51Il considérera que vous avez acheté à 28 $
00:13:53pour revendre au prix de clôture de 42 $,
00:13:55réalisant ainsi un gain immédiat.
00:13:58Le rendement de cette stratégie
00:13:59serait alors artificiellement gonflé.
00:14:01S'il ne s'agit que d'une action, on peut l'ignorer,
00:14:03mais que se passe-t-il si l'erreur porte
00:14:06sur 10, 100 ou même 10 000 actions ?
00:14:09Ces cas de figure arrivent réellement.
00:14:11Cela se produit de temps à autre.
00:14:14Il y a eu des erreurs massives
00:14:17faisant perdre des dizaines de millions de dollars.
00:14:20Mais des erreurs de 100 ou 1 000 actions
00:14:21sont plus fréquentes qu'on ne le pense.
00:14:23Certes, ces dernières années,
00:14:24avec la généralisation des algorithmes
00:14:25pour l'exécution des ordres,
00:14:27des garde-fous ont été mis en place.
00:14:29C'est donc moins fréquent qu'auparavant,
00:14:31mais pour faire du backtesting,
00:14:33on utilise souvent des données antérieures à ces systèmes,
00:14:36remontant à 2005 ou 2011.
00:14:37Dans ces périodes plus anciennes,
00:14:39on trouve régulièrement ce genre d'anomalies.
00:14:41Comment allez-vous traiter ces données ?
00:14:43De plus, certains actifs sont cotés
00:14:44sur plusieurs places boursières.
00:14:45Dans ce cas, il faut vérifier
00:14:47si les données provenant de ces différentes bourses
00:14:49ont été correctement consolidées
00:14:50pour les prix hauts et bas,
00:14:52ainsi que pour les volumes de transaction.
00:14:53Est-ce une base de données propre et unifiée ?
00:14:56Ou bien s'agit-il de données
00:14:57provenant de quelques bourses seulement,
00:14:59rendant votre backtesting
00:15:01basé sur des données incomplètes ?
00:15:02C'est un risque réel,
00:15:04surtout si le coût des données est bas.
00:15:05Et pour calculer le Drawdown Maximum (MDD),
00:15:07utilisez-vous les prix les plus bas ou les prix de clôture ?
00:15:09Par exemple, pour une stratégie
00:15:11de rééquilibrage mensuel,
00:15:13lors du backtesting,
00:15:14on utilise souvent des données quotidiennes
00:15:15en se basant uniquement sur les prix de clôture.
00:15:17Mais en réalité,
00:15:18pour calculer correctement la perte maximale,
00:15:20il faudrait aussi prendre en compte
00:15:21le drawdown intra-journalier.
00:15:22Ce sont des détails cruciaux.
00:15:24De même, pour les contrats à terme (futures),
00:15:26qui ont une date d'expiration,
00:15:27comment gérez-vous le “rollover” ?
00:15:29En backtesting,
00:15:31on crée souvent des séries temporelles continues
00:15:33en raccordant les différents contrats.
00:15:34Mais la manière
00:15:35dont ce passage d'un contrat à l'autre
00:15:37est comptabilisé est déterminante.
00:15:38Les problèmes de ce genre
00:15:39sont extrêmement nombreux.
00:15:40Avez-vous pris le temps de réfléchir
00:15:42à ces problématiques de données ?
00:15:44Si vous utilisez un service de backtesting tiers,
00:15:47allez-vous simplement leur faire confiance aveuglément ?
00:15:51Il est impératif de vérifier ces éléments,
00:15:53car les erreurs de données sont très fréquentes
00:15:57et peuvent totalement
00:15:59fausser vos résultats.
00:16:01Un autre problème majeur lié aux données
00:16:04est le biais de survie.
00:16:06C'est l'une des erreurs les plus classiques en backtesting.
00:16:08Cette illustration montre une situation
00:16:10datant de la Première ou Seconde Guerre mondiale.
00:16:12L'armée de l'air voulait renforcer ses avions.
00:16:16Ils cherchaient à savoir quelles parties
00:16:18de la carlingue devaient être blindées en priorité.
00:16:20Pour le déterminer,
00:16:21les ingénieurs ont examiné
00:16:24tous les avions revenus du combat
00:16:26pour répertorier
00:16:28les zones les plus touchées par les tirs.
00:16:29Ils ont constaté que certaines zones étaient criblées de balles,
00:16:33et ont donc conclu
00:16:34qu'il fallait renforcer ces endroits précis
00:16:36avec des plaques d'acier plus épaisses.
00:16:38Mais c'était une erreur monumentale.
00:16:40Pourquoi ? Parce que les avions
00:16:42touchés dans les autres zones,
00:16:42comme ici ou là,
00:16:44n'ont pas survécu à leurs dégâts.
00:16:46Ils se sont tous écrasés et ne sont jamais rentrés à la base.
00:16:49Cela illustre le danger de conclure
00:16:50à quel point il est dangereux de tirer des conclusions
00:16:52à partir des seules données fournies.
00:16:54En investissement boursier, le “biais de survie”
00:16:56pourrait s'illustrer ainsi :
00:16:57si l'on regarde aujourd'hui,
00:16:59on se dit que si on avait acheté Apple et Microsoft dans les années 80,
00:17:02on aurait touché le gros lot.
00:17:03C'est ce qu'on a tendance à penser,
00:17:05et on établit alors une stratégie d'achat de ces valeurs technologiques.
00:17:08Pourtant, à cette époque, dans les années 80,
00:17:10des entreprises aussi prometteuses qu'Apple ou Microsoft,
00:17:13il y en avait plus de trente.
00:17:14Et parmi elles, vingt-huit ont disparu.
00:17:17Seules deux ont survécu.
00:17:19Le problème, c'est qu'en ne voyant que ces deux rescapées,
00:17:22on se focalise sur elles
00:17:23en pensant qu'investir de la sorte garantit la fortune.
00:17:27Ainsi, si vous effectuez un backtesting
00:17:30en vous basant uniquement sur les entreprises qui existent encore,
00:17:32vos rendements seront forcément gonflés artificiellement.
00:17:35Et ce problème s'accentue évidemment
00:17:38à mesure que la période de backtesting s'allonge.
00:17:40Car sur une longue période,
00:17:41il y avait forcément au début
00:17:43beaucoup d'entreprises qui ont fini par faire faillite.
00:17:45Pourtant, de nombreux investisseurs débutants,
00:17:47lorsqu'ils commencent un backtesting,
00:17:48définissent leur univers d'actions au départ.
00:17:51Pour déterminer sur quelles actions
00:17:54ils vont tester leur stratégie,
00:17:55ils choisissent des sociétés qui existent aujourd'hui.
00:17:58Puis, au sein de cet échantillon,
00:17:59ils appliquent divers critères
00:18:02pour juger comment ils auraient pu sélectionner
00:18:05les meilleures entreprises parmi elles.
00:18:07Mais en procédant ainsi,
00:18:08toutes les entreprises qui ont fait faillite
00:18:11entre le début du test et aujourd'hui sont exclues.
00:18:13C'est comme si l'on supposait
00:18:16que l'on possédait dès le départ le don divin de les éviter.
00:18:18Le rendement est donc forcément surestimé par rapport à la réalité.
00:18:21C'est pourquoi, pour un backtesting,
00:18:23si vous remontez sur vingt ans,
00:18:25vous devez partir des entreprises qui existaient en 2001
00:18:29pour constituer
00:18:30votre échantillon de base.
00:18:32C'est un point crucial.
00:18:33Petite parenthèse d'ailleurs :
00:18:34les célèbres “super investisseurs” que l'on voit sur YouTube
00:18:37peuvent aussi être le fruit de ce biais de survie.
00:18:40Certes, certains ont réussi grâce à leur talent,
00:18:43mais d'autres ont simplement pris des risques énormes,
00:18:45en misant tout sur une seule action,
00:18:48et il se trouve que ce pari a payé,
00:18:49faisant d'eux des investisseurs à succès.
00:18:51Sauf que pour une personne ayant agi ainsi,
00:18:53il y en avait peut-être trente ou cinquante autres.
00:18:55Mais sur ces cinquante personnes ayant pris les mêmes risques,
00:18:58une seule a survécu,
00:18:59et c'est celle-là que les spectateurs admirent.
00:19:02C'est typiquement le problème du biais de survie.
00:19:05Si on se dit aujourd'hui :
00:19:06et que l'on prend des risques inconsidérés,
00:19:08If you make such an incredibly high-risk investment,
00:19:11le succès n'est absolument pas garanti.
00:19:13On a juste une chance sur cinquante d'être l'heureux élu.
00:19:17Prendre conscience de ces biais
00:19:20permet d'investir de manière beaucoup plus rationnelle et sage.
00:19:22Lorsqu'on utilise une plateforme de backtesting,
00:19:24on a tendance à déléguer à l'entreprise
00:19:27la gestion des données et du biais de survie.
00:19:28On le fait de manière assez naïve.
00:19:31Sans se poser de questions.
00:19:32Mais est-ce que cette entreprise,
00:19:33face à ces problèmes de données,
00:19:35a été réellement rigoureuse ?
00:19:37S'est-elle souciée du rendement réel de l'utilisateur
00:19:39au point d'investir massivement
00:19:41pour s'assurer
00:19:43que ses données soient parfaitement propres ?
00:19:45C'est un point qu'il faut absolument vérifier.
00:19:48Le deuxième point de vigilance,
00:19:50c'est le “biais d'anticipation” (look-ahead bias),
00:19:52qui consiste à regarder l'avenir trop tôt.
00:19:54On pourrait appeler le look-ahead bias
00:19:57le “biais de prescience” ?
00:19:58C'est une façon de l'interpréter.
00:20:00Il s'agit d'utiliser des informations inaccessibles au moment de la transaction.
00:20:03Le backtesting se fait sur des données passées.
00:20:05Mais d'un point de vue chronologique,
00:20:07il arrive qu'une information n'existait pas l'an dernier,
00:20:09mais que la logique du test l'utilise
00:20:12pour décider d'un achat à cette date-là.
00:20:14C'est une erreur que l'on rencontre assez souvent.
00:20:15C'est ce qu'on appelle le look-ahead bias.
00:20:18Un exemple classique de cette erreur :
00:20:21disons qu'en ce mois de septembre 2021,
00:20:24tester toutes les actions coréennes est trop complexe,
00:20:27donc on décide de n'en prendre que cent.
00:20:29C'est le raisonnement de l'utilisateur.
00:20:30Il sélectionne le top 100 des capitalisations boursières du KOSPI
00:20:34et lance son backtesting sur ce groupe.
00:20:35Par exemple, une stratégie basée sur le PER.
00:20:38Il applique cela
00:20:39sur les dix dernières années
00:20:41et obtient un excellent rendement.
00:20:42Mais où est l'erreur ?
00:20:44Il a sélectionné le top 100 de septembre 2021.
00:20:50En ne gardant que ces valeurs,
00:20:51faire un backtesting depuis 2011
00:20:55revient à savoir à l'avance, dès 2011,
00:20:59lesquelles seront dans le top 100 en 2021.
00:21:01Or, une forte capitalisation
00:21:03signifie généralement que le prix de l'action a grimpé régulièrement.
00:21:06Même si les gens font attention,
00:21:08ils se disent souvent que limiter l'échantillon
00:21:11aux quelques centaines plus grosses capitalisations
00:21:12est une bonne idée pour simplifier,
00:21:14mais c'est là qu'ils commettent une erreur majeure.
00:21:15Un autre exemple concerne
00:21:17le backtesting basé sur les fondamentaux et les bilans financiers.
00:21:21Chaque trimestre, les entreprises publient leurs résultats
00:21:24à des dates différentes.
00:21:26Mais lors du test, est-ce que le rééquilibrage
00:21:29ou la transaction
00:21:31a lieu après la publication effective ?
00:21:33L'entreprise publie ses résultats au début du mois suivant,
00:21:36mais le test effectue un rééquilibrage à la fin du mois précédent
00:21:40en utilisant déjà ces informations.
00:21:41On achète donc en connaissant déjà le futur.
00:21:44Ce genre de biais peut s'immiscer dans le backtesting.
00:21:46Un troisième exemple :
00:21:48on décide d'acheter au prix de clôture.
00:21:50On part de ce principe,
00:21:52et on effectue un rééquilibrage quotidien.
00:21:54Pourtant, le prix de clôture n'est connu qu'une fois la journée finie.
00:21:57Si le backtesting place l'ordre
00:22:00cinq minutes avant la fermeture du marché,
00:22:03cela crée un décalage temporel
00:22:05où l'on utilise une information future.
00:22:07C'est ainsi que ce type de biais apparaît.
00:22:09Ensuite, le troisième point est absolument capital.
00:22:11Il s'agit d'éviter le surajustement (overfitting).
00:22:13On ne soulignera jamais assez l'importance de ce point.
00:22:16Le surajustement, c'est quoi ?
00:22:18C'est créer un modèle
00:22:19trop performant sur un échantillon de données précis.
00:22:23Prenons cet échantillon par exemple.
00:22:25Ce que nous voulons vraiment comprendre,
00:22:27c'est la population globale qui est derrière.
00:22:29Nous cherchons à estimer
00:22:32la population réelle dans son ensemble.
00:22:34Au cas où certains ne sauraient pas
00:22:36ce qu'est une “population” en statistiques,
00:22:38permettez-moi de l'expliquer brièvement.
00:22:40Imaginons un sondage électoral.
00:22:41Si l'on interroge chaque citoyen du pays,
00:22:44on obtient le résultat parfait.
00:22:46Avec une précision de 100 %.
00:22:48Mais comme on ne peut pas interroger tout le monde,
00:22:50on tire un échantillon au sein de la population.
00:22:53On suppose que ce petit groupe d'individus est représentatif de l'ensemble.
00:22:58On postule sa représentativité
00:22:59et on s'en sert pour faire des estimations.
00:23:02Pour nos données boursières, la population réelle
00:23:06aura une certaine distribution,
00:23:08et à partir de quelques échantillons prélevés,
00:23:10on tente de deviner la forme de la population globale.
00:23:16Ici, on essaie d'ajuster un modèle à cette forme.
00:23:20Ajuster un modèle signifie
00:23:22trouver une courbe de tendance
00:23:25qui minimise l'erreur par rapport aux données.
00:23:30C'est le but de ces courbes.
00:23:30Mais si vous utilisez un modèle extrêmement complexe
00:23:34et tout entortillé pour qu'il colle parfaitement,
00:23:37l'erreur sur votre échantillon sera de zéro.
00:23:39Il touche chaque point de l'échantillon.
00:23:41C'est donc un modèle parfait, sans aucune erreur,
00:23:44mais uniquement pour cet échantillon.
00:23:47Est-ce qu'il représente bien la population globale ? Probablement pas.
00:23:51Non, n'est-ce pas ?
00:23:51Avec de nouveaux échantillons, l'erreur serait immense.
00:23:54Il faut donc un ajustement modéré
00:23:58pour que, face à de nouvelles données,
00:24:00la somme des erreurs reste faible.
00:24:03À l'inverse, si l'on prend une droite trop simple,
00:24:06l'ajustement sera insuffisant.
00:24:08C'est ce qu'on appelle le sous-ajustement (underfitting).
00:24:10L'erreur est déjà élevée sur l'échantillon même.
00:24:13L'essentiel dans la modélisation,
00:24:16c'est de trouver le juste milieu de l'optimisation.
00:24:18Pourtant, lors d'un backtesting,
00:24:20beaucoup considèrent les données passées comme l'unique vérité.
00:24:24Ils traitent l'échantillon comme la réalité entière.
00:24:26Ils cherchent alors à maximiser le profit sur ces données précises
00:24:29en ajoutant une multitude de règles spécifiques
00:24:32pour obtenir le rendement le plus élevé possible.
00:24:35Par exemple, de 2015 à 2021, le test indique :
00:24:39“Si le PER est entre 13,75 et 17,23,
00:24:43la capitalisation entre 51,7 et 62,3 milliards,
00:24:46Si vous achetez des actions avec un PBR inférieur à 1,17,
00:24:50un rendement annuel de 70 % est possible.
00:24:52C'est le genre de résultat de backtesting qu'on obtient.
00:24:54On voit clairement qu'il s'agit d'un surapprentissage total.
00:24:57C'est une sur-optimisation.
00:24:58Imaginez une entreprise avec un PER de 17,24 mais très peu rentable,
00:25:04qui se trouvait par hasard dans ces données,
00:25:05ou une capitalisation boursière de 51,5 milliards,
00:25:09qui était un mauvais exemple et a servi à fixer ces limites.
00:25:12En se basant si précisément sur cet échantillon de données passées,
00:25:16et en essayant à tout prix de maximiser le rendement,
00:25:19on finit par obtenir ce genre de modèle.
00:25:21Alors, quand de nouvelles données arriveront dans le futur,
00:25:25la marge d'erreur sera énorme.
00:25:27C'est l'idée générale,
00:25:28mais regardons cela d'un peu plus près.
00:25:29Voici un autre exemple de sur-optimisation.
00:25:31On cherche à séparer les points rouges et bleus
00:25:34par une sorte de ligne.
00:25:36C'est notre modèle de ligne.
00:25:37La ligne noire apprend de manière équilibrée,
00:25:40mais la ligne verte toute sinueuse,
00:25:42basée sur ces points bleus et rouges,
00:25:46les sépare de façon absolument parfaite.
00:25:48Sur cet échantillon de données précis,
00:25:50c'est une ligne parfaite avec zéro erreur.
00:25:52Mais dans la population réelle,
00:25:55le bleu pourrait apparaître par ici
00:25:57et le rouge pourrait sortir par là.
00:25:59Dès que de nouvelles données arriveront,
00:26:03cette ligne verte fera énormément d'erreurs.
00:26:05C'est ce qu'on peut anticiper.
00:26:07Si on s'adapte trop précisément aux données passées,
00:26:10ça ne fonctionnera pas dans le futur.
00:26:11C'est un exemple similaire :
00:26:13On collecte des données détaillées sur 100 étudiants actuels.
00:26:15Le but est d'identifier, parmi 100 nouveaux étudiants,
00:26:16ceux qui auront les meilleurs résultats cette année.
00:26:19en se sur-optimisant sur les données
00:26:20Then, for example, if the gender is male,
00:26:22and the height is within this range,
00:26:23des meilleurs élèves de l'année dernière,
00:26:26on établit des règles de classification
00:26:28qui, appliquées aux étudiants de cette année,
00:26:30peuvent devenir totalement absurdes.
00:26:32Si on définit simplement la règle par :
00:26:34et qu'on l'applique aux données de l'an dernier,
00:26:37Once the discrimination rule is set,
00:26:39la précision sera peut-être plus faible
00:26:42qu'avec des critères ultra-détaillés.
00:26:44Même si la précision est un peu moins élevée,
00:26:45en l'appliquant aux étudiants de cette année,
00:26:47elle a beaucoup plus de chances
00:26:49de rester à un niveau correct.
00:26:53Alors, comment atténuer ce problème de sur-optimisation ?
00:26:56Tout backtesting en souffre à un certain degré,
00:27:00il est impossible de l'éliminer totalement.
00:27:01Par exemple, comment savoir si une stratégie testée
00:27:06sur les 5 dernières années sera valable les 3 prochaines ?
00:27:08La réponse parfaite à cette question,
00:27:11c'est d'attendre et de trader pendant 3 ans.
00:27:12Mais c'est une analyse a posteriori.
00:27:15Si vous perdez de l'argent pendant 3 ans,
00:27:17ça n'a plus d'intérêt.
00:27:17Une méthode consiste donc à utiliser
00:27:19c'est-à-dire des données hors échantillon.
00:27:21It involves using out-of-sample data.
00:27:23On les appelle souvent données OOS.
00:27:25Par exemple, au lieu de chercher
00:27:27une stratégie performante sur 6 ans,
00:27:28de septembre 2015 à septembre 2021,
00:27:31puis de commencer à trader en octobre 2021,
00:27:33ce qui ne serait pas idéal,
00:27:34on procède autrement.
00:27:38On utilise les données de septembre 2014
00:27:39à septembre 2020 pour trouver la stratégie.
00:27:42Ensuite, on effectue un second backtesting
00:27:44d'octobre 2020 à septembre 2021.
00:27:46On prend les 6 ans de données depuis 2014
00:27:49pour trouver ce qui fonctionne,
00:27:52puis on simule un trading réel
00:27:55sur l'année suivante en backtesting.
00:27:57Si le résultat est concluant,
00:28:02alors on passe au trading réel en octobre 2021.
00:28:04Bien sûr, cette division
00:28:06pose d'autres problèmes,
00:28:09que nous aborderons plus tard.
00:28:10L'idée que je veux transmettre ici,
00:28:12c'est que si vous avez une telle quantité de données,
00:28:13vous en mettez une partie de côté.
00:28:16Vous travaillez dur sur le premier bloc
00:28:18pour trouver votre stratégie et l'optimiser.
00:28:19Mais avant de vous lancer réellement,
00:28:21vous la testez sur les données mises à part,
00:28:23celles qui n'ont pas servi à élaborer la stratégie.
00:28:24C'est ce qu'on appelle utiliser des données OOS.
00:28:26En science des données, on parle de
00:28:28données d'entraînement, de validation,
00:28:30de test ou de développement.
00:28:31La terminologie exacte importe peu.
00:28:33Le point suivant découle directement de là :
00:28:34Vous n'avez droit qu'à une seule chance de validation.
00:28:35C'est un point absolument crucial.
00:28:38On ne soulignera jamais assez
00:28:39l'importance de cette phrase.
00:28:41Approfondissons ce test sur données hors échantillon.
00:28:42Il existe plusieurs noms pour ces données,
00:28:44mais pour cette vidéo,
00:28:45nous utiliserons “données d'entraînement” et “données de validation”.
00:28:46Dans notre exemple précédent,
00:28:48les données de 2014 à 2020
00:28:50sont les données d'entraînement,
00:28:53celles utilisées pour élaborer la stratégie.
00:28:58L'année suivante, utilisée pour
00:29:01vérifier la stratégie trouvée,
00:29:03sera appelée “données de validation”.
00:29:04Ce graphique montre la complexité
00:29:06d'une règle ou d'un modèle.
00:29:08Plus on va vers la droite,
00:29:09plus le modèle est complexe.
00:29:11Par exemple, fixer des règles précises comme
00:29:12“entre 173 cm et 173,25 cm”
00:29:13augmente la complexité.
00:29:16Ici, nous avons l'erreur de prédiction,
00:29:18c'est-à-dire l'écart constaté
00:29:19lors du passage au réel.
00:29:20Sur les données d'entraînement,
00:29:22plus le modèle est complexe,
00:29:24plus l'erreur diminue.
00:29:26Comme on l'a vu avec les points,
00:29:28en rendant la ligne très sinueuse,
00:29:30on peut réduire l'erreur à zéro
00:29:32sur l'échantillon d'entraînement.
00:29:35En complexifiant à l'extrême,
00:29:36l'erreur tend vers zéro.
00:29:38Mais si on teste ce modèle
00:29:40sur les données de validation mises à part,
00:29:42que se passe-t-il pour l'erreur ?
00:29:44Quand le modèle est très simple,
00:29:45comme une ligne droite,
00:29:47l'erreur est similaire sur les deux.
00:29:49Mais à mesure que la complexité augmente,
00:29:50l'erreur sur les données d'entraînement
00:29:52continue de chuter,
00:29:53tandis que sur les données de validation,
00:29:54elle finit par remonter
00:29:55dès que le modèle devient trop complexe.
00:29:58Si on transpose cela au backtesting,
00:29:59multiplier les tests
00:30:02et fixer des règles ultra-précises,
00:30:03comme ajuster finement
00:30:05des paramètres tels que le PER,
00:30:06fera grimper le rendement
00:30:08sur les données passées.
00:30:12Sur ce graphique, plus c'est bas, mieux c'est.
00:30:14Un backtesting trop ajusté au passé
00:30:16affiche un rendement toujours meilleur,
00:30:18mais en situation réelle,
00:30:19passé un certain point de complexité,
00:30:21le rendement réel s'effondre.
00:30:23C'est ce qui arrive.
00:30:24J'ai associé la baisse de l'erreur
00:30:26à une hausse du rendement,
00:30:28et inversement,
00:30:31mais pour être rigoureux,
00:30:33une erreur plus grande
00:30:35ne signifie pas forcément moins de profit.
00:30:37Plus on fait de sur-apprentissage,
00:30:40plus l'écart entre le backtesting
00:30:42et le rendement futur s'agrandit.
00:30:45Cet écart pourrait être positif,
00:30:47ou négatif, de façon aléatoire.
00:30:51Cependant, en général,
00:30:52le rendement réel finit par être moins bon.
00:30:55Parce qu'en s'adaptant aux données passées,
00:30:56on a tout fait pour gonfler le profit,
00:30:59donc toute erreur ultérieure
00:31:02se fera probablement vers le bas.
00:31:05Alors, comment diviser les données
00:31:08pour effectuer le backtesting ?
00:31:12Prenons l'exemple de la période 2011-2021.
00:31:15Comment organiser cela ?
00:31:17Nous allons voir différentes méthodes.
00:31:18La répartition classique est de 70/30.
00:31:2170 % pour l'entraînement, 30 % pour le test.
00:31:23Mais en finance, l'ordre temporel compte.
00:31:24On ne peut pas mélanger les années au hasard.
00:31:26Il faut respecter la chronologie des marchés.
00:31:28Sinon, on risque d'utiliser le futur pour prédire le passé.
00:31:31C'est ce qu'on appelle le biais de regard vers l'avant.
00:31:32Il est donc crucial de garder les données les plus récentes
00:31:33pour la phase de validation finale.
00:31:34Beaucoup de gens négligent cette étape
00:31:37et s'étonnent de leurs pertes en réel.
00:31:39La discipline est la clé ici.
00:31:42Ne touchez jamais aux données de validation
00:31:45avant d'avoir finalisé votre stratégie.
00:31:47C'est la seule façon d'être honnête avec soi-même.
00:31:49Passons maintenant aux détails techniques
00:31:50de la mise en œuvre de cette division.
00:31:51Mais en général, si une telle erreur se produit,
00:31:53le rendement réel s'avère bien plus mauvais.
00:31:55Parce que lorsqu'on ajuste aux données passées,
00:31:57on cherche à maximiser le rendement
00:31:59en forçant l'ajustement au maximum.
00:32:00Donc, si un écart apparaît par rapport à ce rendement,
00:32:02il se fera généralement vers le bas.
00:32:03Alors, comment diviser les données d'apprentissage
00:32:06et les données de validation pour le backtesting ?
00:32:08Par exemple, prendre 11 ans de données de 2011 à 2021
00:32:11pour l'apprentissage et l'appliquer dès l'année suivante,
00:32:15cela signifie qu'on n'utilise pas de données de validation.
00:32:18On utilise tout pour l'apprentissage avant d'appliquer,
00:32:21et ce n'est pas une méthode recommandée.
00:32:22Une autre façon de diviser, comme je l'ai mentionné,
00:32:25serait d'utiliser 10 ans comme données d'apprentissage,
00:32:28de valider sur la dernière année, en 2021,
00:32:31puis d'appliquer la stratégie à partir de 2022.
00:32:34Mais comme nous le verrons plus tard,
00:32:36ce n'est pas non plus la meilleure méthode.
00:32:38Quelles sont les méthodes un peu plus avancées ?
00:32:40Il existe une approche appelée “Walk-Forward Testing”.
00:32:43En quoi consiste-t-elle ?
00:32:44Par exemple, on apprend sur 3 ans à partir de 1999
00:32:46pour optimiser les paramètres,
00:32:49puis on valide sur l'année suivante.
00:32:52On procède ensuite par roulement, de cette manière.
00:32:55En établissant une stratégie ainsi,
00:32:58si l'on prend un modèle très simple...
00:33:01Même si je pense que faire du backtesting
00:33:04uniquement sur le PER n'a aucun sens,
00:33:05imaginons une stratégie d'achat d'actions sous un certain PER.
00:33:08Sur 10 ans de données,
00:33:11si vous optimisez ce PER,
00:33:13les meilleurs seuils varieront chaque année,
00:33:17et vous finirez par choisir une moyenne correcte.
00:33:20Mais en réduisant la fenêtre,
00:33:22en fixant la valeur du PER sur les 3 dernières années,
00:33:26et en testant de cette façon,
00:33:28vous pouvez ajuster vos paramètres
00:33:30plus souplement au fil du temps.
00:33:32C'est une façon de tester.
00:33:35On peut faire ainsi,
00:33:37ou utiliser la “K-Fold Cross-Validation”.
00:33:38On l'appelle la validation croisée.
00:33:39Voici comment cela fonctionne.
00:33:41La valeur “K” indique en combien de parts on divise.
00:33:45Sur le schéma, K est égal à 5.
00:33:47Si K vaut 5, on divise les données en 5 parts égales.
00:33:50On apprend sur 4 ans,
00:33:53puis on vérifie le rendement sur la 5ème année de validation.
00:33:56Ensuite, on apprend sur 4 autres parts,
00:33:59et on valide sur l'année restante,
00:34:01puis on fait la moyenne de ces cinq rendements.
00:34:05On calcule donc la moyenne des rendements obtenus.
00:34:09On considère que c'est proche du rendement espéré.
00:34:12C'est le principe.
00:34:13Une autre méthode sur 10 ans de données :
00:34:16apprendre sur les années paires
00:34:19et valider sur les années impaires.
00:34:22Toutes ces méthodes ont leurs avantages et inconvénients.
00:34:23L'avantage principal est que
00:34:26les paramètres sont stables face aux changements de régime.
00:34:30Qu'est-ce que cela signifie ?
00:34:31Lors d'une crise financière ou du COVID,
00:34:33la nature du marché change.
00:34:35Si la crise a éclaté en 2008,
00:34:39et que vous apprenez sur les données de 1998 à 2007
00:34:43pour trouver ce qui rapporte le plus,
00:34:45puis que vous validez ensuite,
00:34:46comme la nature du marché a changé,
00:34:49la distribution des données sera différente.
00:34:51Et la situation future du marché
00:34:52ne reflétera pas les schémas du passé.
00:34:55En divisant les données de cette manière,
00:34:57lorsqu'un événement majeur survient
00:35:00et modifie radicalement les comportements du marché,
00:35:02on peut valider la stratégie de façon plus robuste.
00:35:06C'est pourquoi on utilise ces méthodes.
00:35:08Mais attention au risque de “regarder vers le futur”
00:35:11dont j'ai parlé précédemment.
00:35:13Tout dépend de la fréquence de trading,
00:35:16mais pour un trading mensuel,
00:35:18si vos données d'apprentissage
00:35:19incluent l'année 2014,
00:35:22selon les règles ou données utilisées en 2013,
00:35:26des éléments qu'on ne devrait connaître qu'en 2014
00:35:28peuvent s'immiscer dans les données de validation.
00:35:30Le rendement de validation serait alors gonflé artificiellement,
00:35:34car le modèle a appris en connaissant déjà le futur.
00:35:36Soyez donc extrêmement vigilants sur ce point.
00:35:39Pour expliquer cela plus simplement,
00:35:41dans le domaine du Machine Learning,
00:35:44on parle d'hyperparamètres.
00:35:46Les paramètres sont généralement ajustés par le modèle
00:35:50pour réduire l'erreur sur les données d'échantillon.
00:35:54Mais les hyperparamètres doivent être fixés par l'humain.
00:35:57Par exemple, pour une analyse de régression,
00:35:59faut-il utiliser une droite ou une courbe ?
00:36:03Le choix de la complexité de l'équation,
00:36:07le type de modèle à utiliser...
00:36:09Tout cela est décidé par l'humain.
00:36:11Le nombre de ces paramètres constitue les hyperparamètres.
00:36:15Une fois fixés, le modèle cherche à
00:36:18minimiser l'erreur sur les données
00:36:22en ajustant la courbe (le fitting).
00:36:23La pente ou l'ordonnée à l'origine sont alors
00:36:28appris par le modèle : ce sont les paramètres.
00:36:33Il faut tester plusieurs hyperparamètres.
00:36:36On ne divise donc pas juste en entraînement/test,
00:36:40on ajoute souvent un jeu de données de développement (Dev Set).
00:36:42On effectue une première optimisation,
00:36:45on optimise les hyperparamètres sur ce jeu,
00:36:48puis on valide enfin sur les données de test.
00:36:51Les experts en Machine Learning comprendront déjà tout cela.
00:36:55Pour les autres, une brève explication ne suffira pas,
00:36:58alors passons à la suite.
00:37:00Cependant, lors de ce processus, il y a un point
00:37:04tellement crucial qu'on ne le soulignera jamais assez.
00:37:08Il s'agit des données de validation.
00:37:10Vous ne devez JAMAIS regarder ces données deux fois.
00:37:15Leurs résultats sont définitifs.
00:37:16On cherche une stratégie rentable via de nombreux backtests sur les données d'apprentissage.
00:37:22Même si elle est performante sur ces données-là,
00:37:26pour vérifier si elle le restera en conditions réelles,
00:37:31on la teste sur une période ou des données jamais utilisées auparavant.
00:37:38Mais ce test ne doit être fait qu'UNE seule fois.
00:37:41Si le rendement est mauvais au premier essai,
00:37:45peu importent les années d'efforts passées sur cette stratégie,
00:37:50vous devez l'abandonner purement et simplement.
00:37:52Pourquoi ? Parce qu'en réalité, vous n'aurez qu'une chance.
00:37:57On ne peut pas remonter le temps.
00:37:58Pourtant, certains, déçus par les mauvais résultats de validation,
00:38:03retournent aux données d'apprentissage pour ajuster les paramètres
00:38:07jusqu'à obtenir un bon résultat en validation.
00:38:10À cet instant précis, vos données de validation n'en sont plus,
00:38:14elles sont devenues des données d'apprentissage.
00:38:16Vous avez optimisé vos paramètres en incluant la validation.
00:38:21Dès lors, pour la performance future en conditions réelles,
00:38:26nous n'avons plus absolument aucune garantie.
00:38:29C'est un point fondamental.
00:38:31Un autre point crucial pour le backtesting,
00:38:34c'est que les époques changent : le concept de régime de marché.
00:38:37Laissez-moi vous poser une question.
00:38:39Entre un backtesting sur 20 ans et un sur 3 ans,
00:38:42lequel est le plus significatif ?
00:38:44La réponse est déjà dans le titre,
00:38:47mais beaucoup de débutants pensent que plus c'est long, mieux c'est.
00:38:50Ils pensent qu'il faut un maximum de données.
00:38:54Pourtant, entre ces deux options,
00:38:57bien que cela dépende de l'horizon de temps
00:39:00et de la fréquence des transactions,
00:39:01je choisirais presque toujours celui de 3 ans.
00:39:03Plus il y a de données, mieux c'est, c'est vrai.
00:39:06Mais elles doivent provenir de la même distribution.
00:39:09Avoir beaucoup de données est idéal,
00:39:11sauf si l'on y mélange des données d'un environnement déjà révolu.
00:39:17Le problème d'un backtesting trop long,
00:39:20c'est que la nature du marché évolue.
00:39:22Voici un graphique, peut-être des taux réels,
00:39:26ou en tout cas lié aux taux d'intérêt.
00:39:28On voit que le concept même de “taux approprié”
00:39:33fluctue, certes, selon les périodes,
00:39:34mais le niveau de référence change radicalement d'un régime à l'autre.
00:39:38À une époque, c'était ici, puis il y a eu le choc pétrolier...
00:39:41Après cette période, le niveau a encore bougé,
00:39:45et depuis les années 80,
00:39:47le taux d'intérêt standard est devenu celui-ci.
00:39:51Si vous faites du trading d'obligations,
00:39:53et que vous apprenez une stratégie sur cette période passée
00:39:57pour l'appliquer à la période actuelle...
00:39:59Si le régime de marché a changé entre-temps,
00:40:02votre stratégie, si rentable sur les anciennes données,
00:40:07ne fonctionnera plus ici.
00:40:08C'est ce qu'on appelle un changement de régime de marché.
00:40:11C'est une mutation de la nature ou du système du marché.
00:40:14Ces changements peuvent survenir
00:40:17à cause de l'évolution des acteurs du marché.
00:40:20Par exemple, l'afflux massif d'investisseurs particuliers après le COVID
00:40:23a mené à l'affaire GameStop.
00:40:25Avant le COVID,
00:40:27les stratégies de vente à découvert (short selling),
00:40:30utilisées par des hedge funds spécialisés,
00:40:32fonctionnaient extrêmement bien.
00:40:34Mais avec ce changement brutal de la nature du marché,
00:40:37certains ont frôlé la faillite.
00:40:39Il y a aussi les changements de lois et de régulations.
00:40:43Après la crise financière, le trading pour compte propre a été interdit aux banques,
00:40:45et de nouvelles règles sur les dérivés ont transformé le marché.
00:40:49Une stratégie basée sur des données
00:40:50antérieures à la crise financière
00:40:52risque de ne plus être efficace après.
00:40:54Ensuite, les événements exogènes,
00:40:55comme le choc pétrolier, qui sont
00:40:57si massifs qu'ils modifient le marché lui-même.
00:40:59Ce sont des événements macroéconomiques majeurs.
00:41:01Viennent enfin les évolutions macroéconomiques :
00:41:03avec l'augmentation constante de l'endettement,
00:41:06les taux d'intérêt, autrefois à ce niveau,
00:41:08sont entrés dans une ère de taux extrêmement bas.
00:41:11L'assouplissement quantitatif contribue
00:41:13également à ces taux d'intérêt bas,
00:41:15permettant aux actions de croissance de surperformer
00:41:17de manière spectaculaire ces dix dernières années.
00:41:19Mais si vous avez élaboré une stratégie rentable
00:41:22basée sur des données antérieures à cette période,
00:41:24elle pourrait privilégier l'achat d'actions de valeur.
00:41:25Dans ce cas, les résultats auraient été
00:41:27très décevants au cours de la décennie suivante.
00:41:28D'autres facteurs incluent l'émergence de nouvelles technologies
00:41:30ou des changements dans la structure industrielle.
00:41:32Ce sont des éléments à prendre en compte.
00:41:33Alors, lors d'un backtesting sur 20 ans,
00:41:35les données de 2001 sont-elles encore pertinentes ?
00:41:38Bien sûr, le concept de “changement de régime de marché”
00:41:40dépend des facteurs que vous observez.
00:41:42Cela varie selon l'approche adoptée.
00:41:43Au final, cela dépend de la logique,
00:41:45des règles ou du modèle de votre stratégie,
00:41:47des éléments qu'il analyse
00:41:49et des données qu'il utilise.
00:41:51C'est en fonction de cela
00:41:52qu'il faut surveiller si le régime
00:41:53des données a changé.
00:41:55Certaines données voient leurs propriétés
00:41:56évoluer très rapidement, parfois mensuellement,
00:41:58tandis que d'autres restent
00:41:59très stables pendant 10 ou 15 ans.
00:42:01Chaque cycle a sa propre durée.
00:42:03Les cycles, comme celui du COVID, diffèrent tous.
00:42:05En général, on ne peut pas dire
00:42:07que parce que la pandémie a éclaté,
00:42:09tous les modèles antérieurs
00:42:09sont devenus obsolètes.
00:42:12Cependant, utiliser 20 ans de données
00:42:14sans discernement
00:42:15pose clairement un problème.
00:42:17C'est un point de vue valable.
00:42:18Si vous essayez d'utiliser
00:42:20des données très anciennes pour faire des déductions,
00:42:22bien que le régime du marché
00:42:23ait changé plusieurs fois entre-temps,
00:42:24si ces données du passé lointain
00:42:25reflètent d'une manière ou d'une autre
00:42:29la situation actuelle,
00:42:30elles peuvent redevenir utilisables.
00:42:32Certains disent d'ailleurs
00:42:33que l'époque actuelle ressemble aux années 1940.
00:42:35C'est une théorie qui circule,
00:42:37mais c'est une parenthèse.
00:42:38Le trading quantitatif
00:42:41s'est beaucoup démocratisé
00:42:42et est pratiqué par des particuliers.
00:42:44Mais pour l'investissement à long terme,
00:42:45le point faible de l'approche quantitative
00:42:47est que lorsqu'on applique
00:42:49ces méthodes quantitatives sur le long terme,
00:42:51il est difficile d'accumuler assez de données
00:42:53tout en évitant les changements de régime.
00:42:55Prenons une stratégie de trading algorithmique
00:42:57qui utilise des données à la minute.
00:42:59En une heure,
00:43:01vous avez 60 points de données.
00:43:02Puisqu'il y a 60 minutes,
00:43:03cela fait 60 entrées.
00:43:04Imaginons maintenant
00:43:05un contrat à terme négocié 24h/24.
00:43:08En multipliant par 24,
00:43:09on obtient 1 440 points.
00:43:10C'est bien ça ?
00:43:10Oui, 1 440 points par jour.
00:43:12Avec 1 440 points par jour,
00:43:15sur environ 250 jours de trading
00:43:17par an,
00:43:20on obtient plus de 300 000
00:43:21points de données
00:43:23en une seule année.
00:43:25Rien qu'en un an,
00:43:26on dispose de plus de 300 000 données.
00:43:29C'est un échantillon suffisant
00:43:32pour effectuer des validations,
00:43:33utiliser des modèles plus complexes,
00:43:35et ainsi de suite.
00:43:36Mais pour une stratégie de rééquilibrage
00:43:37qui n'opère que mensuellement,
00:43:39vous n'avez que 12 points par an.
00:43:41Même sur 20 ans,
00:43:42cela ne fait que 240 points.
00:43:44Comme on ne peut pas augmenter l'échantillon sur l'axe temporel,
00:43:47on essaie d'analyser de nombreuses actions
00:43:49pour élargir le champ d'observation
00:43:51et gagner en pertinence statistique.
00:43:53Pourtant, sur l'axe du temps,
00:43:54il reste difficile d'éviter les changements de régime.
00:43:57C'est un défi de taille.
00:43:58Après l'apparition du COVID,
00:44:00de nombreux experts quantitatifs...
00:44:02Notamment Inigo Fraser-Jenkins,
00:44:05qui était responsable de la recherche quantitative,
00:44:09a publié un texte expliquant
00:44:11pourquoi il n'était plus un “quant”.
00:44:13L'idée principale est que
00:44:15le travail du quant consiste à prédire l'avenir via le passé.
00:44:19Cependant,
00:44:20face à une crise comme le COVID, les modèles passés deviennent inutiles.
00:44:23Lors d'un changement de régime de marché,
00:44:25les outils des quants perdent de leur efficacité.
00:44:28Certains parlent même d'une crise existentielle
00:44:30pour cette profession.
00:44:31L'année dernière a été très difficile pour eux.
00:44:34Même si quelques-uns s'en sont bien sortis,
00:44:36en moyenne, les performances ont été très mauvaises.
00:44:38Nous en sommes à peu près à la moitié,
00:44:40et une heure et demie s'est déjà écoulée.
00:44:43Nous allons donc conclure cette première partie ici.
00:44:45Demain, dans la partie 2, nous verrons les points 6 à 10,
00:44:49les avantages et les limites,
00:44:50ainsi que le cursus conseillé
00:44:52pour étudier la finance quantitative.
00:44:54On se retrouve pour la deuxième partie.
00:44:55Merci à vous.

Key Takeaway

L'investissement quantitatif exige une rigueur méthodologique extrême pour éviter que l'illusion de la performance passée ne conduise à des pertes réelles massives dues à des biais statistiques et des changements de régime.

Highlights

Dangers de l'ajustement excessif (overfitting) où les modèles collent trop parfaitement aux données passées sans valeur prédictive.

Importance cruciale de la qualité et du nettoyage des données, souvent négligés mais sources d'erreurs massives.

Le biais de survie et le biais d'anticipation comme obstacles majeurs à un backtesting réaliste.

La nécessité de n'utiliser les données de validation qu'une seule fois pour maintenir l'intégrité de la stratégie.

L'impact des changements de régime de marché qui rendent les modèles historiques obsolètes lors de crises comme le COVID.

Distinction entre les différentes catégories de quant : du trading haute fréquence au quantamental.

Timeline

Introduction et mise en garde sur le marketing du quant

L'auteur introduit le sujet de l'investissement quantitatif en exprimant son inquiétude face aux formations simplistes qui embellissent la réalité du backtesting. Il souligne que 15 % de son audience pratique déjà ce type de trading, mais que beaucoup risquent des pertes colossales par manque de prudence. L'argument central est que si une stratégie semble trop belle pour être vraie, c'est souvent dû à une méthodologie erronée. Il clarifie également son intention bienveillante, née de ses propres échecs financiers passés, sans viser d'individus spécifiques. Cette section pose le cadre éthique et la responsabilité nécessaire lorsqu'on manipule l'argent d'autrui dans le domaine financier.

Catégories et principes fondamentaux de l'approche quantitative

Le narrateur définit le terme "quant" en le classant par horizons temporels, allant du Trading Haute Fréquence (HFT) à l'investissement factoriel et au Quantamental. Il explique le processus en quatre étapes : hypothèse d'investissement, backtesting sur données historiques, passage au trading réel et gestion des risques. Bien que ces outils se soient démocratisés depuis 2010, cette accessibilité s'accompagne d'une mauvaise compréhension de la discipline par les particuliers. L'exemple d'une stratégie basée sur le ratio PBR illustre comment les novices tirent des conclusions hâtives à partir de résultats passés. Cette section explique que trouver ce qui a fonctionné hier est facile, mais identifier ce qui fonctionnera demain est le véritable défi.

Le mythe de la formule magique et l'échec de Quantopian

L'auteur analyse la célèbre "Formule Magique" de Joel Greenblatt pour démontrer que même des modèles réputés peuvent sous-performer face à l'efficience du marché. Il explique que le succès de Greenblatt ne reposait pas sur une formule simpliste mais sur une expertise en situations spéciales et en investissement de valeur. L'exemple de la start-up américaine Quantopian, malgré ses 12 millions de backtests et l'appui de grands investisseurs, illustre la difficulté de sélectionner des stratégies durables. Cette partie souligne qu'une stratégie offrant 20 % de rendement annuel sans effort n'existe pas dans le monde réel. L'échec de Quantopian sert d'avertissement final avant d'aborder les 10 points de vigilance techniques.

Point 1 : La fiabilité des données et le biais de survie

Cette section traite de la propreté des données, souvent "sales" lorsqu'elles proviennent de sources gratuites comme Yahoo ou Google. L'auteur explique comment des erreurs de saisie ou des consolidations de prix incorrectes peuvent fausser radicalement le rendement d'un backtest. Le concept du "biais de survie" est illustré par l'analogie célèbre des avions de guerre qu'il faut blinder aux endroits non touchés par les balles. En bourse, cela signifie qu'ignorer les entreprises ayant fait faillite gonfle artificiellement les performances historiques des survivants comme Apple. Il est donc impératif de vérifier si les plateformes de backtesting intègrent rigoureusement ces données de faillite pour éviter des résultats trompeurs.

Point 2 et 3 : Biais d'anticipation et danger de l'overfitting

Le narrateur détaille le "look-ahead bias", qui consiste à utiliser par erreur des informations futures lors d'une simulation de transaction passée. Un exemple courant est de sélectionner aujourd'hui le top 100 des entreprises pour tester une stratégie sur les dix dernières années, ce qui est impossible en temps réel. Le point suivant aborde l'overfitting ou surajustement, où un modèle devient si complexe qu'il touche chaque point de donnée d'un échantillon sans comprendre la tendance globale. L'auteur utilise des graphiques pour montrer qu'un modèle parfait sur le passé est souvent désastreux sur le futur. La solution proposée est l'utilisation de données hors échantillon (OOS) pour tester la robustesse de la stratégie.

Point 4 et 5 : Validation unique et changements de régime

L'auteur insiste sur la règle d'or : les données de validation ne doivent être consultées qu'une seule fois pour éviter de les transformer en données d'apprentissage. Il présente des méthodes avancées comme le "Walk-Forward Testing" et la validation croisée (K-Fold) pour s'adapter aux évolutions du marché. Le concept de "régime de marché" est introduit pour expliquer que la nature du système change suite à des crises, des régulations ou des évolutions technologiques. Il conclut en mentionnant la crise existentielle des quants face au COVID, où les modèles historiques se sont avérés inutiles. La vidéo se termine sur l'annonce d'une seconde partie traitant des points de vigilance restants et du cursus d'étude conseillé.

Community Posts

View all posts