[Wall St. Ajae] Mitos y realidades de la inversión cuantitativa - Parte 1: Hacerlo a medias es contraproducente

월가아재의 과학적 투자
주식 투자마케팅/광고초보 재테크AI/미래기술

Transcript

00:00:00Pero, ya sean los últimos 10,
00:00:0320 o 30 años,
00:00:04¿cuántos patrones rentables creen que hubo en ese periodo?
00:00:09La respuesta es: infinitos. De hecho, se puede demostrar.
00:00:12Hola a todos, soy Wall Street Gazelle.
00:00:21Hoy vamos a hablar sobre la inversión cuantitativa.
00:00:24En los comentarios de YouTube y por correo electrónico,
00:00:26algunos me han pedido que hable sobre el trading cuantitativo.
00:00:29Según mis objetivos futuros y el plan del canal,
00:00:33no tenía planeado tratar el trading algorítmico
00:00:36ni la inversión cuantitativa a corto plazo.
00:00:38Sin embargo, entre nuestra audiencia,
00:00:40un 15% de los suscriptores dice realizar inversiones cuantitativas.
00:00:44Además, hay aspectos actuales de este tema que me preocupan,
00:00:48por eso decidí crear este vídeo.
00:00:50viendo el panorama general primero,
00:00:53After taking a general look at those aspects,
00:00:56y luego veremos 10 precauciones en el trading cuantitativo.
00:00:59Si tienen en mente estos 10 puntos, podrán evitar
00:01:04perder una gran cantidad de tiempo
00:01:06o cometer errores en la metodología de backtesting
00:01:09que, por hacerse de forma incorrecta,
00:01:11podrían causarles pérdidas masivas.
00:01:15Aunque esto es lo más básico de lo básico,
00:01:18parece que los cursos pagados tan caros que hay por ahí
00:01:21no profundizan realmente en estos detalles.
00:01:24Al contrario, esos cursos suelen idealizar demasiado
00:01:27el backtesting y la inversión cuantitativa.
00:01:31Si recuerdan estos 10 puntos, sin importar
00:01:35qué información escuchen o qué servicio utilicen,
00:01:39estarán protegidos y seguros hasta cierto punto.
00:01:43Antes de empezar, hace unos días publiqué un post corto
00:01:47con un tono un poco exaltado,
00:01:49y creo que cometí un error.
00:01:51Escribí que el marketing viral y la publicidad engañosa
00:01:54sobre la inversión cuantitativa se estaban pasando de la raya.
00:01:55Tras eso, empezaron a aparecer comentarios de odio
00:01:59hacia personas o empresas específicas.
00:02:02Borré el post por temor a faltarles al respeto,
00:02:06porque, honestamente, no se trata de estafas ilegales
00:02:09o empresas fraudulentas de cuentas de corretaje.
00:02:12Quizás estoy siendo un poco entrometido.
00:02:16Pero, en problemas como las cuentas de alquiler ilegales,
00:02:19quienes las usan saben que es ilegal
00:02:22y tienen parte de responsabilidad por su propia codicia.
00:02:25Sin embargo, al ver los debates actuales sobre inversión cuantitativa,
00:02:28siento que personas normales que solo quieren esforzarse honradamente
00:02:33para mejorar sus finanzas personales
00:02:35y se inician en este campo,
00:02:37podrían salir perjudicadas.
00:02:40La inversión cuantitativa suele asociarse con la ciencia y la estadística,
00:02:46lo que puede llevar a confundir aspectos poco científicos como si lo fueran.
00:02:51Las salas de señales o cuentas ilegales son obviamente turbias,
00:02:55así que uno puede evitarlas si quiere,
00:02:56pero aquí podrían aparecer víctimas inocentes que solo quieren aprender.
00:03:01Decir que cualquiera puede ser experto en pocos días,
00:03:04o que es una estrategia validada por décadas de datos,
00:03:08o insinuar que como dio un 20% anual compuesto
00:03:11en los últimos 10 años, seguirá haciéndolo en el futuro...
00:03:14Aunque no haya mala intención en esas palabras,
00:03:18algunos principiantes
00:03:20podrían malinterpretarlo y confundirse,
00:03:23perdiendo mucho tiempo en backtesting
00:03:25e incluso sufriendo pérdidas económicas reales.
00:03:27Creer ciegamente en los resultados de un backtesting es peligroso.
00:03:32Según las normas de la SEC en EE. UU., si un fondo
00:03:35hace marketing de esa manera, se considera ilegal.
00:03:38Me gustaría que quienes hablan de inversión cuantitativa
00:03:41sintieran un poco más el peso del dinero ajeno.
00:03:45No sé cuánto tiempo más seguiré con esto,
00:03:47pero no digo esto para ir de “buena persona” por YouTube.
00:03:51Es que yo también sufrí mucho por dinero a mis 20 años
00:03:52y sé perfectamente lo que se siente.
00:03:56Por eso trato a menudo el control mental tras las pérdidas
00:03:58y cuento mis propias experiencias de cuando perdí mucho dinero.
00:04:01Quizás por eso recibo tantas consultas de este tipo.
00:04:05Cada semana recibo varios correos de suscriptores
00:04:09desesperados por haber perdido cientos de miles de dólares.
00:04:14Por eso, los YouTubers de finanzas, bolsa o inmobiliaria
00:04:16deberían hacer un poco de autocrítica de vez en cuando.
00:04:20sentí que a veces parecía que estaba dando señales de compra,
00:04:24As I have also been doing the '80-Day Investment Tour' lately,
00:04:26así que en cuanto pase este mercado bajista,
00:04:29pienso volver a mis principios originales.
00:04:33En fin, con ese propósito he creado este vídeo.
00:04:37No intento atacar a nadie ni a ninguna empresa en particular.
00:04:40Entiendo que quienes hacen marketing de inversión cuantitativa
00:04:43pueden ignorar ciertos aspectos técnicos.
00:04:46La intención es que todos reconozcamos estos puntos
00:04:49y mejoremos juntos.
00:04:51Así que pido a los espectadores que no comenten
00:04:55cosas como “estás atacando a tal o cual persona”.
00:04:57Perdonen la introducción tan larga,
00:04:58empecemos viendo la clasificación del mundo quant.
00:05:01El término “quant” es muy amplio y tiene diversas definiciones.
00:05:04Si lo dividimos de forma aproximada
00:05:07por su horizonte temporal, tenemos el Trading de Alta Frecuencia (HFT).
00:05:10Dentro de esto, existe lo que llamamos Ultra HFT,
00:05:12donde se colocan los servidores junto a los de la bolsa (colocation),
00:05:14se programa a nivel de lenguaje de máquina
00:05:19y se optimiza al máximo el hardware.
00:05:20Es ese nivel de operativa.
00:05:22Luego, con un horizonte un poco más largo,
00:05:24está el trading algorítmico.
00:05:28Usa indicadores técnicos o sistemas basados en reglas.
00:05:29Esto es muy popular entre inversores particulares
00:05:33gracias a la proliferación de plataformas de backtesting.
00:05:35Después tenemos el arbitraje estadístico,
00:05:39como el “pair trading”.
00:05:41Se utilizan modelos y metodologías estadísticas
00:05:42para identificar patrones del pasado
00:05:44bajo la premisa de la reversión a la media.
00:05:46También está la inversión por factores (Factor Investing).
00:05:48Esto es a más largo plazo: factores de momentum, valor, carry...
00:05:50Se identifican los factores que mueven los precios,
00:05:52se busca el alfa y demás.
00:05:54Y en los últimos años, ha cobrado fuerza
00:05:59que es cuantificar y automatizar el análisis fundamental,
00:06:01searching for alpha and things like that,
00:06:03añadiendo análisis de Big Data y datos alternativos
00:06:06para la inversión a largo plazo.
00:06:07En este mismo contexto, el Machine Learning,
00:06:10el Big Data y los datos alternativos
00:06:12se están expandiendo a diversas áreas.
00:06:16Estas divisiones son solo por conveniencia,
00:06:18ya que los límites son muy difusos.
00:06:20A todo el conjunto se le suele llamar trading algorítmico.
00:06:23Así que hoy hablaré en términos generales
00:06:26sobre lo que se conoce como trading cuantitativo.
00:06:28Los principios del trading cuantitativo son:
00:06:30Primero, tener una idea o hipótesis de inversión.
00:06:31Segundo, realizar el backtesting.
00:06:33Es decir, validar esa idea o hipótesis
00:06:35con datos históricos.
00:06:37Si pensamos que una estrategia puede dar dinero,
00:06:40comprobamos si realmente lo hubiera dado
00:06:42aplicándola al pasado.
00:06:44Si el backtesting da buenos resultados,
00:06:47se pasa a la operativa real,
00:06:50gestionando siempre los riesgos.
00:06:51Este es el proceso de cuatro pasos.
00:06:54Hasta mediados de la década de 2010,
00:06:56esto era casi exclusivo de las instituciones,
00:06:57especialmente de los fondos de inversión cuantitativos
00:07:00llenos de doctores en ciencias e ingeniería.
00:07:01Pero con el tiempo, la ejecución y la tecnología
00:07:03se han ido democratizando.
00:07:06Servicios como Quantopian en EE. UU.,
00:07:09que facilitaron mucho el backtesting,
00:07:13permitieron que los inversores particulares
00:07:16pudieran acceder a estas herramientas fácilmente.
00:07:18Sin embargo, esto también ha traído consigo
00:07:21muchas malinterpretaciones sobre la inversión cuantitativa.
00:07:23Por ejemplo, alguien podría decir:
00:07:25“En los últimos 15 años, invertir en empresas con un PBR de 0.9
00:07:28y que han subido en los últimos 12 meses,
00:07:30da una rentabilidad anual del 20.2%”.
00:07:33Luego, al ajustar un poco el PBR,
00:07:35obtienen resultados del 14% o 17.8%.
00:07:38Al ver toda la serie de backtesting,
00:07:40concluyen que como el primer resultado fue el mejor,
00:07:42esa es la regla que deben seguir
00:07:46para invertir.
00:07:48Pero esto es, en realidad, un error.
00:07:51Si lo piensan detenidamente,
00:07:53el proceso de backtesting se basa en la suposición
00:07:56de que los patrones del pasado se repetirán en el futuro,
00:07:58algo que no está garantizado.
00:08:01Simplemente estamos buscando qué fue rentable antes.
00:08:03Pero si miramos un periodo de 10, 20 o 30 años,
00:08:04¿cuántos patrones rentables
00:08:07creen que existen en ese tiempo?
00:08:09Si pausan el vídeo y lo piensan un momento,
00:08:12la respuesta es: infinitos.
00:08:14Y se puede demostrar.
00:08:16Como los parámetros de las estrategias son continuos,
00:08:18existen infinitas estrategias que habrían sido rentables.
00:08:21El problema real es: ¿cuántas de ellas seguirán siéndolo mañana?
00:08:24Esta es la verdadera clave de la inversión cuantitativa.
00:08:26Encontrar lo que funcionó en el pasado,
00:08:29si tienes las herramientas adecuadas,
00:08:30lo puede hacer cualquiera.
00:08:32Pero hallar algo que funcionó atrás y que funcionará adelante
00:08:34es extremadamente difícil;
00:08:36es como buscar una aguja en un pajar.
00:08:38He estado revisando varios blogs y sitios web coreanos,
00:08:42y he visto que la “Fórmula Mágica” de Joel Greenblatt
00:08:46es muy famosa aquí.
00:08:50Él propuso una fórmula muy sencilla,
00:08:52basada en filtros como la capitalización bursátil,
00:08:55para seleccionar acciones en las que invertir.
00:08:56Escribió un libro sobre ello y se volvió un tema candente
00:09:00entre los inversores particulares.
00:09:02Greenblatt es una leyenda en el mundo de los hedge funds.
00:09:04Empezó a invertir en los años 80
00:09:07y logró rentabilidades superiores
00:09:09a las de Warren Buffett en ese periodo,
00:09:12lo que dio mucho prestigio a su fórmula.
00:09:13Sin embargo, para ir directo al grano,
00:09:15debo decirles lo siguiente.
00:09:17estableció una fórmula para seleccionar acciones
00:09:20y escribió un libro sobre esa “fórmula mágica” para invertir.
00:09:24Se convirtió en un gran tema de conversación
00:09:25y parece ser muy conocida entre los inversores minoristas.
00:09:28Pero este hombre es realmente famoso en el mundo de los fondos de cobertura.
00:09:31Empezó a invertir en la década de los 80,
00:09:33y durante su periodo de inversión, registró una rentabilidad
00:09:35incluso superior a la de Warren Buffett.
00:09:37Por eso creo que la fórmula mágica recibió tanta atención.
00:09:40Pero para ir directo al grano,
00:09:42Greenblatt no es un inversor cuantitativo,
00:09:44y su fondo no invertía solo basándose en la fórmula mágica.
00:09:47Esas excelentes rentabilidades no se lograron solo con la fórmula.
00:09:50Su fondo también realizaba inversiones de valor
00:09:52en lo que llaman “situaciones especiales”.
00:09:54como cuando una empresa se divide,
00:09:57For example, being spun off from a certain company,
00:09:59o aprovechando las discrepancias de precios que surgen en esos momentos.
00:10:01Capturaba esas ventajas competitivas para generar ganancias.
00:10:04Utilizaba esas metodologías en conjunto.
00:10:07Y en la parte de inversión de valor, dudo que usara
00:10:10una fórmula tan simple como esa.
00:10:12Por supuesto, la habría reflejado en su marco de trabajo,
00:10:14pero no creo que comprara acciones de forma mecánica
00:10:18basándose únicamente en la fórmula para obtener esos resultados.
00:10:20Si hacemos un “backtesting” de los rendimientos
00:10:22desde que se hizo pública la fórmula en 2005,
00:10:26la línea gris es el índice S&P 500
00:10:28y la línea verde es la fórmula mágica.
00:10:29Como pueden ver, tuvo mucha volatilidad
00:10:32y ha tenido un rendimiento inferior al mercado constantemente.
00:10:34Esto se debe a la aparición de inversiones similares,
00:10:37como los ETFs de renta variable sistemática.
00:10:40A medida que el mercado se vuelve más eficiente,
00:10:42se podría decir que esa ventaja desapareció.
00:10:44Como muestra el pobre desempeño de una fórmula tan famosa,
00:10:48encontrar patrones rentables en el pasado es muy fácil.
00:10:50Incluso se puede escribir un libro sobre ello.
00:10:53Pero encontrar un patrón que sea rentable en el futuro
00:10:56requiere una cantidad de trabajo realmente inmensa.
00:11:00Por lo tanto, una estrategia que rinda un 20% anual
00:11:03con solo unos días de reflexión y un par de clics, no existe.
00:11:06Otro ejemplo es Quantopian.
00:11:08Quantopian fue una startup creada alrededor de 2011,
00:11:12una plataforma que facilitaba mucho el backtesting en EE. UU.
00:11:16Unas 300,000 personas realizaron 12 millones de pruebas
00:11:20para testear y crear muchísimas estrategias cuantitativas.
00:11:24El famoso multimillonario Steve Cohen invirtió en ella.
00:11:27Él es un reconocido gestor de fondos de cobertura.
00:11:29Y los mejores analistas cuantitativos de Quantopian
00:11:32llegaron incluso a publicar artículos académicos
00:11:34sobre qué estrategias serían rentables en el futuro,
00:11:37bajo qué criterios y con qué metodologías estadísticas
00:11:40debían ser seleccionadas.
00:11:41Investigaron esto de manera muy intensiva
00:11:44para seleccionar las mejores estrategias
00:11:46y lanzarlas a través de un nuevo fondo de cobertura.
00:11:48Esa era la idea original,
00:11:49pero fracasó estrepitosamente.
00:11:51Al final, cerraron sus puertas el año pasado.
00:11:53¿Por qué ocurren estos fenómenos?
00:11:55Y para los espectadores que quieran hacer trading o inversión cuantitativa,
00:11:58¿cómo pueden evitar este tipo de resultados?
00:12:02Por supuesto, no se puede evitar por completo.
00:12:03De hecho, creo que es una tarea sumamente difícil,
00:12:07pero si aun así desean intentarlo,
00:12:10me gustaría que al menos tengan en mente estas 10 cosas
00:12:12y sean cautelosos con ellas.
00:12:13Permítanme explicarlas una por una.
00:12:16Si tan solo recuerdan estos 10 puntos,
00:12:17podrán evitar perder tiempo por un mal backtesting
00:12:22y ahorrarse posibles pérdidas económicas.
00:12:24Claro, hacer un buen backtesting no garantiza ganancias.
00:12:27Lo primero es que siempre hay que dudar de los datos.
00:12:31Hay personas que usan datos de Google o Yahoo,
00:12:34pero esos datos suelen estar muy, muy sucios.
00:12:37Para quienes empiezan en el trading cuantitativo desde cero,
00:12:41los datos les darán muchos problemas.
00:12:45Los datos gratuitos suelen ser descuidados y tienen errores.
00:12:47Y respecto a la limpieza de datos,
00:12:50el proceso de dejarlos impecables,
00:12:51uno podría pensar que basta con encontrar los errores.
00:12:54Pero, sorprendentemente, el juicio subjetivo
00:12:57y los sesgos humanos tienden a filtrarse.
00:12:59Permítanme darles un ejemplo.
00:13:01Supongamos que una acción cotiza entre 41 y 43 dólares
00:13:05y cierra la sesión.
00:13:06Pero justo antes del cierre del mercado,
00:13:08un trader comete un error al ingresar una orden
00:13:11y se ejecuta la compra de una acción a 28 dólares.
00:13:14Técnicamente hablando,
00:13:16el precio mínimo de ese día fue de 28 dólares.
00:13:18Esa persona perdió mucho dinero por su error,
00:13:21pero el mínimo debería registrarse como 28 dólares.
00:13:24Esa es la realidad de lo que pasó.
00:13:25Entonces, ¿cómo configuramos el mínimo y el máximo?
00:13:28Si eliminamos eso y marcamos 41 como el mínimo,
00:13:31estamos borrando una operación
00:13:34y un precio mínimo que realmente existieron.
00:13:36Pero si no lo eliminamos,
00:13:38por poner un ejemplo, si tenemos una estrategia
00:13:40que lanza una orden de compra si el precio cae
00:13:44más de un 5% en menos de 5 minutos,
00:13:45al hacer el backtesting,
00:13:47el sistema podría reconocer que compraste a 28 dólares.
00:13:48El backtesting lo interpretaría así.
00:13:51Entonces parecería que compraste a 28
00:13:53y vendiste al precio de cierre de 42
00:13:55inmediatamente después según el backtesting.
00:13:58De esta forma, la rentabilidad de la estrategia
00:13:59podría verse enormemente inflada.
00:14:01Como fue solo una acción, se podría eliminar,
00:14:03pero ¿y si el error del trader
00:14:06fuera de 10 acciones, 100 o incluso 10,000?
00:14:09Casos así ocurren realmente.
00:14:11Este tipo de situaciones pasan de vez en cuando.
00:14:14Ha habido casos a gran escala donde se han perdido
00:14:17decenas de millones de dólares,
00:14:20pero errores de 100 o 1,000 acciones
00:14:21son más frecuentes de lo que se piensa.
00:14:23Aunque en los últimos años,
00:14:24como los algoritmos se encargan
00:14:25de la ejecución de las órdenes,
00:14:27se han implementado redes de seguridad.
00:14:29Ya no es tan común como antes,
00:14:31pero los datos para backtesting
00:14:33anteriores a la ejecución algorítmica masiva,
00:14:36digamos de 2011 o 2005,
00:14:37si retrocedemos tanto en el tiempo,
00:14:39veremos estos casos con bastante frecuencia.
00:14:41La cuestión es cómo manejar eso.
00:14:43Además, hay activos que se negocian
00:14:44en múltiples mercados o bolsas.
00:14:45En esos casos,
00:14:47hay que verificar si los datos de las distintas bolsas
00:14:49se han integrado correctamente.
00:14:50Si los mínimos, máximos,
00:14:52precios y volúmenes
00:14:53están limpios y bien unificados,
00:14:56o si por el contrario,
00:14:57solo se tomaron datos de unos pocos mercados,
00:14:59lo que resultaría en datos incompletos
00:15:01para realizar el backtesting.
00:15:02Si el coste de los datos es bajo,
00:15:04existe esa posibilidad.
00:15:05Y al calcular el MDD (Máxima Detracción),
00:15:07¿se basa en el precio de cierre o en el mínimo?
00:15:09Por ejemplo, para estrategias
00:15:11con reequilibrio mensual,
00:15:13a veces se usan datos diarios
00:15:14pero solo se tiene en cuenta
00:15:15el precio de cierre.
00:15:17Pero en realidad,
00:15:18para calcular las caídas de valor,
00:15:20también deberíamos observar
00:15:21la caída dentro del mismo día.
00:15:22Cosas sutiles como esa,
00:15:24o cuando se hace backtesting con futuros,
00:15:26si es un producto con fecha de vencimiento,
00:15:27¿cómo se gestiona el “roll-over”?
00:15:29En el backtesting,
00:15:31se suelen conectar los vencimientos sucesivos
00:15:33para crear una serie de datos
00:15:34con la que trabajar.
00:15:35Pero el tratamiento
00:15:37de ese cambio de contrato
00:15:38es un problema,
00:15:39y hay muchísimos más problemas de este tipo.
00:15:40Me pregunto si han reflexionado
00:15:42sobre estos problemas de datos.
00:15:44Si usan un servicio de backtesting,
00:15:47¿simplemente confían en que la empresa lo hizo bien?
00:15:51Es necesario verificar esos puntos,
00:15:53ya que surgen muchísimos errores de los propios datos
00:15:57y los resultados del backtesting
00:15:59suelen acabar distorsionados.
00:16:01Otro gran problema que proviene de los datos
00:16:04es el sesgo de supervivencia.
00:16:06Es uno de los errores típicos en el backtesting.
00:16:08Esta imagen que ven
00:16:10es de la Primera o Segunda Guerra Mundial, no estoy seguro,
00:16:12Now, the Air Force is trying to reinforce their aircraft.
00:16:16Querían saber en qué partes del fuselaje
00:16:18debían colocar más blindaje.
00:16:20Para averiguarlo,
00:16:21los ingenieros examinaron los aviones
00:16:24que regresaron del combate
00:16:26para ver dónde habían recibido
00:16:28la mayoría de los impactos de bala.
00:16:29Identificaron las zonas con más impactos
00:16:33así que decidieron poner
00:16:34Whether it's making the steel plates thicker,
00:16:36planchas de acero más gruesas ahí.
00:16:38Pero eso fue un error garrafal.
00:16:40Porque, en realidad, las zonas
00:16:42como esta, esta,
00:16:42o estas de aquí,
00:16:44si un avión era alcanzado en ellas,
00:16:46se estrellaba y nunca regresaba a la base.
00:16:49Esto muestra lo peligroso que es sacar conclusiones
00:16:50muestra lo peligroso que es
00:16:52sacar conclusiones con los datos disponibles.
00:16:54Si hablamos del sesgo de supervivencia en la inversión,
00:16:56por ejemplo,
00:16:57ahora podrías pensar:
00:16:59“Si hubiera comprado Apple y Microsoft en los 80,
00:17:02me habría hecho millonario”.
00:17:03Al pensar así,
00:17:05podrías querer crear una estrategia para comprar acciones tecnológicas.
00:17:08Pero en los años 80,
00:17:10había más de 30 empresas que parecían
00:17:13tan prometedoras como Apple o Microsoft.
00:17:14Y de esas, 28 desaparecieron.
00:17:17Solo dos lograron sobrevivir.
00:17:19Pero como solo quedaron estas dos,
00:17:22te enfocas en ellas y piensas:
00:17:23“Si invierto así ahora, tendré un éxito enorme”.
00:17:27Si usas solo las empresas que existen hoy
00:17:30como sujetos para tu backtesting,
00:17:32la rentabilidad se inflará inevitablemente.
00:17:35Y por supuesto, cuanto más largo sea el periodo de backtesting,
00:17:38más grave será el problema.
00:17:40Porque en ese largo periodo,
00:17:41habrá muchas empresas que existían al principio
00:17:43pero que terminaron desapareciendo.
00:17:45Muchos inversores principiantes,
00:17:47al empezar un backtesting,
00:17:48definen lo que llamamos el “universo de acciones”.
00:17:51A la hora de definir
00:17:54sobre qué acciones realizarán la prueba,
00:17:55lo configuran solo con empresas que existen actualmente.
00:17:58Y dentro de ese grupo,
00:17:59aplican varios criterios de backtesting
00:18:02para intentar determinar
00:18:05cómo elegir a las “buenas empresas”.
00:18:07Pero si lo haces así,
00:18:08desde el inicio del periodo de prueba hasta hoy,
00:18:11estás excluyendo a todas las empresas que quebraron.
00:18:13Es como si asumieras
00:18:16que tienes el poder divino de saber quién no fracasará.
00:18:18Entonces, la rentabilidad será mucho mayor que la real.
00:18:21Por eso, al hacer backtesting,
00:18:23si vas a probar 20 años atrás,
00:18:25debes empezar con las empresas
00:18:29que existían en el año 2001
00:18:30y tomarlas como tu universo inicial.
00:18:32Quería mencionar esto,
00:18:33y como comentario adicional,
00:18:34los “superinversores” que aparecen en YouTube
00:18:37también podrían estar sujetos al sesgo de supervivencia.
00:18:40Habrá quienes llegaron ahí por pura habilidad,
00:18:43pero otros quizás asumieron riesgos extremos,
00:18:45invirtieron una cantidad enorme en una sola acción
00:18:48y tuvieron la suerte de que explotara,
00:18:49convirtiéndose así en superinversores.
00:18:51Pero probablemente hubo
00:18:5330 o 50 personas más que hicieron lo mismo.
00:18:55De esos 50 que tomaron ese riesgo tan alto,
00:18:58solo uno sobrevivió,
00:18:59y ese es el que los espectadores están viendo ahora.
00:19:02Esto también podría ser un caso de sesgo de supervivencia.
00:19:05Si en este momento piensas
00:19:06“yo también quiero ser como él”
00:19:08y realizas inversiones de riesgo extremo,
00:19:11no es que vayas a lograrlo con seguridad,
00:19:13sino que tendrías que ser ese 1 entre 50 que tiene suerte.
00:19:17Ser consciente de estos sesgos
00:19:20te permite invertir de forma más racional y sabia.
00:19:22Cuando usas una plataforma de backtesting,
00:19:24básicamente le confías a esa empresa
00:19:27los problemas de datos o el sesgo de supervivencia
00:19:28que mencioné anteriormente, de forma un tanto ingenua.
00:19:31Simplemente lo delegas.
00:19:32Pero, ¿realmente esa empresa
00:19:33se ha encargado de estos problemas de datos
00:19:35de manera estrictamente rigurosa,
00:19:37pensando desde el punto de vista del usuario
00:19:39y preocupándose por su rentabilidad real?
00:19:41¿Habrán invertido suficiente capital
00:19:43para limpiar los datos correctamente?
00:19:45Es algo que definitivamente debes verificar.
00:19:48El segundo punto con el que hay que tener cuidado
00:19:50es el “sesgo de anticipación” (look-ahead bias),
00:19:52que consiste en no mirar al futuro antes de tiempo.
00:19:54¿podríamos llamarlo “sesgo de precognición del futuro”?
00:19:57Look-ahead bias?
00:19:58Bueno, se podría interpretar así.
00:20:00Ocurre cuando se usa información no disponible al momento de la operación.
00:20:03El backtesting se hace con datos del pasado,
00:20:05pero cronológicamente hablando,
00:20:07podría ser información que no existía el año pasado,
00:20:09pero que se incluyó en la lógica de inversión
00:20:12como si se hubiera conocido en ese momento.
00:20:14Es un error que se encuentra con bastante frecuencia.
00:20:15A eso lo llamamos sesgo de anticipación.
00:20:18Uno de los ejemplos más representativos es este:
00:20:21Imagina que hoy, septiembre de 2021,
00:20:24quieres hacer un backtesting de todas las acciones coreanas.
00:20:27Como es difícil, decides: “Hagamos solo 100”.
00:20:29Eso es lo que piensa el usuario.
00:20:30Así que seleccionas las 100 empresas con mayor capitalización del KOSPI
00:20:34y haces el backtesting con ellas.
00:20:35Aplicas una estrategia de compra, por ejemplo, basada en el PER.
00:20:38Haces esto
00:20:39durante un periodo de 10 años
00:20:41y el rendimiento resulta ser excelente.
00:20:42¿Pero qué es lo que está mal?
00:20:44Has seleccionado las 100 mejores empresas a fecha de septiembre de 2021.
00:20:50Solo has elegido a esas empresas,
00:20:51pero al hacer el backtesting desde 2011,
00:20:55es como si en 2011 ya supieras
00:20:59cuáles estarían en el top 100 en el año 2021.
00:21:01Estar en el top de capitalización bursátil
00:21:03significa que el precio de sus acciones ha subido constantemente.
00:21:06Aunque la gente intente tener cuidado,
00:21:08a menudo dicen: “Filtremos por capitalización
00:21:11y usemos solo unas pocas cientos”.
00:21:12En ese tipo de razonamiento
00:21:14se cometen muchísimos errores.
00:21:15Otro ejemplo ocurre
00:21:17al hacer backtesting con datos fundamentales de estados financieros.
00:21:21Cada trimestre, las fechas en las que las empresas
00:21:24anuncian sus resultados son todas diferentes.
00:21:26Pero hay que ver si después del anuncio
00:21:29se realiza el reequilibrio (rebalancing)
00:21:31o cualquier otra operación de compraventa.
00:21:33Tal vez una empresa anunció resultados a principios del mes siguiente,
00:21:36pero el backtesting realizó el reequilibrio a finales del mes anterior
00:21:40usando ya esa información.
00:21:41Estarías operando sabiendo ya el futuro.
00:21:44Ese tipo de cosas pueden mezclarse en un backtesting.
00:21:46Y un ejemplo más:
00:21:48Imagina que decides operar basándote en el precio de cierre.
00:21:50Bajo esa premisa,
00:21:52haces un reequilibrio diario.
00:21:54Pero el precio de cierre solo se conoce cuando termina el día.
00:21:57Sin embargo, si programas el backtesting
00:22:00para ejecutar la orden 5 minutos antes de que cierre el mercado,
00:22:03en ese desfase temporal
00:22:05conocerías el futuro de antemano
00:22:07y se crearía un sesgo.
00:22:09El tercer punto es sumamente importante:
00:22:11evitar el sobreajuste (overfitting).
00:22:13Por mucho que lo enfatice, nunca será suficiente.
00:22:16¿Qué es el sobreajuste?
00:22:18Es crear un modelo que funciona
00:22:19excesivamente bien solo con los datos de la muestra.
00:22:23Por ejemplo, aquí tenemos una muestra.
00:22:25Lo que realmente queremos conocer
00:22:27es la población que está detrás.
00:22:29Queremos estimar
00:22:32la población total real.
00:22:34Por si alguien no sabe
00:22:36lo explicaré brevemente.
00:22:38Regarding the results of an election, for instance,
00:22:40Supongamos que hacemos una encuesta
00:22:41sobre los resultados de una elección.
00:22:44Si encuestamos a toda la nación,
00:22:46sería la encuesta perfecta con un 100% de precisión.
00:22:48Pero como no podemos encuestar a todos,
00:22:50tomamos una muestra de la población nacional.
00:22:53Elegimos solo a una parte y asumimos que esa muestra
00:22:58es representativa de la población total.
00:22:59Bajo ese supuesto, hacemos la estimación.
00:23:02En estos datos, la población real que está detrás
00:23:06tendría una cierta distribución,
00:23:08y nosotros extraemos algunos puntos como muestra
00:23:10para intentar deducir qué forma tiene esa población.
00:23:16Aquí vemos el intento de ajustar un modelo a esa forma.
00:23:20Pero ajustar un modelo significa
00:23:22encontrar una línea de tendencia
00:23:25donde el error con la muestra sea mínimo.
00:23:30Líneas como estas.
00:23:30Pero si ajustas un modelo tan complejo
00:23:34y lleno de curvas como este,
00:23:37el error en los datos de la muestra es cero.
00:23:39Pasa por cada uno de los puntos.
00:23:41Es un modelo con error cero
00:23:44para esta muestra específica.
00:23:47¿Pero realmente este modelo representa bien a la población general?
00:23:51Seguramente no.
00:23:51Si tomamos una muestra nueva, el error sería enorme.
00:23:54Por eso hay que hacer un ajuste moderado
00:23:58para que cuando entren datos nuevos,
00:24:00la suma total del error sea pequeña.
00:24:03Por el contrario, si ajustamos
00:24:06una línea recta demasiado simple,
00:24:08estaremos ante un subajuste (underfitting).
00:24:10En ese caso, el error ya es grande incluso con la muestra.
00:24:13Lo más importante en cualquier modelado
00:24:16es lograr esa optimización adecuada.
00:24:18Pero muchos, al hacer backtesting,
00:24:20toman los datos del pasado, que son solo una muestra,
00:24:24y en esa muestra específica,
00:24:26tratan de maximizar el rendimiento a toda costa.
00:24:29Introducen todo tipo de reglas complejas
00:24:32solo para que el beneficio parezca lo más alto posible.
00:24:35Por ejemplo, al probar datos de 2015 a 2021, concluyen:
00:24:39“Si el PER está entre 13.75 y 17.23,
00:24:43la capitalización entre 51.7 y 62.3 mil millones,
00:24:46y el PBR es inferior a 1,17,
00:24:50puedes obtener un rendimiento anual del 70 %”.
00:24:52Salió este tipo de resultado de backtesting.
00:24:54A simple vista, se nota que esto es puro overffiting.
00:24:57Es decir, un sobreajuste de los datos.
00:24:58Quizás una empresa con un PER de 17,24 tenía una rentabilidad pésima,
00:25:04pero terminó incluida en este conjunto de datos,
00:25:05o tal vez una con una capitalización de 51.500 millones
00:25:09era un mal ejemplo y por eso se fijaron esos límites.
00:25:12Al mirar esos datos históricos de forma tan minuciosa
00:25:16para intentar maximizar las ganancias a toda costa,
00:25:19se termina creando un modelo de este tipo.
00:25:21Entonces, si en el futuro aparecen datos con esa distribución,
00:25:25el margen de error será enorme.
00:25:27De eso se trata,
00:25:28pero veámoslo con un poco más de detalle.
00:25:29Este es otro ejemplo de sobreajuste.
00:25:31Intentamos trazar una línea que separe
00:25:34adecuadamente los puntos rojos de los azules.
00:25:36Un modelo basado en esa línea.
00:25:37La línea negra aprendió de forma equilibrada,
00:25:40pero esa línea verde tan serpenteante
00:25:42ha tomado como referencia los puntos azules y rojos
00:25:46y los ha dividido a la perfección.
00:25:48Así que, para esta muestra de datos,
00:25:50es una línea perfecta con error cero.
00:25:52Pero en la población real que hay detrás,
00:25:55si los puntos azules aparecen por aquí
00:25:57y los rojos empiezan a salir por allá,
00:25:59cuando entren datos nuevos en el futuro,
00:26:03esa línea verde tendrá muchísimos errores.
00:26:05Podemos deducir que eso es lo que pasará.
00:26:07Por eso, si te ajustas demasiado a los detalles del pasado,
00:26:10el modelo no servirá para el futuro.
00:26:11Este es un ejemplo similar.
00:26:13Se recopilaron datos detallados de información personal
00:26:15de 100 estudiantes que estaban matriculados.
00:26:16Basándose en eso, hay que identificar a los 100 alumnos
00:26:19que tendrán mejores notas este año.
00:26:20Si el apellido es tal, la hora de llegada es cual,
00:26:22o la estatura está en este rango...
00:26:23Si usamos los datos de los mejores alumnos del año pasado
00:26:26para optimizar excesivamente el modelo,
00:26:28y definimos así las reglas de clasificación,
00:26:30al aplicarlo a los estudiantes de este año,
00:26:32el resultado puede ser un disparate total.
00:26:34En cambio, si definimos la regla basándonos
00:26:37en quienes estudian más de ciertas horas,
00:26:39y lo comparamos con los datos del año pasado,
00:26:42comparado con un análisis tan minucioso,
00:26:44la precisión podría parecer menor.
00:26:45Aunque la precisión sea un poco más baja,
00:26:47cuando lo apliquemos a los alumnos actuales,
00:26:49es muy probable que mantenga un buen nivel de acierto.
00:26:53¿Cómo podemos mitigar este problema de sobreajuste?
00:26:56Todo backtesting tiene cierto grado de sobreajuste
00:27:00y es imposible eliminarlo por completo.
00:27:01Por ejemplo, si una estrategia dio buenos resultados
00:27:06en los últimos 5 años, ¿cómo saber si servirá para los próximos 3?
00:27:08La respuesta perfecta a esa pregunta
00:27:11sería simplemente operar durante esos 3 años, ¿verdad?
00:27:12Pero eso es algo que solo sabremos después.
00:27:15Si operas 3 años y tienes pérdidas,
00:27:17no habrá servido de nada.
00:27:17Así que un método consiste en usar
00:27:19es decir, datos fuera de la muestra.
00:27:21It is about using out-of-sample data.
00:27:23No estoy seguro de si la traducción es exacta,
00:27:25pero solemos llamarlos datos OOS.
00:27:27Por ejemplo,
00:27:28usar datos desde septiembre de 2015 a septiembre de 2021,
00:27:31es decir, 6 años de datos,
00:27:33para encontrar una buena estrategia
00:27:34Trading from October 2021 onwards probably wouldn't be ideal, right?
00:27:38En lugar de hacer eso,
00:27:39usamos datos de septiembre de 2014 a septiembre de 2020,
00:27:42esos 6 años de información,
00:27:44para encontrar la estrategia más rentable.
00:27:46Luego, la probamos una vez más
00:27:49de octubre de 2020 a septiembre de 2021.
00:27:52Es decir, tras hallar una buena estrategia en esos 6 años,
00:27:55hacemos un backtesting adicional
00:27:57imaginando que operamos realmente
00:28:02durante ese último año, desde octubre de 2020.
00:28:04Si los resultados son buenos,
00:28:06entonces empezamos a operar de verdad en octubre de 2021.
00:28:09Por supuesto, al dividir los datos así,
00:28:10pueden surgir otros problemas,
00:28:12pero de eso hablaremos en un momento.
00:28:13Lo que quiero transmitir ahora es que,
00:28:16si tienes esta cantidad de datos de muestra,
00:28:18debes separar una pequeña parte.
00:28:19La dejas a un lado,
00:28:21buscas estrategias con el resto de los datos,
00:28:23haces muchos backtestings
00:28:24y optimizas el modelo ahí.
00:28:26Pero antes de lanzarte a la inversión real,
00:28:28utilizas esos datos que no habías usado
00:28:30para diseñar la estrategia,
00:28:31imaginando que es el mercado real,
00:28:33y los pones a prueba.
00:28:34Eso es lo que llamamos usar datos fuera de la muestra,
00:28:35o datos OOS.
00:28:38En la ciencia de datos se usan términos como
00:28:39datos de entrenamiento, datos de validación,
00:28:41train data, test data,
00:28:42o development data.
00:28:44Esos tecnicismos
00:28:45no son lo más importante ahora.
00:28:46El cuarto punto deriva del tercero:
00:28:48la oportunidad de validación es solo una.
00:28:50Esto es extremadamente importante.
00:28:53Por mucho que lo enfatice,
00:28:58nunca será suficiente.
00:29:01Sobre esta prueba con datos fuera de la muestra,
00:29:03vamos a profundizar un poco más.
00:29:04Hay nombres variados para referirse
00:29:06a los datos de muestra y fuera de ella,
00:29:08pero en este vídeo,
00:29:09para unificar criterios,
00:29:11usaremos “datos de entrenamiento” y “de validación”.
00:29:12Como vimos en el ejemplo anterior,
00:29:13los datos de 2014 a 2020
00:29:16son los de entrenamiento.
00:29:18Es decir, el conjunto de entrenamiento
00:29:19es el que usamos para buscar la estrategia.
00:29:20Y después de encontrarla,
00:29:22procedemos a validarla.
00:29:24A ese backtesting del último año
00:29:26que mencionamos antes,
00:29:28lo llamaremos simplemente “datos de validación”.
00:29:30Este gráfico muestra
00:29:32qué tan complejas son las reglas o el modelo.
00:29:35A medida que avanzamos a la derecha,
00:29:36el modelo se vuelve mucho más complejo.
00:29:38Por ejemplo, si la estatura es de 173 cm
00:29:40a 173,25 cm...
00:29:42Si fijamos reglas así de específicas,
00:29:44y seguimos añadiendo más,
00:29:45la complejidad aumenta.
00:29:47Este eje representa el error de predicción,
00:29:49o sea, qué tan grande es el margen de error
00:29:50al aplicarlo en la práctica.
00:29:52Como pueden ver,
00:29:53en la muestra de entrenamiento,
00:29:54es decir, con los datos de aprendizaje,
00:29:55cuanto más complejo es el modelo,
00:29:58el error va disminuyendo.
00:29:59Recuerdan que teníamos esos puntos,
00:30:02y si trazábamos una línea serpenteante,
00:30:03al volverla más compleja,
00:30:05dentro de esos datos de muestra
00:30:06podíamos reducir el error a cero.
00:30:08Por lo tanto, al complejizar el modelo al máximo,
00:30:12el error tiende a cero.
00:30:14Sin embargo, cuando tomamos ese modelo
00:30:16y lo probamos con los datos de validación
00:30:18que habíamos separado,
00:30:19¿qué ocurre con el error?
00:30:21Cuando el modelo es muy simple,
00:30:23como una línea recta,
00:30:24o cuando hay un subajuste (underfitting),
00:30:26el error es similar en ambos casos.
00:30:28Pero a medida que las reglas se vuelven más complejas,
00:30:31aunque el error sigue bajando
00:30:33en los datos de entrenamiento,
00:30:35en los datos de validación,
00:30:37llega a un mínimo y, a partir del punto de excesiva complejidad,
00:30:40el error empieza a subir de nuevo.
00:30:42Si lo comparamos con el backtesting de una inversión,
00:30:45si ejecutamos muchísimas pruebas
00:30:47y definimos reglas sumamente minuciosas,
00:30:51probando una y otra vez,
00:30:52ajustando al detalle
00:30:55parámetros como,
00:30:56por ejemplo, el valor del PER,
00:30:59mientras más complejo lo hagamos,
00:31:02la rentabilidad en los datos históricos subirá.
00:31:05Dado que este es un gráfico de errores, lo bajo es mejor.
00:31:08Un backtesting muy ajustado a los datos del pasado
00:31:12mostrará mejores rendimientos cuanto más se ajuste,
00:31:15pero al aplicarlo a la realidad,
00:31:17si es demasiado complejo,
00:31:18llegará un punto en el que esas reglas tan complicadas
00:31:21harán que el rendimiento real disminuya.
00:31:23Así es como funciona.
00:31:24Aunque he asociado la reducción del error
00:31:26con una mejora en la rentabilidad,
00:31:28y el aumento del error
00:31:31con un peor rendimiento,
00:31:32para ser estrictos,
00:31:33que el error sea mayor
00:31:34no es exactamente lo mismo que una menor rentabilidad.
00:31:37Cuanto peor se haga el backtesting
00:31:39y más sobreajustado esté el modelo,
00:31:42mayor será la brecha entre el resultado
00:31:45del backtesting y el rendimiento futuro.
00:31:47Ese error podría ser aleatorio
00:31:49y resultar en algo mayor
00:31:50o incluso menor.
00:31:51Pero, por lo general, si se produce tal error,
00:31:53el rendimiento real suele ser peor.
00:31:55Esto se debe a que, al ajustar los datos al pasado,
00:31:57se han forzado los parámetros
00:31:59para maximizar el rendimiento a toda costa.
00:32:00Así que, si hay una desviación de ese rendimiento,
00:32:02lo normal es que sea a la baja.
00:32:03Entonces, ¿cómo deberíamos dividir
00:32:06los datos de entrenamiento y de validación para el backtesting?
00:32:08Por ejemplo, usar 11 años de datos,
00:32:11de 2011 a 2021, para entrenar y aplicarlo el próximo año,
00:32:15significa que no se están usando datos de validación por separado.
00:32:18Se entrena con todo y luego se aplica directamente,
00:32:21lo cual no es recomendable.
00:32:22El método de división que mencioné antes consiste en
00:32:25tomar 10 años como datos de entrenamiento,
00:32:28usar el último año, 2021, para validar,
00:32:31y luego empezar a aplicar la estrategia desde 2022.
00:32:34Sin embargo, como explicaré en un momento,
00:32:36esta tampoco es la mejor forma de hacerlo.
00:32:38¿Qué otros métodos más avanzados existen?
00:32:40Existe un método llamado Walk-Forward Testing.
00:32:43¿En qué consiste?
00:32:44Por ejemplo, se entrena durante 3 años, digamos desde el 99,
00:32:46para optimizar los parámetros,
00:32:49luego se valida con el año siguiente,
00:32:52y se va desplazando el periodo de esta forma, como un rodillo.
00:32:55Si se establece una estrategia con este sistema...
00:32:58Supongamos que tenemos un modelo muy simple.
00:33:01Personalmente, creo que hacer backtesting
00:33:04basándose solo en el PER no tiene sentido,
00:33:05pero imaginemos una estrategia que compra acciones por debajo de cierto PER.
00:33:08Si optimizamos el PER basándonos
00:33:11en datos de 10 años,
00:33:13el valor ideal del PER variará cada año,
00:33:17pero terminaremos eligiendo un promedio que parezca aceptable.
00:33:20Pero si estrechamos el margen,
00:33:22determinamos el valor del PER basándonos en los últimos 3 años para operar,
00:33:26y realizamos el test de esta manera,
00:33:28podremos ajustar los parámetros
00:33:30de forma más flexible según el paso del tiempo.
00:33:32Así es como se realiza este tipo de test.
00:33:35Pueden usar ese método,
00:33:37o también el K-Fold CV,
00:33:38que significa Validación Cruzada.
00:33:39Este funciona así:
00:33:41El valor “K” indica en cuántas partes se divide el conjunto,
00:33:45y si miran el gráfico, el valor de K sería 5.
00:33:47Si fijamos K en 5, dividimos los datos en 5 partes iguales,
00:33:50entrenamos con 4 de esas partes,
00:33:53y comprobamos el rendimiento en la parte restante, que es la de validación.
00:33:56Luego, entrenamos con otras 4 partes,
00:33:59y validamos en el año que quedó fuera,
00:34:01repitiendo el proceso y promediando los 5 resultados obtenidos.
00:34:05Es decir, se hace una media de esos rendimientos.
00:34:09Se asume que ese promedio es similar
00:34:12al rendimiento que se puede esperar en el futuro.
00:34:13Otra opción, si usamos datos de los últimos 10 años,
00:34:16es entrenar con los datos de los años pares
00:34:19y validar con los de los años impares.
00:34:22Todos estos métodos tienen sus pros y sus contras,
00:34:23pero la ventaja principal de esto es que
00:34:26los parámetros son muy estables ante cambios de régimen de mercado.
00:34:30¿A qué me refiero con esto?
00:34:31Cuando ocurre una crisis financiera o una pandemia,
00:34:33la naturaleza del mercado cambia.
00:34:35Por ejemplo, la crisis financiera estalló en 2008.
00:34:39Si entrenamos con datos de 1998 a 2007
00:34:43para encontrar lo que mejor funciona
00:34:45y luego lo validamos,
00:34:46como la naturaleza del mercado ha cambiado,
00:34:49la distribución será diferente
00:34:51y la situación posterior del mercado
00:34:52no se verá reflejada en los patrones anteriores.
00:34:55Por eso, al dividir los datos de esta manera,
00:34:57ante eventos de gran magnitud
00:35:00que alteran por completo las propiedades y patrones del mercado,
00:35:02podemos realizar una validación mucho más estable.
00:35:06Por este motivo se utilizan estos métodos,
00:35:08pero al hacerlo, hay que tener mucho cuidado
00:35:11con lo que llamamos “mirar al futuro” (look-ahead bias).
00:35:13Dependerá de la frecuencia de operación,
00:35:16pero supongamos que operamos mensualmente.
00:35:18Si en los datos de entrenamiento
00:35:19ya están reflejados los datos de 2014,
00:35:22dependiendo de las reglas o datos que usemos en 2013,
00:35:26información que solo se conocería en 2014
00:35:28podría filtrarse en los datos de validación.
00:35:30Entonces, el rendimiento de la validación estaría inflado.
00:35:34Porque se habría entrenado habiendo visto ya el futuro.
00:35:36Así que deben prestar muchísima atención a este punto.
00:35:39He explicado esto de forma muy general,
00:35:41pero en campos como el Machine Learning,
00:35:44existen los llamados hiperparámetros.
00:35:46Normalmente, los parámetros son los valores
00:35:50que el propio modelo ajusta para reducir el error en los datos,
00:35:54mientras que los hiperparámetros los define el ser humano.
00:35:57Por ejemplo, en un análisis de regresión,
00:35:59decidir si usaremos una línea recta o una curva,
00:36:03es decir, qué tan compleja será la fórmula
00:36:07o el tipo de modelo que se va a emplear,
00:36:09es algo que decide la persona.
00:36:11Cosas como el número de parámetros son hiperparámetros.
00:36:15Una vez definidos, basándose en los datos,
00:36:18se ajusta esa línea en la dirección
00:36:22que minimice el error de los datos.
00:36:23Valores como la pendiente o la intersección
00:36:28son los que el modelo aprende y se denominan parámetros.
00:36:33También hay que probar con varios hiperparámetros.
00:36:36Por eso, a veces no solo se divide en entrenamiento y prueba,
00:36:40sino que se añade un conjunto llamado datos de desarrollo (Dev set).
00:36:42Se realiza la optimización allí,
00:36:45se ajustan los hiperparámetros en ese conjunto,
00:36:48y finalmente se valida con los datos de prueba.
00:36:51Quienes sepan de Machine Learning ya lo entenderán,
00:36:55y para los que no, una explicación tan breve no bastará,
00:36:58así que mejor pasaremos al siguiente punto.
00:37:00Sin embargo, al realizar este proceso, hay algo
00:37:04extremadamente importante que no me cansaré de repetir.
00:37:08Se trata de los datos de validación.
00:37:10Jamás, bajo ningún concepto, miren los datos de validación dos veces.
00:37:15No vuelvan a usar esos resultados.
00:37:16Uno entrena con los datos de entrenamiento y hace backtesting muchas veces para hallar la mejor estrategia, ¿verdad?
00:37:22Así encontramos una estrategia con buen rendimiento en el papel,
00:37:26pero para comprobar si realmente funcionará en la práctica,
00:37:31la probamos con ese periodo o datos que no se usaron en el entrenamiento.
00:37:38Pero esto solo se puede hacer una única vez.
00:37:41Solo una vez. Y si el rendimiento sale mal en ese intento,
00:37:45no importa si han dedicado años de esfuerzo o si se han dejado la piel creando esa estrategia,
00:37:50tienen que desechar la estrategia entera.
00:37:52¿Por qué? Porque en la vida real, solo tendrán una oportunidad de ganar o perder con ella.
00:37:57No se puede volver atrás en el tiempo.
00:37:58A pesar de esto, si por pena porque el resultado fue malo en la validación,
00:38:03vuelven a ajustar los parámetros usando solo el entrenamiento
00:38:07y prueban de nuevo hasta que la validación dé un buen resultado...
00:38:10En ese preciso instante, esos datos dejan de ser de validación
00:38:14y pasan a formar parte del entrenamiento.
00:38:16Porque han optimizado los parámetros incluyendo la información de la validación.
00:38:21Por lo tanto, ya no podemos garantizar de ninguna manera
00:38:26qué tan buena será esa estrategia cuando llegue el momento de la verdad.
00:38:29Ese punto es crucial.
00:38:31Otro punto vital al hacer backtesting, relacionado con lo anterior,
00:38:34es el concepto de Régimen de Mercado: los tiempos cambian.
00:38:37Permítanme hacerles una pregunta.
00:38:39Entre un backtesting de 20 años y uno de 3 años,
00:38:42¿cuál creen que es más significativo?
00:38:44El título ya ha revelado la respuesta,
00:38:47pero muchos principiantes creen que cuanto más largo el backtesting, mejor,
00:38:50y que cuantos más datos se tengan, es preferible.
00:38:54Sin embargo, entre esas dos opciones,
00:38:57aunque depende del horizonte temporal y de la frecuencia de operación,
00:39:00en la mayoría de los casos,
00:39:01yo elegiría el de 3 años.
00:39:03Tener más cantidad de datos siempre es bueno,
00:39:06pero deben provenir de la misma distribución estadística.
00:39:09Los datos son mejores cuanto más abundantes,
00:39:11pero no es bueno mezclarlos con datos de un entorno que ya ha cambiado.
00:39:17El problema de abarcar un periodo demasiado largo
00:39:20es que la naturaleza del mercado evoluciona.
00:39:22Este gráfico que ven, no sé si es del rendimiento real,
00:39:26pero es un gráfico relacionado con los tipos de interés.
00:39:28Si observan, el concepto de lo que se considera un interés adecuado
00:39:33fluctúa, por supuesto,
00:39:34pero el nivel base bajo cada régimen cambia drásticamente.
00:39:38En aquel entonces el nivel era este, quizás por la crisis del petróleo,
00:39:41pero después de ese periodo, se situó aquí,
00:39:45y desde los años 80 en adelante,
00:39:47esto pasó a ser lo que se considera normal para los intereses.
00:39:51Si estuviéramos operando con bonos
00:39:53y hubiéramos entrenado una estrategia dentro de aquel periodo antiguo
00:39:57para usarla en el escenario actual,
00:39:59una vez que el régimen de mercado cambia,
00:40:02esa estrategia ganadora basada en datos viejos
00:40:07dejaría de ser válida aquí.
00:40:08A eso le llamamos un cambio en el régimen de mercado.
00:40:11Es una transformación en la esencia o el sistema del mercado.
00:40:14Estos cambios en la naturaleza del mercado
00:40:17pueden ocurrir por variaciones en los propios actores del mercado.
00:40:20Por ejemplo, tras la pandemia, hubo una entrada masiva de inversores minoristas,
00:40:23lo que provocó situaciones como el caso de GameStop.
00:40:25Antes de la pandemia,
00:40:27las estrategias de venta en corto (short selling),
00:40:30usadas incluso por fondos de cobertura especializados,
00:40:32solían funcionar sumamente bien.
00:40:34Pero de repente, con este cambio en la dinámica del mercado,
00:40:37algunos llegaron incluso a la quiebra.
00:40:39También están los cambios legislativos y regulatorios. Tras la crisis financiera,
00:40:43se prohibió la negociación por cuenta propia en los bancos de inversión,
00:40:45y varias regulaciones en el mercado de derivados transformaron el panorama.
00:40:49Una estrategia basada en datos de entrenamiento
00:40:50anteriores a la crisis financiera
00:40:52difícilmente funcionaría bien después.
00:40:54Luego están los eventos exógenos,
00:40:55como la crisis del petróleo, que son tan masivos
00:40:57que alteran el mercado mismo.
00:40:59Son eventos macroeconómicos de gran impacto.
00:41:01Y también las evoluciones macroeconómicas graduales.
00:41:03A medida que los niveles de deuda suben y suben,
00:41:06los intereses, que antes estaban a cierto nivel,
00:41:08han pasado a una era de tipos de interés ultrabajos.
00:41:11Al mismo tiempo, la flexibilización cuantitativa
00:41:13también ha contribuido a estos bajos tipos de interés,
00:41:15y por eso las acciones de crecimiento han tenido
00:41:17un rendimiento superior increíble los últimos 10 años.
00:41:19Pero si encuentras una estrategia rentable usando
00:41:22datos previos a la flexibilización cuantitativa,
00:41:24podrías terminar comprando acciones de valor.
00:41:25Entonces, obviamente, durante los siguientes 10 años
00:41:27los resultados habrían sido muy malos.
00:41:28Además, está la aparición de nuevas tecnologías
00:41:30o cambios en la estructura industrial,
00:41:32entre otros factores.
00:41:33Por eso, al hacer un backtesting de 20 años,
00:41:35¿realmente tienen sentido los datos del 2001?
00:41:38Por supuesto, un “cambio de régimen de mercado”
00:41:40depende de los factores que uno observe.
00:41:42Varía según cada caso.
00:41:43Al final, depende de la lógica de la estrategia,
00:41:45de las reglas o del modelo,
00:41:47qué elementos está analizando
00:41:49y qué tipo de datos está utilizando.
00:41:51Basándose en eso,
00:41:52hay que observar cómo cambia
00:41:53el régimen de esos datos.
00:41:55Por ejemplo, hay datos cuyas propiedades
00:41:56cambian muy rápidamente,
00:41:58incluso mes a mes,
00:41:59mientras que otros datos pueden ser
00:42:01muy estables durante 10 o 15 años.
00:42:03Como los ciclos de cada crisis son distintos,
00:42:05no se puede generalizar diciendo
00:42:07que solo porque ocurrió lo del COVID,
00:42:09todos los patrones anteriores
00:42:09carecen de sentido. No es así.
00:42:12Pero, en cualquier caso,
00:42:14analizar periodos de 20 años
00:42:15claramente presenta algunos problemas.
00:42:17Pueden verlo de esa manera.
00:42:18Si intentan hacer inferencias
00:42:20usando datos muy antiguos,
00:42:22aunque el régimen de mercado
00:42:23haya cambiado en el medio
00:42:24y haya vuelto a cambiar,
00:42:25si esos datos del pasado lejano
00:42:29reflejan el momento actual,” station
00:42:30entonces sí podrían ser utilizables.
00:42:32De hecho, hay quienes dicen
00:42:33que la actualidad se parece a los años 40.
00:42:35Se comenta ese tipo de cosas,
00:42:37pero es solo un comentario aparte.
00:42:38Así pues, el trading cuantitativo
00:42:41se ha vuelto muy común
00:42:42e incluso los particulares lo practican.
00:42:44Sin embargo, en las inversiones a largo plazo,
00:42:45el punto ciego de la inversión cuantitativa
00:42:47es que al aplicar estas técnicas cuantitativas
00:42:49a inversiones de largo aliento,
00:42:51es muy difícil asegurar suficientes datos
00:42:53y evitar los cambios de régimen al mismo tiempo.
00:42:55Supongamos una estrategia de trading algorítmico
00:42:57que utiliza datos por minuto.
00:42:59En una hora,
00:43:01tienes 60 puntos de datos.
00:43:02Como son 60 minutos,
00:43:03tienes 60 datos.
00:43:04Entonces, si hablamos de
00:43:05un futuro que cotiza las 24 horas,
00:43:08si lo multiplicas por 24,
00:43:09son 1440.
00:43:10¿Cierto?
00:43:10Tienes 1440 datos al día.
00:43:12Con 1440 datos diarios,
00:43:15si opera 5 días a la semana,
00:43:17asumiendo unos 250 días al año,
00:43:20en un año obtienes
00:43:21unos trescientos y pico mil
00:43:23puntos de datos.
00:43:25Incluso con solo un año,
00:43:26ya tienes más de 300,000 datos,
00:43:29lo cual es estadísticamente significativo.
00:43:32Esto permite hacer validaciones,
00:43:33usar modelos más complejos,
00:43:35y mucho más.
00:43:36Pero pensemos en una estrategia
00:43:37de rebalanceo mensual.
00:43:39Solo tienes 12 datos al año.
00:43:41Incluso en 20 años,
00:43:42solo tienes 240 datos.
00:43:44Como no puedes aumentar los datos en el eje temporal,
00:43:47se intenta analizar múltiples acciones
00:43:49para ampliar el alcance
00:43:51y ganar algo de significancia,
00:43:53pero en el eje del tiempo,
00:43:54sigue siendo difícil evitar el cambio de régimen.
00:43:57Por eso estas cuestiones son tan complicadas.” Tras la pandemia,
00:43:58tras la llegada del COVID,
00:44:00muchos expertos en cuant,
00:44:02como Inigo Fraser-Jenkins,
00:44:05quien es jefe de cuant en una firma muy famosa,
00:44:09explicó en un artículo
00:44:11por qué ya no se considera un “cuant”.
00:44:13El núcleo de su argumento es que
00:44:15el trabajo de un cuant es predecir el futuro según patrones pasados,
00:44:19pero cuando ocurre
00:44:20algo como el COVID, esos patrones se vuelven inútiles.
00:44:23Ante un cambio de régimen de mercado,
00:44:25lo que un cuant puede hacer es muy limitado.
00:44:28Se habla incluso de una crisis existencial
00:44:30para los analistas cuantitativos.
00:44:31De hecho, el año pasado les fue muy mal.
00:44:34Aunque hubo excepciones que lo hicieron bien,
00:44:36en promedio, los resultados fueron pésimos.
00:44:38Creo que ya hemos cubierto la mitad,
00:44:40pero ya ha pasado una hora y media.
00:44:43Así que dejaremos la primera parte aquí.
00:44:45Mañana, en la segunda parte, veremos los puntos 6 al 10,
00:44:49las ventajas y limitaciones,
00:44:50y el plan de estudios para aprender análisis cuantitativo.
00:44:52Trataremos todo eso.
00:44:54Nos vemos en la segunda parte.
00:44:55Muchas gracias.

Key Takeaway

La inversión cuantitativa requiere un rigor científico extremo para evitar ilusiones estadísticas creadas por datos sucios, sesgos cognitivos y un exceso de confianza en el rendimiento histórico.

Highlights

La inversión cuantitativa no garantiza el éxito futuro solo por basarse en patrones rentables del pasado, ya que estos son infinitos y a menudo irrepetibles.

El backtesting tradicional suele estar plagado de errores técnicos como el sesgo de supervivencia y el sesgo de anticipación (look-ahead bias).

El sobreajuste (overfitting) es un riesgo crítico donde un modelo se vuelve demasiado complejo para funcionar fuera de los datos históricos específicos.

La importancia de utilizar datos fuera de la muestra (Out-of-Sample) y métodos como Walk-Forward Testing para validar estrategias de forma rigurosa.

Los cambios de régimen de mercado, provocados por crisis o nuevas regulaciones, pueden invalidar instantáneamente estrategias basadas en décadas de datos.

Los datos gratuitos de fuentes como Google o Yahoo suelen ser imprecisos y requieren una limpieza profunda para evitar resultados inflados artificialmente.

Timeline

Introducción y los peligros del marketing cuantitativo

El ponente, Wall Street Ajae, inicia advirtiendo sobre la proliferación de cursos costosos que idealizan la inversión cuantitativa sin explicar sus riesgos fundamentales. Explica que decidió crear este contenido debido a la creciente confusión entre los inversores particulares y el marketing engañoso que promete rentabilidades constantes. Destaca que creer ciegamente en el backtesting es peligroso y puede llevar a pérdidas financieras masivas si no se comprenden las limitaciones estadísticas. El autor enfatiza la necesidad de una autocrítica en la comunidad financiera de YouTube, compartiendo su empatía por quienes han perdido dinero. Esta sección establece el tono preventivo y profesional de la serie de videos que analizará diez precauciones esenciales.

Definiciones del mundo Quant y el proceso de inversión

Se ofrece una clasificación detallada del ecosistema cuantitativo, abarcando desde el Trading de Alta Frecuencia (HFT) y el arbitraje estadístico hasta la inversión por factores. El orador aclara que los límites entre estas categorías son a menudo difusos, pero todos comparten un proceso de cuatro pasos: idea, backtesting, operativa y gestión de riesgos. Menciona que, aunque antes era un terreno exclusivo de instituciones con doctores en ciencias, la tecnología ha democratizado estas herramientas para los minoristas. Sin embargo, esta accesibilidad ha traído consigo una ola de malinterpretaciones sobre la facilidad de generar beneficios. La sección concluye explicando cómo plataformas como Quantopian permitieron el acceso masivo, pero no necesariamente el éxito sostenido.

La falacia de los patrones pasados y el mito de la fórmula mágica

El análisis se centra en por qué encontrar patrones rentables en el pasado es extremadamente sencillo pero inútil si no se mantienen en el futuro. Se utiliza el ejemplo de la 'Fórmula Mágica' de Joel Greenblatt, demostrando que su rendimiento ha sido inferior al del mercado desde que se hizo pública. El ponente argumenta que Greenblatt no era un inversor puramente cuantitativo y que su éxito real provenía de situaciones especiales y análisis de valor complejo. También se discute el fracaso de Quantopian, subrayando que incluso con millones de pruebas y expertos de alto nivel, predecir el futuro financiero sigue siendo un reto colosal. Este segmento resalta que no existe una estrategia ganadora que se pueda encontrar con unos pocos clics.

Punto 1: La calidad de los datos y el sesgo de supervivencia

Se aborda la primera precaución crítica: la integridad de los datos, advirtiendo que los datos gratuitos suelen estar 'sucios' y contener errores de ejecución que inflan la rentabilidad. El orador explica detalladamente el sesgo de supervivencia mediante la famosa analogía de los aviones de guerra que regresan a la base, aplicándola al mercado de valores. Si un inversor solo realiza pruebas con empresas que existen hoy, como Apple o Microsoft, ignora las miles que quebraron, lo que distorsiona completamente el resultado del backtesting. Este error es común entre principiantes que definen universos de inversión estáticos basados en el presente. La limpieza de datos y la inclusión de empresas delistadas son requisitos indispensables para cualquier análisis serio.

Punto 2 y 3: Sesgo de anticipación y el problema del sobreajuste

El video profundiza en el 'look-ahead bias', que ocurre cuando se utiliza información del futuro que no estaba disponible en el momento de la operación simulada. Un ejemplo común es filtrar las 100 mejores empresas de 2021 y simular compras en 2011, lo cual es una forma de 'precognición' algorítmica. Posteriormente, se introduce el concepto de sobreajuste (overfitting), describiendo modelos que son tan complejos que se ajustan perfectamente al ruido de la muestra pero fallan en la realidad. El ponente utiliza gráficos para ilustrar cómo una línea demasiado serpenteante reduce el error a cero en el pasado pero aumenta el error de predicción en el futuro. Es vital mantener la simplicidad y la lógica económica detrás de cada regla de inversión.

Punto 4: Validación rigurosa con datos fuera de la muestra

Esta sección explica métodos avanzados de validación como el 'Walk-Forward Testing' y la 'Validación Cruzada' (K-Fold CV) para mitigar el sobreajuste. El concepto fundamental es dividir los datos en conjuntos de entrenamiento y validación, asegurándose de que la estrategia se pruebe en un entorno 'desconocido' para el modelo. Se hace hincapié en la regla de oro: los datos de validación solo deben consultarse una única vez; si el resultado es malo, la estrategia debe desecharse por completo. Reajustar la estrategia tras ver los resultados de validación convierte esos datos en parte del entrenamiento, invalidando la prueba. Este rigor es lo que diferencia a un profesional de un aficionado en el trading algorítmico.

Punto 5: Cambios en el régimen de mercado y conclusión

Finalmente, se analiza el impacto del régimen de mercado, argumentando que un backtesting de 3 años suele ser más relevante que uno de 20 años si el entorno económico ha cambiado. Factores como la pandemia de COVID-19, cambios regulatorios o tipos de interés ultra bajos alteran la distribución estadística de los precios, haciendo que patrones antiguos sean obsoletos. El orador menciona la 'crisis existencial' de los analistas cuantitativos que vieron cómo sus modelos fallaban ante la imprevisibilidad de los eventos globales recientes. Se concluye resaltando la dificultad de obtener datos significativos para estrategias de baja frecuencia, como el reequilibrio mensual. El video termina prometiendo una segunda parte para cubrir los puntos restantes y el plan de estudios recomendado.

Community Posts

View all posts