[Wall Street Ajae] O Mito e a Realidade do Investimento Quantitativo - Parte 1: Fazer de Qualquer Jeito Pode Ser um Veneno

월가아재의 과학적 투자
주식 투자마케팅/광고초보 재테크AI/미래기술

Transcript

00:00:00Mas se olharmos para os últimos
00:00:0310, 20 ou até 30 anos,
00:00:04quantos padrões lucrativos existiram nesse período?
00:00:09A resposta é: infinitos. E isso pode ser provado.
00:00:12Olá, eu sou o Wall Street Guy.
00:00:21Hoje falaremos sobre investimento quantitativo.
00:00:24Em comentários no YouTube e por e-mail,
00:00:26muitos me pediram para falar sobre trading quantitativo.
00:00:29Devido aos meus planos e ao currículo do canal,
00:00:33eu não pretendia abordar trading algorítmico
00:00:36ou quantitativo tão cedo.
00:00:38No entanto, percebi que cerca de
00:00:4015% dos nossos inscritos já operam com o método quant.
00:00:44Além disso, há pontos que me preocupam hoje em dia,
00:00:48por isso decidi fazer este vídeo.
00:00:50O roteiro de hoje começa com as categorias e princípios,
00:00:53dando uma visão geral do setor.
00:00:56Depois, veremos 10 pontos de atenção no trading quant.
00:00:59Se você memorizar esses 10 pontos,
00:01:04evitará perder muito tempo
00:01:06ou cometer erros em metodologias de backtesting,
00:01:09o que poderia levar a decisões erradas
00:01:11e prejuízos enormes.
00:01:15Embora esses pontos sejam básicos,
00:01:18muitos cursos caros por aí
00:01:21parecem não explicá-los detalhadamente.
00:01:24Pelo contrário, esses cursos tendem a
00:01:27romantizar o backtesting e o investimento quant.
00:01:31Lembrando esses 10 pontos, independentemente
00:01:35da informação ou serviço que você utilizar,
00:01:39você estará muito mais seguro.
00:01:43Antes de começar, fiz uma postagem curta
00:01:47há alguns dias em um tom mais exaltado,
00:01:49e sinto que cometi um erro.
00:01:51Eu disse que o marketing viral e enganoso
00:01:54sobre investimentos quantitativos passou dos limites.
00:01:55Isso gerou comentários maldosos
00:01:59contra pessoas e empresas específicas.
00:02:02Apaguei o post para não prejudicar a imagem deles.
00:02:06Afinal, o que eles fazem não é ilegal,
00:02:09como salas de sinais ou corretoras clandestinas.
00:02:12Talvez eu esteja sendo intrometido.
00:02:16No caso de esquemas claramente ilegais,
00:02:19quem entra sabe do risco e age por ganância,
00:02:22assumindo parte da responsabilidade.
00:02:25Mas o debate atual sobre investimento quant
00:02:28afeta pessoas comuns que querem apenas
00:02:33aprender e se esforçar honestamente no mercado.
00:02:35Muitos entram nesse campo agora
00:02:37e podem acabar sendo prejudicados.
00:02:40O termo “quantitativo” remete a ciência e estatística,
00:02:46o que pode mascarar elementos totalmente anticientíficos.
00:02:51Diferente de golpes óbvios que são fáceis de evitar,
00:02:55isso pode atrair vítimas bem-intencionadas.
00:02:56Dizem que qualquer um vira mestre em poucos dias,
00:03:01ou que a estratégia é validada por décadas de dados,
00:03:04ou ainda que, como rendeu 20% ao ano no passado,
00:03:08continuará rendendo o mesmo no futuro.
00:03:11Mesmo que a intenção não seja maliciosa,
00:03:14investidores iniciantes podem se confundir
00:03:18e perder muito tempo com backtestings vazios,
00:03:20além de sofrerem perdas financeiras.
00:03:23Ter uma fé cega nos resultados do backtesting
00:03:25é extremamente perigoso.
00:03:27Nos EUA, as regras da SEC puniriam como ilegal
00:03:32qualquer fundo que fizesse marketing dessa forma.
00:03:35Gostaria que quem fala sobre investimento quant
00:03:38sentisse mais o peso da responsabilidade sobre o dinheiro alheio.
00:03:41Não digo isso para parecer um bom moço,
00:03:45mas porque já sofri muito com falta de dinheiro aos 20 anos
00:03:47e sei exatamente como é essa sensação.
00:03:51Como falo muito sobre controle emocional em perdas
00:03:52e compartilho meus erros do passado,
00:03:56recebo muitos pedidos de ajuda.
00:03:58Toda semana chegam vários e-mails de pessoas
00:04:01desesperadas por terem perdido fortunas.
00:04:05Criadores de conteúdo sobre finanças e ações
00:04:09deveriam fazer uma autocrítica de vez em quando.
00:04:14sinto às vezes que estou dando recomendações diretas.
00:04:16So, YouTubers who deal with money, such as investing, stocks, and real estate,
00:04:20Quero voltar à minha essência assim que o mercado estabilizar.
00:04:24Fiz este vídeo com esse espírito,
00:04:26sem a intenção de atacar ninguém ou nenhuma empresa.
00:04:29Talvez os marqueteiros do setor nem saibam o que estão fazendo.
00:04:33O objetivo é reconhecer o problema e melhorar juntos.
00:04:37Peço que não usem os comentários para criticar ninguém.
00:04:40A introdução foi longa, mas vamos às categorias.
00:04:43O termo “quant” é amplo e tem várias definições.
00:04:46Cronologicamente, temos primeiro o HFT (High Frequency Trading).
00:04:49Há o Ultra HFT, com servidores alocados na própria bolsa,
00:04:51codificação em linguagem de máquina e hardware de ponta.
00:04:55Depois, com um horizonte de tempo um pouco maior,
00:04:57temos o Trading Algorítmico.
00:04:58Ele usa indicadores técnicos ou sistemas baseados em regras.
00:05:01Muitos indivíduos usam isso hoje em plataformas de backtesting.
00:05:04Temos também a Arbitragem Estatística e o Pair Trading,
00:05:07que utilizam modelos estatísticos avançados.
00:05:10Basicamente, buscam padrões passados
00:05:12sob a premissa da reversão à média.
00:05:14Existe também o Investimento por Fatores (Factor Investing).
00:05:19É focado no longo prazo, usando fatores como momentum, valor e carry.
00:05:20Eles buscam identificar o que move os preços e encontrar o alfa.
00:05:22Nos últimos anos, o conceito de “Quantamental” ganhou força.
00:05:24É a análise fundamentalista quantificada e automatizada,
00:05:28usando Big Data e dados alternativos para o longo prazo.
00:05:29Machine Learning e Big Data estão se expandindo
00:05:33para todas essas subáreas.
00:05:35Essas divisões são apenas para facilitar o entendimento,
00:05:39pois as fronteiras são muito tênues.
00:05:41Alguns chamam tudo isso de Trading Algorítmico.
00:05:42Vou tratar tudo isso apenas como Trading Quantitativo geral.
00:05:44O processo quantitativo segue quatro princípios:
00:05:46Primeiro, deve haver uma ideia ou hipótese de investimento.
00:05:48Segundo, faz-se o backtesting.
00:05:50É a validação da hipótese em dados históricos.
00:05:52Se eu acho que algo funciona, verifico se
00:05:54realmente deu lucro no passado.
00:05:59Se o backtesting for positivo,
00:06:01partimos para a execução real com gestão de risco.
00:06:03Até meados de 2010, o trading quant era exclusivo
00:06:06de grandes instituições e doutores em exatas.
00:06:07Mas a tecnologia se popularizou nas instituições
00:06:10e, com o surgimento de serviços como o Quantopian nos EUA,
00:06:12o backtesting ficou fácil para qualquer pessoa.
00:06:16Hoje, o trading quant está ao alcance de todos.
00:06:18Contudo, o entendimento errado sobre o tema também cresceu.
00:06:20Por exemplo: nos últimos 15 anos, investir em empresas
00:06:23com PBR abaixo de 0,9 e que subiram nos últimos 12 meses
00:06:26gerou um retorno anual de 20,2%.
00:06:28Se mudarmos o PBR um pouco, o retorno cai para 14% ou 17%.
00:06:30Como o primeiro resultado foi o melhor,
00:06:31muitos concluem que devem investir seguindo essa regra.
00:06:33Esse é um exemplo clássico de erro.
00:06:35Pense bem: o backtesting busca padrões passados
00:06:37sob a suposição — não garantida —
00:06:40de que o passado se repetirá no futuro.
00:06:42Em um período de 10, 20 ou 30 anos,
00:06:44quantos padrões lucrativos você acha que existiram?
00:06:47Se quiser, pause o vídeo e reflita.
00:06:50A resposta é: infinitos. E isso é provável.
00:06:51Como os parâmetros das estratégias são contínuos,
00:06:54existem infinitas variações que deram lucro no passado.
00:06:56A questão crucial é: quais funcionarão no futuro?
00:06:57Esse é o verdadeiro cerne da questão quantitativa.
00:07:00Achar padrões passados que deram dinheiro
00:07:01é fácil se você tiver as ferramentas certas.
00:07:03Mas achar o que funcionou e continuará funcionando
00:07:06é extremamente difícil, como procurar agulha no palheiro.
00:07:09Pesquisando em sites e blogs coreanos,
00:07:13vi que a “Fórmula Mágica” de Joel Greenblatt é famosa.
00:07:16Ele criou uma fórmula simples baseada em filtros
00:07:18como capitalização de mercado para selecionar ações.
00:07:21O livro sobre essa fórmula se tornou um sucesso
00:07:23entre os investidores individuais.
00:07:25Greenblatt é uma lenda no mundo dos Hedge Funds.
00:07:28Ele investe desde os anos 80 e,
00:07:30por um tempo, teve retornos maiores que os de Warren Buffett.
00:07:33Isso fez sua fórmula ganhar ainda mais destaque.
00:07:35No entanto, para concluir este ponto...
00:07:38Muitos investidores seguem fórmulas cegamente
00:07:40sem entender os riscos de ajuste excessivo aos dados.
00:07:42O backtesting pode ser uma armadilha perigosa.
00:07:46Não basta olhar para o lucro passado.
00:07:48É preciso entender a lógica por trás da estratégia.
00:07:51A estatística sem contexto é apenas ruído.
00:07:53Muitas pessoas perdem tudo por confiar em números frios.
00:07:56O mercado é um sistema dinâmico e competitivo.
00:07:58Assim que um padrão se torna público,
00:08:01sua eficácia tende a diminuir rapidamente.
00:08:03Isso é o que chamamos de arbitragem de alfa.
00:08:04Portanto, a simplicidade da fórmula mágica
00:08:07pode ser sua maior fraqueza no cenário atual.
00:08:09Investir exige um ceticismo saudável sempre.
00:08:12Não existe atalho fácil para a riqueza.
00:08:14O método quantitativo é uma ferramenta, não um milagre.
00:08:16Ele ajuda a remover o viés emocional,
00:08:18mas não elimina a incerteza do futuro.
00:08:21É fundamental diversificar as estratégias.
00:08:24Nunca aposte tudo em um único modelo estatístico.
00:08:26A gestão de risco deve ser a prioridade número um.
00:08:29Muitos focam apenas no potencial de ganho,
00:08:30esquecendo-se da proteção do capital.
00:08:32Um bom quantitativo foca no que pode dar errado.
00:08:34Sobreviver no mercado é o primeiro passo para lucrar.
00:08:36Estude a fundo antes de colocar dinheiro real.
00:08:38A prática no simulador é bem diferente da realidade.
00:08:42O impacto emocional do prejuízo é real.
00:08:46E as derrapagens de execução (slippage) corroem o lucro.
00:08:50Sempre desconte os custos de transação.
00:08:52No papel tudo parece mais lucrativo do que é.
00:08:55Seja honesto com seus próprios dados.
00:08:56A autoenganação é o maior inimigo do trader.
00:09:00Aprenda a distinguir sorte de habilidade.
00:09:02Um bom resultado em curto prazo pode ser puro acaso.
00:09:04A consistência é o que define um profissional.
00:09:07Mantenha a disciplina mesmo em fases ruins.
00:09:09Todo modelo tem seus períodos de prejuízo (drawdown).
00:09:12O importante é saber quando o modelo quebrou.
00:09:13E ter a coragem de pará-lo se necessário.
00:09:15O mercado recompensa a paciência e o estudo.
00:09:17Ele criou uma fórmula para selecionar ações
00:09:20e escreveu um livro sobre essa “Fórmula Mágica” de investimento.
00:09:24Isso se tornou um grande tópico de discussão
00:09:25e parece ter ficado muito conhecido entre os investidores individuais.
00:09:28Mas ele também é extremamente famoso no mundo dos hedge funds.
00:09:31Ele começou a investir na década de 1980
00:09:33e, durante seu período de investimento, registrou
00:09:35retornos mais altos do que os de Warren Buffett.
00:09:37Acredito que é por isso que a Fórmula Mágica recebeu tanta atenção.
00:09:40Mas, para ir direto ao ponto,
00:09:42Greenblatt não é um investidor quantitativo (quant)
00:09:44e o seu hedge fund não investiu apenas usando a Fórmula Mágica.
00:09:47Aqueles ótimos retornos não vieram apenas dessa fórmula.
00:09:50O fundo dele praticava o “Value Investing” (investimento em valor)
00:09:52e também o “Special Situations Investing” (investimento em situações especiais).
00:09:54por exemplo, quando uma empresa se divide,
00:09:57For example, being separated from a certain company,
00:09:59ou quando surgem discrepâncias de preço.
00:10:01Eles capturavam essas oportunidades e vantagens (“edges”) para lucrar,
00:10:04utilizando essas metodologias em conjunto.
00:10:07E acredito que, mesmo na parte de investimento em valor,
00:10:10eles não usavam apenas uma fórmula tão simples.
00:10:12Claro, ela deve ter sido refletida na estrutura deles.
00:10:14Mas não creio que eles simplesmente compravam ações de forma mecânica
00:10:18baseado apenas naquela fórmula para obter esses resultados.
00:10:20Se fizermos um backtesting dos retornos da Fórmula Mágica
00:10:22desde que ela foi tornada pública em 2005,
00:10:26esta linha cinza é o índice S&P 500
00:10:28e esta linha verde é a Fórmula Mágica.
00:10:29Como podem ver, ela teve uma alta volatilidade
00:10:32e, no geral, teve um desempenho inferior ao mercado (underperform).
00:10:34Isso acontece porque surgiram investimentos semelhantes,
00:10:37como os ETFs de ações sistêmicas,
00:10:40e à medida que o mercado se tornou mais eficiente,
00:10:42pode-se dizer que essa vantagem competitiva desapareceu.
00:10:44Como mostra o fato de que até fórmulas famosas têm esse desempenho,
00:10:48encontrar padrões lucrativos no passado é muito fácil.
00:10:50Você pode até escrever um livro sobre isso.
00:10:53Mas encontrar um padrão que continuará sendo lucrativo no futuro
00:10:56exige uma quantidade de trabalho realmente imensa.
00:11:00Portanto, uma estratégia que renda 20% ao ano
00:11:03com apenas alguns dias de reflexão e cliques não existe no mundo real.
00:11:06Outro exemplo é a Quantopian.
00:11:08A Quantopian foi uma startup fundada por volta de 2011
00:11:12que servia como uma plataforma para facilitar backtestings nos EUA.
00:11:16Lá, 300 mil pessoas realizaram 12 milhões de backtestings
00:11:20testando e criando inúmeras estratégias quantitativas.
00:11:24O famoso bilionário Steve Cohen investiu nela,
00:11:27ele que é um trader de hedge fund.
00:11:29E os melhores especialistas em quant da Quantopian
00:11:32chegaram a publicar artigos acadêmicos
00:11:34sobre quais estratégias seriam lucrativas no futuro,
00:11:37quais critérios usar e quais metodologias estatísticas
00:11:40deveriam ser aplicadas para selecioná-las.
00:11:41Eles pesquisaram intensamente esses aspectos
00:11:44para selecionar as melhores estratégias
00:11:46e tentar gerir um novo hedge fund com elas.
00:11:48Essa era a ideia, mas...
00:11:49foi um fracasso retumbante.
00:11:51Acabaram fechando as portas no ano passado.
00:11:53Por que esse tipo de fenômeno acontece?
00:11:55E para os espectadores que desejam tentar investimentos quantitativos,
00:11:58como é possível evitar esse tipo de resultado?
00:12:02É claro que não se pode evitar completamente.
00:12:03E eu considero que é uma tarefa extremamente difícil.
00:12:07No entanto, se você quiser aceitar o desafio,
00:12:10eu gostaria que você mantivesse em mente pelo menos estas 10 coisas
00:12:12e tivesse muito cuidado com elas.
00:12:13Vou falar sobre cada uma delas desse ponto de vista.
00:12:16Apenas lembrando dessas 10 coisas,
00:12:17você poderá evitar perder tempo com backtestings errados
00:12:22e acabar sofrendo prejuízos financeiros.
00:12:24Lembrando que fazer um bom backtesting não garante lucros.
00:12:27Primeiro, você deve sempre desconfiar dos dados.
00:12:31Muitas pessoas usam dados do Google ou Yahoo Finance,
00:12:34mas esses dados são muito, muito “sujos”.
00:12:37Quem tenta começar o trading quantitativo do zero
00:12:41enfrenta muitos obstáculos por causa da qualidade dos dados.
00:12:45Esses dados gratuitos são sujos, cheios de erros,
00:12:47e no processo de limpeza desses dados,
00:12:50você pode achar que basta apenas encontrar os erros,
00:12:51You might think you just need to find the errors,
00:12:54mas, na verdade, o julgamento subjetivo humano
00:12:57e vieses acabam influenciando o processo.
00:12:59Deixe-me dar um exemplo.
00:13:01Suponha que uma ação estivesse sendo negociada entre 41 e 43 dólares
00:13:05e tenha fechado o dia assim.
00:13:06Mas, perto do fechamento do mercado,
00:13:08um trader comete um erro de digitação
00:13:11e uma única ação é executada a 28 dólares.
00:13:14Tecnicamente falando,
00:13:16a mínima daquele dia foi 28 dólares.
00:13:18Embora essa pessoa tenha cometido um erro e tido um grande prejuízo,
00:13:21a mínima registrada teria que ser 28 dólares.
00:13:24Isso é o fato, certo?
00:13:25Então, como você define a mínima e a máxima?
00:13:28Se você remover esse valor e registrar 41 como a mínima,
00:13:31você estaria excluindo uma transação
00:13:34que realmente ocorreu no mercado.
00:13:36Mas se você não remover isso,
00:13:38e sua estratégia for algo como,
00:13:40por exemplo, se o preço cair mais de 5% em 5 minutos,
00:13:44enviar uma ordem de compra.
00:13:45Ao fazer o backtesting dessa estratégia,
00:13:47o sistema pode considerar que você comprou a 28 dólares.
00:13:48Ele reconheceria essa execução.
00:13:51Então, se eu comprei a 28 dólares
00:13:53e vendi no fechamento a 42 dólares,
00:13:55o backtesting entenderá isso como um lucro imediato,
00:13:58e o retorno dessa estratégia
00:13:59será enormemente inflado.
00:14:01Claro, como foi apenas uma ação, poderíamos deletar o dado.
00:14:03Mas e se o erro do trader fosse
00:14:06de 10 ações, 100 ações, ou até 10 mil ações?
00:14:09Casos assim realmente acontecem.
00:14:11Esses casos ocorrem de tempos em tempos.
00:14:14Houve até casos de grande escala onde
00:14:17se perdeu dezenas de milhões de dólares.
00:14:20Esses erros de 100 ou 1.000 ações
00:14:21são mais comuns do que se imagina.
00:14:23Claro que nos últimos anos,
00:14:24como algoritmos realizam a
00:14:25execução das ordens,
00:14:27existem mais redes de segurança instaladas.
00:14:29Não é tão frequente quanto antigamente.
00:14:31No entanto, dados de backtesting
00:14:33frequentemente incluem períodos antes da execução algorítmica,
00:14:36indo até 2011 ou 2005.
00:14:37Se você voltar tanto assim no tempo,
00:14:39você verá esses casos com bastante frequência.
00:14:41Então, como você vai lidar com isso?
00:14:43Além disso, existem ativos que são
00:14:44negociados em várias bolsas de valores.
00:14:45Nesses casos, os dados de
00:14:47várias bolsas diferentes precisam ser
00:14:49consolidados corretamente.
00:14:50Você precisa saber se os preços mínimos, máximos,
00:14:52dados de negociação e volumes
00:14:53foram integrados de forma limpa,
00:14:56ou se você está usando
00:14:57apenas os dados de algumas bolsas,
00:14:59o que resultaria em dados de negociação incompletos
00:15:01para o seu backtesting.
00:15:02Se o custo dos dados for baixo,
00:15:04há uma grande chance de isso acontecer.
00:15:05E ao calcular o MDD (Máximo Drawdown),
00:15:07você usa o preço de fechamento ou a mínima do dia?
00:15:09Por exemplo, para estratégias
00:15:11de rebalanceamento mensal,
00:15:13ao fazer o backtesting,
00:15:14algumas pessoas usam dados diários,
00:15:15mas consideram apenas os preços de fechamento.
00:15:17No entanto,
00:15:18para calcular a queda real (drawdown),
00:15:20é necessário observar o drawdown intradia
00:15:21também.
00:15:22Esses são detalhes pequenos.
00:15:24Ou ao testar com contratos futuros,
00:15:26se o produto tem uma data de vencimento,
00:15:27como você faz a rolagem (“roll-over”)?
00:15:29Em muitos backtestings,
00:15:31as pessoas conectam vencimentos sucessivos
00:15:33para criar uma série histórica de dados
00:15:34e então realizam o teste.
00:15:35Mas como você trata
00:15:37o custo dessa rolagem no vencimento?
00:15:38Essas e muitas outras questões existem.
00:15:39Há inúmeros problemas além destes.
00:15:40Mas você já parou para pensar
00:15:42sobre esses problemas nos dados?
00:15:44Ou se você usa um serviço de backtesting,
00:15:47você simplesmente confia que a empresa tratou os dados corretamente?
00:15:51É essencial verificar esses pontos,
00:15:53pois ocorrem muito mais erros de dados do que se imagina,
00:15:57o que acaba distorcendo os resultados
00:15:59do backtesting.
00:16:01Outro problema que vem dos dados
00:16:04é o viés de sobrevivência (survivorship bias).
00:16:06Este é um dos erros mais clássicos em backtesting.
00:16:08Esta imagem que estou mostrando agora...
00:16:10não sei se é da 1ª ou da 2ª Guerra Mundial,
00:16:12mas a Força Aérea queria reforçar seus aviões.
00:16:16Eles queriam identificar quais partes da fuselagem
00:16:18deveriam receber uma blindagem extra.
00:16:20Para descobrir isso,
00:16:21os engenheiros analisaram todos os aviões
00:16:24que retornaram das batalhas aéreas
00:16:26e mapearam onde eles haviam sido
00:16:28mais atingidos por disparos.
00:16:29Eles viram: “Ah, essas áreas são as mais atingidas.”
00:16:33Então pensaram em reforçar
00:16:34as chapas de metal nessas áreas específicas,
00:16:36chegando a essa conclusão.
00:16:38Mas isso foi um erro colossal.
00:16:40Porque, na realidade, aviões atingidos
00:16:42nesta parte,
00:16:42nesta outra parte ou aqui,
00:16:44todos caíram e não conseguiram
00:16:46retornar para serem analisados.
00:16:49Isso mostra o quão perigoso é tirar conclusões
00:16:50mostra o quão perigoso é
00:16:52tirar conclusões apenas com os dados fornecidos,
00:16:54e o “viés de sobrevivência” no investimento em ações
00:16:56seria, por exemplo,
00:16:57olhar para agora e pensar:
00:16:59“Se eu tivesse comprado Apple e Microsoft nos anos 80,
00:17:02teria ficado rico”.
00:17:03Pensando assim,
00:17:05digamos que você crie uma estratégia de comprar ações de tecnologia.
00:17:08Mas, na verdade, naquela época, nos anos 80,
00:17:10havia mais de 30 empresas
00:17:13tão promissoras quanto a Apple ou a Microsoft.
00:17:14E 28 delas simplesmente desapareceram.
00:17:17Ou seja, apenas duas sobreviveram.
00:17:19Mas você olha apenas para essas duas sobreviventes
00:17:22e acaba concluindo que,
00:17:23se investir assim agora, vai se dar muito bem.
00:17:27Se você fizer um backtesting focado apenas
00:17:30nas empresas que existem hoje,
00:17:32os seus resultados de rentabilidade serão inflados.
00:17:35E esse problema se torna ainda maior
00:17:38quanto mais longo for o período do teste.
00:17:40Porque, durante esse longo intervalo,
00:17:41muitas empresas que existiam no início
00:17:43acabaram indo à falência.
00:17:45No entanto, muitos investidores iniciantes,
00:17:47ao começarem um backtesting,
00:17:48definem o chamado “universo de ativos”.
00:17:51Eles escolhem quais ações serão testadas,
00:17:54definindo esse escopo
00:17:55com base nas empresas que existem atualmente.
00:17:58Então, dentro desse grupo,
00:17:59aplicam vários critérios de teste
00:18:02para tentar identificar
00:18:05quais seriam as melhores empresas para escolher.
00:18:07Ao fazer isso,
00:18:08todas as empresas que faliram
00:18:11desde o início do teste até hoje são excluídas.
00:18:13É como se você assumisse no backtesting
00:18:16que possui o poder divino de prever o futuro.
00:18:18Obviamente, a rentabilidade será muito maior que a realidade.
00:18:21Portanto, ao realizar um backtesting,
00:18:23se o período for de 20 anos,
00:18:25você deve começar com as empresas
00:18:29que existiam lá em 2001
00:18:30e usar esse grupo como base.
00:18:32É isso que eu queria destacar.
00:18:33E abrindo um parêntese,
00:18:34esses grandes investidores de sucesso no YouTube
00:18:37também podem ser fruto desse viés de sobrevivência.
00:18:40Alguns chegaram lá por pura competência,
00:18:43mas outros podem ter assumido riscos extremos,
00:18:45investindo pesado em uma única ação
00:18:48que acabou valorizando absurdamente,
00:18:49tornando-os grandes investidores.
00:18:51Provavelmente havia outros 30 ou 50
00:18:53que fizeram exatamente a mesma coisa.
00:18:55Desses 50 que tomaram esse alto risco,
00:18:58apenas um sobreviveu,
00:18:59e é para essa pessoa que o público está olhando.
00:19:02Isso também pode ser um caso de viés de sobrevivência.
00:19:05Se agora você pensar:
00:19:06e fizer investimentos de risco altíssimo,
00:19:08If you make such a high-risk investment,
00:19:11não é garantido que terá o mesmo resultado.
00:19:13Você teria que ser aquele 1 em 50 que deu sorte.
00:19:17Apenas estar ciente desses vieses
00:19:20já ajuda a investir de forma mais racional e sábia.
00:19:22Ao usar plataformas de backtesting,
00:19:24você acaba delegando esses problemas de dados
00:19:27e o viés de sobrevivência à empresa fornecedora.
00:19:28Você confia nela ingenuamente.
00:19:31Ingenuamente.
00:19:32Mas será que essa empresa,
00:19:33ao lidar com essas questões de dados,
00:19:35realmente foi rigorosa
00:19:37pensando na perspectiva e na rentabilidade real
00:19:39do usuário final?
00:19:41Será que investiram capital suficiente
00:19:43para limpar os dados corretamente?
00:19:45Isso é algo que você precisa verificar obrigatoriamente.
00:19:48O segundo ponto de atenção
00:19:50é o chamado “Look-ahead bias”.
00:19:52Ou seja, não olhe para o futuro antecipadamente.
00:19:54Poderíamos chamar o Look-ahead bias
00:19:57de “Viés de Antecipação do Futuro”
00:19:58em uma tradução livre.
00:20:00Isso ocorre quando informações indisponíveis no momento da negociação
00:20:03são usadas no backtesting, que utiliza dados passados.
00:20:05Cronologicamente falando,
00:20:07aquela informação não existia no ano passado,
00:20:09mas a lógica da estratégia a utiliza
00:20:12como se ela estivesse disponível para operar.
00:20:14Isso é descoberto com certa frequência.
00:20:15Chamamos isso de Look-ahead bias.
00:20:18Um erro clássico desse tipo é,
00:20:21por exemplo, em setembro de 2021,
00:20:24como é difícil testar todas as ações coreanas,
00:20:27o usuário decide: “Vou testar apenas 100”.
00:20:29É o que ele pensa.
00:20:30Então, ele filtra as 100 maiores empresas do KOSPI
00:20:34e faz o backtesting com elas.
00:20:35Define uma estratégia como “comprar se o P/L for X”.
00:20:38Ele faz isso,
00:20:39testa os últimos 10 anos
00:20:41e vê que a rentabilidade foi excelente.
00:20:42Mas qual foi o erro?
00:20:44Ele filtrou as 100 maiores empresas de setembro de 2021.
00:20:50Apenas essas foram selecionadas.
00:20:51Ao testar 10 anos atrás, a partir de 2011,
00:20:55é como se ele já soubesse em 2011
00:20:59quais empresas estariam no topo em 2021.
00:21:01Estar entre as maiores por capitalização de mercado
00:21:03significa que o preço da ação subiu consistentemente.
00:21:06Embora as pessoas tentem ser cuidadosas,
00:21:08acabam errando muito ao pensar:
00:21:11“Vou pegar apenas as centenas de maiores”.
00:21:12Nesse tipo de raciocínio,
00:21:14comete-se muitos equívocos.
00:21:15Outro exemplo comum
00:21:17é no backtesting com dados fundamentais e balanços.
00:21:21As datas de divulgação de resultados trimestrais
00:21:24variam de empresa para empresa.
00:21:26Mas a questão é se o rebalanceamento
00:21:29ou a operação ocorre após a divulgação real.
00:21:31Muitas vezes, a operação é feita no início do mês,
00:21:33quando a empresa só divulgou o resultado depois,
00:21:36mas o sistema usa essa informação
00:21:40como se ela já fosse conhecida no final do mês anterior.
00:21:41Você opera sabendo o futuro antecipadamente.
00:21:44Isso pode acabar se misturando no backtesting.
00:21:46Mais um exemplo:
00:21:48digamos que você opere com base no preço de fechamento.
00:21:50Supondo que você faça um
00:21:52rebalanceamento diário,
00:21:54o preço de fechamento só é conhecido quando o dia termina.
00:21:57No entanto, se o backtesting simula
00:22:00a execução da ordem 5 minutos antes do fechamento,
00:22:03ou algo do tipo,
00:22:05você está agindo com base em um valor
00:22:07que ainda não deveria conhecer.
00:22:09O terceiro ponto é extremamente importante:
00:22:11evitar a sobre-otimização (overfitting).
00:22:13Nunca é demais enfatizar essa parte.
00:22:16A sobre-otimização nada mais é do que
00:22:18criar um modelo com desempenho excessivo
00:22:19apenas para os dados da amostra fornecida.
00:22:23Por exemplo, temos uma amostra aqui.
00:22:25O que realmente queremos conhecer
00:22:27é a população por trás dela.
00:22:29Queremos estimar
00:22:32a população real e total.
00:22:34Caso alguém não saiba
00:22:36o que é “população” estatística,
00:22:38explicarei brevemente:
00:22:40imagine uma pesquisa de opinião para uma eleição.
00:22:41Se pesquisarmos todos os cidadãos do país,
00:22:44teríamos a pesquisa perfeita.
00:22:46Com 100% de precisão.
00:22:48Mas como é impossível falar com todos,
00:22:50extraímos uma amostra da população.
00:22:53Assumimos que essa pequena parcela representa a população
00:22:58e tem representatividade.
00:22:59Com base nisso, fazemos a estimativa.
00:23:02Os dados reais da população por trás
00:23:06devem estar distribuídos de certa forma,
00:23:08e pegamos algumas amostras
00:23:10para tentar estimar qual seria o formato dessa população.
00:23:16Aqui vemos a tentativa de ajustar um modelo a esse formato.
00:23:20Ajustar um modelo significa
00:23:22encontrar a linha de tendência
00:23:25que minimize o erro em relação às amostras.
00:23:30Linhas como essas.
00:23:30Mas se você ajustar um modelo
00:23:34extremamente complexo e sinuoso,
00:23:37o erro nos dados da amostra será zero.
00:23:39Ele toca em todos os pontos amostrais.
00:23:41Portanto, para essa amostra específica,
00:23:44é um modelo com erro zero.
00:23:47Mas será que ele representa bem a população real?
00:23:51Provavelmente não.
00:23:51Se pegarmos novas amostras, o erro será enorme.
00:23:54Por isso, o ajuste deve ser moderado
00:23:58para que, quando novos dados entrarem,
00:24:00a soma total dos erros seja pequena.
00:24:03Por outro lado, se ajustar uma linha
00:24:06simples demais,
00:24:08ocorre o “underfitting”, ou falta de otimização.
00:24:10O erro já é grande até na própria amostra.
00:24:13O mais importante em qualquer modelagem
00:24:16é encontrar o nível certo de otimização,
00:24:18mas muitos, ao fazerem backtesting,
00:24:20tratam os dados históricos como a única amostra.
00:24:24E, dentro dessa amostra,
00:24:26tentam maximizar a rentabilidade a qualquer custo,
00:24:29inserindo todo tipo de regra complexa
00:24:32apenas para elevar o retorno ao máximo.
00:24:35Por exemplo: “Testando dados de 2015 a 2021,
00:24:39se o P/L for entre 13,75 e 17,23,
00:24:43o valor de mercado entre 51,7 e 62,3 bilhões”
00:24:46se comprar ações com PBR abaixo de 1,17,
00:24:50é possível obter um retorno anual de 70%”.
00:24:52Surgiu esse tipo de resultado no backtesting.
00:24:54Dá para ver que isso é um “overfitting” total.
00:24:57Houve uma otimização excessiva.
00:24:58Pode ser que uma empresa com PER de 17,24, mas com rentabilidade ruim,
00:25:04estivesse incluída nesses dados,
00:25:05ou talvez uma com valor de mercado de 51,5 bilhões,
00:25:09que era um mau exemplo, tenha sido usada para definir essa regra.
00:25:12Ao olhar apenas para esses dados de amostra, os dados passados, de forma tão detalhada,
00:25:16e tentar maximizar o retorno de qualquer maneira,
00:25:19acaba surgindo esse tipo de modelo.
00:25:21Então, se no futuro surgirem dados reais com essa distribuição,
00:25:25a margem de erro será muito grande.
00:25:27Essa é a questão,
00:25:28mas vamos ver isso com mais detalhes.
00:25:29Este também é um exemplo de sobreajuste.
00:25:31Estamos tentando aprender uma linha
00:25:34que separe bem os pontos vermelhos dos azuis.
00:25:36Um modelo para essa linha.
00:25:37Esta linha preta aprendeu de forma adequada,
00:25:40mas essa linha verde ondulada,
00:25:42com base nos pontos azuis e vermelhos que vocês veem,
00:25:46separou-os perfeitamente.
00:25:48Portanto, nestes dados de amostra,
00:25:50é uma linha perfeita com erro zero,
00:25:52mas na população real que está por trás,
00:25:55onde os pontos azuis podem aparecer por aqui
00:25:57e os vermelhos podem aparecer por ali,
00:25:59quando novos dados entrarem no futuro,
00:26:03podemos prever que essa linha verde terá muitos erros.
00:26:05Podemos deduzir isso, certo?
00:26:07Por isso, se você se ajustar demais aos detalhes dos dados passados,
00:26:10isso não se aplicará ao futuro.
00:26:11Este é um exemplo semelhante:
00:26:13coletamos dados detalhados sobre as informações pessoais
00:26:15de 100 alunos que estavam matriculados.
00:26:16Com base nisso, tente identificar quais dos 100 alunos atuais
00:26:19terão um bom desempenho escolar.
00:26:20Se dissermos que o sobrenome é tal,
00:26:22que a altura está entre tal e tal faixa,
00:26:23e otimizarmos excessivamente as regras de identificação
00:26:26com base nos dados dos melhores alunos do ano passado,
00:26:28se definirmos as regras dessa forma,
00:26:30ao aplicá-las aos alunos matriculados este ano,
00:26:32pode ser algo totalmente sem sentido.
00:26:34Se definirmos a regra de identificação simplesmente como
00:26:37e a aplicarmos aos dados dos alunos do ano passado,
00:26:39If we apply it to the data of students who were enrolled last year,
00:26:42comparado a regras tão detalhadas,
00:26:44a precisão pode ser menor.
00:26:45Mas, embora a precisão seja um pouco menor,
00:26:47mesmo aplicando-a aos alunos deste ano,
00:26:49a probabilidade de manter uma precisão razoável é alta.
00:26:53Então, como podemos mitigar esse problema de sobreajuste?
00:26:56Todo backtesting tem algum nível de sobreajuste,
00:27:00e é impossível eliminá-lo completamente.
00:27:01Por exemplo, como saber se o retorno de uma estratégia testada nos últimos 5 anos
00:27:06será válido para os próximos 3 anos no futuro?
00:27:08A resposta perfeita para essa pergunta
00:27:11seria simplesmente operar durante esses 3 anos, certo?
00:27:12Mas isso é algo posterior ao fato,
00:27:15e se você operar por 3 anos e tiver prejuízo,
00:27:17não terá servido de nada.
00:27:17Por isso, um dos métodos
00:27:19que é usar dados fora da amostra original.
00:27:21It is using out-of-sample data.
00:27:23Não sei se a tradução está correta,
00:27:25mas geralmente chamamos de dados OOS.
00:27:27Então, por exemplo,
00:27:28de setembro de 2015 a setembro de 2021,
00:27:31ou seja, com 6 anos de dados,
00:27:33encontrar uma estratégia com bom retorno
00:27:34e começar a operar em outubro de 2021 seria ruim.
00:27:38Não se faz assim.
00:27:39Você usa os dados de setembro de 2014 a setembro de 2020,
00:27:42usa esses 6 anos de dados
00:27:44para encontrar uma estratégia com bom retorno
00:27:46e depois, a partir de outubro de 2020,
00:27:49realiza mais um backtesting até setembro de 2021.
00:27:52Ou seja, após encontrar o que teve bom retorno nos 6 anos desde 2014,
00:27:55através do backtesting,
00:27:57você imagina que está realmente operando a partir de outubro de 2020
00:28:02e faz um backtesting desse período de 1 ano.
00:28:04E se o resultado for bom,
00:28:06aí sim você começa a operar de verdade em outubro de 2021.
00:28:09Claro que, ao dividir assim,
00:28:10surgem outros problemas,
00:28:12mas trataremos disso daqui a pouco.
00:28:13O que quero transmitir agora é:
00:28:16se você tem essa quantidade de dados de amostra,
00:28:18você separa uma parte.
00:28:19Deixa separado,
00:28:21busca intensamente estratégias nesta parte dos dados,
00:28:23faz muito backtesting,
00:28:24tenta otimizar para esses dados,
00:28:26e em vez de ir direto para a operação real,
00:28:28você pega esses dados que não foram usados
00:28:30para encontrar a estratégia,
00:28:31imagina que agora é a prática,
00:28:33e testa neles.
00:28:34Isso se chama usar dados fora da amostra,
00:28:35os dados OOS.
00:28:38Na ciência de dados,
00:28:39temos dados de treinamento, dados de validação,
00:28:41dados de treino, dados de teste,
00:28:42ou dados de desenvolvimento.
00:28:44Esses termos específicos
00:28:45não são tão importantes agora.
00:28:46O item 4 se conecta ao item 3:
00:28:48a oportunidade de validação é única.
00:28:50Isso é extremamente, extremamente importante.
00:28:53Realmente, por mais que eu enfatize,
00:28:58nunca será demais para essa frase.
00:29:01Vamos falar mais sobre esse teste com dados fora da amostra.
00:29:03Agora, sobre os dados da amostra e fora dela,
00:29:04existem vários nomes,
00:29:06mas neste vídeo,
00:29:08vamos padronizar como
00:29:09dados de treinamento e dados de validação.
00:29:11No exemplo anterior,
00:29:12os dados de 2014 a 2020
00:29:13são os dados de treinamento.
00:29:16Ou seja, os dados de treinamento
00:29:18são os usados para encontrar a estratégia.
00:29:19E depois de encontrar a estratégia,
00:29:20o ato de validá-la,
00:29:22aquele backtesting feito
00:29:24com os dados do último ano,
00:29:26chamaremos de dados de validação.
00:29:28E o que este gráfico mostra?
00:29:30O quanto a regra ou o modelo é complexo.
00:29:32Quanto mais para a direita,
00:29:35mais complexo é o modelo.
00:29:36Por exemplo, definir regras como
00:29:38“de 173 cm
00:29:40até 173,25 cm”.
00:29:42Quanto mais você faz isso,
00:29:44mais a complexidade aumenta.
00:29:45E este eixo é o erro de previsão,
00:29:47ou seja, ao testar na prática,
00:29:49o tamanho do erro.
00:29:50Vejam que na amostra de treinamento,
00:29:52nos dados de treinamento,
00:29:53quanto mais complexo o modelo,
00:29:54menor é o erro.
00:29:55Como naqueles exemplos de pontos que mostrei,
00:29:58fazendo aquela linha ondulada,
00:29:59quanto mais complexo,
00:30:02podíamos reduzir o erro a zero naqueles dados.
00:30:03Portanto, ao tornar o modelo extremamente complexo,
00:30:05o erro converge para zero.
00:30:06No entanto, se testarmos esse modelo treinado
00:30:08com os dados de validação que separamos,
00:30:12qual será o erro?
00:30:14Quando o modelo é muito simples,
00:30:16como uma linha reta,
00:30:18os erros são parecidos.
00:30:19How much error occurs.
00:30:21Mas conforme o modelo ou a regra fica mais complexo,
00:30:23enquanto o erro continua caindo
00:30:24na amostra de treinamento,
00:30:26nos dados de validação,
00:30:28após atingir um ponto mínimo,
00:30:31o erro começa a aumentar ao se tornar complexo demais.
00:30:33Para fazer uma analogia com o backtesting de investimentos,
00:30:35se você rodar o backtesting muitas vezes
00:30:37e definir regras muito detalhadas,
00:30:40testando diversas vezes,
00:30:42ajustando minuciosamente
00:30:45parâmetros como o valor do PER,
00:30:47dizendo que ele deve ser acima de x,
00:30:51quanto mais detalhado e complexo for,
00:30:52maior será o retorno nos dados passados.
00:30:55Como este é um gráfico de erro, quanto menor, melhor.
00:30:56Ou seja, um backtesting muito ajustado aos dados passados
00:30:59terá um retorno cada vez melhor quanto mais você ajustar,
00:31:02mas ao aplicar isso na prática,
00:31:05se for excessivamente complexo,
00:31:08a partir de certo ponto, quanto mais complexa a regra,
00:31:12menor será o retorno real.
00:31:15É assim que funciona.
00:31:17Eu expressei a redução do erro
00:31:18como a melhoria do retorno,
00:31:21e o aumento do erro
00:31:23como a piora do retorno,
00:31:24mas, a rigor,
00:31:26o aumento do erro
00:31:28é um pouco diferente da queda do retorno.
00:31:31Quanto pior for o backtesting
00:31:32e quanto mais overfitting houver,
00:31:33maior será a lacuna entre o retorno do backtesting e o real,
00:31:34ou seja, o erro aumenta,
00:31:37e esse erro poderia, aleatoriamente,
00:31:39ser até maior,
00:31:42ou talvez menor.
00:31:45Mas, geralmente, quando ocorre esse erro,
00:31:47o retorno real acaba sendo pior.
00:31:49Porque, ao ajustar aos dados passados,
00:31:50o ajuste foi feito para maximizar o retorno,
00:31:51Mas, geralmente, quando ocorre esse erro,
00:31:53o rendimento real acaba sendo pior.
00:31:55Porque, ao ajustar aos dados do passado,
00:31:57você forçou o ajuste para
00:31:59maximizar o rendimento ao máximo.
00:32:00Então, se houver um erro nesse rendimento,
00:32:02geralmente será para baixo.
00:32:03Então, como devemos dividir os dados
00:32:06de treinamento e de validação para o backtesting?
00:32:08Por exemplo, de 2011 a 2021,
00:32:11treinar com 11 anos de dados e aplicar a partir do ano que vem
00:32:15significa que você não usará dados de validação separados.
00:32:18É usar tudo como dado de treinamento e aplicar,
00:32:21mas isso eu não recomendo.
00:32:22O que eu mencionei antes sobre dividir seria,
00:32:25por exemplo, usar 10 anos como dados de treinamento,
00:32:28validar no último ano, em 2021,
00:32:31e só então aplicar a partir de 2022.
00:32:34Mas, como explicarei daqui a pouco,
00:32:36essa também não é a melhor forma.
00:32:38Quais seriam os métodos mais aprimorados?
00:32:40Existe um método chamado Walk-Forward Testing.
00:32:43Como ele funciona?
00:32:44Por exemplo, a partir de 1999, por 3 anos,
00:32:46você treina e otimiza os parâmetros,
00:32:49valida com base nisso por 1 ano,
00:32:52e depois segue fazendo isso de forma cíclica.
00:32:55Ao estabelecer uma estratégia dessa forma,
00:32:58digamos que seja um modelo bem simples.
00:33:01Eu acho um absurdo fazer backtesting
00:33:04usando apenas o P/L como critério,
00:33:05mas suponhamos que haja uma estratégia de comprar ações abaixo de certo P/L.
00:33:08Com os dados de 10 anos,
00:33:11se você otimizar o P/L,
00:33:13os melhores critérios de P/L seriam diferentes a cada ano,
00:33:17e você acabaria escolhendo uma média razoável entre eles.
00:33:20Mas se você estreitar o período,
00:33:22definindo o valor do P/L com base nos últimos 3 anos para operar,
00:33:26e fizer o teste dessa maneira,
00:33:28você consegue ajustar esses parâmetros
00:33:30de forma mais flexível com o passar do tempo.
00:33:32É assim que se faz esse tipo de teste,
00:33:35você pode testar dessa forma,
00:33:37ou usar o K-Fold CV,
00:33:38que é a validação cruzada.
00:33:39Como isso funciona?
00:33:41Esse valor K indica em quantas partes você divide.
00:33:45Se olhar a imagem, o valor K seria 5.
00:33:47Se definir K como 5, divide os dados em 5 partes,
00:33:50treina com 4 anos de dados,
00:33:53vê qual é o rendimento no 1 ano de dados de validação,
00:33:56depois treina com outras 4 combinações,
00:33:59valida como foi naquele ano específico,
00:34:01e então calcula a média desses rendimentos dividindo por 5.
00:34:05Ou seja, você tira a média desses rendimentos.
00:34:09A ideia é que isso seja próximo ao rendimento esperado.
00:34:12É esse o raciocínio.
00:34:13Fora isso, por exemplo, ao usar dados dos últimos 10 anos,
00:34:16alguns treinam com os dados dos anos pares
00:34:19e validam com os dados dos anos ímpares.
00:34:22Todos esses métodos têm prós e contras,
00:34:23mas falando da vantagem disso,
00:34:26os parâmetros são bem estáveis em relação a mudanças de regime de mercado.
00:34:30O que isso significa?
00:34:31Quando ocorre uma crise financeira ou a pandemia,
00:34:33a natureza do mercado muda.
00:34:35Por exemplo, a crise financeira estourou em 2008,
00:34:39mas se você treinar com dados de 1998 a 2007
00:34:43para encontrar o que dá melhor rendimento
00:34:45e validar apenas nisso,
00:34:46como a natureza do mercado mudou,
00:34:49a distribuição será diferente
00:34:51e a situação do mercado posterior
00:34:52não será refletida pelos padrões anteriores.
00:34:55Portanto, ao dividir dessa maneira,
00:34:57mesmo que ocorra um evento enorme
00:35:00que altere a natureza e os padrões do mercado,
00:35:02você consegue validar de forma um pouco mais estável.
00:35:06Por isso esse método é usado,
00:35:08mas ao usá-lo, você deve ter cuidado com o “olhar para o futuro”
00:35:11que mencionei anteriormente.
00:35:13Pois, dependendo do ciclo de negociação,
00:35:16se você opera mensalmente,
00:35:18e os dados de treinamento
00:35:19incluem o ano de 2014,
00:35:22dependendo de qual regra ou dado você usa em 2013,
00:35:26coisas que só seriam conhecidas em 2014
00:35:28podem acabar se misturando nos dados de validação.
00:35:30Nesse caso, o rendimento da validação seria inflado,
00:35:34pois você treinou já tendo visto o futuro.
00:35:36Por isso, é preciso ter cuidado redobrado com essa parte.
00:35:39Eu expliquei de forma bem simplificada,
00:35:41mas na área de aprendizado de máquina (Machine Learning),
00:35:44existem os chamados hiperparâmetros.
00:35:46Geralmente, os parâmetros são o que o próprio modelo
00:35:50ajusta para reduzir o erro nos dados da amostra,
00:35:54enquanto os hiperparâmetros são definidos pelo ser humano.
00:35:57Por exemplo, ao fazer uma análise de regressão,
00:35:59você decide se usará uma reta ou uma curva.
00:36:03Ou seja, quão complexa será a fórmula
00:36:07e o tipo de modelo que será usado.
00:36:09Essas decisões são tomadas pelo humano.
00:36:11A quantidade desses parâmetros é um hiperparâmetro.
00:36:15Uma vez definido isso, de acordo com os dados,
00:36:18o ajuste da linha (fitting) é feito
00:36:22para otimizar o erro desses dados.
00:36:23Assim, valores como a inclinação ou a intersecção
00:36:28são o que o modelo aprende, e chamamos isso de parâmetros.
00:36:33Portanto, é necessário testar vários hiperparâmetros também.
00:36:36Por isso, não se divide apenas em dados de treino e teste,
00:36:40mas costuma-se criar mais uma divisão, chamada de dados de desenvolvimento (Dev set).
00:36:42Primeiro, você otimiza neles,
00:36:45otimiza os hiperparâmetros lá,
00:36:48e depois faz a validação com os dados de teste.
00:36:51Quem entende de Machine Learning já compreendeu tudo,
00:36:55e quem não entende, não vai aprender só com essa explicação,
00:36:58então vamos seguir em frente.
00:37:00Mas ao realizar esse trabalho, há algo extremamente,
00:37:04extremamente importante que nunca é demais enfatizar.
00:37:08São os dados de validação.
00:37:10Você nunca, jamais, deve olhar os dados de validação duas vezes.
00:37:15Digo, o resultado deles.
00:37:16Você treina nos dados de treinamento e faz vários backtestings até achar uma estratégia com bom rendimento, certo?
00:37:22Essa estratégia rendeu bem nos dados de treino, mas
00:37:26para verificar se ela realmente será boa na prática,
00:37:31você a testa usando um período ou dados que não foram usados no treinamento.
00:37:38Mas você nunca deve rodar esse teste duas vezes.
00:37:41Rode apenas uma vez, e se o rendimento for ruim nessa única vez,
00:37:45não importa quantos anos você se dedicou ou o quanto se esforçou para criar essa estratégia,
00:37:50você deve descartar a estratégia inteira.
00:37:52Por quê? Na prática, você só terá uma chance de ganhar ou perder com essa estratégia.
00:37:57Não dá para voltar no tempo.
00:37:58Apesar disso, por pena de descartar o trabalho após um resultado ruim na valida,
00:38:03se você voltar aos dados de treino, ajustar os parâmetros
00:38:07e rodar de novo até o rendimento na validação ficar bom...
00:38:10No momento em que faz isso, os dados de validação deixam de sê-lo
00:38:14e passam a fazer parte dos dados de treinamento.
00:38:16Pois você acabou otimizando os parâmetros incluindo os dados de validação.
00:38:21Assim, não há mais garantia nenhuma
00:38:26de quão bom será o rendimento dessa estratégia no mundo real.
00:38:29Por isso, esse ponto é crucial.
00:38:31Outro ponto importante ao fazer backtesting, ligado a isso,
00:38:34é o conceito de Regime de Mercado: os tempos mudam.
00:38:37Vou lhes fazer uma pergunta.
00:38:39Entre um backtesting de 20 anos e um de 3 anos,
00:38:42qual é mais significativo?
00:38:44Pelo título que coloquei, a resposta já está clara,
00:38:47mas muitos iniciantes acham que quanto mais longo o backtesting, melhor,
00:38:50e que quanto mais dados, melhor.
00:38:54Mas, entre esses dois backtestings,
00:38:57embora dependa do horizonte de tempo ou da frequência de operação,
00:39:00na maioria das vezes,
00:39:01eu usaria o de 3 anos.
00:39:03A quantidade de dados, quanto mais, melhor.
00:39:06Mas eles devem vir da mesma distribuição.
00:39:09Dados em excesso são bons, mas
00:39:11não é bom misturar dados de um ambiente que já mudou.
00:39:17O problema de alongar demais o backtesting
00:39:20é que a natureza do mercado muda.
00:39:22Este gráfico... seria o de rendimento real?
00:39:26Enfim, é um gráfico relacionado a taxas de juros,
00:39:28e se você observar, o próprio conceito de “juros adequados” por período,
00:39:33embora sofra flutuações,
00:39:34o nível base de juros sob cada regime muda drasticamente.
00:39:38Aqui ficava por volta disso até o Choque do Petróleo,
00:39:41então este período foi de um jeito,
00:39:45e após os anos 80,
00:39:47este passou a ser o nível de juros geralmente aceito.
00:39:51Digamos que você opere títulos públicos
00:39:53e desenvolva uma estratégia treinada neste período
00:39:57para usá-la aqui.
00:39:59Se o regime de mercado mudar nesse intervalo,
00:40:02uma estratégia lucrativa baseada naqueles dados antigos
00:40:07não funcionará mais aqui.
00:40:08É o que chamamos de Mudança de Regime de Mercado (Market Regime Change).
00:40:11Uma mudança na natureza ou no sistema do mercado.
00:40:14Essa mudança na natureza do mercado
00:40:17pode ocorrer devido a mudanças nos participantes do mercado.
00:40:20Por exemplo, após o COVID, houve uma entrada massiva de investidores individuais,
00:40:23levando a eventos como o caso GameStop.
00:40:25Antes disso, antes da pandemia,
00:40:27estratégias de venda a descoberto (short selling)...
00:40:30Existem até fundos de hedge especializados nisso.
00:40:32Eram estratégias que funcionavam muito bem,
00:40:34mas com essa mudança repentina na natureza do mercado,
00:40:37alguns chegaram até a falir.
00:40:39Depois, há mudanças institucionais e regulatórias. Após a crise financeira,
00:40:43as operações de conta própria (prop trading) em bancos de investimento foram proibidas,
00:40:45o mercado de derivativos também mudou com várias regulamentações,
00:40:49então estratégias treinadas com dados
00:40:50anteriores à crise financeira
00:40:52provavelmente não funcionaram bem depois.
00:40:54Além disso, há eventos exógenos,
00:40:55como o Choque do Petróleo, que são eventos
00:40:57macroeconômicos capazes de
00:40:59mudar o próprio mercado.
00:41:01E também as mudanças macroeconômicas graduais.
00:41:03À medida que os níveis de endividamento sobem,
00:41:06as taxas de juros, que antes eram deste nível,
00:41:08entraram em uma era de juros extremamente baixos.
00:41:11Nesse sentido, o afrouxamento quantitativo também
00:41:13acaba contribuindo para essas taxas baixas.
00:41:15Com isso, as ações de crescimento de repente
00:41:17tiveram um desempenho incrível nos últimos 10 anos.
00:41:19Mas, se você encontrou uma estratégia lucrativa
00:41:22usando dados de antes do afrouxamento quantitativo,
00:41:24ela acabaria focando em comprar ações de valor.
00:41:25Então, naturalmente, nos 10 anos seguintes,
00:41:27os resultados teriam sido bem ruins.
00:41:28Além disso, há o surgimento de novas tecnologias
00:41:30ou mudanças na estrutura industrial,
00:41:32entre outros fatores desse tipo.
00:41:33Por isso, ao fazer um backtesting de 20 anos,
00:41:35será que os dados de 2001 ainda fazem sentido?
00:41:38Claro, o conceito de “mudança de regime de mercado”
00:41:40depende muito de quais fatores você observa.
00:41:42Varia conforme o caso.
00:41:43No fim das contas, depende da lógica da estratégia,
00:41:45das regras ou do tipo de modelo,
00:41:47e de quais fatores específicos
00:41:49e dados estão sendo utilizados.
00:41:51É com base nisso
00:41:52que devemos observar se houve
00:41:53uma mudança no regime dos dados.
00:41:55Existem dados cujas propriedades
00:41:56mudam muito rapidamente,
00:41:58até mesmo mensalmente,
00:41:59enquanto outros permanecem estáveis
00:42:01por cerca de 10 ou 15 anos.
00:42:03Como os ciclos variam em cada caso,
00:42:05não dá para generalizar e dizer que,
00:42:07só porque a pandemia aconteceu,
00:42:09todos os padrões anteriores
00:42:09perderam o sentido. Não é bem assim.
00:42:12Mas, de qualquer forma, ao usar
00:42:14um histórico de 20 anos,
00:42:15certamente haverá alguns problemas.
00:42:17Pode-se encarar dessa forma.
00:42:18Por outro lado, se você tentar inferir
00:42:20algo usando dados muito antigos,
00:42:22mesmo que o regime de mercado
00:42:23tenha mudado no meio do caminho,
00:42:24se ele mudar novamente
00:42:25e esses dados do passado distante
00:42:29voltarem a refletir o momento atual,
00:42:30eles podem ser úteis de novo.
00:42:32Por exemplo, algumas pessoas dizem
00:42:33que o momento atual se parece com a década de 1940.
00:42:35Existem teorias desse tipo por aí.
00:42:37Mas isso é apenas uma curiosidade.
00:42:38O trading quantitativo
00:42:41tornou-se muito popular e acessível,
00:42:42sendo praticado até por investidores individuais.
00:42:44No entanto, em investimentos de longo prazo,
00:42:45o ponto cego do investimento quant
00:42:47é que, ao aplicar essas técnicas quantitativas,
00:42:49é muito difícil evitar as mudanças de regime
00:42:51enquanto se tenta obter dados suficientes.
00:42:53Isso é um grande desafio.
00:42:55Digamos que temos uma estratégia
00:42:57de trading algorítmico que usa dados de minutos.
00:42:59Em uma hora,
00:43:01temos 60 pontos de dados.
00:43:02Como são 60 minutos,
00:43:03são 60 informações geradas.
00:43:04Agora, imaginem
00:43:05um contrato futuro negociado 24 horas por dia.
00:43:08Multiplicando por 24,
00:43:09temos 1.440 pontos.
00:43:10Certo?
00:43:10São 1.440 dados por dia.
00:43:12Se tivermos 1.440 dados diários,
00:43:15e considerando cerca de 250 dias
00:43:17de negociação por ano,
00:43:20em apenas um ano teremos
00:43:21mais de 300 mil
00:43:23pontos de dados acumulados.
00:43:25Com apenas um ano de histórico,
00:43:26já garantimos mais de 300 mil dados.
00:43:29Com essa quantidade significativa,
00:43:32é possível realizar validações,
00:43:33utilizar modelos mais complexos
00:43:35e muito mais.
00:43:36Mas imagine uma estratégia de rebalanceamento
00:43:37que opera mensalmente.
00:43:39Nesse caso, são apenas 12 dados por ano.
00:43:41Mesmo em 20 anos,
00:43:42teríamos apenas 240 pontos.
00:43:44Como não dá para aumentar os dados no eixo do tempo,
00:43:47tentamos observar várias ações diferentes
00:43:49para expandir a análise
00:43:51e tentar obter alguma relevância estatística.
00:43:53Mas, no fim das contas, no eixo do tempo,
00:43:54ainda é difícil escapar das mudanças de regime.
00:43:57Essas questões são extremamente complicadas.
00:43:58Após o início da pandemia,
00:44:00muitos especialistas em quant,
00:44:02como Inigo Fraser-Jenkins,
00:44:05que é um renomado chefe de análise quantitativa,
00:44:09explicaram por que
00:44:11não se consideram mais “quants”.
00:44:13A essência desse argumento é que
00:44:15o trabalho do quant é prever o futuro com base no passado,
00:44:19mas quando ocorre
00:44:20algo como a COVID, os padrões antigos tornam-se inúteis.
00:44:23Diante de uma mudança drástica de regime,
00:44:25o que um quant pode fazer é muito limitado.
00:44:28Alguns falam até em uma “crise existencial”
00:44:30para os profissionais da área.
00:44:31E, de fato, o ano passado foi muito ruim para eles.
00:44:34Embora alguns tenham se saído bem,
00:44:36na média, o desempenho foi péssimo.
00:44:38Bem, parece que chegamos à metade,
00:44:40mas já se passou uma hora e meia.
00:44:43Por hoje, encerramos a primeira parte.
00:44:45Amanhã, na parte 2, veremos do item 6 ao 10,
00:44:49falando sobre vantagens e limitações,
00:44:50além de um currículo de estudos
00:44:52para quem quer aprender sobre quant.
00:44:54Vejo vocês na segunda parte.
00:44:55Muito obrigado.

Key Takeaway

O investimento quantitativo é uma ferramenta poderosa para remover vieses emocionais, mas exige rigor científico extremo e ceticismo em relação aos dados históricos para evitar perdas financeiras catastróficas causadas por ilusões estatísticas.

Highlights

A facilidade de encontrar padrões lucrativos no passado contrasta com a extrema dificuldade de prever quais funcionarão no futuro.

O perigo dos dados "sujos" e como erros de execução em dados gratuitos do Google ou Yahoo podem inflar artificialmente os resultados do backtesting.

O viés de sobrevivência como uma armadilha crítica, onde investidores analisam apenas empresas que existem hoje, ignorando as que faliram.

A importância de evitar o "Look-ahead bias", garantindo que a estratégia não utilize informações que não estariam disponíveis no momento da negociação.

O risco da sobre-otimização (overfitting), onde modelos complexos demais se ajustam perfeitamente ao passado, mas falham miseravelmente em dados reais.

A necessidade de realizar testes fora da amostra (Out-of-sample) e nunca repetir o teste de validação para não comprometer a integridade da estratégia.

O conceito de Mudança de Regime de Mercado e como eventos macroeconômicos, como a COVID-19, podem tornar padrões históricos instantaneamente obsoletos.

Timeline

Introdução e o Cenário Atual do Investimento Quantitativo

O palestrante Wall Street Ajae inicia discutindo a onipresença de padrões lucrativos em dados históricos e o crescimento do interesse por métodos quantitativos entre investidores comuns. Ele expressa preocupação com o marketing viral e enganoso que romantiza o backtesting, prometendo retornos irreais sem explicar os riscos fundamentais envolvidos. O vídeo se propõe a listar 10 pontos de atenção cruciais para evitar erros metodológicos graves que levam a prejuízos financeiros. O autor enfatiza que o termo "quantitativo" muitas vezes mascara elementos anticientíficos que atraem vítimas bem-intencionadas em busca de atalhos. Ele compartilha sua motivação pessoal em ajudar outros investidores baseada em suas próprias dificuldades passadas com dinheiro.

Categorias e Princípios do Trading Quantitativo

Nesta seção, o palestrante define as diversas subáreas do setor, incluindo HFT (High Frequency Trading), arbitragem estatística e investimento por fatores (Factor Investing). Ele explica o conceito de "Quantamental", que une análise fundamentalista automatizada com Big Data e Machine Learning em uma abordagem de longo prazo. O processo quantitativo é resumido em quatro etapas: hipótese de investimento, backtesting, execução real e gestão de risco rigorosa. É destacado que encontrar padrões passados é fácil com as ferramentas atuais, mas o verdadeiro desafio reside em identificar o que continuará funcionando no futuro competitivo. O autor adverte que a tecnologia popularizou o acesso ao backtesting, mas o entendimento errôneo sobre sua validade estatística também cresceu proporcionalmente.

A Desmistificação da Fórmula Mágica de Greenblatt

O vídeo analisa a famosa "Fórmula Mágica" de Joel Greenblatt, explicando que embora ele seja uma lenda dos Hedge Funds, seus retornos não vieram apenas de uma fórmula simples. Greenblatt utilizava estratégias complexas de Value Investing e situações especiais que não são capturadas por seleções mecânicas de ações. Ao realizar um backtesting da fórmula desde 2005, nota-se que ela teve um desempenho inferior ao S&P 500 devido à maior eficiência do mercado e ao surgimento de ETFs sistêmicos. O caso da startup Quantopian é citado como um exemplo de fracasso, onde mesmo com 300 mil usuários e milhões de testes, a empresa não conseguiu sustentar um fundo lucrativo. Este segmento serve para alertar que estratégias que parecem milagrosas no papel raramente sobrevivem ao impacto do mundo real e da arbitragem de alfa.

Ponto 1: A Qualidade dos Dados e o Perigo do Viés de Sobrevivência

O primeiro grande alerta foca na integridade dos dados, especialmente os gratuitos, que costumam conter erros de digitação ou falhas de consolidação entre bolsas. O autor ilustra como uma única transação errada a um preço baixo pode inflar artificialmente o lucro de um backtesting, criando uma falsa sensação de sucesso. Em seguida, é discutido o viés de sobrevivência através da analogia clássica dos aviões de guerra, aplicada ao mercado de ações como a exclusão de empresas falidas da análise histórica. Se um investidor testa apenas as empresas que sobreviveram até 2021, ele está involuntariamente usando o "poder divino" de prever o futuro em seus testes. A conclusão é que dados de má qualidade e universos de ativos mal definidos são os maiores inimigos da precisão estatística inicial.

Pontos 2 e 3: Look-ahead Bias e o Fantasma do Overfitting

A discussão prossegue para o "Look-ahead bias", que ocorre quando o modelo utiliza informações que, cronologicamente, ainda não haviam ocorrido ou sido publicadas. Exemplos incluem filtrar as maiores empresas de hoje para testar o passado ou usar balanços antes de sua divulgação oficial ao mercado. O terceiro ponto aborda o overfitting, ou sobre-otimização, onde o modelo se torna tão complexo que decora o ruído dos dados de amostra em vez de aprender a tendência real. Um modelo excessivamente sinuoso pode atingir erro zero no passado, mas falhará categoricamente ao enfrentar novos dados da população real. O palestrante enfatiza que quanto mais regras e parâmetros detalhados uma estratégia possui, maior é a probabilidade de ela ser apenas uma ilusão estatística sem valor preditivo.

Pontos 4 e 5: Validação Única e Mudanças de Regime de Mercado

Nesta parte final, são apresentadas técnicas avançadas de mitigação como o Walk-Forward Testing e o K-Fold Cross Validation para dar estabilidade aos parâmetros. O autor estabelece uma regra de ouro: os dados de validação (teste fora da amostra) nunca devem ser visualizados ou testados mais de uma vez para não corromper sua neutralidade. Se uma estratégia falha na validação, ela deve ser descartada imediatamente, pois tentar ajustá-la para passar no teste transforma o teste em treinamento disfarçado. Por fim, discute-se o conceito de "Market Regime Change", exemplificando como mudanças institucionais, tecnológicas ou crises como a COVID-19 alteram a distribuição dos dados. O vídeo conclui que o trabalho do quant é uma luta constante contra a obsolescência de padrões em um mercado que está sempre mudando de natureza.

Community Posts

View all posts