00:00:00Mas se olharmos para os últimos
00:00:0310, 20 ou até 30 anos,
00:00:04quantos padrões lucrativos existiram nesse período?
00:00:09A resposta é: infinitos. E isso pode ser provado.
00:00:12Olá, eu sou o Wall Street Guy.
00:00:21Hoje falaremos sobre investimento quantitativo.
00:00:24Em comentários no YouTube e por e-mail,
00:00:26muitos me pediram para falar sobre trading quantitativo.
00:00:29Devido aos meus planos e ao currículo do canal,
00:00:33eu não pretendia abordar trading algorítmico
00:00:36ou quantitativo tão cedo.
00:00:38No entanto, percebi que cerca de
00:00:4015% dos nossos inscritos já operam com o método quant.
00:00:44Além disso, há pontos que me preocupam hoje em dia,
00:00:48por isso decidi fazer este vídeo.
00:00:50O roteiro de hoje começa com as categorias e princípios,
00:00:53dando uma visão geral do setor.
00:00:56Depois, veremos 10 pontos de atenção no trading quant.
00:00:59Se você memorizar esses 10 pontos,
00:01:04evitará perder muito tempo
00:01:06ou cometer erros em metodologias de backtesting,
00:01:09o que poderia levar a decisões erradas
00:01:11e prejuízos enormes.
00:01:15Embora esses pontos sejam básicos,
00:01:18muitos cursos caros por aí
00:01:21parecem não explicá-los detalhadamente.
00:01:24Pelo contrário, esses cursos tendem a
00:01:27romantizar o backtesting e o investimento quant.
00:01:31Lembrando esses 10 pontos, independentemente
00:01:35da informação ou serviço que você utilizar,
00:01:39você estará muito mais seguro.
00:01:43Antes de começar, fiz uma postagem curta
00:01:47há alguns dias em um tom mais exaltado,
00:01:49e sinto que cometi um erro.
00:01:51Eu disse que o marketing viral e enganoso
00:01:54sobre investimentos quantitativos passou dos limites.
00:01:55Isso gerou comentários maldosos
00:01:59contra pessoas e empresas específicas.
00:02:02Apaguei o post para não prejudicar a imagem deles.
00:02:06Afinal, o que eles fazem não é ilegal,
00:02:09como salas de sinais ou corretoras clandestinas.
00:02:12Talvez eu esteja sendo intrometido.
00:02:16No caso de esquemas claramente ilegais,
00:02:19quem entra sabe do risco e age por ganância,
00:02:22assumindo parte da responsabilidade.
00:02:25Mas o debate atual sobre investimento quant
00:02:28afeta pessoas comuns que querem apenas
00:02:33aprender e se esforçar honestamente no mercado.
00:02:35Muitos entram nesse campo agora
00:02:37e podem acabar sendo prejudicados.
00:02:40O termo “quantitativo” remete a ciência e estatística,
00:02:46o que pode mascarar elementos totalmente anticientíficos.
00:02:51Diferente de golpes óbvios que são fáceis de evitar,
00:02:55isso pode atrair vítimas bem-intencionadas.
00:02:56Dizem que qualquer um vira mestre em poucos dias,
00:03:01ou que a estratégia é validada por décadas de dados,
00:03:04ou ainda que, como rendeu 20% ao ano no passado,
00:03:08continuará rendendo o mesmo no futuro.
00:03:11Mesmo que a intenção não seja maliciosa,
00:03:14investidores iniciantes podem se confundir
00:03:18e perder muito tempo com backtestings vazios,
00:03:20além de sofrerem perdas financeiras.
00:03:23Ter uma fé cega nos resultados do backtesting
00:03:25é extremamente perigoso.
00:03:27Nos EUA, as regras da SEC puniriam como ilegal
00:03:32qualquer fundo que fizesse marketing dessa forma.
00:03:35Gostaria que quem fala sobre investimento quant
00:03:38sentisse mais o peso da responsabilidade sobre o dinheiro alheio.
00:03:41Não digo isso para parecer um bom moço,
00:03:45mas porque já sofri muito com falta de dinheiro aos 20 anos
00:03:47e sei exatamente como é essa sensação.
00:03:51Como falo muito sobre controle emocional em perdas
00:03:52e compartilho meus erros do passado,
00:03:56recebo muitos pedidos de ajuda.
00:03:58Toda semana chegam vários e-mails de pessoas
00:04:01desesperadas por terem perdido fortunas.
00:04:05Criadores de conteúdo sobre finanças e ações
00:04:09deveriam fazer uma autocrítica de vez em quando.
00:04:14sinto às vezes que estou dando recomendações diretas.
00:04:16So, YouTubers who deal with money, such as investing, stocks, and real estate,
00:04:20Quero voltar à minha essência assim que o mercado estabilizar.
00:04:24Fiz este vídeo com esse espírito,
00:04:26sem a intenção de atacar ninguém ou nenhuma empresa.
00:04:29Talvez os marqueteiros do setor nem saibam o que estão fazendo.
00:04:33O objetivo é reconhecer o problema e melhorar juntos.
00:04:37Peço que não usem os comentários para criticar ninguém.
00:04:40A introdução foi longa, mas vamos às categorias.
00:04:43O termo “quant” é amplo e tem várias definições.
00:04:46Cronologicamente, temos primeiro o HFT (High Frequency Trading).
00:04:49Há o Ultra HFT, com servidores alocados na própria bolsa,
00:04:51codificação em linguagem de máquina e hardware de ponta.
00:04:55Depois, com um horizonte de tempo um pouco maior,
00:04:57temos o Trading Algorítmico.
00:04:58Ele usa indicadores técnicos ou sistemas baseados em regras.
00:05:01Muitos indivíduos usam isso hoje em plataformas de backtesting.
00:05:04Temos também a Arbitragem Estatística e o Pair Trading,
00:05:07que utilizam modelos estatísticos avançados.
00:05:10Basicamente, buscam padrões passados
00:05:12sob a premissa da reversão à média.
00:05:14Existe também o Investimento por Fatores (Factor Investing).
00:05:19É focado no longo prazo, usando fatores como momentum, valor e carry.
00:05:20Eles buscam identificar o que move os preços e encontrar o alfa.
00:05:22Nos últimos anos, o conceito de “Quantamental” ganhou força.
00:05:24É a análise fundamentalista quantificada e automatizada,
00:05:28usando Big Data e dados alternativos para o longo prazo.
00:05:29Machine Learning e Big Data estão se expandindo
00:05:33para todas essas subáreas.
00:05:35Essas divisões são apenas para facilitar o entendimento,
00:05:39pois as fronteiras são muito tênues.
00:05:41Alguns chamam tudo isso de Trading Algorítmico.
00:05:42Vou tratar tudo isso apenas como Trading Quantitativo geral.
00:05:44O processo quantitativo segue quatro princípios:
00:05:46Primeiro, deve haver uma ideia ou hipótese de investimento.
00:05:48Segundo, faz-se o backtesting.
00:05:50É a validação da hipótese em dados históricos.
00:05:52Se eu acho que algo funciona, verifico se
00:05:54realmente deu lucro no passado.
00:05:59Se o backtesting for positivo,
00:06:01partimos para a execução real com gestão de risco.
00:06:03Até meados de 2010, o trading quant era exclusivo
00:06:06de grandes instituições e doutores em exatas.
00:06:07Mas a tecnologia se popularizou nas instituições
00:06:10e, com o surgimento de serviços como o Quantopian nos EUA,
00:06:12o backtesting ficou fácil para qualquer pessoa.
00:06:16Hoje, o trading quant está ao alcance de todos.
00:06:18Contudo, o entendimento errado sobre o tema também cresceu.
00:06:20Por exemplo: nos últimos 15 anos, investir em empresas
00:06:23com PBR abaixo de 0,9 e que subiram nos últimos 12 meses
00:06:26gerou um retorno anual de 20,2%.
00:06:28Se mudarmos o PBR um pouco, o retorno cai para 14% ou 17%.
00:06:30Como o primeiro resultado foi o melhor,
00:06:31muitos concluem que devem investir seguindo essa regra.
00:06:33Esse é um exemplo clássico de erro.
00:06:35Pense bem: o backtesting busca padrões passados
00:06:37sob a suposição — não garantida —
00:06:40de que o passado se repetirá no futuro.
00:06:42Em um período de 10, 20 ou 30 anos,
00:06:44quantos padrões lucrativos você acha que existiram?
00:06:47Se quiser, pause o vídeo e reflita.
00:06:50A resposta é: infinitos. E isso é provável.
00:06:51Como os parâmetros das estratégias são contínuos,
00:06:54existem infinitas variações que deram lucro no passado.
00:06:56A questão crucial é: quais funcionarão no futuro?
00:06:57Esse é o verdadeiro cerne da questão quantitativa.
00:07:00Achar padrões passados que deram dinheiro
00:07:01é fácil se você tiver as ferramentas certas.
00:07:03Mas achar o que funcionou e continuará funcionando
00:07:06é extremamente difícil, como procurar agulha no palheiro.
00:07:09Pesquisando em sites e blogs coreanos,
00:07:13vi que a “Fórmula Mágica” de Joel Greenblatt é famosa.
00:07:16Ele criou uma fórmula simples baseada em filtros
00:07:18como capitalização de mercado para selecionar ações.
00:07:21O livro sobre essa fórmula se tornou um sucesso
00:07:23entre os investidores individuais.
00:07:25Greenblatt é uma lenda no mundo dos Hedge Funds.
00:07:28Ele investe desde os anos 80 e,
00:07:30por um tempo, teve retornos maiores que os de Warren Buffett.
00:07:33Isso fez sua fórmula ganhar ainda mais destaque.
00:07:35No entanto, para concluir este ponto...
00:07:38Muitos investidores seguem fórmulas cegamente
00:07:40sem entender os riscos de ajuste excessivo aos dados.
00:07:42O backtesting pode ser uma armadilha perigosa.
00:07:46Não basta olhar para o lucro passado.
00:07:48É preciso entender a lógica por trás da estratégia.
00:07:51A estatística sem contexto é apenas ruído.
00:07:53Muitas pessoas perdem tudo por confiar em números frios.
00:07:56O mercado é um sistema dinâmico e competitivo.
00:07:58Assim que um padrão se torna público,
00:08:01sua eficácia tende a diminuir rapidamente.
00:08:03Isso é o que chamamos de arbitragem de alfa.
00:08:04Portanto, a simplicidade da fórmula mágica
00:08:07pode ser sua maior fraqueza no cenário atual.
00:08:09Investir exige um ceticismo saudável sempre.
00:08:12Não existe atalho fácil para a riqueza.
00:08:14O método quantitativo é uma ferramenta, não um milagre.
00:08:16Ele ajuda a remover o viés emocional,
00:08:18mas não elimina a incerteza do futuro.
00:08:21É fundamental diversificar as estratégias.
00:08:24Nunca aposte tudo em um único modelo estatístico.
00:08:26A gestão de risco deve ser a prioridade número um.
00:08:29Muitos focam apenas no potencial de ganho,
00:08:30esquecendo-se da proteção do capital.
00:08:32Um bom quantitativo foca no que pode dar errado.
00:08:34Sobreviver no mercado é o primeiro passo para lucrar.
00:08:36Estude a fundo antes de colocar dinheiro real.
00:08:38A prática no simulador é bem diferente da realidade.
00:08:42O impacto emocional do prejuízo é real.
00:08:46E as derrapagens de execução (slippage) corroem o lucro.
00:08:50Sempre desconte os custos de transação.
00:08:52No papel tudo parece mais lucrativo do que é.
00:08:55Seja honesto com seus próprios dados.
00:08:56A autoenganação é o maior inimigo do trader.
00:09:00Aprenda a distinguir sorte de habilidade.
00:09:02Um bom resultado em curto prazo pode ser puro acaso.
00:09:04A consistência é o que define um profissional.
00:09:07Mantenha a disciplina mesmo em fases ruins.
00:09:09Todo modelo tem seus períodos de prejuízo (drawdown).
00:09:12O importante é saber quando o modelo quebrou.
00:09:13E ter a coragem de pará-lo se necessário.
00:09:15O mercado recompensa a paciência e o estudo.
00:09:17Ele criou uma fórmula para selecionar ações
00:09:20e escreveu um livro sobre essa “Fórmula Mágica” de investimento.
00:09:24Isso se tornou um grande tópico de discussão
00:09:25e parece ter ficado muito conhecido entre os investidores individuais.
00:09:28Mas ele também é extremamente famoso no mundo dos hedge funds.
00:09:31Ele começou a investir na década de 1980
00:09:33e, durante seu período de investimento, registrou
00:09:35retornos mais altos do que os de Warren Buffett.
00:09:37Acredito que é por isso que a Fórmula Mágica recebeu tanta atenção.
00:09:40Mas, para ir direto ao ponto,
00:09:42Greenblatt não é um investidor quantitativo (quant)
00:09:44e o seu hedge fund não investiu apenas usando a Fórmula Mágica.
00:09:47Aqueles ótimos retornos não vieram apenas dessa fórmula.
00:09:50O fundo dele praticava o “Value Investing” (investimento em valor)
00:09:52e também o “Special Situations Investing” (investimento em situações especiais).
00:09:54por exemplo, quando uma empresa se divide,
00:09:57For example, being separated from a certain company,
00:09:59ou quando surgem discrepâncias de preço.
00:10:01Eles capturavam essas oportunidades e vantagens (“edges”) para lucrar,
00:10:04utilizando essas metodologias em conjunto.
00:10:07E acredito que, mesmo na parte de investimento em valor,
00:10:10eles não usavam apenas uma fórmula tão simples.
00:10:12Claro, ela deve ter sido refletida na estrutura deles.
00:10:14Mas não creio que eles simplesmente compravam ações de forma mecânica
00:10:18baseado apenas naquela fórmula para obter esses resultados.
00:10:20Se fizermos um backtesting dos retornos da Fórmula Mágica
00:10:22desde que ela foi tornada pública em 2005,
00:10:26esta linha cinza é o índice S&P 500
00:10:28e esta linha verde é a Fórmula Mágica.
00:10:29Como podem ver, ela teve uma alta volatilidade
00:10:32e, no geral, teve um desempenho inferior ao mercado (underperform).
00:10:34Isso acontece porque surgiram investimentos semelhantes,
00:10:37como os ETFs de ações sistêmicas,
00:10:40e à medida que o mercado se tornou mais eficiente,
00:10:42pode-se dizer que essa vantagem competitiva desapareceu.
00:10:44Como mostra o fato de que até fórmulas famosas têm esse desempenho,
00:10:48encontrar padrões lucrativos no passado é muito fácil.
00:10:50Você pode até escrever um livro sobre isso.
00:10:53Mas encontrar um padrão que continuará sendo lucrativo no futuro
00:10:56exige uma quantidade de trabalho realmente imensa.
00:11:00Portanto, uma estratégia que renda 20% ao ano
00:11:03com apenas alguns dias de reflexão e cliques não existe no mundo real.
00:11:06Outro exemplo é a Quantopian.
00:11:08A Quantopian foi uma startup fundada por volta de 2011
00:11:12que servia como uma plataforma para facilitar backtestings nos EUA.
00:11:16Lá, 300 mil pessoas realizaram 12 milhões de backtestings
00:11:20testando e criando inúmeras estratégias quantitativas.
00:11:24O famoso bilionário Steve Cohen investiu nela,
00:11:27ele que é um trader de hedge fund.
00:11:29E os melhores especialistas em quant da Quantopian
00:11:32chegaram a publicar artigos acadêmicos
00:11:34sobre quais estratégias seriam lucrativas no futuro,
00:11:37quais critérios usar e quais metodologias estatísticas
00:11:40deveriam ser aplicadas para selecioná-las.
00:11:41Eles pesquisaram intensamente esses aspectos
00:11:44para selecionar as melhores estratégias
00:11:46e tentar gerir um novo hedge fund com elas.
00:11:48Essa era a ideia, mas...
00:11:49foi um fracasso retumbante.
00:11:51Acabaram fechando as portas no ano passado.
00:11:53Por que esse tipo de fenômeno acontece?
00:11:55E para os espectadores que desejam tentar investimentos quantitativos,
00:11:58como é possível evitar esse tipo de resultado?
00:12:02É claro que não se pode evitar completamente.
00:12:03E eu considero que é uma tarefa extremamente difícil.
00:12:07No entanto, se você quiser aceitar o desafio,
00:12:10eu gostaria que você mantivesse em mente pelo menos estas 10 coisas
00:12:12e tivesse muito cuidado com elas.
00:12:13Vou falar sobre cada uma delas desse ponto de vista.
00:12:16Apenas lembrando dessas 10 coisas,
00:12:17você poderá evitar perder tempo com backtestings errados
00:12:22e acabar sofrendo prejuízos financeiros.
00:12:24Lembrando que fazer um bom backtesting não garante lucros.
00:12:27Primeiro, você deve sempre desconfiar dos dados.
00:12:31Muitas pessoas usam dados do Google ou Yahoo Finance,
00:12:34mas esses dados são muito, muito “sujos”.
00:12:37Quem tenta começar o trading quantitativo do zero
00:12:41enfrenta muitos obstáculos por causa da qualidade dos dados.
00:12:45Esses dados gratuitos são sujos, cheios de erros,
00:12:47e no processo de limpeza desses dados,
00:12:50você pode achar que basta apenas encontrar os erros,
00:12:51You might think you just need to find the errors,
00:12:54mas, na verdade, o julgamento subjetivo humano
00:12:57e vieses acabam influenciando o processo.
00:12:59Deixe-me dar um exemplo.
00:13:01Suponha que uma ação estivesse sendo negociada entre 41 e 43 dólares
00:13:05e tenha fechado o dia assim.
00:13:06Mas, perto do fechamento do mercado,
00:13:08um trader comete um erro de digitação
00:13:11e uma única ação é executada a 28 dólares.
00:13:14Tecnicamente falando,
00:13:16a mínima daquele dia foi 28 dólares.
00:13:18Embora essa pessoa tenha cometido um erro e tido um grande prejuízo,
00:13:21a mínima registrada teria que ser 28 dólares.
00:13:24Isso é o fato, certo?
00:13:25Então, como você define a mínima e a máxima?
00:13:28Se você remover esse valor e registrar 41 como a mínima,
00:13:31você estaria excluindo uma transação
00:13:34que realmente ocorreu no mercado.
00:13:36Mas se você não remover isso,
00:13:38e sua estratégia for algo como,
00:13:40por exemplo, se o preço cair mais de 5% em 5 minutos,
00:13:44enviar uma ordem de compra.
00:13:45Ao fazer o backtesting dessa estratégia,
00:13:47o sistema pode considerar que você comprou a 28 dólares.
00:13:48Ele reconheceria essa execução.
00:13:51Então, se eu comprei a 28 dólares
00:13:53e vendi no fechamento a 42 dólares,
00:13:55o backtesting entenderá isso como um lucro imediato,
00:13:58e o retorno dessa estratégia
00:13:59será enormemente inflado.
00:14:01Claro, como foi apenas uma ação, poderíamos deletar o dado.
00:14:03Mas e se o erro do trader fosse
00:14:06de 10 ações, 100 ações, ou até 10 mil ações?
00:14:09Casos assim realmente acontecem.
00:14:11Esses casos ocorrem de tempos em tempos.
00:14:14Houve até casos de grande escala onde
00:14:17se perdeu dezenas de milhões de dólares.
00:14:20Esses erros de 100 ou 1.000 ações
00:14:21são mais comuns do que se imagina.
00:14:23Claro que nos últimos anos,
00:14:24como algoritmos realizam a
00:14:25execução das ordens,
00:14:27existem mais redes de segurança instaladas.
00:14:29Não é tão frequente quanto antigamente.
00:14:31No entanto, dados de backtesting
00:14:33frequentemente incluem períodos antes da execução algorítmica,
00:14:36indo até 2011 ou 2005.
00:14:37Se você voltar tanto assim no tempo,
00:14:39você verá esses casos com bastante frequência.
00:14:41Então, como você vai lidar com isso?
00:14:43Além disso, existem ativos que são
00:14:44negociados em várias bolsas de valores.
00:14:45Nesses casos, os dados de
00:14:47várias bolsas diferentes precisam ser
00:14:49consolidados corretamente.
00:14:50Você precisa saber se os preços mínimos, máximos,
00:14:52dados de negociação e volumes
00:14:53foram integrados de forma limpa,
00:14:56ou se você está usando
00:14:57apenas os dados de algumas bolsas,
00:14:59o que resultaria em dados de negociação incompletos
00:15:01para o seu backtesting.
00:15:02Se o custo dos dados for baixo,
00:15:04há uma grande chance de isso acontecer.
00:15:05E ao calcular o MDD (Máximo Drawdown),
00:15:07você usa o preço de fechamento ou a mínima do dia?
00:15:09Por exemplo, para estratégias
00:15:11de rebalanceamento mensal,
00:15:13ao fazer o backtesting,
00:15:14algumas pessoas usam dados diários,
00:15:15mas consideram apenas os preços de fechamento.
00:15:17No entanto,
00:15:18para calcular a queda real (drawdown),
00:15:20é necessário observar o drawdown intradia
00:15:21também.
00:15:22Esses são detalhes pequenos.
00:15:24Ou ao testar com contratos futuros,
00:15:26se o produto tem uma data de vencimento,
00:15:27como você faz a rolagem (“roll-over”)?
00:15:29Em muitos backtestings,
00:15:31as pessoas conectam vencimentos sucessivos
00:15:33para criar uma série histórica de dados
00:15:34e então realizam o teste.
00:15:35Mas como você trata
00:15:37o custo dessa rolagem no vencimento?
00:15:38Essas e muitas outras questões existem.
00:15:39Há inúmeros problemas além destes.
00:15:40Mas você já parou para pensar
00:15:42sobre esses problemas nos dados?
00:15:44Ou se você usa um serviço de backtesting,
00:15:47você simplesmente confia que a empresa tratou os dados corretamente?
00:15:51É essencial verificar esses pontos,
00:15:53pois ocorrem muito mais erros de dados do que se imagina,
00:15:57o que acaba distorcendo os resultados
00:15:59do backtesting.
00:16:01Outro problema que vem dos dados
00:16:04é o viés de sobrevivência (survivorship bias).
00:16:06Este é um dos erros mais clássicos em backtesting.
00:16:08Esta imagem que estou mostrando agora...
00:16:10não sei se é da 1ª ou da 2ª Guerra Mundial,
00:16:12mas a Força Aérea queria reforçar seus aviões.
00:16:16Eles queriam identificar quais partes da fuselagem
00:16:18deveriam receber uma blindagem extra.
00:16:20Para descobrir isso,
00:16:21os engenheiros analisaram todos os aviões
00:16:24que retornaram das batalhas aéreas
00:16:26e mapearam onde eles haviam sido
00:16:28mais atingidos por disparos.
00:16:29Eles viram: “Ah, essas áreas são as mais atingidas.”
00:16:33Então pensaram em reforçar
00:16:34as chapas de metal nessas áreas específicas,
00:16:36chegando a essa conclusão.
00:16:38Mas isso foi um erro colossal.
00:16:40Porque, na realidade, aviões atingidos
00:16:42nesta parte,
00:16:42nesta outra parte ou aqui,
00:16:44todos caíram e não conseguiram
00:16:46retornar para serem analisados.
00:16:49Isso mostra o quão perigoso é tirar conclusões
00:16:50mostra o quão perigoso é
00:16:52tirar conclusões apenas com os dados fornecidos,
00:16:54e o “viés de sobrevivência” no investimento em ações
00:16:56seria, por exemplo,
00:16:57olhar para agora e pensar:
00:16:59“Se eu tivesse comprado Apple e Microsoft nos anos 80,
00:17:02teria ficado rico”.
00:17:03Pensando assim,
00:17:05digamos que você crie uma estratégia de comprar ações de tecnologia.
00:17:08Mas, na verdade, naquela época, nos anos 80,
00:17:10havia mais de 30 empresas
00:17:13tão promissoras quanto a Apple ou a Microsoft.
00:17:14E 28 delas simplesmente desapareceram.
00:17:17Ou seja, apenas duas sobreviveram.
00:17:19Mas você olha apenas para essas duas sobreviventes
00:17:22e acaba concluindo que,
00:17:23se investir assim agora, vai se dar muito bem.
00:17:27Se você fizer um backtesting focado apenas
00:17:30nas empresas que existem hoje,
00:17:32os seus resultados de rentabilidade serão inflados.
00:17:35E esse problema se torna ainda maior
00:17:38quanto mais longo for o período do teste.
00:17:40Porque, durante esse longo intervalo,
00:17:41muitas empresas que existiam no início
00:17:43acabaram indo à falência.
00:17:45No entanto, muitos investidores iniciantes,
00:17:47ao começarem um backtesting,
00:17:48definem o chamado “universo de ativos”.
00:17:51Eles escolhem quais ações serão testadas,
00:17:54definindo esse escopo
00:17:55com base nas empresas que existem atualmente.
00:17:58Então, dentro desse grupo,
00:17:59aplicam vários critérios de teste
00:18:02para tentar identificar
00:18:05quais seriam as melhores empresas para escolher.
00:18:07Ao fazer isso,
00:18:08todas as empresas que faliram
00:18:11desde o início do teste até hoje são excluídas.
00:18:13É como se você assumisse no backtesting
00:18:16que possui o poder divino de prever o futuro.
00:18:18Obviamente, a rentabilidade será muito maior que a realidade.
00:18:21Portanto, ao realizar um backtesting,
00:18:23se o período for de 20 anos,
00:18:25você deve começar com as empresas
00:18:29que existiam lá em 2001
00:18:30e usar esse grupo como base.
00:18:32É isso que eu queria destacar.
00:18:33E abrindo um parêntese,
00:18:34esses grandes investidores de sucesso no YouTube
00:18:37também podem ser fruto desse viés de sobrevivência.
00:18:40Alguns chegaram lá por pura competência,
00:18:43mas outros podem ter assumido riscos extremos,
00:18:45investindo pesado em uma única ação
00:18:48que acabou valorizando absurdamente,
00:18:49tornando-os grandes investidores.
00:18:51Provavelmente havia outros 30 ou 50
00:18:53que fizeram exatamente a mesma coisa.
00:18:55Desses 50 que tomaram esse alto risco,
00:18:58apenas um sobreviveu,
00:18:59e é para essa pessoa que o público está olhando.
00:19:02Isso também pode ser um caso de viés de sobrevivência.
00:19:05Se agora você pensar:
00:19:06e fizer investimentos de risco altíssimo,
00:19:08If you make such a high-risk investment,
00:19:11não é garantido que terá o mesmo resultado.
00:19:13Você teria que ser aquele 1 em 50 que deu sorte.
00:19:17Apenas estar ciente desses vieses
00:19:20já ajuda a investir de forma mais racional e sábia.
00:19:22Ao usar plataformas de backtesting,
00:19:24você acaba delegando esses problemas de dados
00:19:27e o viés de sobrevivência à empresa fornecedora.
00:19:28Você confia nela ingenuamente.
00:19:31Ingenuamente.
00:19:32Mas será que essa empresa,
00:19:33ao lidar com essas questões de dados,
00:19:35realmente foi rigorosa
00:19:37pensando na perspectiva e na rentabilidade real
00:19:39do usuário final?
00:19:41Será que investiram capital suficiente
00:19:43para limpar os dados corretamente?
00:19:45Isso é algo que você precisa verificar obrigatoriamente.
00:19:48O segundo ponto de atenção
00:19:50é o chamado “Look-ahead bias”.
00:19:52Ou seja, não olhe para o futuro antecipadamente.
00:19:54Poderíamos chamar o Look-ahead bias
00:19:57de “Viés de Antecipação do Futuro”
00:19:58em uma tradução livre.
00:20:00Isso ocorre quando informações indisponíveis no momento da negociação
00:20:03são usadas no backtesting, que utiliza dados passados.
00:20:05Cronologicamente falando,
00:20:07aquela informação não existia no ano passado,
00:20:09mas a lógica da estratégia a utiliza
00:20:12como se ela estivesse disponível para operar.
00:20:14Isso é descoberto com certa frequência.
00:20:15Chamamos isso de Look-ahead bias.
00:20:18Um erro clássico desse tipo é,
00:20:21por exemplo, em setembro de 2021,
00:20:24como é difícil testar todas as ações coreanas,
00:20:27o usuário decide: “Vou testar apenas 100”.
00:20:29É o que ele pensa.
00:20:30Então, ele filtra as 100 maiores empresas do KOSPI
00:20:34e faz o backtesting com elas.
00:20:35Define uma estratégia como “comprar se o P/L for X”.
00:20:38Ele faz isso,
00:20:39testa os últimos 10 anos
00:20:41e vê que a rentabilidade foi excelente.
00:20:42Mas qual foi o erro?
00:20:44Ele filtrou as 100 maiores empresas de setembro de 2021.
00:20:50Apenas essas foram selecionadas.
00:20:51Ao testar 10 anos atrás, a partir de 2011,
00:20:55é como se ele já soubesse em 2011
00:20:59quais empresas estariam no topo em 2021.
00:21:01Estar entre as maiores por capitalização de mercado
00:21:03significa que o preço da ação subiu consistentemente.
00:21:06Embora as pessoas tentem ser cuidadosas,
00:21:08acabam errando muito ao pensar:
00:21:11“Vou pegar apenas as centenas de maiores”.
00:21:12Nesse tipo de raciocínio,
00:21:14comete-se muitos equívocos.
00:21:15Outro exemplo comum
00:21:17é no backtesting com dados fundamentais e balanços.
00:21:21As datas de divulgação de resultados trimestrais
00:21:24variam de empresa para empresa.
00:21:26Mas a questão é se o rebalanceamento
00:21:29ou a operação ocorre após a divulgação real.
00:21:31Muitas vezes, a operação é feita no início do mês,
00:21:33quando a empresa só divulgou o resultado depois,
00:21:36mas o sistema usa essa informação
00:21:40como se ela já fosse conhecida no final do mês anterior.
00:21:41Você opera sabendo o futuro antecipadamente.
00:21:44Isso pode acabar se misturando no backtesting.
00:21:46Mais um exemplo:
00:21:48digamos que você opere com base no preço de fechamento.
00:21:50Supondo que você faça um
00:21:52rebalanceamento diário,
00:21:54o preço de fechamento só é conhecido quando o dia termina.
00:21:57No entanto, se o backtesting simula
00:22:00a execução da ordem 5 minutos antes do fechamento,
00:22:03ou algo do tipo,
00:22:05você está agindo com base em um valor
00:22:07que ainda não deveria conhecer.
00:22:09O terceiro ponto é extremamente importante:
00:22:11evitar a sobre-otimização (overfitting).
00:22:13Nunca é demais enfatizar essa parte.
00:22:16A sobre-otimização nada mais é do que
00:22:18criar um modelo com desempenho excessivo
00:22:19apenas para os dados da amostra fornecida.
00:22:23Por exemplo, temos uma amostra aqui.
00:22:25O que realmente queremos conhecer
00:22:27é a população por trás dela.
00:22:29Queremos estimar
00:22:32a população real e total.
00:22:34Caso alguém não saiba
00:22:36o que é “população” estatística,
00:22:38explicarei brevemente:
00:22:40imagine uma pesquisa de opinião para uma eleição.
00:22:41Se pesquisarmos todos os cidadãos do país,
00:22:44teríamos a pesquisa perfeita.
00:22:46Com 100% de precisão.
00:22:48Mas como é impossível falar com todos,
00:22:50extraímos uma amostra da população.
00:22:53Assumimos que essa pequena parcela representa a população
00:22:58e tem representatividade.
00:22:59Com base nisso, fazemos a estimativa.
00:23:02Os dados reais da população por trás
00:23:06devem estar distribuídos de certa forma,
00:23:08e pegamos algumas amostras
00:23:10para tentar estimar qual seria o formato dessa população.
00:23:16Aqui vemos a tentativa de ajustar um modelo a esse formato.
00:23:20Ajustar um modelo significa
00:23:22encontrar a linha de tendência
00:23:25que minimize o erro em relação às amostras.
00:23:30Linhas como essas.
00:23:30Mas se você ajustar um modelo
00:23:34extremamente complexo e sinuoso,
00:23:37o erro nos dados da amostra será zero.
00:23:39Ele toca em todos os pontos amostrais.
00:23:41Portanto, para essa amostra específica,
00:23:44é um modelo com erro zero.
00:23:47Mas será que ele representa bem a população real?
00:23:51Provavelmente não.
00:23:51Se pegarmos novas amostras, o erro será enorme.
00:23:54Por isso, o ajuste deve ser moderado
00:23:58para que, quando novos dados entrarem,
00:24:00a soma total dos erros seja pequena.
00:24:03Por outro lado, se ajustar uma linha
00:24:06simples demais,
00:24:08ocorre o “underfitting”, ou falta de otimização.
00:24:10O erro já é grande até na própria amostra.
00:24:13O mais importante em qualquer modelagem
00:24:16é encontrar o nível certo de otimização,
00:24:18mas muitos, ao fazerem backtesting,
00:24:20tratam os dados históricos como a única amostra.
00:24:24E, dentro dessa amostra,
00:24:26tentam maximizar a rentabilidade a qualquer custo,
00:24:29inserindo todo tipo de regra complexa
00:24:32apenas para elevar o retorno ao máximo.
00:24:35Por exemplo: “Testando dados de 2015 a 2021,
00:24:39se o P/L for entre 13,75 e 17,23,
00:24:43o valor de mercado entre 51,7 e 62,3 bilhões”
00:24:46se comprar ações com PBR abaixo de 1,17,
00:24:50é possível obter um retorno anual de 70%”.
00:24:52Surgiu esse tipo de resultado no backtesting.
00:24:54Dá para ver que isso é um “overfitting” total.
00:24:57Houve uma otimização excessiva.
00:24:58Pode ser que uma empresa com PER de 17,24, mas com rentabilidade ruim,
00:25:04estivesse incluída nesses dados,
00:25:05ou talvez uma com valor de mercado de 51,5 bilhões,
00:25:09que era um mau exemplo, tenha sido usada para definir essa regra.
00:25:12Ao olhar apenas para esses dados de amostra, os dados passados, de forma tão detalhada,
00:25:16e tentar maximizar o retorno de qualquer maneira,
00:25:19acaba surgindo esse tipo de modelo.
00:25:21Então, se no futuro surgirem dados reais com essa distribuição,
00:25:25a margem de erro será muito grande.
00:25:27Essa é a questão,
00:25:28mas vamos ver isso com mais detalhes.
00:25:29Este também é um exemplo de sobreajuste.
00:25:31Estamos tentando aprender uma linha
00:25:34que separe bem os pontos vermelhos dos azuis.
00:25:36Um modelo para essa linha.
00:25:37Esta linha preta aprendeu de forma adequada,
00:25:40mas essa linha verde ondulada,
00:25:42com base nos pontos azuis e vermelhos que vocês veem,
00:25:46separou-os perfeitamente.
00:25:48Portanto, nestes dados de amostra,
00:25:50é uma linha perfeita com erro zero,
00:25:52mas na população real que está por trás,
00:25:55onde os pontos azuis podem aparecer por aqui
00:25:57e os vermelhos podem aparecer por ali,
00:25:59quando novos dados entrarem no futuro,
00:26:03podemos prever que essa linha verde terá muitos erros.
00:26:05Podemos deduzir isso, certo?
00:26:07Por isso, se você se ajustar demais aos detalhes dos dados passados,
00:26:10isso não se aplicará ao futuro.
00:26:11Este é um exemplo semelhante:
00:26:13coletamos dados detalhados sobre as informações pessoais
00:26:15de 100 alunos que estavam matriculados.
00:26:16Com base nisso, tente identificar quais dos 100 alunos atuais
00:26:19terão um bom desempenho escolar.
00:26:20Se dissermos que o sobrenome é tal,
00:26:22que a altura está entre tal e tal faixa,
00:26:23e otimizarmos excessivamente as regras de identificação
00:26:26com base nos dados dos melhores alunos do ano passado,
00:26:28se definirmos as regras dessa forma,
00:26:30ao aplicá-las aos alunos matriculados este ano,
00:26:32pode ser algo totalmente sem sentido.
00:26:34Se definirmos a regra de identificação simplesmente como
00:26:37e a aplicarmos aos dados dos alunos do ano passado,
00:26:39If we apply it to the data of students who were enrolled last year,
00:26:42comparado a regras tão detalhadas,
00:26:44a precisão pode ser menor.
00:26:45Mas, embora a precisão seja um pouco menor,
00:26:47mesmo aplicando-a aos alunos deste ano,
00:26:49a probabilidade de manter uma precisão razoável é alta.
00:26:53Então, como podemos mitigar esse problema de sobreajuste?
00:26:56Todo backtesting tem algum nível de sobreajuste,
00:27:00e é impossível eliminá-lo completamente.
00:27:01Por exemplo, como saber se o retorno de uma estratégia testada nos últimos 5 anos
00:27:06será válido para os próximos 3 anos no futuro?
00:27:08A resposta perfeita para essa pergunta
00:27:11seria simplesmente operar durante esses 3 anos, certo?
00:27:12Mas isso é algo posterior ao fato,
00:27:15e se você operar por 3 anos e tiver prejuízo,
00:27:17não terá servido de nada.
00:27:17Por isso, um dos métodos
00:27:19que é usar dados fora da amostra original.
00:27:21It is using out-of-sample data.
00:27:23Não sei se a tradução está correta,
00:27:25mas geralmente chamamos de dados OOS.
00:27:27Então, por exemplo,
00:27:28de setembro de 2015 a setembro de 2021,
00:27:31ou seja, com 6 anos de dados,
00:27:33encontrar uma estratégia com bom retorno
00:27:34e começar a operar em outubro de 2021 seria ruim.
00:27:38Não se faz assim.
00:27:39Você usa os dados de setembro de 2014 a setembro de 2020,
00:27:42usa esses 6 anos de dados
00:27:44para encontrar uma estratégia com bom retorno
00:27:46e depois, a partir de outubro de 2020,
00:27:49realiza mais um backtesting até setembro de 2021.
00:27:52Ou seja, após encontrar o que teve bom retorno nos 6 anos desde 2014,
00:27:55através do backtesting,
00:27:57você imagina que está realmente operando a partir de outubro de 2020
00:28:02e faz um backtesting desse período de 1 ano.
00:28:04E se o resultado for bom,
00:28:06aí sim você começa a operar de verdade em outubro de 2021.
00:28:09Claro que, ao dividir assim,
00:28:10surgem outros problemas,
00:28:12mas trataremos disso daqui a pouco.
00:28:13O que quero transmitir agora é:
00:28:16se você tem essa quantidade de dados de amostra,
00:28:18você separa uma parte.
00:28:19Deixa separado,
00:28:21busca intensamente estratégias nesta parte dos dados,
00:28:23faz muito backtesting,
00:28:24tenta otimizar para esses dados,
00:28:26e em vez de ir direto para a operação real,
00:28:28você pega esses dados que não foram usados
00:28:30para encontrar a estratégia,
00:28:31imagina que agora é a prática,
00:28:33e testa neles.
00:28:34Isso se chama usar dados fora da amostra,
00:28:35os dados OOS.
00:28:38Na ciência de dados,
00:28:39temos dados de treinamento, dados de validação,
00:28:41dados de treino, dados de teste,
00:28:42ou dados de desenvolvimento.
00:28:44Esses termos específicos
00:28:45não são tão importantes agora.
00:28:46O item 4 se conecta ao item 3:
00:28:48a oportunidade de validação é única.
00:28:50Isso é extremamente, extremamente importante.
00:28:53Realmente, por mais que eu enfatize,
00:28:58nunca será demais para essa frase.
00:29:01Vamos falar mais sobre esse teste com dados fora da amostra.
00:29:03Agora, sobre os dados da amostra e fora dela,
00:29:04existem vários nomes,
00:29:06mas neste vídeo,
00:29:08vamos padronizar como
00:29:09dados de treinamento e dados de validação.
00:29:11No exemplo anterior,
00:29:12os dados de 2014 a 2020
00:29:13são os dados de treinamento.
00:29:16Ou seja, os dados de treinamento
00:29:18são os usados para encontrar a estratégia.
00:29:19E depois de encontrar a estratégia,
00:29:20o ato de validá-la,
00:29:22aquele backtesting feito
00:29:24com os dados do último ano,
00:29:26chamaremos de dados de validação.
00:29:28E o que este gráfico mostra?
00:29:30O quanto a regra ou o modelo é complexo.
00:29:32Quanto mais para a direita,
00:29:35mais complexo é o modelo.
00:29:36Por exemplo, definir regras como
00:29:38“de 173 cm
00:29:40até 173,25 cm”.
00:29:42Quanto mais você faz isso,
00:29:44mais a complexidade aumenta.
00:29:45E este eixo é o erro de previsão,
00:29:47ou seja, ao testar na prática,
00:29:49o tamanho do erro.
00:29:50Vejam que na amostra de treinamento,
00:29:52nos dados de treinamento,
00:29:53quanto mais complexo o modelo,
00:29:54menor é o erro.
00:29:55Como naqueles exemplos de pontos que mostrei,
00:29:58fazendo aquela linha ondulada,
00:29:59quanto mais complexo,
00:30:02podíamos reduzir o erro a zero naqueles dados.
00:30:03Portanto, ao tornar o modelo extremamente complexo,
00:30:05o erro converge para zero.
00:30:06No entanto, se testarmos esse modelo treinado
00:30:08com os dados de validação que separamos,
00:30:12qual será o erro?
00:30:14Quando o modelo é muito simples,
00:30:16como uma linha reta,
00:30:18os erros são parecidos.
00:30:19How much error occurs.
00:30:21Mas conforme o modelo ou a regra fica mais complexo,
00:30:23enquanto o erro continua caindo
00:30:24na amostra de treinamento,
00:30:26nos dados de validação,
00:30:28após atingir um ponto mínimo,
00:30:31o erro começa a aumentar ao se tornar complexo demais.
00:30:33Para fazer uma analogia com o backtesting de investimentos,
00:30:35se você rodar o backtesting muitas vezes
00:30:37e definir regras muito detalhadas,
00:30:40testando diversas vezes,
00:30:42ajustando minuciosamente
00:30:45parâmetros como o valor do PER,
00:30:47dizendo que ele deve ser acima de x,
00:30:51quanto mais detalhado e complexo for,
00:30:52maior será o retorno nos dados passados.
00:30:55Como este é um gráfico de erro, quanto menor, melhor.
00:30:56Ou seja, um backtesting muito ajustado aos dados passados
00:30:59terá um retorno cada vez melhor quanto mais você ajustar,
00:31:02mas ao aplicar isso na prática,
00:31:05se for excessivamente complexo,
00:31:08a partir de certo ponto, quanto mais complexa a regra,
00:31:12menor será o retorno real.
00:31:15É assim que funciona.
00:31:17Eu expressei a redução do erro
00:31:18como a melhoria do retorno,
00:31:21e o aumento do erro
00:31:23como a piora do retorno,
00:31:24mas, a rigor,
00:31:26o aumento do erro
00:31:28é um pouco diferente da queda do retorno.
00:31:31Quanto pior for o backtesting
00:31:32e quanto mais overfitting houver,
00:31:33maior será a lacuna entre o retorno do backtesting e o real,
00:31:34ou seja, o erro aumenta,
00:31:37e esse erro poderia, aleatoriamente,
00:31:39ser até maior,
00:31:42ou talvez menor.
00:31:45Mas, geralmente, quando ocorre esse erro,
00:31:47o retorno real acaba sendo pior.
00:31:49Porque, ao ajustar aos dados passados,
00:31:50o ajuste foi feito para maximizar o retorno,
00:31:51Mas, geralmente, quando ocorre esse erro,
00:31:53o rendimento real acaba sendo pior.
00:31:55Porque, ao ajustar aos dados do passado,
00:31:57você forçou o ajuste para
00:31:59maximizar o rendimento ao máximo.
00:32:00Então, se houver um erro nesse rendimento,
00:32:02geralmente será para baixo.
00:32:03Então, como devemos dividir os dados
00:32:06de treinamento e de validação para o backtesting?
00:32:08Por exemplo, de 2011 a 2021,
00:32:11treinar com 11 anos de dados e aplicar a partir do ano que vem
00:32:15significa que você não usará dados de validação separados.
00:32:18É usar tudo como dado de treinamento e aplicar,
00:32:21mas isso eu não recomendo.
00:32:22O que eu mencionei antes sobre dividir seria,
00:32:25por exemplo, usar 10 anos como dados de treinamento,
00:32:28validar no último ano, em 2021,
00:32:31e só então aplicar a partir de 2022.
00:32:34Mas, como explicarei daqui a pouco,
00:32:36essa também não é a melhor forma.
00:32:38Quais seriam os métodos mais aprimorados?
00:32:40Existe um método chamado Walk-Forward Testing.
00:32:43Como ele funciona?
00:32:44Por exemplo, a partir de 1999, por 3 anos,
00:32:46você treina e otimiza os parâmetros,
00:32:49valida com base nisso por 1 ano,
00:32:52e depois segue fazendo isso de forma cíclica.
00:32:55Ao estabelecer uma estratégia dessa forma,
00:32:58digamos que seja um modelo bem simples.
00:33:01Eu acho um absurdo fazer backtesting
00:33:04usando apenas o P/L como critério,
00:33:05mas suponhamos que haja uma estratégia de comprar ações abaixo de certo P/L.
00:33:08Com os dados de 10 anos,
00:33:11se você otimizar o P/L,
00:33:13os melhores critérios de P/L seriam diferentes a cada ano,
00:33:17e você acabaria escolhendo uma média razoável entre eles.
00:33:20Mas se você estreitar o período,
00:33:22definindo o valor do P/L com base nos últimos 3 anos para operar,
00:33:26e fizer o teste dessa maneira,
00:33:28você consegue ajustar esses parâmetros
00:33:30de forma mais flexível com o passar do tempo.
00:33:32É assim que se faz esse tipo de teste,
00:33:35você pode testar dessa forma,
00:33:37ou usar o K-Fold CV,
00:33:38que é a validação cruzada.
00:33:39Como isso funciona?
00:33:41Esse valor K indica em quantas partes você divide.
00:33:45Se olhar a imagem, o valor K seria 5.
00:33:47Se definir K como 5, divide os dados em 5 partes,
00:33:50treina com 4 anos de dados,
00:33:53vê qual é o rendimento no 1 ano de dados de validação,
00:33:56depois treina com outras 4 combinações,
00:33:59valida como foi naquele ano específico,
00:34:01e então calcula a média desses rendimentos dividindo por 5.
00:34:05Ou seja, você tira a média desses rendimentos.
00:34:09A ideia é que isso seja próximo ao rendimento esperado.
00:34:12É esse o raciocínio.
00:34:13Fora isso, por exemplo, ao usar dados dos últimos 10 anos,
00:34:16alguns treinam com os dados dos anos pares
00:34:19e validam com os dados dos anos ímpares.
00:34:22Todos esses métodos têm prós e contras,
00:34:23mas falando da vantagem disso,
00:34:26os parâmetros são bem estáveis em relação a mudanças de regime de mercado.
00:34:30O que isso significa?
00:34:31Quando ocorre uma crise financeira ou a pandemia,
00:34:33a natureza do mercado muda.
00:34:35Por exemplo, a crise financeira estourou em 2008,
00:34:39mas se você treinar com dados de 1998 a 2007
00:34:43para encontrar o que dá melhor rendimento
00:34:45e validar apenas nisso,
00:34:46como a natureza do mercado mudou,
00:34:49a distribuição será diferente
00:34:51e a situação do mercado posterior
00:34:52não será refletida pelos padrões anteriores.
00:34:55Portanto, ao dividir dessa maneira,
00:34:57mesmo que ocorra um evento enorme
00:35:00que altere a natureza e os padrões do mercado,
00:35:02você consegue validar de forma um pouco mais estável.
00:35:06Por isso esse método é usado,
00:35:08mas ao usá-lo, você deve ter cuidado com o “olhar para o futuro”
00:35:11que mencionei anteriormente.
00:35:13Pois, dependendo do ciclo de negociação,
00:35:16se você opera mensalmente,
00:35:18e os dados de treinamento
00:35:19incluem o ano de 2014,
00:35:22dependendo de qual regra ou dado você usa em 2013,
00:35:26coisas que só seriam conhecidas em 2014
00:35:28podem acabar se misturando nos dados de validação.
00:35:30Nesse caso, o rendimento da validação seria inflado,
00:35:34pois você treinou já tendo visto o futuro.
00:35:36Por isso, é preciso ter cuidado redobrado com essa parte.
00:35:39Eu expliquei de forma bem simplificada,
00:35:41mas na área de aprendizado de máquina (Machine Learning),
00:35:44existem os chamados hiperparâmetros.
00:35:46Geralmente, os parâmetros são o que o próprio modelo
00:35:50ajusta para reduzir o erro nos dados da amostra,
00:35:54enquanto os hiperparâmetros são definidos pelo ser humano.
00:35:57Por exemplo, ao fazer uma análise de regressão,
00:35:59você decide se usará uma reta ou uma curva.
00:36:03Ou seja, quão complexa será a fórmula
00:36:07e o tipo de modelo que será usado.
00:36:09Essas decisões são tomadas pelo humano.
00:36:11A quantidade desses parâmetros é um hiperparâmetro.
00:36:15Uma vez definido isso, de acordo com os dados,
00:36:18o ajuste da linha (fitting) é feito
00:36:22para otimizar o erro desses dados.
00:36:23Assim, valores como a inclinação ou a intersecção
00:36:28são o que o modelo aprende, e chamamos isso de parâmetros.
00:36:33Portanto, é necessário testar vários hiperparâmetros também.
00:36:36Por isso, não se divide apenas em dados de treino e teste,
00:36:40mas costuma-se criar mais uma divisão, chamada de dados de desenvolvimento (Dev set).
00:36:42Primeiro, você otimiza neles,
00:36:45otimiza os hiperparâmetros lá,
00:36:48e depois faz a validação com os dados de teste.
00:36:51Quem entende de Machine Learning já compreendeu tudo,
00:36:55e quem não entende, não vai aprender só com essa explicação,
00:36:58então vamos seguir em frente.
00:37:00Mas ao realizar esse trabalho, há algo extremamente,
00:37:04extremamente importante que nunca é demais enfatizar.
00:37:08São os dados de validação.
00:37:10Você nunca, jamais, deve olhar os dados de validação duas vezes.
00:37:15Digo, o resultado deles.
00:37:16Você treina nos dados de treinamento e faz vários backtestings até achar uma estratégia com bom rendimento, certo?
00:37:22Essa estratégia rendeu bem nos dados de treino, mas
00:37:26para verificar se ela realmente será boa na prática,
00:37:31você a testa usando um período ou dados que não foram usados no treinamento.
00:37:38Mas você nunca deve rodar esse teste duas vezes.
00:37:41Rode apenas uma vez, e se o rendimento for ruim nessa única vez,
00:37:45não importa quantos anos você se dedicou ou o quanto se esforçou para criar essa estratégia,
00:37:50você deve descartar a estratégia inteira.
00:37:52Por quê? Na prática, você só terá uma chance de ganhar ou perder com essa estratégia.
00:37:57Não dá para voltar no tempo.
00:37:58Apesar disso, por pena de descartar o trabalho após um resultado ruim na valida,
00:38:03se você voltar aos dados de treino, ajustar os parâmetros
00:38:07e rodar de novo até o rendimento na validação ficar bom...
00:38:10No momento em que faz isso, os dados de validação deixam de sê-lo
00:38:14e passam a fazer parte dos dados de treinamento.
00:38:16Pois você acabou otimizando os parâmetros incluindo os dados de validação.
00:38:21Assim, não há mais garantia nenhuma
00:38:26de quão bom será o rendimento dessa estratégia no mundo real.
00:38:29Por isso, esse ponto é crucial.
00:38:31Outro ponto importante ao fazer backtesting, ligado a isso,
00:38:34é o conceito de Regime de Mercado: os tempos mudam.
00:38:37Vou lhes fazer uma pergunta.
00:38:39Entre um backtesting de 20 anos e um de 3 anos,
00:38:42qual é mais significativo?
00:38:44Pelo título que coloquei, a resposta já está clara,
00:38:47mas muitos iniciantes acham que quanto mais longo o backtesting, melhor,
00:38:50e que quanto mais dados, melhor.
00:38:54Mas, entre esses dois backtestings,
00:38:57embora dependa do horizonte de tempo ou da frequência de operação,
00:39:00na maioria das vezes,
00:39:01eu usaria o de 3 anos.
00:39:03A quantidade de dados, quanto mais, melhor.
00:39:06Mas eles devem vir da mesma distribuição.
00:39:09Dados em excesso são bons, mas
00:39:11não é bom misturar dados de um ambiente que já mudou.
00:39:17O problema de alongar demais o backtesting
00:39:20é que a natureza do mercado muda.
00:39:22Este gráfico... seria o de rendimento real?
00:39:26Enfim, é um gráfico relacionado a taxas de juros,
00:39:28e se você observar, o próprio conceito de “juros adequados” por período,
00:39:33embora sofra flutuações,
00:39:34o nível base de juros sob cada regime muda drasticamente.
00:39:38Aqui ficava por volta disso até o Choque do Petróleo,
00:39:41então este período foi de um jeito,
00:39:45e após os anos 80,
00:39:47este passou a ser o nível de juros geralmente aceito.
00:39:51Digamos que você opere títulos públicos
00:39:53e desenvolva uma estratégia treinada neste período
00:39:57para usá-la aqui.
00:39:59Se o regime de mercado mudar nesse intervalo,
00:40:02uma estratégia lucrativa baseada naqueles dados antigos
00:40:07não funcionará mais aqui.
00:40:08É o que chamamos de Mudança de Regime de Mercado (Market Regime Change).
00:40:11Uma mudança na natureza ou no sistema do mercado.
00:40:14Essa mudança na natureza do mercado
00:40:17pode ocorrer devido a mudanças nos participantes do mercado.
00:40:20Por exemplo, após o COVID, houve uma entrada massiva de investidores individuais,
00:40:23levando a eventos como o caso GameStop.
00:40:25Antes disso, antes da pandemia,
00:40:27estratégias de venda a descoberto (short selling)...
00:40:30Existem até fundos de hedge especializados nisso.
00:40:32Eram estratégias que funcionavam muito bem,
00:40:34mas com essa mudança repentina na natureza do mercado,
00:40:37alguns chegaram até a falir.
00:40:39Depois, há mudanças institucionais e regulatórias. Após a crise financeira,
00:40:43as operações de conta própria (prop trading) em bancos de investimento foram proibidas,
00:40:45o mercado de derivativos também mudou com várias regulamentações,
00:40:49então estratégias treinadas com dados
00:40:50anteriores à crise financeira
00:40:52provavelmente não funcionaram bem depois.
00:40:54Além disso, há eventos exógenos,
00:40:55como o Choque do Petróleo, que são eventos
00:40:57macroeconômicos capazes de
00:40:59mudar o próprio mercado.
00:41:01E também as mudanças macroeconômicas graduais.
00:41:03À medida que os níveis de endividamento sobem,
00:41:06as taxas de juros, que antes eram deste nível,
00:41:08entraram em uma era de juros extremamente baixos.
00:41:11Nesse sentido, o afrouxamento quantitativo também
00:41:13acaba contribuindo para essas taxas baixas.
00:41:15Com isso, as ações de crescimento de repente
00:41:17tiveram um desempenho incrível nos últimos 10 anos.
00:41:19Mas, se você encontrou uma estratégia lucrativa
00:41:22usando dados de antes do afrouxamento quantitativo,
00:41:24ela acabaria focando em comprar ações de valor.
00:41:25Então, naturalmente, nos 10 anos seguintes,
00:41:27os resultados teriam sido bem ruins.
00:41:28Além disso, há o surgimento de novas tecnologias
00:41:30ou mudanças na estrutura industrial,
00:41:32entre outros fatores desse tipo.
00:41:33Por isso, ao fazer um backtesting de 20 anos,
00:41:35será que os dados de 2001 ainda fazem sentido?
00:41:38Claro, o conceito de “mudança de regime de mercado”
00:41:40depende muito de quais fatores você observa.
00:41:42Varia conforme o caso.
00:41:43No fim das contas, depende da lógica da estratégia,
00:41:45das regras ou do tipo de modelo,
00:41:47e de quais fatores específicos
00:41:49e dados estão sendo utilizados.
00:41:51É com base nisso
00:41:52que devemos observar se houve
00:41:53uma mudança no regime dos dados.
00:41:55Existem dados cujas propriedades
00:41:56mudam muito rapidamente,
00:41:58até mesmo mensalmente,
00:41:59enquanto outros permanecem estáveis
00:42:01por cerca de 10 ou 15 anos.
00:42:03Como os ciclos variam em cada caso,
00:42:05não dá para generalizar e dizer que,
00:42:07só porque a pandemia aconteceu,
00:42:09todos os padrões anteriores
00:42:09perderam o sentido. Não é bem assim.
00:42:12Mas, de qualquer forma, ao usar
00:42:14um histórico de 20 anos,
00:42:15certamente haverá alguns problemas.
00:42:17Pode-se encarar dessa forma.
00:42:18Por outro lado, se você tentar inferir
00:42:20algo usando dados muito antigos,
00:42:22mesmo que o regime de mercado
00:42:23tenha mudado no meio do caminho,
00:42:24se ele mudar novamente
00:42:25e esses dados do passado distante
00:42:29voltarem a refletir o momento atual,
00:42:30eles podem ser úteis de novo.
00:42:32Por exemplo, algumas pessoas dizem
00:42:33que o momento atual se parece com a década de 1940.
00:42:35Existem teorias desse tipo por aí.
00:42:37Mas isso é apenas uma curiosidade.
00:42:38O trading quantitativo
00:42:41tornou-se muito popular e acessível,
00:42:42sendo praticado até por investidores individuais.
00:42:44No entanto, em investimentos de longo prazo,
00:42:45o ponto cego do investimento quant
00:42:47é que, ao aplicar essas técnicas quantitativas,
00:42:49é muito difícil evitar as mudanças de regime
00:42:51enquanto se tenta obter dados suficientes.
00:42:53Isso é um grande desafio.
00:42:55Digamos que temos uma estratégia
00:42:57de trading algorítmico que usa dados de minutos.
00:42:59Em uma hora,
00:43:01temos 60 pontos de dados.
00:43:02Como são 60 minutos,
00:43:03são 60 informações geradas.
00:43:04Agora, imaginem
00:43:05um contrato futuro negociado 24 horas por dia.
00:43:08Multiplicando por 24,
00:43:09temos 1.440 pontos.
00:43:10Certo?
00:43:10São 1.440 dados por dia.
00:43:12Se tivermos 1.440 dados diários,
00:43:15e considerando cerca de 250 dias
00:43:17de negociação por ano,
00:43:20em apenas um ano teremos
00:43:21mais de 300 mil
00:43:23pontos de dados acumulados.
00:43:25Com apenas um ano de histórico,
00:43:26já garantimos mais de 300 mil dados.
00:43:29Com essa quantidade significativa,
00:43:32é possível realizar validações,
00:43:33utilizar modelos mais complexos
00:43:35e muito mais.
00:43:36Mas imagine uma estratégia de rebalanceamento
00:43:37que opera mensalmente.
00:43:39Nesse caso, são apenas 12 dados por ano.
00:43:41Mesmo em 20 anos,
00:43:42teríamos apenas 240 pontos.
00:43:44Como não dá para aumentar os dados no eixo do tempo,
00:43:47tentamos observar várias ações diferentes
00:43:49para expandir a análise
00:43:51e tentar obter alguma relevância estatística.
00:43:53Mas, no fim das contas, no eixo do tempo,
00:43:54ainda é difícil escapar das mudanças de regime.
00:43:57Essas questões são extremamente complicadas.
00:43:58Após o início da pandemia,
00:44:00muitos especialistas em quant,
00:44:02como Inigo Fraser-Jenkins,
00:44:05que é um renomado chefe de análise quantitativa,
00:44:09explicaram por que
00:44:11não se consideram mais “quants”.
00:44:13A essência desse argumento é que
00:44:15o trabalho do quant é prever o futuro com base no passado,
00:44:19mas quando ocorre
00:44:20algo como a COVID, os padrões antigos tornam-se inúteis.
00:44:23Diante de uma mudança drástica de regime,
00:44:25o que um quant pode fazer é muito limitado.
00:44:28Alguns falam até em uma “crise existencial”
00:44:30para os profissionais da área.
00:44:31E, de fato, o ano passado foi muito ruim para eles.
00:44:34Embora alguns tenham se saído bem,
00:44:36na média, o desempenho foi péssimo.
00:44:38Bem, parece que chegamos à metade,
00:44:40mas já se passou uma hora e meia.
00:44:43Por hoje, encerramos a primeira parte.
00:44:45Amanhã, na parte 2, veremos do item 6 ao 10,
00:44:49falando sobre vantagens e limitações,
00:44:50além de um currículo de estudos
00:44:52para quem quer aprender sobre quant.
00:44:54Vejo vocês na segunda parte.
00:44:55Muito obrigado.