Falaa pessoal,
Preciso de ajuda para obter dados fundamentalistas históricos (30–40 anos) para um projeto de Análise fundamentalista em Machine Learning. Gostaria de saber se alguém sabe um jeito viável de consegui-los.
Estou desenvolvendo meu Trabalho de Conclusão de Curso (TCC) na área de Machine Learning aplicado a investimentos.
A ideia central do trabalho é relativamente simples de explicar, mas esta difícil de executar na prática por causa dos dados.
Ideia do projeto
Análise fundamentalista com Machine Learning de ações para longo prazo.
Ou, em termos mais diretos:
Quais empresas americanas têm maior probabilidade de superar o S&P 500 no longo prazo (10-15 anos), com base apenas nos indicadores fundamentalistas passados (mínimo 5 anos retroativos). A ideia não é adivinhar o quanto vai subir, só quais tem mais probabalidade de mais valorizar baseado nos fundamentos passados da empresa. Ai depois utilizar o modelo treinado na bolsa brasileira e/ou europeia e ver como desempenha historicamente (comparado ao indice local).
Eu não sei exatamente qual a metodologia que vou usar (pois não sei os dados que vou conseguir), mas pra dar um exemplo poderia ser o que eu disse acima.
A proposta é comparar diferentes modelos de machine learning treinados com indicadores contábeis e financeiros, como:
ROE, ROIC, ROA
P/L, PVP
Dividend Yield e Payout
Margens operacionais
Receita, lucro, ativos
CAPEX
Dívida
CAGR
Etc
A ideia é responder, com dados e modelos, à pergunta clássica:
O que realmente caracteriza uma “boa empresa” para investimento de longo prazo historicamente falando?
Por que a bolsa americana?
Estou focando na bolsa americana porque:
O mercado é mais maduro
Existe maior padronização contábil
Em tese, o acesso a dados históricos é mais viável
O S&P 500 fornece um bom benchmark claro para comparação
O meu problema atual: dados históricos realmente completos
Idealmente, eu precisaria de 30 anos de dados (ou até 40, se possível) para indicadores fundamentalistas e não me importo de pagar um pouco por isso.
Já analisei algumas APIs pagas, mas sempre encontro algum tipo de limitação relevante. Exemplos:
Algumas prometem “30 anos de dados”, mas ao ler a documentação com atenção, aparece algo como:
“For smaller companies, data is available for the last six years and the previous 20 quarters”
Ou seja: dados longos apenas para grandes empresas, o que enviesa completamente o estudo.
Um exemplo concreto é a EODHD (https://eodhd.com/), que tem uma API bem completa, mas custa cerca de US$ 100 por mês, e ainda assim possui a ressalva acima quanto à profundidade histórica dependendo da empresa.
Se eu não me engano o Raul falou que a AUVP Analítica usa dados da Morningstar, mas pelo que eu vi o acesso não é pensado para uso individual e muito menos para fins acadêmicos específicos como este (nem achei preços nos site, pede pra entrar em contato kk).
O Investidor10 Pro, por exemplo, afirma ter até 40 anos de dados para ativos internacionais. Entrei em contato com o suporte para entender qual base de dados eles utilizam, mas ainda estou aguardando resposta.
Onde entra o pedido de ajuda
Estou buscando orientação, sugestões ou experiências reais de quem já lidou com esse problema. Em especial:
Bases de dados acadêmicas ou institucionais
APIs ou datasets que realmente entreguem 30–40 anos de indicadores fundamentalistas, sem recortes artificiais
Alternativas viáveis para estudantes (licenças educacionais, acesso temporário, parcerias)
Estratégias para contornar limitações sem comprometer a validade estatística do estudo
Se você já trabalhou com dados fundamentalistas históricos, pesquisa acadêmica em finanças, ou conhece alguma fonte menos óbvia (universidades, consórcios, datasets “esquecidos”), qualquer dica pode fazer enorme diferença.
Esse projeto é parte do meu TCC, mas também um estudo que pretendo documentar bem, quero fazer ele em inglês e penso em publicar em alguma revista estrangeira se possível.
Agradeço muito qualquer ajuda, pitaco, indicação ou contato. Fico aberto a expor mais do que pensei até agora também (porém sem os dados de pouco adianta).
Perdão pelo textão e obrigado (obs: pedi pra IA me ajudar a estruturar ele melhor).