A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Lopes, Erica da Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10052021-093703/
Resumo: O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.
id USP_13a8bce29987c88e8eb5525bc53b3261
oai_identifier_str oai:teses.usp.br:tde-10052021-093703
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empíricoThe influence of correlated data on Machine Learning models - An empirical studyAprendizado de máquinaAprendizado estatísticoGeneralizaçãoGeneralizationIndependência amostralMachine learningSampling independenceStatistical learningO uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.The use of Machine Learning models has been widespread in different areas of the industry, either to assess brand satisfaction according to comments on the internet, or to recommend products, or to assess credit risk. However, many people associate this subject exclusively to computer science area, disregarding fundamental statistical concepts to guarantee the learning, generalization, of the model. Bearing in mind that the Theory of Statistical Learning has five premises for a guarantee of generalization, the aim of this study is to empirically evaluate the effects by disregarding one of the premises, an independence among the necessary ones. In this sense, two databases of the banking sector were evaluated, both with data collected in a temporal window. The databases were divided into training, validation and testing, in which the first two were collected at the same time window, but the validation was not used in the development of the model. We note that the teste contains new information not belonging to the time frame of the training base. The Machine Learning textit Light Gradient Boosting Machine technique was used to model each of the training bases. The performance of the models was measured with the AUC metric and compared with the different types of autocorrelation for each base (dependence between sample and temporal units). The results showed that a temporal autocorrelation, statistically significant for the two data sets, influences the decrease in performance for the temporal window of development of the models (test subsets). On the other hand, for a database in which there is not autocorrelation between for a database in which there is not autocorrelation between the observations, the fitted model presented good performance for the validation data. Also, we note this not occur for the fitted model with the base that has significant autocorralation between the observations. Thus, there are indications that if the premise of independence in the data set is disregarded, the ability of the model to learn is impaired.Biblioteca Digitais de Teses e Dissertações da USPSuzuki, Adriano KamimuraLopes, Erica da Silva2021-03-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-10052021-093703/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-07-08T18:06:10Zoai:teses.usp.br:tde-10052021-093703Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-07-08T18:06:10Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
The influence of correlated data on Machine Learning models - An empirical study
title A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
spellingShingle A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
Lopes, Erica da Silva
Aprendizado de máquina
Aprendizado estatístico
Generalização
Generalization
Independência amostral
Machine learning
Sampling independence
Statistical learning
title_short A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_full A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_fullStr A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_full_unstemmed A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_sort A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
author Lopes, Erica da Silva
author_facet Lopes, Erica da Silva
author_role author
dc.contributor.none.fl_str_mv Suzuki, Adriano Kamimura
dc.contributor.author.fl_str_mv Lopes, Erica da Silva
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado estatístico
Generalização
Generalization
Independência amostral
Machine learning
Sampling independence
Statistical learning
topic Aprendizado de máquina
Aprendizado estatístico
Generalização
Generalization
Independência amostral
Machine learning
Sampling independence
Statistical learning
description O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10052021-093703/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10052021-093703/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258074242351104