Exportação concluída — 

Detecção de mudança de distribuição em dados sequenciais

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Andrade, Douglas Decicino de
Orientador(a): Salasar, Luis Ernesto Bueno lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://hdl.handle.net/20.500.14289/22279
Resumo: This work aims to study the performance of the conformal method for distribution change detection (dataset shift) in sequential data, where observations are obtained sequentially over time. In particular, we consider cases where the observations are univariate, multivariate, and provided in batches (datasets) in predictive contexts. The conformal method generates p-values at each time step, which provide evidence regarding a potential change in the data distribution. Unlike classical approaches, such as the Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts, and Posterior Probability methods, the conformal method does not rely on parametric assumptions about the data distribution before and after the change occurs. The conformal method was applied using different nonconformity measures proposed in this work, including those based on Kullback-Leibler divergence and various distances in Euclidean spaces constructed through statistical depth measures. The effectiveness of this approach for detecting distributional changes was evaluated in different empirical studies by measuring the average detection delay and the proportion of false alarms. It is expected that this research can contribute to the application of this method in the online monitoring of machine learning models in dynamic environments, allowing the identification of the appropriate time to recalibrate or retrain algorithms in a more reliable manner.
id SCAR_1c45604ff06b84a90775f0197f29eb8f
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/22279
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Andrade, Douglas Decicino deSalasar, Luis Ernesto Buenohttp://lattes.cnpq.br/5464564215528609http://lattes.cnpq.br/99075306893297812025-07-04T12:04:05Z2025-06-06ANDRADE, Douglas Decicino de. Detecção de mudança de distribuição em dados sequenciais. 2025. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22279.https://hdl.handle.net/20.500.14289/22279This work aims to study the performance of the conformal method for distribution change detection (dataset shift) in sequential data, where observations are obtained sequentially over time. In particular, we consider cases where the observations are univariate, multivariate, and provided in batches (datasets) in predictive contexts. The conformal method generates p-values at each time step, which provide evidence regarding a potential change in the data distribution. Unlike classical approaches, such as the Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts, and Posterior Probability methods, the conformal method does not rely on parametric assumptions about the data distribution before and after the change occurs. The conformal method was applied using different nonconformity measures proposed in this work, including those based on Kullback-Leibler divergence and various distances in Euclidean spaces constructed through statistical depth measures. The effectiveness of this approach for detecting distributional changes was evaluated in different empirical studies by measuring the average detection delay and the proportion of false alarms. It is expected that this research can contribute to the application of this method in the online monitoring of machine learning models in dynamic environments, allowing the identification of the appropriate time to recalibrate or retrain algorithms in a more reliable manner.Este trabalho se propõe a estudar o desempenho do método conformal para detecção de mudança de distribuição (dataset shift) para dados sequenciais, isto é, observações são sequencialmente obtidas ao longo do tempo. Em particular, consideramos os casos em que as observações são univariadas, multivariadas e informadas em lotes (datasets) em contextos preditivos. O método conformal gera valores-p a cada instante, que fornecem indícios a respeito de uma mudança na distribuição dos dados. Diferentemente de abordagens clássicas, como os métodos Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts e o Posterior Probability, o método conformal não se baseia em suposições paramétricas sobre a distribuição dos dados antes e depois da mudança ocorrer. O método conformal foi aplicado considerando diferentes medidas de não conformidade que foram propostas neste trabalho, baseadas por exemplo na divergência de Kullback-Leibler e diferentes distâncias em espaços Euclidianos construídos a partir de medidas de profundidade estatística. A eficácia desta abordagem para detecção de mudança de distribuição foi avaliada em diferentes estudos empíricos por meio do tempo médio de atraso na detecção e pela proporção de falsos alarmes. Espera-se que esta pesquisa possa contribuir para a aplicação deste método no monitoramento on-line de modelos de aprendizado de máquina em ambientes dinâmicos, permitindo identificar o momento oportuno para recalibrar ou retreinar algoritmos de forma mais confiável.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88887.910268/2023-00porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDataset shiftDataset Distribution change detectionChange point detectionSequential dataBatch processingMachine learningCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICADetecção de mudanças de distribuiçãoDetecção de ponto de mudançaDados sequenciaisProcessamento em loteAprendizagem de máquinaDetecção de mudança de distribuição em dados sequenciaisDistribution shift detection in sequential datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertação_revisada_Douglas_Decicino.pdfDissertação_revisada_Douglas_Decicino.pdfapplication/pdf2200517https://repositorio.ufscar.br/bitstreams/4e33bf27-202a-4a3b-b99f-26b334ee0b45/download4dd10dad9dac034876b895d9f1cb6f08MD53trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/e5f38ad2-608e-405e-aac4-691d0f5b7632/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTDissertação_revisada_Douglas_Decicino.pdf.txtDissertação_revisada_Douglas_Decicino.pdf.txtExtracted texttext/plain105132https://repositorio.ufscar.br/bitstreams/3f2c6c7a-45df-4d6d-be9b-8b4ab8847af1/download96a622d255779275299cebf39f0924b5MD54falseAnonymousREADTHUMBNAILDissertação_revisada_Douglas_Decicino.pdf.jpgDissertação_revisada_Douglas_Decicino.pdf.jpgGenerated Thumbnailimage/jpeg6437https://repositorio.ufscar.br/bitstreams/cdfe3219-2921-4837-9b28-a645d7ee2636/download39f7953b3cfd63db30f2472f3960ee22MD55falseAnonymousREAD20.500.14289/222792025-07-05 00:05:34.163http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22279https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-07-05T03:05:34Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv Detecção de mudança de distribuição em dados sequenciais
dc.title.alternative.eng.fl_str_mv Distribution shift detection in sequential data
title Detecção de mudança de distribuição em dados sequenciais
spellingShingle Detecção de mudança de distribuição em dados sequenciais
Andrade, Douglas Decicino de
Dataset shift
Dataset Distribution change detection
Change point detection
Sequential data
Batch processing
Machine learning
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
Detecção de mudanças de distribuição
Detecção de ponto de mudança
Dados sequenciais
Processamento em lote
Aprendizagem de máquina
title_short Detecção de mudança de distribuição em dados sequenciais
title_full Detecção de mudança de distribuição em dados sequenciais
title_fullStr Detecção de mudança de distribuição em dados sequenciais
title_full_unstemmed Detecção de mudança de distribuição em dados sequenciais
title_sort Detecção de mudança de distribuição em dados sequenciais
author Andrade, Douglas Decicino de
author_facet Andrade, Douglas Decicino de
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/9907530689329781
dc.contributor.author.fl_str_mv Andrade, Douglas Decicino de
dc.contributor.advisor1.fl_str_mv Salasar, Luis Ernesto Bueno
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/5464564215528609
contributor_str_mv Salasar, Luis Ernesto Bueno
dc.subject.eng.fl_str_mv Dataset shift
Dataset Distribution change detection
Change point detection
Sequential data
Batch processing
Machine learning
topic Dataset shift
Dataset Distribution change detection
Change point detection
Sequential data
Batch processing
Machine learning
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
Detecção de mudanças de distribuição
Detecção de ponto de mudança
Dados sequenciais
Processamento em lote
Aprendizagem de máquina
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
dc.subject.por.fl_str_mv Detecção de mudanças de distribuição
Detecção de ponto de mudança
Dados sequenciais
Processamento em lote
Aprendizagem de máquina
description This work aims to study the performance of the conformal method for distribution change detection (dataset shift) in sequential data, where observations are obtained sequentially over time. In particular, we consider cases where the observations are univariate, multivariate, and provided in batches (datasets) in predictive contexts. The conformal method generates p-values at each time step, which provide evidence regarding a potential change in the data distribution. Unlike classical approaches, such as the Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts, and Posterior Probability methods, the conformal method does not rely on parametric assumptions about the data distribution before and after the change occurs. The conformal method was applied using different nonconformity measures proposed in this work, including those based on Kullback-Leibler divergence and various distances in Euclidean spaces constructed through statistical depth measures. The effectiveness of this approach for detecting distributional changes was evaluated in different empirical studies by measuring the average detection delay and the proportion of false alarms. It is expected that this research can contribute to the application of this method in the online monitoring of machine learning models in dynamic environments, allowing the identification of the appropriate time to recalibrate or retrain algorithms in a more reliable manner.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-07-04T12:04:05Z
dc.date.issued.fl_str_mv 2025-06-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ANDRADE, Douglas Decicino de. Detecção de mudança de distribuição em dados sequenciais. 2025. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22279.
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.14289/22279
identifier_str_mv ANDRADE, Douglas Decicino de. Detecção de mudança de distribuição em dados sequenciais. 2025. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22279.
url https://hdl.handle.net/20.500.14289/22279
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/4e33bf27-202a-4a3b-b99f-26b334ee0b45/download
https://repositorio.ufscar.br/bitstreams/e5f38ad2-608e-405e-aac4-691d0f5b7632/download
https://repositorio.ufscar.br/bitstreams/3f2c6c7a-45df-4d6d-be9b-8b4ab8847af1/download
https://repositorio.ufscar.br/bitstreams/cdfe3219-2921-4837-9b28-a645d7ee2636/download
bitstream.checksum.fl_str_mv 4dd10dad9dac034876b895d9f1cb6f08
57e258e544f104f04afb1d5e5b4e53c0
96a622d255779275299cebf39f0924b5
39f7953b3cfd63db30f2472f3960ee22
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688935039696896