Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado

CHIKUSHI, Rohgi Toshio Meneses

Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	CHIKUSHI, Rohgi Toshio Meneses
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Inteligência computacional Aprendizado de máquina Fluxos de dados Séries temporais não lineares
Link de acesso:	https://repositorio.ufpe.br/handle/123456789/45629
Resumo:	Atualmente, algoritmos de Aprendizado de Máquina são aplicados em diversos domínios para a extração de informação em grandes volumes de dados. Apesar de modelos consolidados lidarem de forma efetiva com dados identicamente e independentemente distribuídos (i.i.d.), algoritmos aplicados a fluxos contínuos de dados devem lidar com distribuições não estacioná- rias. O desafio é manter um modelo de decisão atualizado, preciso e consistente, mesmo sujeito a mudanças nas distribuições de probabilidade dos dados, um fenômeno conhecido como mu- dança de conceito. Neste contexto, os algoritmos combinam um classificador e um detector para identificar mudanças na distribuição do erro das predições a fim de adaptar ou substi- tuir rapidamente o modelo preditivo. Diversas propostas têm sido apresentadas na literatura para a detecção de mudanças de conceito com base na taxa de erro dos modelos preditivos. Em geral, a distribuição da taxa de erro fundamenta a maioria das abordagens baseadas em metodologias como a análise sequencial, o controle estatístico do processo, ou pelo monito- ramento das distribuições por meio de janelas deslizantes, as quais assumem que os erros de predição são gerados de forma independente. Apesar da vasta aplicação desses detectores, estudos empíricos têm mostrado que a taxa de erro pode ser influenciada pela dependência temporal. Além disso, abordagens supervisionadas requerem dados rotulados, os quais podem ser difíceis de obter em muitas aplicações do mundo real. Nesta tese, ferramentas de Análise de Séries Temporais Não Lineares foram utilizadas com o objetivo de prover detectores não restritos ao pressuposto de observações i.i.d e mais apropriados para lidar com fluxos de da- dos sujeitos à dependência temporal. Neste sentido, foram propostos três detectores: Spectral Entropy Drift Detector (SEDD), Permutation Entropy Drift Detector (PEDD), e Recurrence Quantification Analysis Drift Detector (RQADD). Também foi proposto o Symbolic Labeling Adapter (SLA), uma abordagem de pseudo-rotulação simbólica com o intuito de expandir a aplicação de modelos adaptativos supervisionados a domínios onde fluxos de dados não são rotulados, visando a detecção de mudanças de conceito. Experimentos com os classificadores Naïve Bayes e Hoffding Tree utilizando 15 detectores, 20 bases de dados reais e 360 artificiais, sugerem que o SEDD, embora não tenha superado o estado da arte em termos de acurácia na maioria dos cenários, não apresentou diferença estatística significativa em relação aos mes- mos, sinalizando menos alarmes falsos. De modo semelhante, os detectores PEDD e RQADD foram competitivos acerca das detecções de mudanças de conceito na maioria das avaliações, principalmente utilizando o SLA com bases não rotuladas (30 artificiais e 26 de eletroence- falograma). Desse modo, pode-se considerar os detectores propostos como uma alternativa competitiva, e a abordagem de pseudo-rotulação simbólica uma ferramenta promissora.

Metadados do item

id	UFPE_e76c57de78fc75472ca78e172a2aecd4
oai_identifier_str	oai:repositorio.ufpe.br:123456789/45629
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str
spelling	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionadoInteligência computacionalAprendizado de máquinaFluxos de dadosSéries temporais não linearesAtualmente, algoritmos de Aprendizado de Máquina são aplicados em diversos domínios para a extração de informação em grandes volumes de dados. Apesar de modelos consolidados lidarem de forma efetiva com dados identicamente e independentemente distribuídos (i.i.d.), algoritmos aplicados a fluxos contínuos de dados devem lidar com distribuições não estacioná- rias. O desafio é manter um modelo de decisão atualizado, preciso e consistente, mesmo sujeito a mudanças nas distribuições de probabilidade dos dados, um fenômeno conhecido como mu- dança de conceito. Neste contexto, os algoritmos combinam um classificador e um detector para identificar mudanças na distribuição do erro das predições a fim de adaptar ou substi- tuir rapidamente o modelo preditivo. Diversas propostas têm sido apresentadas na literatura para a detecção de mudanças de conceito com base na taxa de erro dos modelos preditivos. Em geral, a distribuição da taxa de erro fundamenta a maioria das abordagens baseadas em metodologias como a análise sequencial, o controle estatístico do processo, ou pelo monito- ramento das distribuições por meio de janelas deslizantes, as quais assumem que os erros de predição são gerados de forma independente. Apesar da vasta aplicação desses detectores, estudos empíricos têm mostrado que a taxa de erro pode ser influenciada pela dependência temporal. Além disso, abordagens supervisionadas requerem dados rotulados, os quais podem ser difíceis de obter em muitas aplicações do mundo real. Nesta tese, ferramentas de Análise de Séries Temporais Não Lineares foram utilizadas com o objetivo de prover detectores não restritos ao pressuposto de observações i.i.d e mais apropriados para lidar com fluxos de da- dos sujeitos à dependência temporal. Neste sentido, foram propostos três detectores: Spectral Entropy Drift Detector (SEDD), Permutation Entropy Drift Detector (PEDD), e Recurrence Quantification Analysis Drift Detector (RQADD). Também foi proposto o Symbolic Labeling Adapter (SLA), uma abordagem de pseudo-rotulação simbólica com o intuito de expandir a aplicação de modelos adaptativos supervisionados a domínios onde fluxos de dados não são rotulados, visando a detecção de mudanças de conceito. Experimentos com os classificadores Naïve Bayes e Hoffding Tree utilizando 15 detectores, 20 bases de dados reais e 360 artificiais, sugerem que o SEDD, embora não tenha superado o estado da arte em termos de acurácia na maioria dos cenários, não apresentou diferença estatística significativa em relação aos mes- mos, sinalizando menos alarmes falsos. De modo semelhante, os detectores PEDD e RQADD foram competitivos acerca das detecções de mudanças de conceito na maioria das avaliações, principalmente utilizando o SLA com bases não rotuladas (30 artificiais e 26 de eletroence- falograma). Desse modo, pode-se considerar os detectores propostos como uma alternativa competitiva, e a abordagem de pseudo-rotulação simbólica uma ferramenta promissora.Currently, Machine Learning algorithms are applied in several domains to extract in- formation from large datasets. Although most models effectively deal with identically and independently distributed (i.i.d.) data, algorithms applied to data streams must deal with non- stationary distributions. The challenge is to maintain an up-to-date, accurate and consistent decision model, even when changes in the probability distributions of the data occur, a phe- nomenon known as concept drift. In this context, algorithms usually combine a classifier and a detector to identify changes in the error distribution of the predictions in order to quickly adapt or replace the predictive model. Several proposals have been presented in the litera- ture for detecting concept drift based on the error rate of predictive models. In general, the error rate distribution underlies most approaches based on methodologies such as sequential analysis, statistical process control, or by monitoring distributions through sliding windows, which assume that prediction errors are generated independently. Despite the wide applica- tion of these detectors, empirical studies have shown that the error rate can be influenced by temporal dependence. In addition, supervised approaches require labeled data, which can be difficult to obtain in many real-world applications. In this thesis, Nonlinear Time Series Analysis tools were used in order to propose detectors not restricted to the assumption of i.i.d. observations, and more appropriate to deal with data streams subjected to temporal depen- dence. In this sense, three detectors are proposed: Spectral Entropy Drift Detector (SEDD), Permutation Entropy Drift Detector (PEDD), and Recurrence Quantification Analysis Drift Detector (RQADD). It was also proposed the Symbolic Labeling Adapter (SLA), a symbolic pseudo-labeling approach in order to expand the application of supervised adaptive models to domains where data flows are not labelled, aiming to detect concept changes. Experiments with the classifiers Naïve Bayes and Hoffding Tree using 15 detectors, 20 real datasets and 360 artificial ones, suggest that SEDD, although it has not outperformed those state-of-art detectors in accuracy in most scenarios, did not show statistical difference in relation to them, signaling fewer false alarms. Similarly, the PEDD and RQADD detectors were competitive on the detections of concept drift in most evaluations, mainly using SLA with unlabeled datasets (30 artificial and 26 electroencephalogram). Therefore, the proposed detectors can be con- sidered as a competitive alternative, and the symbolic pseudo-labeling approach a promising tool.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoBARROS, Roberto Souto Maior deSILVA, Marilú Gomes Netto Monte dahttp://lattes.cnpq.br/5393685698143691http://lattes.cnpq.br/2153962690732683http://lattes.cnpq.br/8098480041936192CHIKUSHI, Rohgi Toshio Meneses2022-08-11T14:26:45Z2022-08-11T14:26:45Z2021-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfCHIKUSHI, Rohgi Toshio Meneses. Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado. 2021. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.https://repositorio.ufpe.br/handle/123456789/45629porhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2022-08-12T05:15:10Zoai:repositorio.ufpe.br:123456789/45629Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212022-08-12T05:15:10Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
title	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
spellingShingle	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado CHIKUSHI, Rohgi Toshio Meneses Inteligência computacional Aprendizado de máquina Fluxos de dados Séries temporais não lineares
title_short	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
title_full	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
title_fullStr	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
title_full_unstemmed	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
title_sort	Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
author	CHIKUSHI, Rohgi Toshio Meneses
author_facet	CHIKUSHI, Rohgi Toshio Meneses
author_role	author
dc.contributor.none.fl_str_mv	BARROS, Roberto Souto Maior de SILVA, Marilú Gomes Netto Monte da http://lattes.cnpq.br/5393685698143691 http://lattes.cnpq.br/2153962690732683 http://lattes.cnpq.br/8098480041936192
dc.contributor.author.fl_str_mv	CHIKUSHI, Rohgi Toshio Meneses
dc.subject.por.fl_str_mv	Inteligência computacional Aprendizado de máquina Fluxos de dados Séries temporais não lineares
topic	Inteligência computacional Aprendizado de máquina Fluxos de dados Séries temporais não lineares
description	Atualmente, algoritmos de Aprendizado de Máquina são aplicados em diversos domínios para a extração de informação em grandes volumes de dados. Apesar de modelos consolidados lidarem de forma efetiva com dados identicamente e independentemente distribuídos (i.i.d.), algoritmos aplicados a fluxos contínuos de dados devem lidar com distribuições não estacioná- rias. O desafio é manter um modelo de decisão atualizado, preciso e consistente, mesmo sujeito a mudanças nas distribuições de probabilidade dos dados, um fenômeno conhecido como mu- dança de conceito. Neste contexto, os algoritmos combinam um classificador e um detector para identificar mudanças na distribuição do erro das predições a fim de adaptar ou substi- tuir rapidamente o modelo preditivo. Diversas propostas têm sido apresentadas na literatura para a detecção de mudanças de conceito com base na taxa de erro dos modelos preditivos. Em geral, a distribuição da taxa de erro fundamenta a maioria das abordagens baseadas em metodologias como a análise sequencial, o controle estatístico do processo, ou pelo monito- ramento das distribuições por meio de janelas deslizantes, as quais assumem que os erros de predição são gerados de forma independente. Apesar da vasta aplicação desses detectores, estudos empíricos têm mostrado que a taxa de erro pode ser influenciada pela dependência temporal. Além disso, abordagens supervisionadas requerem dados rotulados, os quais podem ser difíceis de obter em muitas aplicações do mundo real. Nesta tese, ferramentas de Análise de Séries Temporais Não Lineares foram utilizadas com o objetivo de prover detectores não restritos ao pressuposto de observações i.i.d e mais apropriados para lidar com fluxos de da- dos sujeitos à dependência temporal. Neste sentido, foram propostos três detectores: Spectral Entropy Drift Detector (SEDD), Permutation Entropy Drift Detector (PEDD), e Recurrence Quantification Analysis Drift Detector (RQADD). Também foi proposto o Symbolic Labeling Adapter (SLA), uma abordagem de pseudo-rotulação simbólica com o intuito de expandir a aplicação de modelos adaptativos supervisionados a domínios onde fluxos de dados não são rotulados, visando a detecção de mudanças de conceito. Experimentos com os classificadores Naïve Bayes e Hoffding Tree utilizando 15 detectores, 20 bases de dados reais e 360 artificiais, sugerem que o SEDD, embora não tenha superado o estado da arte em termos de acurácia na maioria dos cenários, não apresentou diferença estatística significativa em relação aos mes- mos, sinalizando menos alarmes falsos. De modo semelhante, os detectores PEDD e RQADD foram competitivos acerca das detecções de mudanças de conceito na maioria das avaliações, principalmente utilizando o SLA com bases não rotuladas (30 artificiais e 26 de eletroence- falograma). Desse modo, pode-se considerar os detectores propostos como uma alternativa competitiva, e a abordagem de pseudo-rotulação simbólica uma ferramenta promissora.
publishDate	2021
dc.date.none.fl_str_mv	2021-08-25 2022-08-11T14:26:45Z 2022-08-11T14:26:45Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	CHIKUSHI, Rohgi Toshio Meneses. Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado. 2021. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021. https://repositorio.ufpe.br/handle/123456789/45629
identifier_str_mv	CHIKUSHI, Rohgi Toshio Meneses. Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado. 2021. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.
url	https://repositorio.ufpe.br/handle/123456789/45629
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv	Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1856042061820592128

Abordagens baseadas na análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado

Registros relacionados