Detecção heurística de Concept Drift baseado em TEDA
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufrn.br/handle/123456789/59806 |
Resumo: | The non-stationary dynamics of Data production are presented through seasonality and trends, characteristics that make applying machine learning difficult. This phenomenon can be represented as a data stream: ordered and unlimited source of non-stationary data. Data streams are often used to represent evolving systems and their non-stationarity is attributed to concept drifts. In this context, machine learning techniques must be adapted for processing data streams. It is necessary to consider real-time retraining, response to concept drif, partial data availability, and memory limitation, among others. To address such issues, it is essential to use concept drift detectors (CDD) to enable model adaptation. The literature is rich in works on detecting concept drift distributed into three groups concerning the availability of true labels: supervised, semi-supervised, and unsupervised. It is possible to argue that unsupervised methods allow for shorter detection delays in real applications by performing detections at prediction time, before feedback. This work presents a new concept drift detection method, TEDA-CDD. Two models compose this detector to represent concepts based on TEDA: the reference model and the dynamic model. The reference model aims to define the concept known by the machine learning model while the dynamic model is free to adapt to any new concept that emerges from the data stream. The models are compared heuristically using the Jaccard index to indicate similarity. When the index indicates low similarity, the detector indicates a concept drift. To compare the proposed method with other methods present in the literature, initially, a realistic approach for data stream models is proposed. This approach makes it possible to apply several classifiers and detectors to the data stream classification task and estimate performance metrics specific to the data streams context. In the experiments, the proposed method is compared to other methods present in the literature using synthetic and real benchmarks. The proposed method has comparable performance in terms of accuracy compared to methods consolidated in the literature while being the most efficient in terms of memory consumption. |
| id |
UFRN_4533e9ddd7ed2024c596403bef507016 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufrn.br:123456789/59806 |
| network_acronym_str |
UFRN |
| network_name_str |
Repositório Institucional da UFRN |
| repository_id_str |
|
| spelling |
Detecção heurística de Concept Drift baseado em TEDAAprendizado não supervisionadoData StreamTEDAClassificação em Data StreamDetector de Concept DriftCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAThe non-stationary dynamics of Data production are presented through seasonality and trends, characteristics that make applying machine learning difficult. This phenomenon can be represented as a data stream: ordered and unlimited source of non-stationary data. Data streams are often used to represent evolving systems and their non-stationarity is attributed to concept drifts. In this context, machine learning techniques must be adapted for processing data streams. It is necessary to consider real-time retraining, response to concept drif, partial data availability, and memory limitation, among others. To address such issues, it is essential to use concept drift detectors (CDD) to enable model adaptation. The literature is rich in works on detecting concept drift distributed into three groups concerning the availability of true labels: supervised, semi-supervised, and unsupervised. It is possible to argue that unsupervised methods allow for shorter detection delays in real applications by performing detections at prediction time, before feedback. This work presents a new concept drift detection method, TEDA-CDD. Two models compose this detector to represent concepts based on TEDA: the reference model and the dynamic model. The reference model aims to define the concept known by the machine learning model while the dynamic model is free to adapt to any new concept that emerges from the data stream. The models are compared heuristically using the Jaccard index to indicate similarity. When the index indicates low similarity, the detector indicates a concept drift. To compare the proposed method with other methods present in the literature, initially, a realistic approach for data stream models is proposed. This approach makes it possible to apply several classifiers and detectors to the data stream classification task and estimate performance metrics specific to the data streams context. In the experiments, the proposed method is compared to other methods present in the literature using synthetic and real benchmarks. The proposed method has comparable performance in terms of accuracy compared to methods consolidated in the literature while being the most efficient in terms of memory consumption.Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESA produção de dados apresenta dinâmicas não-estacionárias através de sazonalidade e tendência, características que dificultam a aplicação de aprendizado de máquina. Este fenômeno pode ser representado como um data stream: fonte ordenadas e ilimitadas de dados não-estacionários. Os data streams são utilizados frequentemente para representar sistemas evolutivos (evolving systems) e sua nãoestacionariedade é atribuída à concept drifts. Neste contexto, as técnicas de aprendizado de máquina devem ser adaptadas para o processamento de data streams. É necessário considerar retreinamento em tempo real, resposta à concept drift, disponibilidade parcial dos dados, limitação de memória, entre outros. Para endereçar tais questões, é essencial o uso de detectores de concept drift (CDD) para possibilitar a adaptação de modelos. A literatura é rica em trabalhos sobre de detecção de concept drift distribuídos em três grupos com relação a disponibilidade de rótulos verdadeiros: supervisionados, semi-supervisionados e não supervisionados. É possível argumentar que métodos não supervisionados possibilitam menor atraso de detecção em aplicações reais por realizar detecções em tempo de predição, antes da realimentação. Este trabalho apresenta um novo método de detecção de concept drift, o TEDA-CDD. Esse detector é composto por dois modelos para representar conceitos baseados em TEDA: o modelo de referência e o modelo dinâmico. O modelo de referência tem como objetivo representar o conceito conhecido pelo modelo de aprendizado de máquina enquanto o modelo dinâmico é livre para se adaptar a qualquer novo conceito que emergir do data stream. Os modelos são comparados de forma heurística através do índice de Jaccard para indicar similaridade. Quando o índice indicar baixa similaridade entre os modelos o detector indica um concept drift. Afim de comparar o método proposto com outros métodos presentes na literatura, inicialmente, propõe-se uma abordagem realística para modelos de data stream. Essa abordagem possibilita aplicar diversos classificadores e detectores na tarefa de classificação de data stream e estimar métricas de desempenho especificas ao contexto de data streams. Nos experimentos, o método proposto é comparado a outros métodos presentes na literatura utilizando benchmarks sintéticos e reais. O método proposto possui desempenho comparável em termos de precisão em relação aos métodos consolidados na literatura ao passo que é o mais eficiente em termos de consumo de memória.Universidade Federal do Rio Grande do NorteBrasilUFRNPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOOliveira, Luiz Affonso Henderson Guedes dehttps://orcid.org/0000-0003-0280-0346http://lattes.cnpq.br/4965053749389598https://orcid.org/0000-0003-2690-1563http://lattes.cnpq.br/7987212907837941Silva, Ivanovitch Medeiros Dantas dahttps://orcid.org/0000-0002-0116-6489http://lattes.cnpq.br/3608440944832201Fernandes, Marcelo Augusto CostaGendriz, Ignacio SanchezVillanueva, Juan Moisés MauricioNunes, Yuri Thomas Pinheiro2024-08-22T22:01:38Z2024-08-22T22:01:38Z2024-05-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfNUNES, Yuri Thomas Pinheiro. Detecção heurística de Concept Drift baseado em TEDA. Orientador: Dr. Luiz Affonso Guedes. 2024. 96f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024.https://repositorio.ufrn.br/handle/123456789/59806info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2024-08-22T22:02:20Zoai:repositorio.ufrn.br:123456789/59806Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2024-08-22T22:02:20Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
| dc.title.none.fl_str_mv |
Detecção heurística de Concept Drift baseado em TEDA |
| title |
Detecção heurística de Concept Drift baseado em TEDA |
| spellingShingle |
Detecção heurística de Concept Drift baseado em TEDA Nunes, Yuri Thomas Pinheiro Aprendizado não supervisionado Data Stream TEDA Classificação em Data Stream Detector de Concept Drift CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| title_short |
Detecção heurística de Concept Drift baseado em TEDA |
| title_full |
Detecção heurística de Concept Drift baseado em TEDA |
| title_fullStr |
Detecção heurística de Concept Drift baseado em TEDA |
| title_full_unstemmed |
Detecção heurística de Concept Drift baseado em TEDA |
| title_sort |
Detecção heurística de Concept Drift baseado em TEDA |
| author |
Nunes, Yuri Thomas Pinheiro |
| author_facet |
Nunes, Yuri Thomas Pinheiro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Oliveira, Luiz Affonso Henderson Guedes de https://orcid.org/0000-0003-0280-0346 http://lattes.cnpq.br/4965053749389598 https://orcid.org/0000-0003-2690-1563 http://lattes.cnpq.br/7987212907837941 Silva, Ivanovitch Medeiros Dantas da https://orcid.org/0000-0002-0116-6489 http://lattes.cnpq.br/3608440944832201 Fernandes, Marcelo Augusto Costa Gendriz, Ignacio Sanchez Villanueva, Juan Moisés Mauricio |
| dc.contributor.author.fl_str_mv |
Nunes, Yuri Thomas Pinheiro |
| dc.subject.por.fl_str_mv |
Aprendizado não supervisionado Data Stream TEDA Classificação em Data Stream Detector de Concept Drift CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| topic |
Aprendizado não supervisionado Data Stream TEDA Classificação em Data Stream Detector de Concept Drift CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| description |
The non-stationary dynamics of Data production are presented through seasonality and trends, characteristics that make applying machine learning difficult. This phenomenon can be represented as a data stream: ordered and unlimited source of non-stationary data. Data streams are often used to represent evolving systems and their non-stationarity is attributed to concept drifts. In this context, machine learning techniques must be adapted for processing data streams. It is necessary to consider real-time retraining, response to concept drif, partial data availability, and memory limitation, among others. To address such issues, it is essential to use concept drift detectors (CDD) to enable model adaptation. The literature is rich in works on detecting concept drift distributed into three groups concerning the availability of true labels: supervised, semi-supervised, and unsupervised. It is possible to argue that unsupervised methods allow for shorter detection delays in real applications by performing detections at prediction time, before feedback. This work presents a new concept drift detection method, TEDA-CDD. Two models compose this detector to represent concepts based on TEDA: the reference model and the dynamic model. The reference model aims to define the concept known by the machine learning model while the dynamic model is free to adapt to any new concept that emerges from the data stream. The models are compared heuristically using the Jaccard index to indicate similarity. When the index indicates low similarity, the detector indicates a concept drift. To compare the proposed method with other methods present in the literature, initially, a realistic approach for data stream models is proposed. This approach makes it possible to apply several classifiers and detectors to the data stream classification task and estimate performance metrics specific to the data streams context. In the experiments, the proposed method is compared to other methods present in the literature using synthetic and real benchmarks. The proposed method has comparable performance in terms of accuracy compared to methods consolidated in the literature while being the most efficient in terms of memory consumption. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-08-22T22:01:38Z 2024-08-22T22:01:38Z 2024-05-21 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
NUNES, Yuri Thomas Pinheiro. Detecção heurística de Concept Drift baseado em TEDA. Orientador: Dr. Luiz Affonso Guedes. 2024. 96f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024. https://repositorio.ufrn.br/handle/123456789/59806 |
| identifier_str_mv |
NUNES, Yuri Thomas Pinheiro. Detecção heurística de Concept Drift baseado em TEDA. Orientador: Dr. Luiz Affonso Guedes. 2024. 96f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024. |
| url |
https://repositorio.ufrn.br/handle/123456789/59806 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO |
| publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
| instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
| instacron_str |
UFRN |
| institution |
UFRN |
| reponame_str |
Repositório Institucional da UFRN |
| collection |
Repositório Institucional da UFRN |
| repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
| repository.mail.fl_str_mv |
repositorio@bczm.ufrn.br |
| _version_ |
1855758739390332928 |