Fuzzy approach for classification and novelty detection in data streams

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Cristiani, André Luis
Orientador(a): Camargo, Heloisa de Arruda lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/20010
Resumo: Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results.
id SCAR_af6f76c68d31e6bef3000213831c2945
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/20010
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Cristiani, André LuisCamargo, Heloisa de Arrudahttp://lattes.cnpq.br/0487231065057783http://lattes.cnpq.br/36012896712915712024-07-16T16:17:10Z2024-07-16T16:17:10Z2022-02-11CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010.https://repositorio.ufscar.br/handle/20.500.14289/20010Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results.Aprendizado em fluxo contínuo de dados (FCD) é uma área de pesquisa que busca extrair conhecimentos de uma grande quantidade de dados gerados de maneira contínua em um curto espaço de tempo. A detecção de novidades (DN) é responsável por identificar o surgimento de novos conceitos e alterações em conceitos conhecidos. Os rótulos verdadeiros das instâncias podem ser utilizados para que os algoritmos se adaptem à evolução e mudança de conceito. O tempo entre a classificação de uma instância e a chegada de seu rótulo verdadeiro é denominado latência. Grande parte das aplicações consideram que esses rótulos verdadeiros nunca estarão disponíveis. Outras são mais otimistas e consideram que o rótulo verdadeiro estará disponível logo após a classificação da instância. Outra forma é considerar que, após um certo tempo, os rótulos verdadeiros estarão disponíveis, o que é aplicável em grande parte dos cenários do mundo real. A utilização de conceitos da teoria dos conjuntos fuzzy possibilita tornar o aprendizado adaptável a possíveis imprecisões nos dados. No entanto, poucas abordagens utilizam os conceitos da teoria dos conjuntos fuzzy e consideram latência intermediária para obtenção dos rótulos. Diante disso, este trabalho propõe um método para classificação de DN multiclasse em FCD para cenários de latência intermediária e extrema baseada nos algoritmos ECSMiner e PFuzzND. Os resultados obtidos mostram que o algoritmo proposto obteve boa acurácia na classificação e detecção de novidades multiclasse, classificando outliers que abordagens que utilizam agrupamento crisp não conseguiram classificar. Além disso, foram apresentadas melhorias em relação aos parâmetros de inicialização do algoritmo, que reduzem a complexidade de sua utilização, mantendo bons resultados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)001engUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessFluxo contínuo de dadosDetecção de novidadesLatência intermediáriaTeoria dos conjuntos fuzzyData streamsNovelty detectionIntermediate latencyFuzzy set theoryCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOFuzzy approach for classification and novelty detection in data streamsAbordagem fuzzy para classificação e detecção de novidades em fluxo de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTDissertação___André_Luis_Cristiani (1).pdf.txtDissertação___André_Luis_Cristiani (1).pdf.txtExtracted texttext/plain100542https://repositorio.ufscar.br/bitstreams/1c3f1cf8-fbbd-4cce-a7ac-aff6b994633b/download9b905d00a17c26a53d53b2854289484eMD53falseAnonymousREADTHUMBNAILDissertação___André_Luis_Cristiani (1).pdf.jpgDissertação___André_Luis_Cristiani (1).pdf.jpgGenerated Thumbnailimage/jpeg5120https://repositorio.ufscar.br/bitstreams/3836daf2-15df-4639-bbc1-59410ac2caac/download1658b868df276e50642ab722f75936deMD54falseAnonymousREADORIGINALDissertação___André_Luis_Cristiani (1).pdfDissertação___André_Luis_Cristiani (1).pdfapplication/pdf1593015https://repositorio.ufscar.br/bitstreams/f18a1311-a2bd-4135-9291-77320859e990/downloadaf7d23bc97367f856468e59764d60104MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/d94c7cba-7afa-49f5-b758-4168496fb694/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/200102025-02-06 02:26:29.573http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/20010https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T05:26:29Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.eng.fl_str_mv Fuzzy approach for classification and novelty detection in data streams
dc.title.alternative.por.fl_str_mv Abordagem fuzzy para classificação e detecção de novidades em fluxo de dados
title Fuzzy approach for classification and novelty detection in data streams
spellingShingle Fuzzy approach for classification and novelty detection in data streams
Cristiani, André Luis
Fluxo contínuo de dados
Detecção de novidades
Latência intermediária
Teoria dos conjuntos fuzzy
Data streams
Novelty detection
Intermediate latency
Fuzzy set theory
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Fuzzy approach for classification and novelty detection in data streams
title_full Fuzzy approach for classification and novelty detection in data streams
title_fullStr Fuzzy approach for classification and novelty detection in data streams
title_full_unstemmed Fuzzy approach for classification and novelty detection in data streams
title_sort Fuzzy approach for classification and novelty detection in data streams
author Cristiani, André Luis
author_facet Cristiani, André Luis
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/3601289671291571
dc.contributor.author.fl_str_mv Cristiani, André Luis
dc.contributor.advisor1.fl_str_mv Camargo, Heloisa de Arruda
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0487231065057783
contributor_str_mv Camargo, Heloisa de Arruda
dc.subject.por.fl_str_mv Fluxo contínuo de dados
Detecção de novidades
Latência intermediária
Teoria dos conjuntos fuzzy
topic Fluxo contínuo de dados
Detecção de novidades
Latência intermediária
Teoria dos conjuntos fuzzy
Data streams
Novelty detection
Intermediate latency
Fuzzy set theory
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Data streams
Novelty detection
Intermediate latency
Fuzzy set theory
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results.
publishDate 2022
dc.date.issued.fl_str_mv 2022-02-11
dc.date.accessioned.fl_str_mv 2024-07-16T16:17:10Z
dc.date.available.fl_str_mv 2024-07-16T16:17:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/20010
identifier_str_mv CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010.
url https://repositorio.ufscar.br/handle/20.500.14289/20010
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/1c3f1cf8-fbbd-4cce-a7ac-aff6b994633b/download
https://repositorio.ufscar.br/bitstreams/3836daf2-15df-4639-bbc1-59410ac2caac/download
https://repositorio.ufscar.br/bitstreams/f18a1311-a2bd-4135-9291-77320859e990/download
https://repositorio.ufscar.br/bitstreams/d94c7cba-7afa-49f5-b758-4168496fb694/download
bitstream.checksum.fl_str_mv 9b905d00a17c26a53d53b2854289484e
1658b868df276e50642ab722f75936de
af7d23bc97367f856468e59764d60104
f337d95da1fce0a22c77480e5e9a7aec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688763211644928