Fuzzy approach for classification and novelty detection in data streams
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/20010 |
Resumo: | Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results. |
| id |
SCAR_af6f76c68d31e6bef3000213831c2945 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/20010 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Cristiani, André LuisCamargo, Heloisa de Arrudahttp://lattes.cnpq.br/0487231065057783http://lattes.cnpq.br/36012896712915712024-07-16T16:17:10Z2024-07-16T16:17:10Z2022-02-11CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010.https://repositorio.ufscar.br/handle/20.500.14289/20010Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results.Aprendizado em fluxo contínuo de dados (FCD) é uma área de pesquisa que busca extrair conhecimentos de uma grande quantidade de dados gerados de maneira contínua em um curto espaço de tempo. A detecção de novidades (DN) é responsável por identificar o surgimento de novos conceitos e alterações em conceitos conhecidos. Os rótulos verdadeiros das instâncias podem ser utilizados para que os algoritmos se adaptem à evolução e mudança de conceito. O tempo entre a classificação de uma instância e a chegada de seu rótulo verdadeiro é denominado latência. Grande parte das aplicações consideram que esses rótulos verdadeiros nunca estarão disponíveis. Outras são mais otimistas e consideram que o rótulo verdadeiro estará disponível logo após a classificação da instância. Outra forma é considerar que, após um certo tempo, os rótulos verdadeiros estarão disponíveis, o que é aplicável em grande parte dos cenários do mundo real. A utilização de conceitos da teoria dos conjuntos fuzzy possibilita tornar o aprendizado adaptável a possíveis imprecisões nos dados. No entanto, poucas abordagens utilizam os conceitos da teoria dos conjuntos fuzzy e consideram latência intermediária para obtenção dos rótulos. Diante disso, este trabalho propõe um método para classificação de DN multiclasse em FCD para cenários de latência intermediária e extrema baseada nos algoritmos ECSMiner e PFuzzND. Os resultados obtidos mostram que o algoritmo proposto obteve boa acurácia na classificação e detecção de novidades multiclasse, classificando outliers que abordagens que utilizam agrupamento crisp não conseguiram classificar. Além disso, foram apresentadas melhorias em relação aos parâmetros de inicialização do algoritmo, que reduzem a complexidade de sua utilização, mantendo bons resultados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)001engUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessFluxo contínuo de dadosDetecção de novidadesLatência intermediáriaTeoria dos conjuntos fuzzyData streamsNovelty detectionIntermediate latencyFuzzy set theoryCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOFuzzy approach for classification and novelty detection in data streamsAbordagem fuzzy para classificação e detecção de novidades em fluxo de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTDissertação___André_Luis_Cristiani (1).pdf.txtDissertação___André_Luis_Cristiani (1).pdf.txtExtracted texttext/plain100542https://repositorio.ufscar.br/bitstreams/1c3f1cf8-fbbd-4cce-a7ac-aff6b994633b/download9b905d00a17c26a53d53b2854289484eMD53falseAnonymousREADTHUMBNAILDissertação___André_Luis_Cristiani (1).pdf.jpgDissertação___André_Luis_Cristiani (1).pdf.jpgGenerated Thumbnailimage/jpeg5120https://repositorio.ufscar.br/bitstreams/3836daf2-15df-4639-bbc1-59410ac2caac/download1658b868df276e50642ab722f75936deMD54falseAnonymousREADORIGINALDissertação___André_Luis_Cristiani (1).pdfDissertação___André_Luis_Cristiani (1).pdfapplication/pdf1593015https://repositorio.ufscar.br/bitstreams/f18a1311-a2bd-4135-9291-77320859e990/downloadaf7d23bc97367f856468e59764d60104MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/d94c7cba-7afa-49f5-b758-4168496fb694/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/200102025-02-06 02:26:29.573http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/20010https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T05:26:29Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.eng.fl_str_mv |
Fuzzy approach for classification and novelty detection in data streams |
| dc.title.alternative.por.fl_str_mv |
Abordagem fuzzy para classificação e detecção de novidades em fluxo de dados |
| title |
Fuzzy approach for classification and novelty detection in data streams |
| spellingShingle |
Fuzzy approach for classification and novelty detection in data streams Cristiani, André Luis Fluxo contínuo de dados Detecção de novidades Latência intermediária Teoria dos conjuntos fuzzy Data streams Novelty detection Intermediate latency Fuzzy set theory CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| title_short |
Fuzzy approach for classification and novelty detection in data streams |
| title_full |
Fuzzy approach for classification and novelty detection in data streams |
| title_fullStr |
Fuzzy approach for classification and novelty detection in data streams |
| title_full_unstemmed |
Fuzzy approach for classification and novelty detection in data streams |
| title_sort |
Fuzzy approach for classification and novelty detection in data streams |
| author |
Cristiani, André Luis |
| author_facet |
Cristiani, André Luis |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/3601289671291571 |
| dc.contributor.author.fl_str_mv |
Cristiani, André Luis |
| dc.contributor.advisor1.fl_str_mv |
Camargo, Heloisa de Arruda |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0487231065057783 |
| contributor_str_mv |
Camargo, Heloisa de Arruda |
| dc.subject.por.fl_str_mv |
Fluxo contínuo de dados Detecção de novidades Latência intermediária Teoria dos conjuntos fuzzy |
| topic |
Fluxo contínuo de dados Detecção de novidades Latência intermediária Teoria dos conjuntos fuzzy Data streams Novelty detection Intermediate latency Fuzzy set theory CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Data streams Novelty detection Intermediate latency Fuzzy set theory |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| description |
Learning in data streams (DS) is a research area that seeks to extract knowledge from a large amount of continuously generated data in a short period of time. The novelty detection (ND) is responsible for identifying the emergence of new concepts and changes in known concepts. The true labels of the instances can be used so that the algorithms adapt to the concept evolution and concept drift. The time between the classification of an instance and the arrival of its true label is called latency. Most applications consider that these true labels will never be available. Others are more optimistic and assume that the true label will be available shortly after the instance has been classified. Another way is to consider that, after a certain time, the true labels will be available, which is applicable in most real-world scenarios. The use of concepts from fuzzy set theory makes it possible to make learning adaptable to possible inaccuracies in the data. However, few approaches use the concepts of fuzzy set theory and consider intermediate latency to obtain the labels. Therefore, this work proposes a method for classifying multiclass ND in DS for intermediate and extreme latency scenarios based on ECSMiner and PFuzzND algorithms. The results obtained show that the proposed algorithm obtained good accuracy in the classification and detection of multiclass novelties, classifying outliers that approaches that use crisp clustering were not able to classify. In addition, improvements were presented in relation to the algorithm initialization parameters, which reduce the complexity of its use, maintaining good results. |
| publishDate |
2022 |
| dc.date.issued.fl_str_mv |
2022-02-11 |
| dc.date.accessioned.fl_str_mv |
2024-07-16T16:17:10Z |
| dc.date.available.fl_str_mv |
2024-07-16T16:17:10Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/20010 |
| identifier_str_mv |
CRISTIANI, André Luis. Fuzzy approach for classification and novelty detection in data streams. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20010. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/20010 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/1c3f1cf8-fbbd-4cce-a7ac-aff6b994633b/download https://repositorio.ufscar.br/bitstreams/3836daf2-15df-4639-bbc1-59410ac2caac/download https://repositorio.ufscar.br/bitstreams/f18a1311-a2bd-4135-9291-77320859e990/download https://repositorio.ufscar.br/bitstreams/d94c7cba-7afa-49f5-b758-4168496fb694/download |
| bitstream.checksum.fl_str_mv |
9b905d00a17c26a53d53b2854289484e 1658b868df276e50642ab722f75936de af7d23bc97367f856468e59764d60104 f337d95da1fce0a22c77480e5e9a7aec |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688763211644928 |