Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Mass, Bruno
Orientador(a): Naldi, Murilo Coelho lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://hdl.handle.net/20.500.14289/23433
Resumo: In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance.
id SCAR_9bd128086af0c4d076072447d5eeb41a
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/23433
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Mass, BrunoNaldi, Murilo Coelhohttp://lattes.cnpq.br/0573662728816861http://lattes.cnpq.br/5481357033125207https://orcid.org/0009-0007-2775-5277https://orcid.org/0000-0002-3107-8236https://orcid.org/0000-0002-3107-8236https://orcid.org/0000-0002-9046-9499https://orcid.org/0000-0002-6377-3372Naldi, Murilo CoelhoValejo, Alan Demétrius BariaJaskowiak, Pablo Andrettahttp://lattes.cnpq.br/0573662728816861http://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/32940902423806482026-01-20T18:08:07Z2025-12-05MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433.https://hdl.handle.net/20.500.14289/23433In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance.No contexto de mineiração de dados, a tarefa de detecção de anomalias é importante pois observações divergentes do todo podem afetar negativamente de modelos de aprendizado de máquina ou constituir o principal objeto de interesse em diversos cenários reais. Ao mesmo tempo, tarefas de classificação semissupervisionada mostram-se essenciais em contextos nos quais os dados rotulados são escassos. Neste trabalho, sugerimos a unificação das duas tarefas em um processo único integrado: propomos a combinação de um algoritmo considerado estado da arte em agrupamento baseado em densidade, capaz de detectar anomalias, com dois conhecidos classificadores semissupervisionados baseados em densidade, com o objetivo de produzir métodos híbridos capazes de desempenhar ambas as tarefas. Experimentos conduzidos em 42 conjuntos de dados semissintéticos com diferentes proporções de objetos rotulados e dois tipos distintos de anomalias mostraram que o método de detecção de anomalias investigado apresenta desempenho superior ao de métodos similares, principalmente em conjuntos de dados contendo anomalias globais. Os resultados também comprovam que, quando o método de detecção de anomalias é combinado com os classificadores semissupervisionados, há um baixo impacto na qualidade da tarefa de classificação. Desta forma demonstramos que as abordagens híbridas propostas constituem alternativas viáveis aos seus respectivos métodos originais, permitindo a identificação explícita de anomalias sem comprometer de forma significativa a qualidade da tarefa de classificação.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado semissupervisionadoClassificação semissupervisionadaDetecção de anomaliasSemi-supervised learningSemi-supervised classificationAnomaly detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO9. Indústria, Inovação e InfraestruturaClassificação semissupervisionada baseada em densidade com reconhecimento de anomaliasSemi-supervised density-based classification with anomaly detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdfDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdfapplication/pdf15421785https://repositorio.ufscar.br/bitstreams/56e9a941-07e8-47fe-a7fa-12a84e8614e6/download997747cb7c64a886ccd78666aadd0ab0MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ufscar.br/bitstreams/927c7dae-ec71-4418-82e8-10688649a430/downloadfba754f0467e45ac3862bc2533fb2736MD52falseAnonymousREADTEXTDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.txtDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.txtExtracted texttext/plain102836https://repositorio.ufscar.br/bitstreams/496f0d81-2d05-48ce-a806-8449a92fbf69/downloadf8d45ce6069adb541a72236c900cef68MD53falseAnonymousREADTHUMBNAILDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.jpgDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.jpgGenerated Thumbnailimage/jpeg3934https://repositorio.ufscar.br/bitstreams/841816b5-5322-4a69-90c6-0f90a3524f2a/download3a890fbfe14eee667fc3f6c045dfb7d8MD54falseAnonymousREAD20.500.14289/234332026-01-21T03:03:54.879543Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/23433https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222026-01-21T03:03:54Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
dc.title.alternative.eng.fl_str_mv Semi-supervised density-based classification with anomaly detection
title Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
spellingShingle Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
Mass, Bruno
Aprendizado semissupervisionado
Classificação semissupervisionada
Detecção de anomalias
Semi-supervised learning
Semi-supervised classification
Anomaly detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
9. Indústria, Inovação e Infraestrutura
title_short Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
title_full Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
title_fullStr Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
title_full_unstemmed Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
title_sort Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
author Mass, Bruno
author_facet Mass, Bruno
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/5481357033125207
dc.contributor.authororcid.none.fl_str_mv https://orcid.org/0009-0007-2775-5277
dc.contributor.advisor1orcid.none.fl_str_mv https://orcid.org/0000-0002-3107-8236
dc.contributor.refereeorcid.none.fl_str_mv https://orcid.org/0000-0002-3107-8236
https://orcid.org/0000-0002-9046-9499
https://orcid.org/0000-0002-6377-3372
dc.contributor.referee.none.fl_str_mv Naldi, Murilo Coelho
Valejo, Alan Demétrius Baria
Jaskowiak, Pablo Andretta
dc.contributor.refereeLattes.none.fl_str_mv http://lattes.cnpq.br/0573662728816861
http://lattes.cnpq.br/9546164790189830
http://lattes.cnpq.br/3294090242380648
dc.contributor.author.fl_str_mv Mass, Bruno
dc.contributor.advisor1.fl_str_mv Naldi, Murilo Coelho
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0573662728816861
contributor_str_mv Naldi, Murilo Coelho
dc.subject.por.fl_str_mv Aprendizado semissupervisionado
Classificação semissupervisionada
Detecção de anomalias
topic Aprendizado semissupervisionado
Classificação semissupervisionada
Detecção de anomalias
Semi-supervised learning
Semi-supervised classification
Anomaly detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
9. Indústria, Inovação e Infraestrutura
dc.subject.eng.fl_str_mv Semi-supervised learning
Semi-supervised classification
Anomaly detection
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.ods.none.fl_str_mv 9. Indústria, Inovação e Infraestrutura
description In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance.
publishDate 2025
dc.date.issued.fl_str_mv 2025-12-05
dc.date.accessioned.fl_str_mv 2026-01-20T18:08:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433.
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.14289/23433
identifier_str_mv MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433.
url https://hdl.handle.net/20.500.14289/23433
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/56e9a941-07e8-47fe-a7fa-12a84e8614e6/download
https://repositorio.ufscar.br/bitstreams/927c7dae-ec71-4418-82e8-10688649a430/download
https://repositorio.ufscar.br/bitstreams/496f0d81-2d05-48ce-a806-8449a92fbf69/download
https://repositorio.ufscar.br/bitstreams/841816b5-5322-4a69-90c6-0f90a3524f2a/download
bitstream.checksum.fl_str_mv 997747cb7c64a886ccd78666aadd0ab0
fba754f0467e45ac3862bc2533fb2736
f8d45ce6069adb541a72236c900cef68
3a890fbfe14eee667fc3f6c045dfb7d8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1859391318869934080