Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/23433 |
Resumo: | In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance. |
| id |
SCAR_9bd128086af0c4d076072447d5eeb41a |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/23433 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Mass, BrunoNaldi, Murilo Coelhohttp://lattes.cnpq.br/0573662728816861http://lattes.cnpq.br/5481357033125207https://orcid.org/0009-0007-2775-5277https://orcid.org/0000-0002-3107-8236https://orcid.org/0000-0002-3107-8236https://orcid.org/0000-0002-9046-9499https://orcid.org/0000-0002-6377-3372Naldi, Murilo CoelhoValejo, Alan Demétrius BariaJaskowiak, Pablo Andrettahttp://lattes.cnpq.br/0573662728816861http://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/32940902423806482026-01-20T18:08:07Z2025-12-05MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433.https://hdl.handle.net/20.500.14289/23433In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance.No contexto de mineiração de dados, a tarefa de detecção de anomalias é importante pois observações divergentes do todo podem afetar negativamente de modelos de aprendizado de máquina ou constituir o principal objeto de interesse em diversos cenários reais. Ao mesmo tempo, tarefas de classificação semissupervisionada mostram-se essenciais em contextos nos quais os dados rotulados são escassos. Neste trabalho, sugerimos a unificação das duas tarefas em um processo único integrado: propomos a combinação de um algoritmo considerado estado da arte em agrupamento baseado em densidade, capaz de detectar anomalias, com dois conhecidos classificadores semissupervisionados baseados em densidade, com o objetivo de produzir métodos híbridos capazes de desempenhar ambas as tarefas. Experimentos conduzidos em 42 conjuntos de dados semissintéticos com diferentes proporções de objetos rotulados e dois tipos distintos de anomalias mostraram que o método de detecção de anomalias investigado apresenta desempenho superior ao de métodos similares, principalmente em conjuntos de dados contendo anomalias globais. Os resultados também comprovam que, quando o método de detecção de anomalias é combinado com os classificadores semissupervisionados, há um baixo impacto na qualidade da tarefa de classificação. Desta forma demonstramos que as abordagens híbridas propostas constituem alternativas viáveis aos seus respectivos métodos originais, permitindo a identificação explícita de anomalias sem comprometer de forma significativa a qualidade da tarefa de classificação.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado semissupervisionadoClassificação semissupervisionadaDetecção de anomaliasSemi-supervised learningSemi-supervised classificationAnomaly detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO9. Indústria, Inovação e InfraestruturaClassificação semissupervisionada baseada em densidade com reconhecimento de anomaliasSemi-supervised density-based classification with anomaly detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdfDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdfapplication/pdf15421785https://repositorio.ufscar.br/bitstreams/56e9a941-07e8-47fe-a7fa-12a84e8614e6/download997747cb7c64a886ccd78666aadd0ab0MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ufscar.br/bitstreams/927c7dae-ec71-4418-82e8-10688649a430/downloadfba754f0467e45ac3862bc2533fb2736MD52falseAnonymousREADTEXTDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.txtDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.txtExtracted texttext/plain102836https://repositorio.ufscar.br/bitstreams/496f0d81-2d05-48ce-a806-8449a92fbf69/downloadf8d45ce6069adb541a72236c900cef68MD53falseAnonymousREADTHUMBNAILDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.jpgDissertacao_Bruno_Mass_Classificacao_Semissupervisionada_Baseada_em_Densidade_com_Reconhecimento_de_Anomalias_merged_compression_PDFA.pdf.jpgGenerated Thumbnailimage/jpeg3934https://repositorio.ufscar.br/bitstreams/841816b5-5322-4a69-90c6-0f90a3524f2a/download3a890fbfe14eee667fc3f6c045dfb7d8MD54falseAnonymousREAD20.500.14289/234332026-01-21T03:03:54.879543Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/23433https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222026-01-21T03:03:54Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| dc.title.alternative.eng.fl_str_mv |
Semi-supervised density-based classification with anomaly detection |
| title |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| spellingShingle |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias Mass, Bruno Aprendizado semissupervisionado Classificação semissupervisionada Detecção de anomalias Semi-supervised learning Semi-supervised classification Anomaly detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO 9. Indústria, Inovação e Infraestrutura |
| title_short |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| title_full |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| title_fullStr |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| title_full_unstemmed |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| title_sort |
Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias |
| author |
Mass, Bruno |
| author_facet |
Mass, Bruno |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/5481357033125207 |
| dc.contributor.authororcid.none.fl_str_mv |
https://orcid.org/0009-0007-2775-5277 |
| dc.contributor.advisor1orcid.none.fl_str_mv |
https://orcid.org/0000-0002-3107-8236 |
| dc.contributor.refereeorcid.none.fl_str_mv |
https://orcid.org/0000-0002-3107-8236 https://orcid.org/0000-0002-9046-9499 https://orcid.org/0000-0002-6377-3372 |
| dc.contributor.referee.none.fl_str_mv |
Naldi, Murilo Coelho Valejo, Alan Demétrius Baria Jaskowiak, Pablo Andretta |
| dc.contributor.refereeLattes.none.fl_str_mv |
http://lattes.cnpq.br/0573662728816861 http://lattes.cnpq.br/9546164790189830 http://lattes.cnpq.br/3294090242380648 |
| dc.contributor.author.fl_str_mv |
Mass, Bruno |
| dc.contributor.advisor1.fl_str_mv |
Naldi, Murilo Coelho |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0573662728816861 |
| contributor_str_mv |
Naldi, Murilo Coelho |
| dc.subject.por.fl_str_mv |
Aprendizado semissupervisionado Classificação semissupervisionada Detecção de anomalias |
| topic |
Aprendizado semissupervisionado Classificação semissupervisionada Detecção de anomalias Semi-supervised learning Semi-supervised classification Anomaly detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO 9. Indústria, Inovação e Infraestrutura |
| dc.subject.eng.fl_str_mv |
Semi-supervised learning Semi-supervised classification Anomaly detection |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.ods.none.fl_str_mv |
9. Indústria, Inovação e Infraestrutura |
| description |
In the context of data mining, the task of anomaly detection is important because observations that deviate from the majority can negatively affect machine learning models or represent the main object of interest in various real-world scenarios. At the same time, semi-supervised classification tasks are essential in situations where labeled data are scarce. In this work, we suggest unifying these two tasks into a single integrated process: we propose combining a state-of-the-art density-based clustering algorithm capable of detecting outliers with two well-known density-based semi-supervised classifiers, with the goal of producing hybrid methods capable of performing both tasks. Experiments conducted on 42 semi-synthetic datasets with different proportions of labeled objects and two distinct types of anomalies showed that the investigated anomaly detection method outperforms similar approaches, especially on datasets containing global anomalies. The results also demonstrate that when the outlier detection method is combined with the semi-supervised classifiers, there is only a minor impact on classification quality. Thus, we show that the proposed hybrid approaches constitute viable alternatives to their respective original methods, enabling explicit identification of anomalies without significantly compromising classification performance. |
| publishDate |
2025 |
| dc.date.issued.fl_str_mv |
2025-12-05 |
| dc.date.accessioned.fl_str_mv |
2026-01-20T18:08:07Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/23433 |
| identifier_str_mv |
MASS, Bruno. Classificação semissupervisionada baseada em densidade com reconhecimento de anomalias. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23433. |
| url |
https://hdl.handle.net/20.500.14289/23433 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/56e9a941-07e8-47fe-a7fa-12a84e8614e6/download https://repositorio.ufscar.br/bitstreams/927c7dae-ec71-4418-82e8-10688649a430/download https://repositorio.ufscar.br/bitstreams/496f0d81-2d05-48ce-a806-8449a92fbf69/download https://repositorio.ufscar.br/bitstreams/841816b5-5322-4a69-90c6-0f90a3524f2a/download |
| bitstream.checksum.fl_str_mv |
997747cb7c64a886ccd78666aadd0ab0 fba754f0467e45ac3862bc2533fb2736 f8d45ce6069adb541a72236c900cef68 3a890fbfe14eee667fc3f6c045dfb7d8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1859391318869934080 |