Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ |
Resumo: | This Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable. |
| id |
USP_92f54ebe7d157b007c79c85aa31eb2b4 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-11022025-113850 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based TechniquesAvanços na Detecção de Microgrupos e Anomalías: Da Melhoria de Escalabilidade por meio de Capitalização de Operações de Junção por Similaridade a uma Avaliação Abrangente de Técnicas Baseadas em AgrupamentoAnálise de fluxo de dados em tempo realClustering-based outlier detectionDetecção de microcluster em dados métricosDetecção de outlier baseada em a grupamentoDetecção de outlier baseada em distânciaDistance-based outlier detectionEscalabilidadeMicrocluster detection in metric dataReal-time stream analysisScalabilityThis Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable.Este trabalho de Doutoramento aborda o desafio crítico da detecção de anomalias em conjuntos de dados grandes e complexos. Nosso foco é desenvolver métodos eficientes e escaláveis para identificar com precisão as anomalias em vários tipos e cenários de dados. A primeira parte da tese explora o uso de operações de junção de similaridade para a detecção de outliers baseada em distância. Propomos dois métodos novos: MCCATCH, que identifica com eficiência microclusters em conjuntos de dados dimensionais e não dimensionais, e GOOST, que detecta com eficiência outliers em fluxos de dados massivos. Ambos os métodos tomam proveito da junção de similaridade para obter um desempenho superior em termos de precisão, eficiência e escalabilidade. A segunda parte da tese investiga rigorosamente a eficácia das abordagens de detecção de outliers baseadas em agrupamento. Por meio de uma avaliação comparativa meticulosa e abrangente, demonstramos que os métodos baseados em agrupamento podem ser competitivos com os algoritmos de última geração não baseados em agrupamento, oferecendo vantagens em termos de robustez e escalabilidade. Nossa pesquisa contribui significativamente para o campo da detecção de outliers, fornecendo novas metodologias e percepções sobre a eficácia de diferentes abordagens. Os métodos que propomos têm profundas implicações práticas para uma ampla gama de aplicações, incluindo detecção de fraudes, detecção de intrusão em redes de computadores e diagnóstico médico, o que torna nosso trabalho altamente relevante e aplicável.Biblioteca Digitais de Teses e Dissertações da USPCordeiro, Robson Leonardo FerreiraVinces, Braulio Valentin Sánchez2024-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-02-11T13:47:02Zoai:teses.usp.br:tde-11022025-113850Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-02-11T13:47:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques Avanços na Detecção de Microgrupos e Anomalías: Da Melhoria de Escalabilidade por meio de Capitalização de Operações de Junção por Similaridade a uma Avaliação Abrangente de Técnicas Baseadas em Agrupamento |
| title |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| spellingShingle |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques Vinces, Braulio Valentin Sánchez Análise de fluxo de dados em tempo real Clustering-based outlier detection Detecção de microcluster em dados métricos Detecção de outlier baseada em a grupamento Detecção de outlier baseada em distância Distance-based outlier detection Escalabilidade Microcluster detection in metric data Real-time stream analysis Scalability |
| title_short |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| title_full |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| title_fullStr |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| title_full_unstemmed |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| title_sort |
Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques |
| author |
Vinces, Braulio Valentin Sánchez |
| author_facet |
Vinces, Braulio Valentin Sánchez |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Cordeiro, Robson Leonardo Ferreira |
| dc.contributor.author.fl_str_mv |
Vinces, Braulio Valentin Sánchez |
| dc.subject.por.fl_str_mv |
Análise de fluxo de dados em tempo real Clustering-based outlier detection Detecção de microcluster em dados métricos Detecção de outlier baseada em a grupamento Detecção de outlier baseada em distância Distance-based outlier detection Escalabilidade Microcluster detection in metric data Real-time stream analysis Scalability |
| topic |
Análise de fluxo de dados em tempo real Clustering-based outlier detection Detecção de microcluster em dados métricos Detecção de outlier baseada em a grupamento Detecção de outlier baseada em distância Distance-based outlier detection Escalabilidade Microcluster detection in metric data Real-time stream analysis Scalability |
| description |
This Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-21 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839143412105216 |