Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Vinces, Braulio Valentin Sánchez
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/
Resumo: This Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable.
id USP_92f54ebe7d157b007c79c85aa31eb2b4
oai_identifier_str oai:teses.usp.br:tde-11022025-113850
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based TechniquesAvanços na Detecção de Microgrupos e Anomalías: Da Melhoria de Escalabilidade por meio de Capitalização de Operações de Junção por Similaridade a uma Avaliação Abrangente de Técnicas Baseadas em AgrupamentoAnálise de fluxo de dados em tempo realClustering-based outlier detectionDetecção de microcluster em dados métricosDetecção de outlier baseada em a grupamentoDetecção de outlier baseada em distânciaDistance-based outlier detectionEscalabilidadeMicrocluster detection in metric dataReal-time stream analysisScalabilityThis Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable.Este trabalho de Doutoramento aborda o desafio crítico da detecção de anomalias em conjuntos de dados grandes e complexos. Nosso foco é desenvolver métodos eficientes e escaláveis para identificar com precisão as anomalias em vários tipos e cenários de dados. A primeira parte da tese explora o uso de operações de junção de similaridade para a detecção de outliers baseada em distância. Propomos dois métodos novos: MCCATCH, que identifica com eficiência microclusters em conjuntos de dados dimensionais e não dimensionais, e GOOST, que detecta com eficiência outliers em fluxos de dados massivos. Ambos os métodos tomam proveito da junção de similaridade para obter um desempenho superior em termos de precisão, eficiência e escalabilidade. A segunda parte da tese investiga rigorosamente a eficácia das abordagens de detecção de outliers baseadas em agrupamento. Por meio de uma avaliação comparativa meticulosa e abrangente, demonstramos que os métodos baseados em agrupamento podem ser competitivos com os algoritmos de última geração não baseados em agrupamento, oferecendo vantagens em termos de robustez e escalabilidade. Nossa pesquisa contribui significativamente para o campo da detecção de outliers, fornecendo novas metodologias e percepções sobre a eficácia de diferentes abordagens. Os métodos que propomos têm profundas implicações práticas para uma ampla gama de aplicações, incluindo detecção de fraudes, detecção de intrusão em redes de computadores e diagnóstico médico, o que torna nosso trabalho altamente relevante e aplicável.Biblioteca Digitais de Teses e Dissertações da USPCordeiro, Robson Leonardo FerreiraVinces, Braulio Valentin Sánchez2024-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-02-11T13:47:02Zoai:teses.usp.br:tde-11022025-113850Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-02-11T13:47:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
Avanços na Detecção de Microgrupos e Anomalías: Da Melhoria de Escalabilidade por meio de Capitalização de Operações de Junção por Similaridade a uma Avaliação Abrangente de Técnicas Baseadas em Agrupamento
title Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
spellingShingle Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
Vinces, Braulio Valentin Sánchez
Análise de fluxo de dados em tempo real
Clustering-based outlier detection
Detecção de microcluster em dados métricos
Detecção de outlier baseada em a grupamento
Detecção de outlier baseada em distância
Distance-based outlier detection
Escalabilidade
Microcluster detection in metric data
Real-time stream analysis
Scalability
title_short Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
title_full Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
title_fullStr Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
title_full_unstemmed Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
title_sort Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques
author Vinces, Braulio Valentin Sánchez
author_facet Vinces, Braulio Valentin Sánchez
author_role author
dc.contributor.none.fl_str_mv Cordeiro, Robson Leonardo Ferreira
dc.contributor.author.fl_str_mv Vinces, Braulio Valentin Sánchez
dc.subject.por.fl_str_mv Análise de fluxo de dados em tempo real
Clustering-based outlier detection
Detecção de microcluster em dados métricos
Detecção de outlier baseada em a grupamento
Detecção de outlier baseada em distância
Distance-based outlier detection
Escalabilidade
Microcluster detection in metric data
Real-time stream analysis
Scalability
topic Análise de fluxo de dados em tempo real
Clustering-based outlier detection
Detecção de microcluster em dados métricos
Detecção de outlier baseada em a grupamento
Detecção de outlier baseada em distância
Distance-based outlier detection
Escalabilidade
Microcluster detection in metric data
Real-time stream analysis
Scalability
description This Ph.D. work addresses the critical challenge of outlier detection in large and complex data sets. We focus on developing efficient and scalable methods to accurately identify anomalies in various data types and scenarios. The first part of the dissertation explores the use of similarity join operations for distance-based outlier detection. We propose two novel methods: MCCATCH, which effectively identifies microclusters in dimensional and nondimensional data sets, and GOOST, which efficiently detects outliers in massive data streams. Both methods leverage similarity joins to achieve superior accuracy, efficiency, and scalability performance. The second part of the dissertation rigorously investigates the effectiveness of clustering-based outlier detection approaches. Through a meticulous and comprehensive comparative evaluation, we demonstrate that clustering-based methods can be competitive with state-of-the-art non-clustering-based algorithms, offering advantages in terms of robustness and scalability. Our research significantly contributes to the field of outlier detection by providing novel methodologies and insights into the effectiveness of different approaches. The methods we propose have profound practical implications for a wide range of applications, including fraud detection, network intrusion detection, and medical diagnosis, making our work highly relevant and applicable.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839143412105216