Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Guerra, David Motta
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/125379
Resumo: Dentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com características específicas de distribuição de dados, não sendo indicado para todos os cenários. Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution (TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados, como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em comparação com os modelos de detecção individuais analisados, bem como com outros modelos de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida. Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS.
id UFOR_5dc9cd446cfec8ed0f7b7f3baa37a307
oai_identifier_str oai::125379
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsisAnálise multicritérioDentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com características específicas de distribuição de dados, não sendo indicado para todos os cenários. Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution (TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados, como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em comparação com os modelos de detecção individuais analisados, bem como com outros modelos de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida. Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS.Within the area of data mining, the detection of anomalies concerns the task of identifying items in a dataset that are substantially different from the others. For some applications, anomalies can represent valuable information, dealing with some kind of fraud, system intrusion, computer network anomaly, mechanical failure or critical clinical condition. Among the main challenges encountered in detecting such items is the difficulty in creating models, due to their unpredictability and dependence on the context of the data. A given model generally works well only in situations with specific data distribution characteristics, and is not suitable for all scenarios. Anomaly detector assemblies have emerged to address this deficiency, combining algorithms and resulting in a single, more versatile and robust method. In this work, a new anomaly detection approach was proposed, called Multicriteria Outlier Detector Ensembles (MCODES), in order to achieve better results for a large number of different datasets. Such an approach is unsupervised, since it does not take into account information about the labels of the instances, and uses ensemble and multi-criteria analysis. This approach was developed using the multi-criteria method for selecting alternatives Technique for Order Preference by Similarity to Ideal Solution (TOPSIS), in which the alternative that is closest to the ideal solution and furthest from the non-ideal solution is sought. Some variations for calculating the weights of the criteria used in TOPSIS were created. A new algorithm for defining weights was developed, called herd effect (EM), which is based on the premise that anomaly detection methods that classify data similarly to most other methods tend to be better and receive a higher score . Other algorithms for defining the weights were used, such as entropy and standard deviation. Experiments with this approach were carried out using different scenarios, using synthetic datasets, in order to validate specific scenarios of data distributions, and public datasets, in order to evaluate scenarios closer to reality. The proposed approach showed better performance compared to the individual detection models analyzed, as well as with other ensemble models, such as MOA, AOM and LSCP, demonstrating its robustness and effectiveness for situations in which the form of the distribution of instances in a given set data is unknown. Keywords: outlier detection. multi-criteria analysis. ensembles. TOPSIS.Dissertação enviada com autorização e certificação via CI 5148/21 - 25/01/2021Coelho, Andre Luis VasconcelosCoelho, Andre Luis VasconcelosSandes, Nelson C.Pinheiro, Plácido RogérioNepomuceno, Napoleão VieiraUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaGuerra, David Motta2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/125379https://uol.unifor.br/auth-sophia/exibicao/25280porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2024-01-24T18:51:23Zoai::125379Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2024-01-24T18:51:23Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
title Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
spellingShingle Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
Guerra, David Motta
Análise multicritério
title_short Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
title_full Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
title_fullStr Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
title_full_unstemmed Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
title_sort Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis
author Guerra, David Motta
author_facet Guerra, David Motta
author_role author
dc.contributor.none.fl_str_mv Coelho, Andre Luis Vasconcelos
Coelho, Andre Luis Vasconcelos
Sandes, Nelson C.
Pinheiro, Plácido Rogério
Nepomuceno, Napoleão Vieira
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Guerra, David Motta
dc.subject.por.fl_str_mv Análise multicritério
topic Análise multicritério
description Dentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com características específicas de distribuição de dados, não sendo indicado para todos os cenários. Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution (TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados, como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em comparação com os modelos de detecção individuais analisados, bem como com outros modelos de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida. Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS.
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/125379
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/125379
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/25280
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1846365338019561472