Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Silva, Bruno Riccelli dos Santos
Orientador(a): Cortez, Paulo César
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/52808
Resumo: Intrusion Detection Systems (IDS) figure as one of the leading solutions adopted in the area of network security to prevent network intrusion and ensure the security of data and services. However, this type of problem requires IDS to be assertive and efficient concerning processing time. Undersampling techniques allow classifiers to be evaluated from smaller sub-databases in a representative manner, seeking better assertiveness in less processing time. Some works in the literature present this kind of solution in the IDS project, but criteria such as the adoption of a replicable methodology, are generally not respected. Three sub-sampling methodologies were selected: random selection, by Cluster centroids and Nearmiss in two recent databases (CICIDS 2017 and CICIDS 2018) and comparison purposes between the classifiers. Thus, based on the results obtained and on the criteria adopted for the choice of classifiers, in the complete CIC2017 and CIC2018 databases, the random forest classifier obtains the best results. As for the sub-base generated, from the CIC2017 database, by the random under-sampling, the KNN classifier was considered the best for its average metrics of accuracy, efficiency, and training time. In the sub-base using the Cluster centroids under-sampling technique, generated from CIC2018, the classifier Naive Bayes gets the best results. As for the subbases generated from CIC2017 and CIC2018, using the NearMiss sub-sampling technique, the best classifiers, for their average metrics of accuracy, efficiency and training time, were KNN and Naive Bayes, respectively. Also, the results indicate that the sub-sampling by Cluster centroids presents the best performance when applied to classifiers based on distance, it follows that the technique of under-sampling influences the process of choosing the best classifier in the design of an Intrusion Detection Systems.
id UFC-7_ba2c755f4e3915f72f37b056bed02da3
oai_identifier_str oai:repositorio.ufc.br:riufc/52808
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Silva, Bruno Riccelli dos SantosCortez, Paulo César2020-07-07T20:35:14Z2020-07-07T20:35:14Z2020SILVA, B. R. dos S. Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores. 2020. 85 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2020.http://www.repositorio.ufc.br/handle/riufc/52808Intrusion Detection Systems (IDS) figure as one of the leading solutions adopted in the area of network security to prevent network intrusion and ensure the security of data and services. However, this type of problem requires IDS to be assertive and efficient concerning processing time. Undersampling techniques allow classifiers to be evaluated from smaller sub-databases in a representative manner, seeking better assertiveness in less processing time. Some works in the literature present this kind of solution in the IDS project, but criteria such as the adoption of a replicable methodology, are generally not respected. Three sub-sampling methodologies were selected: random selection, by Cluster centroids and Nearmiss in two recent databases (CICIDS 2017 and CICIDS 2018) and comparison purposes between the classifiers. Thus, based on the results obtained and on the criteria adopted for the choice of classifiers, in the complete CIC2017 and CIC2018 databases, the random forest classifier obtains the best results. As for the sub-base generated, from the CIC2017 database, by the random under-sampling, the KNN classifier was considered the best for its average metrics of accuracy, efficiency, and training time. In the sub-base using the Cluster centroids under-sampling technique, generated from CIC2018, the classifier Naive Bayes gets the best results. As for the subbases generated from CIC2017 and CIC2018, using the NearMiss sub-sampling technique, the best classifiers, for their average metrics of accuracy, efficiency and training time, were KNN and Naive Bayes, respectively. Also, the results indicate that the sub-sampling by Cluster centroids presents the best performance when applied to classifiers based on distance, it follows that the technique of under-sampling influences the process of choosing the best classifier in the design of an Intrusion Detection Systems.Sistemas de Detecção de Intrusão (SDIs) figuram como um das principais soluções adotadas na área de segurança em redes para evitar intrusões de rede e garantir a segurança dos dados e serviços de forma assertiva e eficiente. Técnicas de subamostragem de classes majoritárias permitem que classificadores sejam avaliados a partir de sub-bases de dados menores de forma representativa, buscando obter melhor assertividade em tempo aceitável. Esta dissertação tem por objetivo realizar uma análise comparativa de três técnicas de subamostragem (Aleatória, Cluster centroides e NearMiss) para projetos de SDIs através de cinco classificadores em duas bases de dados recentes (CICIDS 2017 e CICIDS 2018) para fins de comparação. Para esta avaliação, entre estes classificadores, são empregados as métricas de acurácia, precision, recall e eficiência que permitem escolher o(s) classificador(es) mais adequado(s) a ser(em) utilizado(s) em projetos de SDIs baseados em aprendizagem de máquina. Além disso, adotou-se o esquema de treinamento e testes baseado em técnicas de validação cruzada, seguida do teste estatístico de Wilcoxon. Os resultados indicam que a subamostragem por Cluster centroides apresenta o melhor desempenho quando aplicados em classificadores baseados em distância, podendo-se inferir que a técnica de subamostragem influencia no processo de escolha do melhor classificador no projeto de um Sistema de Detecção de Intrusão.TeleinformáticaComputadores - AprendizagemSegurança computacionalIntrusion Detection SystemsUndersamplingUma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINAL2020_dis_brssilva.pdf2020_dis_brssilva.pdfapplication/pdf1665668http://repositorio.ufc.br/bitstream/riufc/52808/5/2020_dis_brssilva.pdfa56977fd290353b6174ff1c4faa51dfaMD55LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/52808/6/license.txt8a4605be74aa9ea9d79846c1fba20a33MD56riufc/528082022-02-23 10:38:55.898oai:repositorio.ufc.br:riufc/52808Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2022-02-23T13:38:55Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
title Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
spellingShingle Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
Silva, Bruno Riccelli dos Santos
Teleinformática
Computadores - Aprendizagem
Segurança computacional
Intrusion Detection Systems
Undersampling
title_short Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
title_full Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
title_fullStr Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
title_full_unstemmed Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
title_sort Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores
author Silva, Bruno Riccelli dos Santos
author_facet Silva, Bruno Riccelli dos Santos
author_role author
dc.contributor.author.fl_str_mv Silva, Bruno Riccelli dos Santos
dc.contributor.advisor1.fl_str_mv Cortez, Paulo César
contributor_str_mv Cortez, Paulo César
dc.subject.por.fl_str_mv Teleinformática
Computadores - Aprendizagem
Segurança computacional
Intrusion Detection Systems
Undersampling
topic Teleinformática
Computadores - Aprendizagem
Segurança computacional
Intrusion Detection Systems
Undersampling
description Intrusion Detection Systems (IDS) figure as one of the leading solutions adopted in the area of network security to prevent network intrusion and ensure the security of data and services. However, this type of problem requires IDS to be assertive and efficient concerning processing time. Undersampling techniques allow classifiers to be evaluated from smaller sub-databases in a representative manner, seeking better assertiveness in less processing time. Some works in the literature present this kind of solution in the IDS project, but criteria such as the adoption of a replicable methodology, are generally not respected. Three sub-sampling methodologies were selected: random selection, by Cluster centroids and Nearmiss in two recent databases (CICIDS 2017 and CICIDS 2018) and comparison purposes between the classifiers. Thus, based on the results obtained and on the criteria adopted for the choice of classifiers, in the complete CIC2017 and CIC2018 databases, the random forest classifier obtains the best results. As for the sub-base generated, from the CIC2017 database, by the random under-sampling, the KNN classifier was considered the best for its average metrics of accuracy, efficiency, and training time. In the sub-base using the Cluster centroids under-sampling technique, generated from CIC2018, the classifier Naive Bayes gets the best results. As for the subbases generated from CIC2017 and CIC2018, using the NearMiss sub-sampling technique, the best classifiers, for their average metrics of accuracy, efficiency and training time, were KNN and Naive Bayes, respectively. Also, the results indicate that the sub-sampling by Cluster centroids presents the best performance when applied to classifiers based on distance, it follows that the technique of under-sampling influences the process of choosing the best classifier in the design of an Intrusion Detection Systems.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-07-07T20:35:14Z
dc.date.available.fl_str_mv 2020-07-07T20:35:14Z
dc.date.issued.fl_str_mv 2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, B. R. dos S. Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores. 2020. 85 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2020.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/52808
identifier_str_mv SILVA, B. R. dos S. Uma Análise comparativa de técnicas de subamostragem para projetos de sistemas de detecção de intrusão em redes de computadores. 2020. 85 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2020.
url http://www.repositorio.ufc.br/handle/riufc/52808
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/52808/5/2020_dis_brssilva.pdf
http://repositorio.ufc.br/bitstream/riufc/52808/6/license.txt
bitstream.checksum.fl_str_mv a56977fd290353b6174ff1c4faa51dfa
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793330243502080