Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Costa, Noé Mitterhofer Eiterer Ponce de Leon da
Orientador(a): Nascimento, Moysés
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Estatística Aplicada e Biometria
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: https://locus.ufv.br//handle/123456789/31192
https://doi.org/10.47328/ufvbbt.2023.275
Resumo: O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.
id UFV_43244157eda6b97ddd6e4864cc6df94e
oai_identifier_str oai:locus.ufv.br:123456789/31192
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Nascimento, Ana Carolina CampanaCosta, Noé Mitterhofer Eiterer Ponce de Leon dahttp://lattes.cnpq.br/9184271760739064Nascimento, Moysés2023-07-10T12:55:41Z2023-07-10T12:55:41Z2023-02-16COSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis. 2023. 66 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.https://locus.ufv.br//handle/123456789/31192https://doi.org/10.47328/ufvbbt.2023.275O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.Population growth generates a demand for increased agricultural production, especially in terms of productivity, since almost all arable areas already produce food. Within the demand for increased productivity, plant breeding combined with statistics is essential to meet current demands. Statistics offers several methods for analyzing agricultural data, among these methods are the classifiers. Such methods are capable of allocating each observation into one of the classes of interest. Among the available methods, the Naive Bayes (NB) classifier stands out for its simplicity and good performance. However, it presupposes independence between the predictor variables. Given the fact that such an assumption is difficult to achieve in practice, this work aims to evaluate hybrid methods in an attempt to improve their performance considering different levels of dependence between variables. The methodologies combined with NB were principal component analysis (PCA + NB), sparse components (SPCA + NB) and discriminant analysis (AD + NB). Data with different levels of correlation (0.10; 0.50 and 0.90) and different mean vectors were simulated. All scenarios were evaluated considering 2, 4, 8 and 16 variables. The methodologies used in the comparison of the proposed methods were Random Forest, Bagging and Artificial Neural Network through the calculation of the average accuracy and the respective standard error of the average. From the results obtained by simulation, it can be concluded that the assumption of independence is important, since the increase in correlation always resulted in a reduction in the average accuracy of the classifiers. The hybrid classifiers proposed in the work are presented as good alternatives to the NB, since they presented results similar to or superior to the NB itself and other methods evaluated in terms of average accuracy. Keywords: Hybrid classifier. Combined methodologies. Simulation.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaEstatística Aplicada e BiometriaTeoria bayesiana de decisão estatísticaSimulação (Computadores híbridos)Análise multivariadaCultivos agrícolas - Melhoramento genético - Métodos estatísticosMelhoramento VegetalRobustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveisRobustness of hybrid Naive Bayes classifiers in breaking variable independence guidelinesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2023-02-16Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf3641797https://locus.ufv.br//bitstream/123456789/31192/1/texto%20completo.pdf21c4e242f12cacfdaa5758c97c91fe74MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/31192/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/311922023-07-10 09:59:08.757oai:locus.ufv.br:123456789/31192Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452023-07-10T12:59:08LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
dc.title.en.fl_str_mv Robustness of hybrid Naive Bayes classifiers in breaking variable independence guidelines
title Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
spellingShingle Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
Costa, Noé Mitterhofer Eiterer Ponce de Leon da
Teoria bayesiana de decisão estatística
Simulação (Computadores híbridos)
Análise multivariada
Cultivos agrícolas - Melhoramento genético - Métodos estatísticos
Melhoramento Vegetal
title_short Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
title_full Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
title_fullStr Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
title_full_unstemmed Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
title_sort Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
author Costa, Noé Mitterhofer Eiterer Ponce de Leon da
author_facet Costa, Noé Mitterhofer Eiterer Ponce de Leon da
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/9184271760739064
dc.contributor.none.fl_str_mv Nascimento, Ana Carolina Campana
dc.contributor.author.fl_str_mv Costa, Noé Mitterhofer Eiterer Ponce de Leon da
dc.contributor.advisor1.fl_str_mv Nascimento, Moysés
contributor_str_mv Nascimento, Moysés
dc.subject.pt-BR.fl_str_mv Teoria bayesiana de decisão estatística
Simulação (Computadores híbridos)
Análise multivariada
Cultivos agrícolas - Melhoramento genético - Métodos estatísticos
topic Teoria bayesiana de decisão estatística
Simulação (Computadores híbridos)
Análise multivariada
Cultivos agrícolas - Melhoramento genético - Métodos estatísticos
Melhoramento Vegetal
dc.subject.cnpq.fl_str_mv Melhoramento Vegetal
description O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-10T12:55:41Z
dc.date.available.fl_str_mv 2023-07-10T12:55:41Z
dc.date.issued.fl_str_mv 2023-02-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis. 2023. 66 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/31192
dc.identifier.doi.pt-BR.fl_str_mv https://doi.org/10.47328/ufvbbt.2023.275
identifier_str_mv COSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis. 2023. 66 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.
url https://locus.ufv.br//handle/123456789/31192
https://doi.org/10.47328/ufvbbt.2023.275
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Estatística Aplicada e Biometria
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/31192/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/31192/2/license.txt
bitstream.checksum.fl_str_mv 21c4e242f12cacfdaa5758c97c91fe74
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801213831144275968