Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Costa, Weverton Gomes da
Orientador(a): Cruz, Cosme Damião
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Genética e Melhoramento
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: https://locus.ufv.br//handle/123456789/29284
https://doi.org/10.47328/ufvbbt.2022.326
Resumo: A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.
id UFV_3ec752d2723373b29bb1903b6d1e69d9
oai_identifier_str oai:locus.ufv.br:123456789/29284
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Costa, Weverton Gomes dahttp://lattes.cnpq.br/2723811288754046Cruz, Cosme Damião2022-07-04T16:36:58Z2022-07-04T16:36:58Z2022-05-17COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.https://locus.ufv.br//handle/123456789/29284https://doi.org/10.47328/ufvbbt.2022.326A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.Genomic wide selection (GWS) uses molecular markers distributed throughout the genome in order to predict the genetic merit of plants and animals. Machine learning (ML) and artificial neural networks (ANN) methods are not parameterized and can develop more accurate and parsimonious models for GWS analysis. In order to evaluate different ML and ANN methods to evaluate prediction based on GWS, we proposed two questions to be answered by this research project. The first is that different methods would provide different predictions according to the complexity of the analyzed traits and the second would be that the identification of markers associated with QTLs (Quantitative Trait Locus), would also depend on the complexity of the trait and the analyzed method. Two articles were developed to answer these questions. In the first article, the objective was to evaluate the general accuracy and the variability of the prediction performance of methods based on ML (Decision Tree, Boosting, Bagging, Random Forest, and MARS - Multivariate Adaptive Regression Splines) and ANN (Multilayer Perceptron, Radial Basis). Function) compared to G-BLUP in genomic prediction analyses for simulated traits with different numbers of genes in the presence of epistasis and with different degrees of heritability. In the second article, the objective was to evaluate the methods in the association of important markers identified with the regions of the presence of QTLs, through the simulated dataset, considering traits with different numbers of genes in the presence of epistasis and heritability different. An F2 population in Hardy-Weinberg equilibrium was simulated, consisting of 1000 individuals and 10 linkage groups of 200 cM each, corresponding to 4010 SNP (Single Nucleotide Polymorphism). For prediction, the increase in the number of QTLs mainly benefited the neural network methods and the G-BLUP for R² and REQM. For the other methods, in the scenarios of 40 QTLs or more, the increase in the number of QTLs positively affected the results of the evaluated parameters. The variation in heritability caused an inverse effect on the values of R² and REQM. Non-additive MARS methods showed high R² for oligogenic traits and for polygenic traits with high heritability and 240 QTLs or more. Regarding the identification of markers associated with QTLs, most methods showed a higher rate of success in identifying markers in scenarios with fewer QTLs and higher heritability. MARS 3 and Boosting showed a high ability to identify important markers, considering the regions associated with QTLs. The highest error rate also occurred in scenarios with fewer QTLs, but with lower heritability. Heritability positively affected the relative index in the identification of markers associated with QTLs. In scenarios of 40 QTLs or more, increasing the number of QTLs also positively affected the relative index for most methods. However, the best results were found for the scenario with the highest heritability and with 8 QTLs. The MARS 1, MARS 2, Boosting and Bagging methods were the most effective in detecting important markers along the genome, mainly for traits with 8 and 240 QTLs. The variation in heritability and in the number of QTLs impacted the performance of the methods for both prediction and identification of markers associated with QTLs. Thus, the distribution of QTLs in linkage groups can be the main attribute to be evaluated in the prediction of breeding values and identification of marks associated with QTLs, when the experiment is well conducted in order to obtain a greater value for heritability. The ML and ANN methods showed high potential for predicting genetic values in traits with dominant and epistatic effects. As for the identification of markers associated with regions of the presence of QTLs, machine learning methods are more efficient. The use of different statistical methods, neural networks, and machine learning resulted in different consequences influenced by the complexity and particularity of the analyzed traits. Therefore, it is recommended that when evaluating the prediction of breeding values and the importance of markers, the use of multiple approaches is used, in order to choose the best method to be used. Keywords: Artificial intelligence. Genomic wide selection. Variables importance. Quantitative Trait Loci.porUniversidade Federal de ViçosaGenética e MelhoramentoMapeamento cromossômicoMarcadores genéticosAprendizado do computadorInteligência computacionalRedes neurais (Computação)Epistasia (Genética)Genética QuantitativaEficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadoresEfficiency of machine learning and neural networks in genomic prediction and identification of markersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de Biologia GeralDoutor em Genética e MelhoramentoViçosa - MG2022-05-17Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf4994016https://locus.ufv.br//bitstream/123456789/29284/1/texto%20completo.pdf67698bc1e88201aee63323c2e9f3e273MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/29284/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/292842022-07-04 13:37:25.772oai:locus.ufv.br:123456789/29284Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-07-04T16:37:25LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
dc.title.en.fl_str_mv Efficiency of machine learning and neural networks in genomic prediction and identification of markers
title Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
spellingShingle Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
Costa, Weverton Gomes da
Mapeamento cromossômico
Marcadores genéticos
Aprendizado do computador
Inteligência computacional
Redes neurais (Computação)
Epistasia (Genética)
Genética Quantitativa
title_short Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_full Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_fullStr Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_full_unstemmed Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_sort Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
author Costa, Weverton Gomes da
author_facet Costa, Weverton Gomes da
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/2723811288754046
dc.contributor.author.fl_str_mv Costa, Weverton Gomes da
dc.contributor.advisor1.fl_str_mv Cruz, Cosme Damião
contributor_str_mv Cruz, Cosme Damião
dc.subject.pt-BR.fl_str_mv Mapeamento cromossômico
Marcadores genéticos
Aprendizado do computador
Inteligência computacional
Redes neurais (Computação)
Epistasia (Genética)
topic Mapeamento cromossômico
Marcadores genéticos
Aprendizado do computador
Inteligência computacional
Redes neurais (Computação)
Epistasia (Genética)
Genética Quantitativa
dc.subject.cnpq.fl_str_mv Genética Quantitativa
description A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-07-04T16:36:58Z
dc.date.available.fl_str_mv 2022-07-04T16:36:58Z
dc.date.issued.fl_str_mv 2022-05-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/29284
dc.identifier.doi.pt-BR.fl_str_mv https://doi.org/10.47328/ufvbbt.2022.326
identifier_str_mv COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
url https://locus.ufv.br//handle/123456789/29284
https://doi.org/10.47328/ufvbbt.2022.326
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Genética e Melhoramento
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/29284/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/29284/2/license.txt
bitstream.checksum.fl_str_mv 67698bc1e88201aee63323c2e9f3e273
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528711377158144