Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores

Costa, Weverton Gomes da

Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Costa, Weverton Gomes da
Orientador(a):	Cruz, Cosme Damião
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Viçosa
Programa de Pós-Graduação:	Genética e Melhoramento
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Área do conhecimento CNPq:	Genética Quantitativa
Link de acesso:	https://locus.ufv.br//handle/123456789/29284 https://doi.org/10.47328/ufvbbt.2022.326
Resumo:	A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.

Metadados do item

id	UFV_3ec752d2723373b29bb1903b6d1e69d9
oai_identifier_str	oai:locus.ufv.br:123456789/29284
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str
spelling	Costa, Weverton Gomes dahttp://lattes.cnpq.br/2723811288754046Cruz, Cosme Damião2022-07-04T16:36:58Z2022-07-04T16:36:58Z2022-05-17COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.https://locus.ufv.br//handle/123456789/29284https://doi.org/10.47328/ufvbbt.2022.326A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.Genomic wide selection (GWS) uses molecular markers distributed throughout the genome in order to predict the genetic merit of plants and animals. Machine learning (ML) and artificial neural networks (ANN) methods are not parameterized and can develop more accurate and parsimonious models for GWS analysis. In order to evaluate different ML and ANN methods to evaluate prediction based on GWS, we proposed two questions to be answered by this research project. The first is that different methods would provide different predictions according to the complexity of the analyzed traits and the second would be that the identification of markers associated with QTLs (Quantitative Trait Locus), would also depend on the complexity of the trait and the analyzed method. Two articles were developed to answer these questions. In the first article, the objective was to evaluate the general accuracy and the variability of the prediction performance of methods based on ML (Decision Tree, Boosting, Bagging, Random Forest, and MARS - Multivariate Adaptive Regression Splines) and ANN (Multilayer Perceptron, Radial Basis). Function) compared to G-BLUP in genomic prediction analyses for simulated traits with different numbers of genes in the presence of epistasis and with different degrees of heritability. In the second article, the objective was to evaluate the methods in the association of important markers identified with the regions of the presence of QTLs, through the simulated dataset, considering traits with different numbers of genes in the presence of epistasis and heritability different. An F2 population in Hardy-Weinberg equilibrium was simulated, consisting of 1000 individuals and 10 linkage groups of 200 cM each, corresponding to 4010 SNP (Single Nucleotide Polymorphism). For prediction, the increase in the number of QTLs mainly benefited the neural network methods and the G-BLUP for R² and REQM. For the other methods, in the scenarios of 40 QTLs or more, the increase in the number of QTLs positively affected the results of the evaluated parameters. The variation in heritability caused an inverse effect on the values of R² and REQM. Non-additive MARS methods showed high R² for oligogenic traits and for polygenic traits with high heritability and 240 QTLs or more. Regarding the identification of markers associated with QTLs, most methods showed a higher rate of success in identifying markers in scenarios with fewer QTLs and higher heritability. MARS 3 and Boosting showed a high ability to identify important markers, considering the regions associated with QTLs. The highest error rate also occurred in scenarios with fewer QTLs, but with lower heritability. Heritability positively affected the relative index in the identification of markers associated with QTLs. In scenarios of 40 QTLs or more, increasing the number of QTLs also positively affected the relative index for most methods. However, the best results were found for the scenario with the highest heritability and with 8 QTLs. The MARS 1, MARS 2, Boosting and Bagging methods were the most effective in detecting important markers along the genome, mainly for traits with 8 and 240 QTLs. The variation in heritability and in the number of QTLs impacted the performance of the methods for both prediction and identification of markers associated with QTLs. Thus, the distribution of QTLs in linkage groups can be the main attribute to be evaluated in the prediction of breeding values and identification of marks associated with QTLs, when the experiment is well conducted in order to obtain a greater value for heritability. The ML and ANN methods showed high potential for predicting genetic values in traits with dominant and epistatic effects. As for the identification of markers associated with regions of the presence of QTLs, machine learning methods are more efficient. The use of different statistical methods, neural networks, and machine learning resulted in different consequences influenced by the complexity and particularity of the analyzed traits. Therefore, it is recommended that when evaluating the prediction of breeding values and the importance of markers, the use of multiple approaches is used, in order to choose the best method to be used. Keywords: Artificial intelligence. Genomic wide selection. Variables importance. Quantitative Trait Loci.porUniversidade Federal de ViçosaGenética e MelhoramentoMapeamento cromossômicoMarcadores genéticosAprendizado do computadorInteligência computacionalRedes neurais (Computação)Epistasia (Genética)Genética QuantitativaEficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadoresEfficiency of machine learning and neural networks in genomic prediction and identification of markersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de Biologia GeralDoutor em Genética e MelhoramentoViçosa - MG2022-05-17Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf4994016https://locus.ufv.br//bitstream/123456789/29284/1/texto%20completo.pdf67698bc1e88201aee63323c2e9f3e273MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/29284/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/292842022-07-04 13:37:25.772oai:locus.ufv.br:123456789/29284Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-07-04T16:37:25LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
dc.title.en.fl_str_mv	Efficiency of machine learning and neural networks in genomic prediction and identification of markers
title	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
spellingShingle	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores Costa, Weverton Gomes da Mapeamento cromossômico Marcadores genéticos Aprendizado do computador Inteligência computacional Redes neurais (Computação) Epistasia (Genética) Genética Quantitativa
title_short	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_full	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_fullStr	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_full_unstemmed	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
title_sort	Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores
author	Costa, Weverton Gomes da
author_facet	Costa, Weverton Gomes da
author_role	author
dc.contributor.authorLattes.pt-BR.fl_str_mv	http://lattes.cnpq.br/2723811288754046
dc.contributor.author.fl_str_mv	Costa, Weverton Gomes da
dc.contributor.advisor1.fl_str_mv	Cruz, Cosme Damião
contributor_str_mv	Cruz, Cosme Damião
dc.subject.pt-BR.fl_str_mv	Mapeamento cromossômico Marcadores genéticos Aprendizado do computador Inteligência computacional Redes neurais (Computação) Epistasia (Genética)
topic	Mapeamento cromossômico Marcadores genéticos Aprendizado do computador Inteligência computacional Redes neurais (Computação) Epistasia (Genética) Genética Quantitativa
dc.subject.cnpq.fl_str_mv	Genética Quantitativa
description	A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa.
publishDate	2022
dc.date.accessioned.fl_str_mv	2022-07-04T16:36:58Z
dc.date.available.fl_str_mv	2022-07-04T16:36:58Z
dc.date.issued.fl_str_mv	2022-05-17
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
dc.identifier.uri.fl_str_mv	https://locus.ufv.br//handle/123456789/29284
dc.identifier.doi.pt-BR.fl_str_mv	https://doi.org/10.47328/ufvbbt.2022.326
identifier_str_mv	COSTA, Weverton Gomes da. Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores. 2022. 120 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
url	https://locus.ufv.br//handle/123456789/29284 https://doi.org/10.47328/ufvbbt.2022.326
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv	Genética e Melhoramento
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv	https://locus.ufv.br//bitstream/123456789/29284/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/29284/2/license.txt
bitstream.checksum.fl_str_mv	67698bc1e88201aee63323c2e9f3e273 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1794528711377158144

Eficiência de técnicas de machine learning e de redes neurais na predição genômica e identificação de marcadores

Registros relacionados