Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Moraes, Francyse Edite de Oliveira Chagas de
Orientador(a): Cruz, Cosme Damião
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Genética e Melhoramento
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: https://locus.ufv.br//handle/123456789/31504
https://doi.org/10.47328/ufvbbt.2022.578
Resumo: O presente estudo avaliou o impacto do uso de diferentes conjuntos de marcadores sobre a eficiência da predição utilizando as técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest. As técnicas foram analisadas em relação a seis características. As características foram controladas pelos mesmos quarenta genes com diferentes herdabilidades (0,4, 0,6 e 0,8) acrescidos, ou não, por quatro genes com efeitos maiores de herdabilidade igual a um. O grau médio de dominância adotado foi um para todas as características. Dentro de cada gene havia um marcador. Os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Ao simular a aleatorização envolvida na formação dos gametas que originaram a população, pode segregar as marcas diferentemente do que era desejado. Além disso, os dados fenotípicos e genotípicos gerados podem ser diferentes dos pretendidos. No primeiro capítulo foi analisada a qualidade dos dados em relação a esses fatores. Foi testado se o conjunto de dados obtido por simulação expressava o padrão fenotípico e/ou genotípico das diversas características e se os marcadores segregavam corretamente. Encontrou-se que das 2010 marcas simuladas, somente cinco não segregavam como o esperado. As marcas estavam distribuídas equitativamente em dez grupos de ligação e por meio dos resultados de desequilíbrio de ligação. Mesmo com as marcas distorcidas, foi possível recuperar a ordem e a posição desses grupos. Em relação aos dados fenotípicos, encontrou-se que as características controladas por quarenta genes (x1, x3 e x5) possuíam uma média de 127,97 e as características controladas por quarenta e quatro genes (x 2, x4 e x6) possuíam uma média de 220,21, independentemente da herdabilidade. As variâncias foram todas diferentes, mas com o padrão das que eram controladas por quarenta genes serem menores do que as controladas por quarenta e quatro genes. Ao se fazer a correlação entre os valores fenotípicos e valores genotípicos, recuperou- se o valor da herdabilidade das características próximo ao estipulado pela simulação. Observou-se que a presença de genes de efeitos maiores aumentava a herdabilidade, facilitando o estabelecimento de classes de discriminação genotípica. Ao se plotar os dados para análise da distribuição fenotípica, observou-se distribuição contínua em x1, x3 e x5. Em x2, x4 e x6 foi visto padrão contínuo com tendência a estabilização e formação de duas regiões modais. Os dados simulados remetiam ao que era esperado, podendo ser usado nas análises. No segundo capítulo, foi analisada a eficiência da predição por meio da capacidade preditiva (r2) e da raiz do erro quadrado médio (REQM) das técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest em cinco diferentes conjuntos de marcadores. Como mencionado anteriormente, os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Como foram simulados dez grupos de ligação com 201 marcas codominantes em cada, havia 1608 marcas diretamente ou indiretamente relacionadas aos genes e 402 marcas desnecessárias a predição. A formação dos conjuntos de marcadores levou essas informações como critério. No grupo um, estavam todos os marcadores. No grupo dois, os 1608 marcadores diretamente ou indiretamente relacionados aos genes. No grupo três, os quarenta e quatro marcadores dentro dos genes e os 402 marcadores não relacionados. No grupo quatro, os 402 marcadores desnecessários a predição. No grupo cinco, os quarenta e quatro marcadores diretamente relacionados aos genes controladores. Ao se analisar o r2 e REQM das técnicas, observou-se que a maioria delas promoveu resultados péssimos na situação quatro. A técnica árvore de decisão chegou a não obter os valores em algumas repetições. Como nessa situação não havia marcadores relacionados as características, era esperado que em nenhuma técnica fosse possível obter resultados. A explicação veio pelo RR-BLUP. Ele forneceu o efeito dos marcadores sobre as características. Foram encontrados efeitos falsos positivos relacionados às 402 marcas desnecessárias a predição. Continuando-se as análises, foi observado que as técnicas bagging e boosting obtiveram os maiores valores de r2 entre todas as técnicas (0,880 e 0,815, respectivamente) e os menores valores de REQM (5,852 e 5,853). A maioria dos valores foi obtida do quinto conjunto de dados e, ou não diferiu significativamente dos outros conjuntos, ou foi diferente apenas do conjunto quatro (sem marcadores relacionados). Resultado diferente foi observado para a random forest. Ela foi a mais sensível, tanto aos diferentes subconjuntos de marcadores quanto as diferentes características. Para o quinto conjunto de marcadores, obteve r2 para as características x3, x4, x5 e x6, respectivamente iguais a 0,371; 0,720; 0,514 e 0,788. Para REQM, obteve, naquele mesmo conjunto, em x 3 e x5, respectivamente, 10,280 e 8,371. Esses valores foram os melhores e diferentes significativamente dos obtidos para as mesmas características nos outros quatro conjuntos. Os resultados obtidos mostram que o uso de diferentes técnicas exploram melhor o conjunto de dados. Também mostra que o descarte de marcadores desnecessários não prejudica o processo preditivo, algumas vezes até o melhora, sendo recomendável. Trabalhos futuros deveriam se concentrar na identificação dos marcadores diretamente envolvidos com as características. Palavras-chave: Simulação. Capacidade preditiva. Raiz do erro quadrado médio. RR- BLUP. Aprendizado de máquina.
id UFV_6bc296e4c4fb16482fbb4a431e555616
oai_identifier_str oai:locus.ufv.br:123456789/31504
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Moraes, Francyse Edite de Oliveira Chagas dehttp://lattes.cnpq.br/8188454663294888Cruz, Cosme Damião2023-09-18T13:16:03Z2023-09-18T13:16:03Z2022-07-25MORAES, Francyse Edite de Oliveira Chagas de. Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características. 2022. 82 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.https://locus.ufv.br//handle/123456789/31504https://doi.org/10.47328/ufvbbt.2022.578O presente estudo avaliou o impacto do uso de diferentes conjuntos de marcadores sobre a eficiência da predição utilizando as técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest. As técnicas foram analisadas em relação a seis características. As características foram controladas pelos mesmos quarenta genes com diferentes herdabilidades (0,4, 0,6 e 0,8) acrescidos, ou não, por quatro genes com efeitos maiores de herdabilidade igual a um. O grau médio de dominância adotado foi um para todas as características. Dentro de cada gene havia um marcador. Os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Ao simular a aleatorização envolvida na formação dos gametas que originaram a população, pode segregar as marcas diferentemente do que era desejado. Além disso, os dados fenotípicos e genotípicos gerados podem ser diferentes dos pretendidos. No primeiro capítulo foi analisada a qualidade dos dados em relação a esses fatores. Foi testado se o conjunto de dados obtido por simulação expressava o padrão fenotípico e/ou genotípico das diversas características e se os marcadores segregavam corretamente. Encontrou-se que das 2010 marcas simuladas, somente cinco não segregavam como o esperado. As marcas estavam distribuídas equitativamente em dez grupos de ligação e por meio dos resultados de desequilíbrio de ligação. Mesmo com as marcas distorcidas, foi possível recuperar a ordem e a posição desses grupos. Em relação aos dados fenotípicos, encontrou-se que as características controladas por quarenta genes (x1, x3 e x5) possuíam uma média de 127,97 e as características controladas por quarenta e quatro genes (x 2, x4 e x6) possuíam uma média de 220,21, independentemente da herdabilidade. As variâncias foram todas diferentes, mas com o padrão das que eram controladas por quarenta genes serem menores do que as controladas por quarenta e quatro genes. Ao se fazer a correlação entre os valores fenotípicos e valores genotípicos, recuperou- se o valor da herdabilidade das características próximo ao estipulado pela simulação. Observou-se que a presença de genes de efeitos maiores aumentava a herdabilidade, facilitando o estabelecimento de classes de discriminação genotípica. Ao se plotar os dados para análise da distribuição fenotípica, observou-se distribuição contínua em x1, x3 e x5. Em x2, x4 e x6 foi visto padrão contínuo com tendência a estabilização e formação de duas regiões modais. Os dados simulados remetiam ao que era esperado, podendo ser usado nas análises. No segundo capítulo, foi analisada a eficiência da predição por meio da capacidade preditiva (r2) e da raiz do erro quadrado médio (REQM) das técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest em cinco diferentes conjuntos de marcadores. Como mencionado anteriormente, os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Como foram simulados dez grupos de ligação com 201 marcas codominantes em cada, havia 1608 marcas diretamente ou indiretamente relacionadas aos genes e 402 marcas desnecessárias a predição. A formação dos conjuntos de marcadores levou essas informações como critério. No grupo um, estavam todos os marcadores. No grupo dois, os 1608 marcadores diretamente ou indiretamente relacionados aos genes. No grupo três, os quarenta e quatro marcadores dentro dos genes e os 402 marcadores não relacionados. No grupo quatro, os 402 marcadores desnecessários a predição. No grupo cinco, os quarenta e quatro marcadores diretamente relacionados aos genes controladores. Ao se analisar o r2 e REQM das técnicas, observou-se que a maioria delas promoveu resultados péssimos na situação quatro. A técnica árvore de decisão chegou a não obter os valores em algumas repetições. Como nessa situação não havia marcadores relacionados as características, era esperado que em nenhuma técnica fosse possível obter resultados. A explicação veio pelo RR-BLUP. Ele forneceu o efeito dos marcadores sobre as características. Foram encontrados efeitos falsos positivos relacionados às 402 marcas desnecessárias a predição. Continuando-se as análises, foi observado que as técnicas bagging e boosting obtiveram os maiores valores de r2 entre todas as técnicas (0,880 e 0,815, respectivamente) e os menores valores de REQM (5,852 e 5,853). A maioria dos valores foi obtida do quinto conjunto de dados e, ou não diferiu significativamente dos outros conjuntos, ou foi diferente apenas do conjunto quatro (sem marcadores relacionados). Resultado diferente foi observado para a random forest. Ela foi a mais sensível, tanto aos diferentes subconjuntos de marcadores quanto as diferentes características. Para o quinto conjunto de marcadores, obteve r2 para as características x3, x4, x5 e x6, respectivamente iguais a 0,371; 0,720; 0,514 e 0,788. Para REQM, obteve, naquele mesmo conjunto, em x 3 e x5, respectivamente, 10,280 e 8,371. Esses valores foram os melhores e diferentes significativamente dos obtidos para as mesmas características nos outros quatro conjuntos. Os resultados obtidos mostram que o uso de diferentes técnicas exploram melhor o conjunto de dados. Também mostra que o descarte de marcadores desnecessários não prejudica o processo preditivo, algumas vezes até o melhora, sendo recomendável. Trabalhos futuros deveriam se concentrar na identificação dos marcadores diretamente envolvidos com as características. Palavras-chave: Simulação. Capacidade preditiva. Raiz do erro quadrado médio. RR- BLUP. Aprendizado de máquina.The present study evaluated the impact of the use of different sets of markers on the prediction efficiency using the RR-BLUP, decision tree, bagging, boosting and random forest techniques. The techniques were analyzed in relation to six characteristics. The traits were controlled by the same forty genes with different heritability (0.4, 0.6 and 0.8) plus, or not, by four genes with greater heritability effects equal to one. The average degree of dominance adopted was one for all characteristics. Within each gene was a marker. The minor-effect controller genes were evenly distributed in the first eight linkage groups (GL) and the four major-effect genes were in the first four GL. By simulating the randomization involved in the formation of gametes that gave rise to the population, it can segregate the marks differently from what was desired. In addition, the phenotypic and genotypic data generated may differ from those intended. In the first chapter, the quality of the data in relation to these factors was analyzed. It was tested whether the dataset obtained by simulation expressed the phenotypic and/or genotypic pattern of the different traits and whether the markers segregated correctly. It was found that of the 2010 simulated brands, only five did not segregate as expected. The marks were evenly distributed across ten linkage groups and across linkage disequilibrium results. Even with the distorted marks, it was possible to recover the order and position of these groups. Regarding the phenotypic data, it was found that the traits controlled by forty genes (x1, x3 and x5) had an average of 127.97 and the traits controlled by forty-four genes (x2, x4 and x6) had an average of 220.21, regardless of heritability. The variances were all different, but with the pattern of those controlled by forty genes being smaller than those controlled by forty-four genes. By making the correlation between the phenotypic and genotypic values, the heritability value of the traits close to that stipulated by the simulation was recovered. It was observed that the presence of genes with greater effects increased heritability, facilitating the establishment of genotypic discrimination classes. When plotting the data for analysis of the phenotypic distribution, a continuous distribution was observed in x1, x3 and x5. In x2, x4 and x6 a continuous pattern was seen with a tendency to stabilization and formation of two modal regions. The simulated data referred to what was expected and could be used in the analyses. In the second chapter, the prediction efficiency was analyzed through the predictive capacity (r2) and the root mean square error (REQM) of the RR-BLUP, decision tree, bagging, boosting and random forest techniques in five different sets of markers. . As mentioned earlier, the minor-effect controller genes were evenly distributed in the first eight linkage groups (GL) and the four major-effect genes were in the first four GL. As ten linkage groups were simulated with 201 codominant markers in each, there were 1608 markers directly or indirectly related to genes and 402 markers unnecessary for prediction. The formation of the marker sets took this information as a criterion. In group one, there were all the markers. In group two, the 1608 markers directly or indirectly related to the genes. In group three, the forty-four markers within genes and the 402 unrelated markers. In group four, the 402 markers unnecessary the prediction. In group five, the forty-four markers were directly related to the controlling genes. When analyzing the r 2 and REQM of the techniques, it was observed that most of them promoted poor results in situation four. The decision tree technique did not obtain the values in some repetitions. As in this situation there were no markers related to the characteristics, it was expected that in no technique it would be possible to obtain results. The explanation came from RR-BLUP. It provided the effect of markers on traits. False positive effects were found related to the 402 unnecessary marks for prediction. Continuing the analysis, it was observed that the bagging and boosting techniques obtained the highest values of r2 among all the techniques (0.880 and 0.815, respectively) and the lowest values of REQM (5.852 and 5.853). Most values were obtained from the fifth dataset and either did not differ significantly from the other sets or differed only from set four (no related markers). Different result was observed for random forest. She was the most sensitive, both to different subsets of markers and to different characteristics. For the fifth set of markers, r2 was obtained for the characteristics x3, x4, x5 and x6, respectively equal to 0.371; 0.720; 0.514 and 0.788. For REQM, he obtained, in that same set, at x3 and x5, respectively, 10.280 and 8.371. These values were the best and significantly different from those obtained for the same characteristics in the other four sets. The results obtained show that the use of different techniques better explore the dataset. It also shows that discarding unnecessary markers does not harm the predictive process, sometimes even improves it, which is recommended. Future work should focus on identifying the markers directly involved with the traits.Keywords: Simulation. Predictive capability. Root mean square error. RR-BLUP. Machine learning.porUniversidade Federal de ViçosaGenética e MelhoramentoMapeamento cromossômico - Métodos estatísticosMarcadores genéticosGenética QuantitativaPredição genômica sob diferentes cenários que incluem, ou não, locos controladores de característicasGenomic prediction under different scenarios that include, or not, trait-controlling lociinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de Biologia GeralDoutor em Genética e MelhoramentoViçosa - MG2022-07-25Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf967077https://locus.ufv.br//bitstream/123456789/31504/1/texto%20completo.pdf6c7dd5f622e38bb483236c5089e8aaeaMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/31504/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/315042023-09-18 10:16:03.666oai:locus.ufv.br:123456789/31504Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452023-09-18T13:16:03LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
dc.title.en.fl_str_mv Genomic prediction under different scenarios that include, or not, trait-controlling loci
title Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
spellingShingle Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
Moraes, Francyse Edite de Oliveira Chagas de
Mapeamento cromossômico - Métodos estatísticos
Marcadores genéticos
Genética Quantitativa
title_short Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
title_full Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
title_fullStr Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
title_full_unstemmed Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
title_sort Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
author Moraes, Francyse Edite de Oliveira Chagas de
author_facet Moraes, Francyse Edite de Oliveira Chagas de
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/8188454663294888
dc.contributor.author.fl_str_mv Moraes, Francyse Edite de Oliveira Chagas de
dc.contributor.advisor1.fl_str_mv Cruz, Cosme Damião
contributor_str_mv Cruz, Cosme Damião
dc.subject.pt-BR.fl_str_mv Mapeamento cromossômico - Métodos estatísticos
Marcadores genéticos
topic Mapeamento cromossômico - Métodos estatísticos
Marcadores genéticos
Genética Quantitativa
dc.subject.cnpq.fl_str_mv Genética Quantitativa
description O presente estudo avaliou o impacto do uso de diferentes conjuntos de marcadores sobre a eficiência da predição utilizando as técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest. As técnicas foram analisadas em relação a seis características. As características foram controladas pelos mesmos quarenta genes com diferentes herdabilidades (0,4, 0,6 e 0,8) acrescidos, ou não, por quatro genes com efeitos maiores de herdabilidade igual a um. O grau médio de dominância adotado foi um para todas as características. Dentro de cada gene havia um marcador. Os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Ao simular a aleatorização envolvida na formação dos gametas que originaram a população, pode segregar as marcas diferentemente do que era desejado. Além disso, os dados fenotípicos e genotípicos gerados podem ser diferentes dos pretendidos. No primeiro capítulo foi analisada a qualidade dos dados em relação a esses fatores. Foi testado se o conjunto de dados obtido por simulação expressava o padrão fenotípico e/ou genotípico das diversas características e se os marcadores segregavam corretamente. Encontrou-se que das 2010 marcas simuladas, somente cinco não segregavam como o esperado. As marcas estavam distribuídas equitativamente em dez grupos de ligação e por meio dos resultados de desequilíbrio de ligação. Mesmo com as marcas distorcidas, foi possível recuperar a ordem e a posição desses grupos. Em relação aos dados fenotípicos, encontrou-se que as características controladas por quarenta genes (x1, x3 e x5) possuíam uma média de 127,97 e as características controladas por quarenta e quatro genes (x 2, x4 e x6) possuíam uma média de 220,21, independentemente da herdabilidade. As variâncias foram todas diferentes, mas com o padrão das que eram controladas por quarenta genes serem menores do que as controladas por quarenta e quatro genes. Ao se fazer a correlação entre os valores fenotípicos e valores genotípicos, recuperou- se o valor da herdabilidade das características próximo ao estipulado pela simulação. Observou-se que a presença de genes de efeitos maiores aumentava a herdabilidade, facilitando o estabelecimento de classes de discriminação genotípica. Ao se plotar os dados para análise da distribuição fenotípica, observou-se distribuição contínua em x1, x3 e x5. Em x2, x4 e x6 foi visto padrão contínuo com tendência a estabilização e formação de duas regiões modais. Os dados simulados remetiam ao que era esperado, podendo ser usado nas análises. No segundo capítulo, foi analisada a eficiência da predição por meio da capacidade preditiva (r2) e da raiz do erro quadrado médio (REQM) das técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest em cinco diferentes conjuntos de marcadores. Como mencionado anteriormente, os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Como foram simulados dez grupos de ligação com 201 marcas codominantes em cada, havia 1608 marcas diretamente ou indiretamente relacionadas aos genes e 402 marcas desnecessárias a predição. A formação dos conjuntos de marcadores levou essas informações como critério. No grupo um, estavam todos os marcadores. No grupo dois, os 1608 marcadores diretamente ou indiretamente relacionados aos genes. No grupo três, os quarenta e quatro marcadores dentro dos genes e os 402 marcadores não relacionados. No grupo quatro, os 402 marcadores desnecessários a predição. No grupo cinco, os quarenta e quatro marcadores diretamente relacionados aos genes controladores. Ao se analisar o r2 e REQM das técnicas, observou-se que a maioria delas promoveu resultados péssimos na situação quatro. A técnica árvore de decisão chegou a não obter os valores em algumas repetições. Como nessa situação não havia marcadores relacionados as características, era esperado que em nenhuma técnica fosse possível obter resultados. A explicação veio pelo RR-BLUP. Ele forneceu o efeito dos marcadores sobre as características. Foram encontrados efeitos falsos positivos relacionados às 402 marcas desnecessárias a predição. Continuando-se as análises, foi observado que as técnicas bagging e boosting obtiveram os maiores valores de r2 entre todas as técnicas (0,880 e 0,815, respectivamente) e os menores valores de REQM (5,852 e 5,853). A maioria dos valores foi obtida do quinto conjunto de dados e, ou não diferiu significativamente dos outros conjuntos, ou foi diferente apenas do conjunto quatro (sem marcadores relacionados). Resultado diferente foi observado para a random forest. Ela foi a mais sensível, tanto aos diferentes subconjuntos de marcadores quanto as diferentes características. Para o quinto conjunto de marcadores, obteve r2 para as características x3, x4, x5 e x6, respectivamente iguais a 0,371; 0,720; 0,514 e 0,788. Para REQM, obteve, naquele mesmo conjunto, em x 3 e x5, respectivamente, 10,280 e 8,371. Esses valores foram os melhores e diferentes significativamente dos obtidos para as mesmas características nos outros quatro conjuntos. Os resultados obtidos mostram que o uso de diferentes técnicas exploram melhor o conjunto de dados. Também mostra que o descarte de marcadores desnecessários não prejudica o processo preditivo, algumas vezes até o melhora, sendo recomendável. Trabalhos futuros deveriam se concentrar na identificação dos marcadores diretamente envolvidos com as características. Palavras-chave: Simulação. Capacidade preditiva. Raiz do erro quadrado médio. RR- BLUP. Aprendizado de máquina.
publishDate 2022
dc.date.issued.fl_str_mv 2022-07-25
dc.date.accessioned.fl_str_mv 2023-09-18T13:16:03Z
dc.date.available.fl_str_mv 2023-09-18T13:16:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MORAES, Francyse Edite de Oliveira Chagas de. Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características. 2022. 82 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/31504
dc.identifier.doi.pt-BR.fl_str_mv https://doi.org/10.47328/ufvbbt.2022.578
identifier_str_mv MORAES, Francyse Edite de Oliveira Chagas de. Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características. 2022. 82 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2022.
url https://locus.ufv.br//handle/123456789/31504
https://doi.org/10.47328/ufvbbt.2022.578
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Genética e Melhoramento
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/31504/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/31504/2/license.txt
bitstream.checksum.fl_str_mv 6c7dd5f622e38bb483236c5089e8aaea
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528688141762560