Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Begnami, Vinicius Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Estatística Aplicada e Biometria
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br//handle/123456789/31853
https://doi.org/10.47328/ufvbbt.2023.607
Resumo: Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.
id UFV_8a61cb5b797e08778604ec154dee376a
oai_identifier_str oai:locus.ufv.br:123456789/31853
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômicaMarker Selection Using Posterior Probability of Inclusion in the Genomic Prediction ModelBioestatíticaGenômicaMarcadores genéticosMelhoramento genéticoEstatística Aplicada e BiometriaCom o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.With the growing global population, the demand for food is increasing every day, even as arable land areas approach their territorial limits. One solution to address this challenge is the practice of genetic improvement, which is gaining increasing prominence due to its ability to enhance productivity and improve the quality of food within the confines of existing cultivation areas. With advances in molecular genetics, it has become possible to obtain genetic information directly from DNA through molecular markers, particularly Single Nucleotide Polymorphism (SNP), which have been used in Genome-Wide Selection (GWS) studies. GWS aims to estimate genomic breeding values (GEBV) of individuals under study based on genotypic information. However, when adjusting the prediction equation, high dimensionality and multicollinearity pose challenges, as the number of markers is much larger than the number of evaluated individuals. Since not all markers in the genome influence a specific phenotypic trait, it is common practice to conduct a prior selection of these markers. In this context, this study proposes to select the most important markers for genomic prediction based on their inclusion probability. To achieve this, the dissertation is divided into two chapters. Chapter 1 consists of a literature review on the statistical methodologies to be applied in the following chapter. Chapter 2 aims to select the most important markers from a real dataset derived from Oryza Sativa rice, containing 413 genotyped accessions with 44,100 SNP markers, using their posterior inclusion probability. The calculation of this probability is supported by the marker molecular effects matrix, estimated through the BayesD method, and the total number of saved iterations. After the selection of the most important markers, they are grouped into sets of 2,000, 4,000, 6,000, ..., up to 36,901 markers, according to their importance. Subsequently, each group has its effect estimated by the BayesA method, and the predictive ability of the prediction model is calculated. This metric is compared to the predictive ability of prediction models adjusted by the Bayesian methods, BayesA and BayesD separately, without prior marker selection. The results obtained indicate that the selection of the most important markers for genomicprediction has proven to be efficient, as its exhibits high predictive ability compared to the BayesA and BayesD methods when used in isolation and without prior selection. Furthermore, the posterior inclusion probability has also proven effective in understanding the genetic architecture of the trait under study. Thus, marker selection contributes to the reduction of high dimensionality, an increase in the predictive ability of the genomic prediction model, and a reduction in computational effort, addressing recurring issues in genomic selection. Keywords: Molecular Markers. Rice. Genomic Selection. Genetics. Genetic Breeding.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de ViçosaEstatística Aplicada e BiometriaAzevedo, Camila Ferreirahttp://lattes.cnpq.br/3707637931879411Begnami, Vinicius Silva2023-11-27T17:19:07Z2023-11-27T17:19:07Z2023-07-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfBEGNAMI, Vinicius Silva. Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica. 2023. 56 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.https://locus.ufv.br//handle/123456789/31853https://doi.org/10.47328/ufvbbt.2023.607porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-07-12T07:49:16Zoai:locus.ufv.br:123456789/31853Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-07-12T07:49:16LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
Marker Selection Using Posterior Probability of Inclusion in the Genomic Prediction Model
title Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
spellingShingle Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
Begnami, Vinicius Silva
Bioestatítica
Genômica
Marcadores genéticos
Melhoramento genético
Estatística Aplicada e Biometria
title_short Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
title_full Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
title_fullStr Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
title_full_unstemmed Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
title_sort Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
author Begnami, Vinicius Silva
author_facet Begnami, Vinicius Silva
author_role author
dc.contributor.none.fl_str_mv Azevedo, Camila Ferreira
http://lattes.cnpq.br/3707637931879411
dc.contributor.author.fl_str_mv Begnami, Vinicius Silva
dc.subject.por.fl_str_mv Bioestatítica
Genômica
Marcadores genéticos
Melhoramento genético
Estatística Aplicada e Biometria
topic Bioestatítica
Genômica
Marcadores genéticos
Melhoramento genético
Estatística Aplicada e Biometria
description Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-27T17:19:07Z
2023-11-27T17:19:07Z
2023-07-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BEGNAMI, Vinicius Silva. Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica. 2023. 56 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.
https://locus.ufv.br//handle/123456789/31853
https://doi.org/10.47328/ufvbbt.2023.607
identifier_str_mv BEGNAMI, Vinicius Silva. Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica. 2023. 56 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.
url https://locus.ufv.br//handle/123456789/31853
https://doi.org/10.47328/ufvbbt.2023.607
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
Estatística Aplicada e Biometria
publisher.none.fl_str_mv Universidade Federal de Viçosa
Estatística Aplicada e Biometria
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1855045692730376192