Análise de fatores para redução de dimensionalidade em estudos de predição genômica

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Oliveira, Cristiano Ferreira
Orientador(a): Cruz, Cosme Damião
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Estatística Aplicada e Biometria
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: https://locus.ufv.br//handle/123456789/30729
https://doi.org/10.47328/ufvbbt.2023.026
Resumo: O conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.
id UFV_d5f9673aa2965f3cc262a4938146bb58
oai_identifier_str oai:locus.ufv.br:123456789/30729
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Nascimento, MoysésOliveira, Cristiano FerreiraCruz, Cosme Damião2023-04-18T11:45:18Z2023-04-18T11:45:18Z2022-12-12OLIVEIRA, Cristiano Ferreira. Análise de fatores para redução de dimensionalidade em estudos de predição genômica. 2022. 63 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.https://locus.ufv.br//handle/123456789/30729https://doi.org/10.47328/ufvbbt.2023.026O conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.The concept of genomic selection is based on the linkage disequilibrium (LD) between quantitative trait loci (QTLs) and markers. A genetic variation that is related to the way the phenotype is expressed leads to multiple statistical associations in close markers in terms of factorial linkage or disequilibrium, these associations may or may not be cause and effect. Thus, when building predictive models, it is generally not known which SNPs have a cause-and-effect association with the phenotype of interest, consequently, the model is built using all genotypic information. To increase the accuracy of prediction models, different marker selection approaches have been proposed. Strategies used for this are selecting previously reported SNPs in association studies for the trait of interest, estimating the significance of SNPs in the dataset for each trait using a predictive model and the effect of markers estimated by the model, or selecting subsets of markers evenly spaced throughout the genome. Among the approaches mentioned above, selection evenly spaced throughout the genome is the most versatile, since a low-density panel formed through it can be used in studies to predict the genetic values of any trait, unlike the other approaches mentioned. However, this selection is subject to the possibility of completely excluding blocks of haplotypes in LD related to the phenotype of interest. This work was developed with the aim of proposing an approach for selecting spaced markers within blocks of haplotypes constructed using Factor Analysis (FA). We show, using simulated data, that Factor Analysis can be used to build blocks of haplotypes, being able to synthesize the linear relationship between markers and create common factors that can be interpreted as blocks of LD. Next, we used this approach to build the blocks in a soybean dataset, containing 41985 SNPs type markers with information from 20087 soybean accessions, and then the spaced selection was made within the blocks formed from the FA. Three panels of SNPs were considered, containing 1%, 5% and 100% of the markers. To assess the success of this approach, the accuracy of a task to predict the phenotypic value of individuals using the reduced panels and the full panel was considered. The results show that when using the reduced panels there is no significant difference in selective accuracy compared to the accuracy obtained usingthe full panel and for one of the evaluated characteristics no significant difference was found for predictive accuracy. Keywords: Dissertation. SNP. GWS. Marker Selection. Factor Analysis. Soybean. Machine Learning. Haplotype Blocks.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaEstatística Aplicada e BiometriaSoja - Melhoramento GeneticoPolimorfismos de nucleotídeo unicoMarcadores genéticos - SeleçãoAnalise fatorialAprendizado do computadorHaplótiposProbabilidade e Estatística AplicadaAnálise de fatores para redução de dimensionalidade em estudos de predição genômicaFactor Analysis for dimensionality reduction in genomic prediction studiesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de EstatísticaDoutor em Estatística Aplicada e BiometriaViçosa - MG2022-12-12Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1678918https://locus.ufv.br//bitstream/123456789/30729/1/texto%20completo.pdf56839aef90999398d0dbb03dfe8c580aMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/30729/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/307292023-04-18 08:46:49.878oai:locus.ufv.br:123456789/30729Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452023-04-18T11:46:49LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Análise de fatores para redução de dimensionalidade em estudos de predição genômica
dc.title.en.fl_str_mv Factor Analysis for dimensionality reduction in genomic prediction studies
title Análise de fatores para redução de dimensionalidade em estudos de predição genômica
spellingShingle Análise de fatores para redução de dimensionalidade em estudos de predição genômica
Oliveira, Cristiano Ferreira
Soja - Melhoramento Genetico
Polimorfismos de nucleotídeo unico
Marcadores genéticos - Seleção
Analise fatorial
Aprendizado do computador
Haplótipos
Probabilidade e Estatística Aplicada
title_short Análise de fatores para redução de dimensionalidade em estudos de predição genômica
title_full Análise de fatores para redução de dimensionalidade em estudos de predição genômica
title_fullStr Análise de fatores para redução de dimensionalidade em estudos de predição genômica
title_full_unstemmed Análise de fatores para redução de dimensionalidade em estudos de predição genômica
title_sort Análise de fatores para redução de dimensionalidade em estudos de predição genômica
author Oliveira, Cristiano Ferreira
author_facet Oliveira, Cristiano Ferreira
author_role author
dc.contributor.none.fl_str_mv Nascimento, Moysés
dc.contributor.author.fl_str_mv Oliveira, Cristiano Ferreira
dc.contributor.advisor1.fl_str_mv Cruz, Cosme Damião
contributor_str_mv Cruz, Cosme Damião
dc.subject.pt-BR.fl_str_mv Soja - Melhoramento Genetico
Polimorfismos de nucleotídeo unico
Marcadores genéticos - Seleção
Analise fatorial
Aprendizado do computador
Haplótipos
topic Soja - Melhoramento Genetico
Polimorfismos de nucleotídeo unico
Marcadores genéticos - Seleção
Analise fatorial
Aprendizado do computador
Haplótipos
Probabilidade e Estatística Aplicada
dc.subject.cnpq.fl_str_mv Probabilidade e Estatística Aplicada
description O conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.
publishDate 2022
dc.date.issued.fl_str_mv 2022-12-12
dc.date.accessioned.fl_str_mv 2023-04-18T11:45:18Z
dc.date.available.fl_str_mv 2023-04-18T11:45:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv OLIVEIRA, Cristiano Ferreira. Análise de fatores para redução de dimensionalidade em estudos de predição genômica. 2022. 63 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/30729
dc.identifier.doi.pt-BR.fl_str_mv https://doi.org/10.47328/ufvbbt.2023.026
identifier_str_mv OLIVEIRA, Cristiano Ferreira. Análise de fatores para redução de dimensionalidade em estudos de predição genômica. 2022. 63 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.
url https://locus.ufv.br//handle/123456789/30729
https://doi.org/10.47328/ufvbbt.2023.026
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Estatística Aplicada e Biometria
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/30729/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/30729/2/license.txt
bitstream.checksum.fl_str_mv 56839aef90999398d0dbb03dfe8c580a
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528675596599296