Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: ARAÚJO, Gilderlanio Santana de
Orientador(a): COSTA FILHO, Ivan Gesteira da
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/18012
Resumo: O desenvolvimento de técnicas de genotipagem de baixo custo (SNP arrays) e as anotações de milhares de polimorfismos de nucleotídeo único (SNPs) em bancos de dados públicos têm originado um crescente número de estudos de associação em escala genômica (do inglês, Genome-Wide Associations Studies - GWAS). Nesses estudos, um enorme número de SNPs (centenas de milhares) são avaliados com métodos estatísticos univariados de forma a encontrar SNPs associados a um determinado fenótipo. Testes univariados são incapazes de capturar relações de alta ordem entre os SNPs, algo comum em doenças genéticas complexas e são afetados pela alta correlação entre SNPs na mesma região genômica. Métodos de aprendizado de máquina, como o Random Forest (RF), têm sido aplicados em dados de GWAS para realizar a previsão de riscos de doenças e capturar os SNPs associados às mesmas. Apesar de RF ser um método com reconhecido desempenho em dados de alta dimensionalidade e na captura de relações não-lineares, o uso de todos os SNPs presentes em um estudo GWAS é computacionalmente inviável. Neste estudo propomos o uso de redes biológicas para a seleção inicial de SNPs candidatos a serem usados pela RF. A partir de um conjunto inicial de genes já relacionados à doença na literatura, usamos ferramentas de redes de interação gene-gene, para encontrar novos genes que possam estar associados a doença. Logo, é possível extrair um número reduzido de SNPs tornando a aplicação do método RF viável. Os experimentos realizados nesse estudo concentram-se em investigar quais polimorfismos podem influenciar na suscetibilidade à doença de Alzheimer (DA) e ao comprometimento cognitivo leve (MCI). O resultado final das análises é a delineação de uma metodologia para o uso de RF, para a análise de dados de GWAS, assim como a caracterização de potenciais fatores de riscos da DA.
id UFPE_5d62c1663ea217a7b53f1e89cb1efe09
oai_identifier_str oai:repositorio.ufpe.br:123456789/18012
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling ARAÚJO, Gilderlanio Santana dehttp://lattes.cnpq.br/6152771446841901COSTA FILHO, Ivan Gesteira da2016-10-18T19:17:10Z2016-10-18T19:17:10Z2013-03-07https://repositorio.ufpe.br/handle/123456789/18012O desenvolvimento de técnicas de genotipagem de baixo custo (SNP arrays) e as anotações de milhares de polimorfismos de nucleotídeo único (SNPs) em bancos de dados públicos têm originado um crescente número de estudos de associação em escala genômica (do inglês, Genome-Wide Associations Studies - GWAS). Nesses estudos, um enorme número de SNPs (centenas de milhares) são avaliados com métodos estatísticos univariados de forma a encontrar SNPs associados a um determinado fenótipo. Testes univariados são incapazes de capturar relações de alta ordem entre os SNPs, algo comum em doenças genéticas complexas e são afetados pela alta correlação entre SNPs na mesma região genômica. Métodos de aprendizado de máquina, como o Random Forest (RF), têm sido aplicados em dados de GWAS para realizar a previsão de riscos de doenças e capturar os SNPs associados às mesmas. Apesar de RF ser um método com reconhecido desempenho em dados de alta dimensionalidade e na captura de relações não-lineares, o uso de todos os SNPs presentes em um estudo GWAS é computacionalmente inviável. Neste estudo propomos o uso de redes biológicas para a seleção inicial de SNPs candidatos a serem usados pela RF. A partir de um conjunto inicial de genes já relacionados à doença na literatura, usamos ferramentas de redes de interação gene-gene, para encontrar novos genes que possam estar associados a doença. Logo, é possível extrair um número reduzido de SNPs tornando a aplicação do método RF viável. Os experimentos realizados nesse estudo concentram-se em investigar quais polimorfismos podem influenciar na suscetibilidade à doença de Alzheimer (DA) e ao comprometimento cognitivo leve (MCI). O resultado final das análises é a delineação de uma metodologia para o uso de RF, para a análise de dados de GWAS, assim como a caracterização de potenciais fatores de riscos da DA.FACEPEThe development of low cost genotyping techniques (SNP arrays) and annotations of thousands of single nucleotide polymorphisms (SNPs) in public databases has led to an increasing number of Genome-Wide Associations Studies (GWAS). In these studies, a large number of SNPs (hundreds of thousands) are evaluated with univariate statistical methods in order to find SNPs associated with a particular phenotype. Univariate tests are unable to capture high-order relationships among SNPs, which are common in complex genetic diseases, and are affected by the high correlation between SNPs at the same genomic region. Machine learning methods, such as the Random Forest (RF), have been applied to GWAS data to perform the prediction of the risk of diseases and capture a set of SNPs associated with them. Although, RF is a method with recognized performance in high dimensional data and capacity to capture non-linear relationships, the use of all SNPs present in GWAS data is computationally intractable. In this study we propose the use of biological networks for the initial selection of candidate SNPs to be used by RF. From an initial set of genes already related to a disease based on the literature, we use tools for construct gene-gene interaction networks, to find novel genes that might be associated with disease. Therefore, it is possible to extract a small number of SNPs making the method RF feasible. The experiments conducted in this study focus on investigating which polymorphisms may influence the susceptibility of Alzheimer’s disease (AD) and mild cognitive impairment (MCI). This work presents a delineation of a methodology on using RF for analysis of GWAS data, and characterization of potential risk factors for AD.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessGWAS. Random Forest. SNPs. Neuropsiquiatria. Fatores genéticos de risco.GWAS. Random Forest. SNPs. Alzheimer’s Disease. Genetic Risk Factors.Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimerinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDissertacao -Gilderlanio Santana de Araujo.pdf.jpgDissertacao -Gilderlanio Santana de Araujo.pdf.jpgGenerated Thumbnailimage/jpeg1367https://repositorio.ufpe.br/bitstream/123456789/18012/5/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf.jpg8ea087fd7451500359a15f3b0ec4f6c8MD55ORIGINALDissertacao -Gilderlanio Santana de Araujo.pdfDissertacao -Gilderlanio Santana de Araujo.pdfapplication/pdf9533988https://repositorio.ufpe.br/bitstream/123456789/18012/1/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf951b1cf090729a87ebf3a8741ff00ad4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/18012/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/18012/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDissertacao -Gilderlanio Santana de Araujo.pdf.txtDissertacao -Gilderlanio Santana de Araujo.pdf.txtExtracted texttext/plain185492https://repositorio.ufpe.br/bitstream/123456789/18012/4/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf.txt1a93893822e702f45ec5b4336b988a72MD54123456789/180122019-10-25 11:58:25.96oai:repositorio.ufpe.br:123456789/18012TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T14:58:25Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
title Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
spellingShingle Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
ARAÚJO, Gilderlanio Santana de
GWAS. Random Forest. SNPs. Neuropsiquiatria. Fatores genéticos de risco.
GWAS. Random Forest. SNPs. Alzheimer’s Disease. Genetic Risk Factors.
title_short Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
title_full Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
title_fullStr Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
title_full_unstemmed Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
title_sort Uso de random forests e redes biológicas na associação de poliformismos à doença de Alzheimer
author ARAÚJO, Gilderlanio Santana de
author_facet ARAÚJO, Gilderlanio Santana de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6152771446841901
dc.contributor.author.fl_str_mv ARAÚJO, Gilderlanio Santana de
dc.contributor.advisor1.fl_str_mv COSTA FILHO, Ivan Gesteira da
contributor_str_mv COSTA FILHO, Ivan Gesteira da
dc.subject.por.fl_str_mv GWAS. Random Forest. SNPs. Neuropsiquiatria. Fatores genéticos de risco.
GWAS. Random Forest. SNPs. Alzheimer’s Disease. Genetic Risk Factors.
topic GWAS. Random Forest. SNPs. Neuropsiquiatria. Fatores genéticos de risco.
GWAS. Random Forest. SNPs. Alzheimer’s Disease. Genetic Risk Factors.
description O desenvolvimento de técnicas de genotipagem de baixo custo (SNP arrays) e as anotações de milhares de polimorfismos de nucleotídeo único (SNPs) em bancos de dados públicos têm originado um crescente número de estudos de associação em escala genômica (do inglês, Genome-Wide Associations Studies - GWAS). Nesses estudos, um enorme número de SNPs (centenas de milhares) são avaliados com métodos estatísticos univariados de forma a encontrar SNPs associados a um determinado fenótipo. Testes univariados são incapazes de capturar relações de alta ordem entre os SNPs, algo comum em doenças genéticas complexas e são afetados pela alta correlação entre SNPs na mesma região genômica. Métodos de aprendizado de máquina, como o Random Forest (RF), têm sido aplicados em dados de GWAS para realizar a previsão de riscos de doenças e capturar os SNPs associados às mesmas. Apesar de RF ser um método com reconhecido desempenho em dados de alta dimensionalidade e na captura de relações não-lineares, o uso de todos os SNPs presentes em um estudo GWAS é computacionalmente inviável. Neste estudo propomos o uso de redes biológicas para a seleção inicial de SNPs candidatos a serem usados pela RF. A partir de um conjunto inicial de genes já relacionados à doença na literatura, usamos ferramentas de redes de interação gene-gene, para encontrar novos genes que possam estar associados a doença. Logo, é possível extrair um número reduzido de SNPs tornando a aplicação do método RF viável. Os experimentos realizados nesse estudo concentram-se em investigar quais polimorfismos podem influenciar na suscetibilidade à doença de Alzheimer (DA) e ao comprometimento cognitivo leve (MCI). O resultado final das análises é a delineação de uma metodologia para o uso de RF, para a análise de dados de GWAS, assim como a caracterização de potenciais fatores de riscos da DA.
publishDate 2013
dc.date.issued.fl_str_mv 2013-03-07
dc.date.accessioned.fl_str_mv 2016-10-18T19:17:10Z
dc.date.available.fl_str_mv 2016-10-18T19:17:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/18012
url https://repositorio.ufpe.br/handle/123456789/18012
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/18012/5/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/18012/1/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf
https://repositorio.ufpe.br/bitstream/123456789/18012/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/18012/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/18012/4/Dissertacao%20-Gilderlanio%20Santana%20de%20Araujo.pdf.txt
bitstream.checksum.fl_str_mv 8ea087fd7451500359a15f3b0ec4f6c8
951b1cf090729a87ebf3a8741ff00ad4
66e71c371cc565284e70f40736c94386
4b8a02c7f2818eaf00dcf2260dd5eb08
1a93893822e702f45ec5b4336b988a72
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1801858338437201920