Mineração de dados de anemia falciforme e priapismo

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Ozahata, Mina Cintho
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/95/95131/tde-07092019-110857/
Resumo: O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.
id USP_0459f65ca78e259e5e7729ab63a8cb69
oai_identifier_str oai:teses.usp.br:tde-07092019-110857
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Mineração de dados de anemia falciforme e priapismoSickle cell disease and priapism data miningAgrupamentoAnemia falciformeClusteringGWASGWASSIckle cell diseaseO avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk.Biblioteca Digitais de Teses e Dissertações da USPFerreira, João EduardoOzahata, Mina Cintho2019-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/95/95131/tde-07092019-110857/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-11-08T20:38:51Zoai:teses.usp.br:tde-07092019-110857Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-08T20:38:51Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Mineração de dados de anemia falciforme e priapismo
Sickle cell disease and priapism data mining
title Mineração de dados de anemia falciforme e priapismo
spellingShingle Mineração de dados de anemia falciforme e priapismo
Ozahata, Mina Cintho
Agrupamento
Anemia falciforme
Clustering
GWAS
GWAS
SIckle cell disease
title_short Mineração de dados de anemia falciforme e priapismo
title_full Mineração de dados de anemia falciforme e priapismo
title_fullStr Mineração de dados de anemia falciforme e priapismo
title_full_unstemmed Mineração de dados de anemia falciforme e priapismo
title_sort Mineração de dados de anemia falciforme e priapismo
author Ozahata, Mina Cintho
author_facet Ozahata, Mina Cintho
author_role author
dc.contributor.none.fl_str_mv Ferreira, João Eduardo
dc.contributor.author.fl_str_mv Ozahata, Mina Cintho
dc.subject.por.fl_str_mv Agrupamento
Anemia falciforme
Clustering
GWAS
GWAS
SIckle cell disease
topic Agrupamento
Anemia falciforme
Clustering
GWAS
GWAS
SIckle cell disease
description O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.
publishDate 2019
dc.date.none.fl_str_mv 2019-07-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/95/95131/tde-07092019-110857/
url http://www.teses.usp.br/teses/disponiveis/95/95131/tde-07092019-110857/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865491054313078784