Método de extração  de coortes em bases de dados assistenciais para estudos da doença cardiovascular

Abrahão, Maria Tereza Fernandes

Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular

Detalhes bibliográficos
Ano de defesa:	2016
Autor(a) principal:	Abrahão, Maria Tereza Fernandes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Cohort studies Data mining Electronic health records Estudos de coortes Estudos retrospectivos Hospital information systems Informática médica Medical informatics Mineração de dados Registros eletrônicos de saúde Retrospective studies Sistemas de informação hospitalar
Link de acesso:	http://www.teses.usp.br/teses/disponiveis/5/5131/tde-04082016-160129/
Resumo:	A informação coletada de prontuários manuais ou eletrônicos, quando usada para propósitos não diretamente relacionados ao atendimento do paciente, é chamado de uso secundário de dados. A adoção de um sistema de registro eletrônico em saúde (RES) pode facilitar a coleta de dados para uso secundário em pesquisa, aproveitando as melhorias na estruturação e recuperação da informação do paciente, recursos não disponíveis nos tradicionais prontuários em papel. Estudos observacionais baseados no uso secundário de dados têm o potencial de prover evidências para a construção de políticas em saúde. No entanto, a pesquisa através desses dados apresenta problemas característicos a essa fonte de dados. Ao longo do tempo, os sistemas e seus métodos de armazenar dados se tornam obsoletos ou são reestruturados, existem questões de privacidade para o compartilhamento dos dados dos indivíduos e questões relacionadas ao uso desses dados em um contexto diferente do seu propósito original. É necessária uma abordagem sistemática para contornar esses problemas, onde o processamento dos dados é efetuado antes do seu compartilhamento. O objetivo desta Tese é propor um método de extração de coortes de pacientes para estudos observacionais contemplando quatro etapas: (1) mapeamento: a reorganização de dados a partir de um esquema lógico existente em um esquema externo comum sobre o qual é aplicado o método; (2) limpeza: preparação dos dados, levantamento do perfil da base de dados e cálculo dos indicadores de qualidade; (3) seleção da coorte: aplicação dos parâmetros do estudo para seleção de dados longitudinais dos pacientes para a formação da coorte; (4) transformação: derivação de variáveis de estudo que não estão presentes nos dados originais e transformação dos dados longitudinais em dados anonimizados prontos para análise estatística e compartilhamento. O mapeamento é uma etapa específica para cada RES e não é objeto desse trabalho, mas foi realizada para a aplicação do método. As etapas de limpeza, seleção de coorte e transformação são comuns para qualquer RES. A utilização de um esquema externo possibilita o uso parâmetros que facilitam a extração de diferentes coortes para diferentes estudos sem a necessidade de alterações nos algoritmos e garante que a extração seja efetuada sem perda de informações por um processo idempotente. A geração de indicadores e a análise estatística fazem parte do processo e permitem descrever o perfil e qualidade da base de dados e os resultados do estudo. Os algoritmos computacionais e os dados são disponibilizados em um repositório versionado e podem ser usados a qualquer momento para reproduzir os resultados, permitindo a verificação, alterações e correções de erros. Este método foi aplicado no RES utilizado no Instituto do Coração - HC FMUSP, considerando uma base de dados de 1.116.848 pacientes cadastrados no período de 1999 até 2013, resultando em 312.469 registros de pacientes após o processo de limpeza. Para efetuar uma análise da doença cardiovascular em relação ao uso de estatinas na prevenção secundária de eventos evolutivos, foi constituída uma coorte de 27.915 pacientes, segundo os seguintes critérios: período de 2003 a 2013, pacientes do gênero masculino e feminino, maiores de 18 anos, com um diagnóstico no padrão CID-10 (códigos I20 a I25, I64 a I70 e G45) e com registro de no mínimo duas consultas ambulatoriais. Como resultados, cerca de 80% dos pacientes tiveram registro de estatinas, sendo que, 30% tiveram registro de estatinas por mais de 5 anos, 42% não tiveram registro de nenhum evento evolutivo e 9,7% tiveram registro de dois ou mais eventos. O tempo médio de sobrevida calculado pelo método Kaplan-Meier foi de 115 meses (intervalo de confiança 95% 114-116) e os pacientes sem registro de estatinas apresentaram uma maior probabilidade de óbito pelo teste log-rank p < 0,001. Conclui-se que a adoção de métodos sistematizados para a extração de coortes de pacientes a partir do RES pode ser uma abordagem viável para a condução de estudos epidemiológicos

Metadados do item

id	USP_5d226d4cfa9f24dbe4eba8d1da5115bd
oai_identifier_str	oai:teses.usp.br:tde-04082016-160129
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascularA method for the cohort selection of cardiovascular disease records from an electronic health record systemCohort studiesData miningElectronic health recordsEstudos de coortesEstudos retrospectivosHospital information systemsInformática médicaMedical informaticsMineração de dadosRegistros eletrônicos de saúdeRetrospective studiesSistemas de informação hospitalarA informação coletada de prontuários manuais ou eletrônicos, quando usada para propósitos não diretamente relacionados ao atendimento do paciente, é chamado de uso secundário de dados. A adoção de um sistema de registro eletrônico em saúde (RES) pode facilitar a coleta de dados para uso secundário em pesquisa, aproveitando as melhorias na estruturação e recuperação da informação do paciente, recursos não disponíveis nos tradicionais prontuários em papel. Estudos observacionais baseados no uso secundário de dados têm o potencial de prover evidências para a construção de políticas em saúde. No entanto, a pesquisa através desses dados apresenta problemas característicos a essa fonte de dados. Ao longo do tempo, os sistemas e seus métodos de armazenar dados se tornam obsoletos ou são reestruturados, existem questões de privacidade para o compartilhamento dos dados dos indivíduos e questões relacionadas ao uso desses dados em um contexto diferente do seu propósito original. É necessária uma abordagem sistemática para contornar esses problemas, onde o processamento dos dados é efetuado antes do seu compartilhamento. O objetivo desta Tese é propor um método de extração de coortes de pacientes para estudos observacionais contemplando quatro etapas: (1) mapeamento: a reorganização de dados a partir de um esquema lógico existente em um esquema externo comum sobre o qual é aplicado o método; (2) limpeza: preparação dos dados, levantamento do perfil da base de dados e cálculo dos indicadores de qualidade; (3) seleção da coorte: aplicação dos parâmetros do estudo para seleção de dados longitudinais dos pacientes para a formação da coorte; (4) transformação: derivação de variáveis de estudo que não estão presentes nos dados originais e transformação dos dados longitudinais em dados anonimizados prontos para análise estatística e compartilhamento. O mapeamento é uma etapa específica para cada RES e não é objeto desse trabalho, mas foi realizada para a aplicação do método. As etapas de limpeza, seleção de coorte e transformação são comuns para qualquer RES. A utilização de um esquema externo possibilita o uso parâmetros que facilitam a extração de diferentes coortes para diferentes estudos sem a necessidade de alterações nos algoritmos e garante que a extração seja efetuada sem perda de informações por um processo idempotente. A geração de indicadores e a análise estatística fazem parte do processo e permitem descrever o perfil e qualidade da base de dados e os resultados do estudo. Os algoritmos computacionais e os dados são disponibilizados em um repositório versionado e podem ser usados a qualquer momento para reproduzir os resultados, permitindo a verificação, alterações e correções de erros. Este método foi aplicado no RES utilizado no Instituto do Coração - HC FMUSP, considerando uma base de dados de 1.116.848 pacientes cadastrados no período de 1999 até 2013, resultando em 312.469 registros de pacientes após o processo de limpeza. Para efetuar uma análise da doença cardiovascular em relação ao uso de estatinas na prevenção secundária de eventos evolutivos, foi constituída uma coorte de 27.915 pacientes, segundo os seguintes critérios: período de 2003 a 2013, pacientes do gênero masculino e feminino, maiores de 18 anos, com um diagnóstico no padrão CID-10 (códigos I20 a I25, I64 a I70 e G45) e com registro de no mínimo duas consultas ambulatoriais. Como resultados, cerca de 80% dos pacientes tiveram registro de estatinas, sendo que, 30% tiveram registro de estatinas por mais de 5 anos, 42% não tiveram registro de nenhum evento evolutivo e 9,7% tiveram registro de dois ou mais eventos. O tempo médio de sobrevida calculado pelo método Kaplan-Meier foi de 115 meses (intervalo de confiança 95% 114-116) e os pacientes sem registro de estatinas apresentaram uma maior probabilidade de óbito pelo teste log-rank p < 0,001. Conclui-se que a adoção de métodos sistematizados para a extração de coortes de pacientes a partir do RES pode ser uma abordagem viável para a condução de estudos epidemiológicosInformation collected from manual or electronic health records can also be used for purposes not directly related to patient care delivery, in which case it is termed secondary use. The adoption of electronic health record (EHR) systems can facilitate the collection of this secondary use data, which can be used for research purposes such as observational studies. These studies have the power to provide necessary evidence for the formation of healthcare policies. However, several problems arise when conducting research using this kind of data. For example, over time, systems and their methods of storing data become obsolete, data concerns arise since the data is being used in a different context to where it originated and privacy concerns arise when sharing data about individual subjects. To overcome these problems a systematic approach is required where local data processing is performed prior to data sharing. The objective of this thesis is to propose a method to extract patient cohorts for observational studies in four steps: (1) data mapping from an existing local logical schema into a common external schema over which information can be extracted; (2) cleaning of data, generation of the database profile and retrieval of indicators; (3) computation of derived variables from original variables; (4) application of study design parameters to transform longitudinal data into anonymized data sets ready for statistical analysis and sharing. Mapping is a specific stage for each EHR and although it is not the focus of this work, a detail of the mapping is included. The stages of cleaning, selection of cohort and transformation are common to all EHRs and form the main objective. The use of an external schema allows the use of parameters that facilitate the extraction of different cohorts for different studies without the need for changes to the extraction algorithms. This ensures that, given an immutable dataset, the extraction can be done by the idempotent process. The generation of indicators and statistical analysis form part of the process and allow profiling and qualitative description of the database. The set extraction / statistical processing is available in a version controlled repository and can be used at any time to reproduce results, allowing the verification of alterations and error corrections. The method was applied to EHR from the Heart Institute - HC FMUSP, with a dataset containing 1,116,848 patients\' records from 1999 up to 2013, resulting in 312,469 patients records after the cleaning process. An analysis of cardiovascular disease in relation to statin use in the prevention of secondary events was defined using a cohort selection of 27,915 patients with the following criteria: study period: 2003-2013, gender: Male, Female, age: >= 18 years old, at least 2 outpatient visits, diagnosis of CVD (ICD-10 codes: I20-I25, I64-I70 and G45). Results showed that around 80% of patients had a prescription for statins, of which 30% had a prescription for statins for more than 5 years. 42% had no record of a future event and 9,7% had two or more future events. Survival time was measured using a univariate Kaplan-Meier method resulting in 115 months (CI 95% 114-116) and patients without statin prescription showed a higher probability of death when measured by log-rank (p < 0.001) tests. The conclusion is that the adoption of systematised methods for cohort extraction of patients from EHRs can be a viable approach for conducting epidemiological studiesBiblioteca Digitais de Teses e Dissertações da USPGutierrez, Marco AntonioAbrahão, Maria Tereza Fernandes2016-05-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/5/5131/tde-04082016-160129/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-10-02T20:03:01Zoai:teses.usp.br:tde-04082016-160129Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212018-10-02T20:03:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular A method for the cohort selection of cardiovascular disease records from an electronic health record system
title	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
spellingShingle	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular Abrahão, Maria Tereza Fernandes Cohort studies Data mining Electronic health records Estudos de coortes Estudos retrospectivos Hospital information systems Informática médica Medical informatics Mineração de dados Registros eletrônicos de saúde Retrospective studies Sistemas de informação hospitalar
title_short	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
title_full	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
title_fullStr	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
title_full_unstemmed	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
title_sort	Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular
author	Abrahão, Maria Tereza Fernandes
author_facet	Abrahão, Maria Tereza Fernandes
author_role	author
dc.contributor.none.fl_str_mv	Gutierrez, Marco Antonio
dc.contributor.author.fl_str_mv	Abrahão, Maria Tereza Fernandes
dc.subject.por.fl_str_mv	Cohort studies Data mining Electronic health records Estudos de coortes Estudos retrospectivos Hospital information systems Informática médica Medical informatics Mineração de dados Registros eletrônicos de saúde Retrospective studies Sistemas de informação hospitalar
topic	Cohort studies Data mining Electronic health records Estudos de coortes Estudos retrospectivos Hospital information systems Informática médica Medical informatics Mineração de dados Registros eletrônicos de saúde Retrospective studies Sistemas de informação hospitalar
description	A informação coletada de prontuários manuais ou eletrônicos, quando usada para propósitos não diretamente relacionados ao atendimento do paciente, é chamado de uso secundário de dados. A adoção de um sistema de registro eletrônico em saúde (RES) pode facilitar a coleta de dados para uso secundário em pesquisa, aproveitando as melhorias na estruturação e recuperação da informação do paciente, recursos não disponíveis nos tradicionais prontuários em papel. Estudos observacionais baseados no uso secundário de dados têm o potencial de prover evidências para a construção de políticas em saúde. No entanto, a pesquisa através desses dados apresenta problemas característicos a essa fonte de dados. Ao longo do tempo, os sistemas e seus métodos de armazenar dados se tornam obsoletos ou são reestruturados, existem questões de privacidade para o compartilhamento dos dados dos indivíduos e questões relacionadas ao uso desses dados em um contexto diferente do seu propósito original. É necessária uma abordagem sistemática para contornar esses problemas, onde o processamento dos dados é efetuado antes do seu compartilhamento. O objetivo desta Tese é propor um método de extração de coortes de pacientes para estudos observacionais contemplando quatro etapas: (1) mapeamento: a reorganização de dados a partir de um esquema lógico existente em um esquema externo comum sobre o qual é aplicado o método; (2) limpeza: preparação dos dados, levantamento do perfil da base de dados e cálculo dos indicadores de qualidade; (3) seleção da coorte: aplicação dos parâmetros do estudo para seleção de dados longitudinais dos pacientes para a formação da coorte; (4) transformação: derivação de variáveis de estudo que não estão presentes nos dados originais e transformação dos dados longitudinais em dados anonimizados prontos para análise estatística e compartilhamento. O mapeamento é uma etapa específica para cada RES e não é objeto desse trabalho, mas foi realizada para a aplicação do método. As etapas de limpeza, seleção de coorte e transformação são comuns para qualquer RES. A utilização de um esquema externo possibilita o uso parâmetros que facilitam a extração de diferentes coortes para diferentes estudos sem a necessidade de alterações nos algoritmos e garante que a extração seja efetuada sem perda de informações por um processo idempotente. A geração de indicadores e a análise estatística fazem parte do processo e permitem descrever o perfil e qualidade da base de dados e os resultados do estudo. Os algoritmos computacionais e os dados são disponibilizados em um repositório versionado e podem ser usados a qualquer momento para reproduzir os resultados, permitindo a verificação, alterações e correções de erros. Este método foi aplicado no RES utilizado no Instituto do Coração - HC FMUSP, considerando uma base de dados de 1.116.848 pacientes cadastrados no período de 1999 até 2013, resultando em 312.469 registros de pacientes após o processo de limpeza. Para efetuar uma análise da doença cardiovascular em relação ao uso de estatinas na prevenção secundária de eventos evolutivos, foi constituída uma coorte de 27.915 pacientes, segundo os seguintes critérios: período de 2003 a 2013, pacientes do gênero masculino e feminino, maiores de 18 anos, com um diagnóstico no padrão CID-10 (códigos I20 a I25, I64 a I70 e G45) e com registro de no mínimo duas consultas ambulatoriais. Como resultados, cerca de 80% dos pacientes tiveram registro de estatinas, sendo que, 30% tiveram registro de estatinas por mais de 5 anos, 42% não tiveram registro de nenhum evento evolutivo e 9,7% tiveram registro de dois ou mais eventos. O tempo médio de sobrevida calculado pelo método Kaplan-Meier foi de 115 meses (intervalo de confiança 95% 114-116) e os pacientes sem registro de estatinas apresentaram uma maior probabilidade de óbito pelo teste log-rank p < 0,001. Conclui-se que a adoção de métodos sistematizados para a extração de coortes de pacientes a partir do RES pode ser uma abordagem viável para a condução de estudos epidemiológicos
publishDate	2016
dc.date.none.fl_str_mv	2016-05-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://www.teses.usp.br/teses/disponiveis/5/5131/tde-04082016-160129/
url	http://www.teses.usp.br/teses/disponiveis/5/5131/tde-04082016-160129/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815257859145859072

Método de extração de coortes em bases de dados assistenciais para estudos da doença cardiovascular

Registros relacionados