Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Rangel, Thaís de Paulo lattes
Orientador(a): Faerstein, Eduardo lattes
Banca de defesa: Junger, Washington Leite lattes, Struchiner, Claudio José lattes, Nunes, Luciana Neves lattes, Cruz, Oswaldo Gonçalves lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Programa de Pós-Graduação: Programa de Pós-Graduação em Saúde Coletiva
Departamento: Centro Biomédico::Instituto de Medicina Social
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://www.bdtd.uerj.br/handle/1/4209
Resumo: Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.
id UERJ_ef70904e70544df80e74779cd980e4bf
oai_identifier_str oai:www.bdtd.uerj.br:1/4209
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str
spelling Faerstein, Eduardohttp://lattes.cnpq.br/5617755960866690Junger, Washington Leitehttp://lattes.cnpq.br/7335317712079388Struchiner, Claudio Joséhttp://lattes.cnpq.br/7202319892868540Nunes, Luciana Neveshttp://lattes.cnpq.br/9080647872472086Cruz, Oswaldo Gonçalveshttp://lattes.cnpq.br/9530671289607786http://lattes.cnpq.br/8359425520968330Rangel, Thaís de Paulo2020-07-05T16:05:51Z2013-10-142013-03-05RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.http://www.bdtd.uerj.br/handle/1/4209Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.Submitted by Boris Flegr (boris@uerj.br) on 2020-07-05T16:05:51Z No. of bitstreams: 1 dissertacao_ThaisRangel_mar-13.pdf: 1862588 bytes, checksum: d90609a4e59ae2c3891b826778cf1d24 (MD5)Made available in DSpace on 2020-07-05T16:05:51Z (GMT). No. of bitstreams: 1 dissertacao_ThaisRangel_mar-13.pdf: 1862588 bytes, checksum: d90609a4e59ae2c3891b826778cf1d24 (MD5) Previous issue date: 2013-03-05Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade do Estado do Rio de JaneiroPrograma de Pós-Graduação em Saúde ColetivaUERJBRCentro Biomédico::Instituto de Medicina SocialMissing dataMultiple imputationSurvival analysisTutorialDados faltantesImputação múltiplaAnálise de sobrevivênciaTutorialCNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIAImputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-SaúdeMultiple imputation of missing data: application in the Pro-Saude Programinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJORIGINALdissertacao_ThaisRangel_mar-13.pdfapplication/pdf1862588http://www.bdtd.uerj.br/bitstream/1/4209/1/dissertacao_ThaisRangel_mar-13.pdfd90609a4e59ae2c3891b826778cf1d24MD511/42092024-02-26 20:29:31.075oai:www.bdtd.uerj.br:1/4209Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-26T23:29:31Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.por.fl_str_mv Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
dc.title.alternative.eng.fl_str_mv Multiple imputation of missing data: application in the Pro-Saude Program
title Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
spellingShingle Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
Rangel, Thaís de Paulo
Missing data
Multiple imputation
Survival analysis
Tutorial
Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
title_short Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_full Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_fullStr Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_full_unstemmed Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_sort Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
author Rangel, Thaís de Paulo
author_facet Rangel, Thaís de Paulo
author_role author
dc.contributor.advisor1.fl_str_mv Faerstein, Eduardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/5617755960866690
dc.contributor.referee1.fl_str_mv Junger, Washington Leite
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/7335317712079388
dc.contributor.referee2.fl_str_mv Struchiner, Claudio José
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/7202319892868540
dc.contributor.referee3.fl_str_mv Nunes, Luciana Neves
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/9080647872472086
dc.contributor.referee4.fl_str_mv Cruz, Oswaldo Gonçalves
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/9530671289607786
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8359425520968330
dc.contributor.author.fl_str_mv Rangel, Thaís de Paulo
contributor_str_mv Faerstein, Eduardo
Junger, Washington Leite
Struchiner, Claudio José
Nunes, Luciana Neves
Cruz, Oswaldo Gonçalves
dc.subject.eng.fl_str_mv Missing data
Multiple imputation
Survival analysis
Tutorial
topic Missing data
Multiple imputation
Survival analysis
Tutorial
Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
dc.subject.por.fl_str_mv Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
description Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.
publishDate 2013
dc.date.available.fl_str_mv 2013-10-14
dc.date.issued.fl_str_mv 2013-03-05
dc.date.accessioned.fl_str_mv 2020-07-05T16:05:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
dc.identifier.uri.fl_str_mv http://www.bdtd.uerj.br/handle/1/4209
identifier_str_mv RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
url http://www.bdtd.uerj.br/handle/1/4209
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Saúde Coletiva
dc.publisher.initials.fl_str_mv UERJ
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro Biomédico::Instituto de Medicina Social
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
bitstream.url.fl_str_mv http://www.bdtd.uerj.br/bitstream/1/4209/1/dissertacao_ThaisRangel_mar-13.pdf
bitstream.checksum.fl_str_mv d90609a4e59ae2c3891b826778cf1d24
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1792352111877423104