Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
Ano de defesa: | 2013 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade do Estado do Rio de Janeiro
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Saúde Coletiva
|
Departamento: |
Centro Biomédico::Instituto de Medicina Social
|
País: |
BR
|
Palavras-chave em Português: | |
Palavras-chave em Inglês: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://www.bdtd.uerj.br/handle/1/4209 |
Resumo: | Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text. |
id |
UERJ_ef70904e70544df80e74779cd980e4bf |
---|---|
oai_identifier_str |
oai:www.bdtd.uerj.br:1/4209 |
network_acronym_str |
UERJ |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
repository_id_str |
|
spelling |
Faerstein, Eduardohttp://lattes.cnpq.br/5617755960866690Junger, Washington Leitehttp://lattes.cnpq.br/7335317712079388Struchiner, Claudio Joséhttp://lattes.cnpq.br/7202319892868540Nunes, Luciana Neveshttp://lattes.cnpq.br/9080647872472086Cruz, Oswaldo Gonçalveshttp://lattes.cnpq.br/9530671289607786http://lattes.cnpq.br/8359425520968330Rangel, Thaís de Paulo2020-07-05T16:05:51Z2013-10-142013-03-05RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.http://www.bdtd.uerj.br/handle/1/4209Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.Submitted by Boris Flegr (boris@uerj.br) on 2020-07-05T16:05:51Z No. of bitstreams: 1 dissertacao_ThaisRangel_mar-13.pdf: 1862588 bytes, checksum: d90609a4e59ae2c3891b826778cf1d24 (MD5)Made available in DSpace on 2020-07-05T16:05:51Z (GMT). No. of bitstreams: 1 dissertacao_ThaisRangel_mar-13.pdf: 1862588 bytes, checksum: d90609a4e59ae2c3891b826778cf1d24 (MD5) Previous issue date: 2013-03-05Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade do Estado do Rio de JaneiroPrograma de Pós-Graduação em Saúde ColetivaUERJBRCentro Biomédico::Instituto de Medicina SocialMissing dataMultiple imputationSurvival analysisTutorialDados faltantesImputação múltiplaAnálise de sobrevivênciaTutorialCNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIAImputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-SaúdeMultiple imputation of missing data: application in the Pro-Saude Programinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJORIGINALdissertacao_ThaisRangel_mar-13.pdfapplication/pdf1862588http://www.bdtd.uerj.br/bitstream/1/4209/1/dissertacao_ThaisRangel_mar-13.pdfd90609a4e59ae2c3891b826778cf1d24MD511/42092024-02-26 20:29:31.075oai:www.bdtd.uerj.br:1/4209Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-26T23:29:31Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false |
dc.title.por.fl_str_mv |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
dc.title.alternative.eng.fl_str_mv |
Multiple imputation of missing data: application in the Pro-Saude Program |
title |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
spellingShingle |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde Rangel, Thaís de Paulo Missing data Multiple imputation Survival analysis Tutorial Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
title_short |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
title_full |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
title_fullStr |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
title_full_unstemmed |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
title_sort |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
author |
Rangel, Thaís de Paulo |
author_facet |
Rangel, Thaís de Paulo |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Faerstein, Eduardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5617755960866690 |
dc.contributor.referee1.fl_str_mv |
Junger, Washington Leite |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/7335317712079388 |
dc.contributor.referee2.fl_str_mv |
Struchiner, Claudio José |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/7202319892868540 |
dc.contributor.referee3.fl_str_mv |
Nunes, Luciana Neves |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/9080647872472086 |
dc.contributor.referee4.fl_str_mv |
Cruz, Oswaldo Gonçalves |
dc.contributor.referee4Lattes.fl_str_mv |
http://lattes.cnpq.br/9530671289607786 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/8359425520968330 |
dc.contributor.author.fl_str_mv |
Rangel, Thaís de Paulo |
contributor_str_mv |
Faerstein, Eduardo Junger, Washington Leite Struchiner, Claudio José Nunes, Luciana Neves Cruz, Oswaldo Gonçalves |
dc.subject.eng.fl_str_mv |
Missing data Multiple imputation Survival analysis Tutorial |
topic |
Missing data Multiple imputation Survival analysis Tutorial Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
dc.subject.por.fl_str_mv |
Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
description |
Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text. |
publishDate |
2013 |
dc.date.available.fl_str_mv |
2013-10-14 |
dc.date.issued.fl_str_mv |
2013-03-05 |
dc.date.accessioned.fl_str_mv |
2020-07-05T16:05:51Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013. |
dc.identifier.uri.fl_str_mv |
http://www.bdtd.uerj.br/handle/1/4209 |
identifier_str_mv |
RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013. |
url |
http://www.bdtd.uerj.br/handle/1/4209 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Saúde Coletiva |
dc.publisher.initials.fl_str_mv |
UERJ |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Centro Biomédico::Instituto de Medicina Social |
publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UERJ instname:Universidade do Estado do Rio de Janeiro (UERJ) instacron:UERJ |
instname_str |
Universidade do Estado do Rio de Janeiro (UERJ) |
instacron_str |
UERJ |
institution |
UERJ |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
collection |
Biblioteca Digital de Teses e Dissertações da UERJ |
bitstream.url.fl_str_mv |
http://www.bdtd.uerj.br/bitstream/1/4209/1/dissertacao_ThaisRangel_mar-13.pdf |
bitstream.checksum.fl_str_mv |
d90609a4e59ae2c3891b826778cf1d24 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ) |
repository.mail.fl_str_mv |
bdtd.suporte@uerj.br |
_version_ |
1792352111877423104 |