Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Rangel, Thaís de Paulo
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Centro Biomédico::Instituto de Medicina Social
BR
UERJ
Programa de Pós-Graduação em Saúde Coletiva
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bdtd.uerj.br/handle/1/4209
Resumo: Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.
id UERJ_ef70904e70544df80e74779cd980e4bf
oai_identifier_str oai:www.bdtd.uerj.br:1/4209
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str
spelling Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-SaúdeMultiple imputation of missing data: application in the Pro-Saude ProgramMissing dataMultiple imputationSurvival analysisTutorialDados faltantesImputação múltiplaAnálise de sobrevivênciaTutorialCNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIADados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade do Estado do Rio de JaneiroCentro Biomédico::Instituto de Medicina SocialBRUERJPrograma de Pós-Graduação em Saúde ColetivaFaerstein, Eduardohttp://lattes.cnpq.br/5617755960866690Junger, Washington Leitehttp://lattes.cnpq.br/7335317712079388Struchiner, Claudio Joséhttp://lattes.cnpq.br/7202319892868540Nunes, Luciana Neveshttp://lattes.cnpq.br/9080647872472086Cruz, Oswaldo Gonçalveshttp://lattes.cnpq.br/9530671289607786Rangel, Thaís de Paulo2020-07-05T16:05:51Z2013-10-142013-03-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.http://www.bdtd.uerj.br/handle/1/4209porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-26T23:29:31Zoai:www.bdtd.uerj.br:1/4209Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-26T23:29:31Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.none.fl_str_mv Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
Multiple imputation of missing data: application in the Pro-Saude Program
title Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
spellingShingle Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
Rangel, Thaís de Paulo
Missing data
Multiple imputation
Survival analysis
Tutorial
Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
title_short Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_full Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_fullStr Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_full_unstemmed Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
title_sort Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
author Rangel, Thaís de Paulo
author_facet Rangel, Thaís de Paulo
author_role author
dc.contributor.none.fl_str_mv Faerstein, Eduardo
http://lattes.cnpq.br/5617755960866690
Junger, Washington Leite
http://lattes.cnpq.br/7335317712079388
Struchiner, Claudio José
http://lattes.cnpq.br/7202319892868540
Nunes, Luciana Neves
http://lattes.cnpq.br/9080647872472086
Cruz, Oswaldo Gonçalves
http://lattes.cnpq.br/9530671289607786
dc.contributor.author.fl_str_mv Rangel, Thaís de Paulo
dc.subject.por.fl_str_mv Missing data
Multiple imputation
Survival analysis
Tutorial
Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
topic Missing data
Multiple imputation
Survival analysis
Tutorial
Dados faltantes
Imputação múltipla
Análise de sobrevivência
Tutorial
CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA
description Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.
publishDate 2013
dc.date.none.fl_str_mv 2013-10-14
2013-03-05
2020-07-05T16:05:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
http://www.bdtd.uerj.br/handle/1/4209
identifier_str_mv RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
url http://www.bdtd.uerj.br/handle/1/4209
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro Biomédico::Instituto de Medicina Social
BR
UERJ
Programa de Pós-Graduação em Saúde Coletiva
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro Biomédico::Instituto de Medicina Social
BR
UERJ
Programa de Pós-Graduação em Saúde Coletiva
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1829133539151446016