Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde
| Ano de defesa: | 2013 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade do Estado do Rio de Janeiro
Centro Biomédico::Instituto de Medicina Social BR UERJ Programa de Pós-Graduação em Saúde Coletiva |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.bdtd.uerj.br/handle/1/4209 |
Resumo: | Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. |
| id |
UERJ_ef70904e70544df80e74779cd980e4bf |
|---|---|
| oai_identifier_str |
oai:www.bdtd.uerj.br:1/4209 |
| network_acronym_str |
UERJ |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
| repository_id_str |
|
| spelling |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-SaúdeMultiple imputation of missing data: application in the Pro-Saude ProgramMissing dataMultiple imputationSurvival analysisTutorialDados faltantesImputação múltiplaAnálise de sobrevivênciaTutorialCNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIADados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade do Estado do Rio de JaneiroCentro Biomédico::Instituto de Medicina SocialBRUERJPrograma de Pós-Graduação em Saúde ColetivaFaerstein, Eduardohttp://lattes.cnpq.br/5617755960866690Junger, Washington Leitehttp://lattes.cnpq.br/7335317712079388Struchiner, Claudio Joséhttp://lattes.cnpq.br/7202319892868540Nunes, Luciana Neveshttp://lattes.cnpq.br/9080647872472086Cruz, Oswaldo Gonçalveshttp://lattes.cnpq.br/9530671289607786Rangel, Thaís de Paulo2020-07-05T16:05:51Z2013-10-142013-03-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.http://www.bdtd.uerj.br/handle/1/4209porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-26T23:29:31Zoai:www.bdtd.uerj.br:1/4209Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-26T23:29:31Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false |
| dc.title.none.fl_str_mv |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde Multiple imputation of missing data: application in the Pro-Saude Program |
| title |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| spellingShingle |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde Rangel, Thaís de Paulo Missing data Multiple imputation Survival analysis Tutorial Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
| title_short |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| title_full |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| title_fullStr |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| title_full_unstemmed |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| title_sort |
Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde |
| author |
Rangel, Thaís de Paulo |
| author_facet |
Rangel, Thaís de Paulo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Faerstein, Eduardo http://lattes.cnpq.br/5617755960866690 Junger, Washington Leite http://lattes.cnpq.br/7335317712079388 Struchiner, Claudio José http://lattes.cnpq.br/7202319892868540 Nunes, Luciana Neves http://lattes.cnpq.br/9080647872472086 Cruz, Oswaldo Gonçalves http://lattes.cnpq.br/9530671289607786 |
| dc.contributor.author.fl_str_mv |
Rangel, Thaís de Paulo |
| dc.subject.por.fl_str_mv |
Missing data Multiple imputation Survival analysis Tutorial Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
| topic |
Missing data Multiple imputation Survival analysis Tutorial Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA::EPIDEMIOLOGIA |
| description |
Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. |
| publishDate |
2013 |
| dc.date.none.fl_str_mv |
2013-10-14 2013-03-05 2020-07-05T16:05:51Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013. http://www.bdtd.uerj.br/handle/1/4209 |
| identifier_str_mv |
RANGEL, Thaís de Paulo. Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde. 2013. 151 f. Dissertação (Mestrado em Ciências Humanas e Saúde; Epidemiologia; Política, Planejamento e Administração em Saúde; Administra) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013. |
| url |
http://www.bdtd.uerj.br/handle/1/4209 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro Centro Biomédico::Instituto de Medicina Social BR UERJ Programa de Pós-Graduação em Saúde Coletiva |
| publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro Centro Biomédico::Instituto de Medicina Social BR UERJ Programa de Pós-Graduação em Saúde Coletiva |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UERJ instname:Universidade do Estado do Rio de Janeiro (UERJ) instacron:UERJ |
| instname_str |
Universidade do Estado do Rio de Janeiro (UERJ) |
| instacron_str |
UERJ |
| institution |
UERJ |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
| collection |
Biblioteca Digital de Teses e Dissertações da UERJ |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ) |
| repository.mail.fl_str_mv |
bdtd.suporte@uerj.br |
| _version_ |
1829133539151446016 |