Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Pacheco, Vanessa Eufrauzino
Orientador(a): Carmo, Cleber Nascimento do
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://arca.fiocruz.br/handle/icict/28714
Resumo: Inquéritos epidemiológicos com amostragem complexa são bastante utilizados devido a redução de custo propiciando o mesmo benefício que uma pesquisa censitária. Entretanto,a ocorrência de perda de dados é um dos problemas que podem afetar esses inquéritos,influenciando os resultados analíticos da pesquisa. A razão para um dado ser faltante é chamado de mecanismo de dados faltantes, definido em três categorias: perda completamente aleatória, perda não completamente aleatória e perda não aleatória. Esse trabalho descreve esses mecanismos e aponta algumas técnicas de tratamento de dados que podem ser aplicadas em uma amostragem complexa, considerando predominantemente desfechos categóricos. A partir do banco de dados Nascer no Brasil, foram simulados bancos de dados com os três tipos de mecanismos de perda e, para o tratamento dos dados, foram utilizados os métodos de análise de casos completos, método do vizinho mais próximo, imputação múltipla por média preditiva e imputação por escore de propensão. Para a comparação dos resultados foram observadas as taxas de recuperação de dados de maneira exata aos originais e diferença quadrática de estimativas de parâmetros de regressão logística e linear.Os métodos de imputação trouxeram mais de 50% dos dados recuperados de maneira exata para os mecanismos perda completamente aleatória e perda não aleatória, já para o mecanismo perda não completamente aleatória, a recuperação foi de aproximadamente 30 por cento. Para as diferenças quadráticas os métodos do vizinho mais próximo e imputação múltipla tiveram resultados equiparáveis.O presente estudo ressaltou a importância da escolha adequada de métodos de imputação para desfechos categóricos e de variáveis para predição de valores, assim como demonstrou diferenças importantes observadas de acordo com o mecanismo de perda utilizado.
id CRUZ_71db3d8902c771a5a0e2c508feb57ad7
oai_identifier_str oai:arca.fiocruz.br:icict/28714
network_acronym_str CRUZ
network_name_str Repositório Institucional da Fiocruz (ARCA)
repository_id_str
spelling Pacheco, Vanessa EufrauzinoPereira, Ana Paula EstevesCarmo, Cleber Nascimento do2018-09-13T11:17:50Z2018-09-13T11:17:50Z2018PACHECO, Vanessa Eufrauzino. Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa. 2018. 85 f. Dissertação (Mestrado em Saúde Pública) - Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz, Rio de Janeiro, 2018.https://arca.fiocruz.br/handle/icict/28714Inquéritos epidemiológicos com amostragem complexa são bastante utilizados devido a redução de custo propiciando o mesmo benefício que uma pesquisa censitária. Entretanto,a ocorrência de perda de dados é um dos problemas que podem afetar esses inquéritos,influenciando os resultados analíticos da pesquisa. A razão para um dado ser faltante é chamado de mecanismo de dados faltantes, definido em três categorias: perda completamente aleatória, perda não completamente aleatória e perda não aleatória. Esse trabalho descreve esses mecanismos e aponta algumas técnicas de tratamento de dados que podem ser aplicadas em uma amostragem complexa, considerando predominantemente desfechos categóricos. A partir do banco de dados Nascer no Brasil, foram simulados bancos de dados com os três tipos de mecanismos de perda e, para o tratamento dos dados, foram utilizados os métodos de análise de casos completos, método do vizinho mais próximo, imputação múltipla por média preditiva e imputação por escore de propensão. Para a comparação dos resultados foram observadas as taxas de recuperação de dados de maneira exata aos originais e diferença quadrática de estimativas de parâmetros de regressão logística e linear.Os métodos de imputação trouxeram mais de 50% dos dados recuperados de maneira exata para os mecanismos perda completamente aleatória e perda não aleatória, já para o mecanismo perda não completamente aleatória, a recuperação foi de aproximadamente 30 por cento. Para as diferenças quadráticas os métodos do vizinho mais próximo e imputação múltipla tiveram resultados equiparáveis.O presente estudo ressaltou a importância da escolha adequada de métodos de imputação para desfechos categóricos e de variáveis para predição de valores, assim como demonstrou diferenças importantes observadas de acordo com o mecanismo de perda utilizado.Epidemiological surveys with complex sampling are widely used because of cost reduction, providing the same benefit as a census survey. However, the occurrence of data loss is one of the problems that can affect these surveys, influencing the analytical results of the research. The reason for a missing data is called the missing data mechanism, definedin three categories: completely random loss, not completely random loss, and non-randomloss. This work describes these mechanisms and points out some techniques of data treatment that can be applied in a complex sampling, considering predominantly categorical outcomes. Databases with the three types of loss mechanisms were simulated from the Born in Brazil database and, for the treatment of the data, we used the methods of analysis of complete cases, method of the nearest neighbor, multiple imputation by predictive meanand imputation by propensity score. In order to compare the results, the data recovery rateswere observed in an exact manner to the originals and the quadratic difference of logistic and linear regression parameters estimates. The imputation methods brought more than 50 percent of the exact recovered data to the mechanisms completely random loss and non-randomloss, whereas for the mechanism not completely random loss, the recovery was approximately 30 percent. For the quadratic differences, the methods of the closest neighbor and multiple imputation had similar results. The present study emphasized the importance of the adequate choice of imputation methods for categorical outcomes and variables for predicting values, as well as showing important differences observed according to the mechanismof loss used.Fundação Oswaldo Cruz. Escola Nacional de Saúde Pública Sergio Arouca. Rio de Janeiro, RJ, Brasil.porDados FaltantesAmostra ComplexaEscore de PropensãoImputação múltiplaVizinho mais próximoModelos logísticosDistribuição aleatóriaEpidemiologia descritivaComplex samplemissing dataPropensity scoreMultiple imputationColeta de DadosInquéritos EpidemiológicosComparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexaComparison of methods for treatment of missing data in epidemiological surveys with complex samplinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisFundação Oswaldo Cruz. Escola Nacional de Saúde Pública Sergio Arouca.Rio de Janeiro/RJPrograma de Pós-Graduação em Epidemiologia em Saúde Públicainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://arca.fiocruz.br/bitstreams/a8e49a5a-3934-4eeb-aab7-aa819961faf1/download8a4605be74aa9ea9d79846c1fba20a33MD51falseAnonymousREADORIGINALve_Vanessa_Eufrazino_ENSP_2018.pdfapplication/pdf4909355https://arca.fiocruz.br/bitstreams/0c68c3c0-3b70-4b9b-a546-4b3caac0b1ed/download37d0b87f31520f3fdb6355af58aa43f2MD52trueAnonymousREADTEXTvanessa_eufrauzino.pdf.txtvanessa_eufrauzino.pdf.txtExtracted texttext/plain139600https://arca.fiocruz.br/bitstreams/cb809ce7-10d0-4d18-bc7a-d94cb4aeec2f/downloadc9835986fb7c9166cba626e53a15098dMD53falseAnonymousREADve_Vanessa_Eufrazino_ENSP_2018.pdf.txtve_Vanessa_Eufrazino_ENSP_2018.pdf.txtExtracted texttext/plain103630https://arca.fiocruz.br/bitstreams/d9036b9d-c575-4044-bced-d3b095a90966/download30c452ba8bdecd06f4a65a619c023155MD512falseAnonymousREADTHUMBNAILve_Vanessa_Eufrazino_ENSP_2018.pdf.jpgve_Vanessa_Eufrazino_ENSP_2018.pdf.jpgGenerated Thumbnailimage/jpeg12437https://arca.fiocruz.br/bitstreams/aa04c16c-474c-467b-bdd3-2bbc702c1906/downloadb5725877d48ecb450d6fce5c2a401c0fMD513falseAnonymousREADicict/287142025-12-11 08:30:29.288open.accessoai:arca.fiocruz.br:icict/28714https://arca.fiocruz.brRepositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352025-12-11T11:30:29Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.none.fl_str_mv Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
dc.title.alternative.none.fl_str_mv Comparison of methods for treatment of missing data in epidemiological surveys with complex sampling
title Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
spellingShingle Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
Pacheco, Vanessa Eufrauzino
Dados Faltantes
Amostra Complexa
Escore de Propensão
Imputação múltipla
Vizinho mais próximo
Modelos logísticos
Distribuição aleatória
Epidemiologia descritiva
Complex sample
missing data
Propensity score
Multiple imputation
Coleta de Dados
Inquéritos Epidemiológicos
title_short Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
title_full Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
title_fullStr Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
title_full_unstemmed Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
title_sort Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa
author Pacheco, Vanessa Eufrauzino
author_facet Pacheco, Vanessa Eufrauzino
author_role author
dc.contributor.advisorco.none.fl_str_mv Pereira, Ana Paula Esteves
dc.contributor.author.fl_str_mv Pacheco, Vanessa Eufrauzino
dc.contributor.advisor1.fl_str_mv Carmo, Cleber Nascimento do
contributor_str_mv Carmo, Cleber Nascimento do
dc.subject.other.none.fl_str_mv Dados Faltantes
Amostra Complexa
Escore de Propensão
Imputação múltipla
Vizinho mais próximo
Modelos logísticos
Distribuição aleatória
Epidemiologia descritiva
topic Dados Faltantes
Amostra Complexa
Escore de Propensão
Imputação múltipla
Vizinho mais próximo
Modelos logísticos
Distribuição aleatória
Epidemiologia descritiva
Complex sample
missing data
Propensity score
Multiple imputation
Coleta de Dados
Inquéritos Epidemiológicos
dc.subject.en.none.fl_str_mv Complex sample
missing data
Propensity score
Multiple imputation
dc.subject.decs.none.fl_str_mv Coleta de Dados
Inquéritos Epidemiológicos
description Inquéritos epidemiológicos com amostragem complexa são bastante utilizados devido a redução de custo propiciando o mesmo benefício que uma pesquisa censitária. Entretanto,a ocorrência de perda de dados é um dos problemas que podem afetar esses inquéritos,influenciando os resultados analíticos da pesquisa. A razão para um dado ser faltante é chamado de mecanismo de dados faltantes, definido em três categorias: perda completamente aleatória, perda não completamente aleatória e perda não aleatória. Esse trabalho descreve esses mecanismos e aponta algumas técnicas de tratamento de dados que podem ser aplicadas em uma amostragem complexa, considerando predominantemente desfechos categóricos. A partir do banco de dados Nascer no Brasil, foram simulados bancos de dados com os três tipos de mecanismos de perda e, para o tratamento dos dados, foram utilizados os métodos de análise de casos completos, método do vizinho mais próximo, imputação múltipla por média preditiva e imputação por escore de propensão. Para a comparação dos resultados foram observadas as taxas de recuperação de dados de maneira exata aos originais e diferença quadrática de estimativas de parâmetros de regressão logística e linear.Os métodos de imputação trouxeram mais de 50% dos dados recuperados de maneira exata para os mecanismos perda completamente aleatória e perda não aleatória, já para o mecanismo perda não completamente aleatória, a recuperação foi de aproximadamente 30 por cento. Para as diferenças quadráticas os métodos do vizinho mais próximo e imputação múltipla tiveram resultados equiparáveis.O presente estudo ressaltou a importância da escolha adequada de métodos de imputação para desfechos categóricos e de variáveis para predição de valores, assim como demonstrou diferenças importantes observadas de acordo com o mecanismo de perda utilizado.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-09-13T11:17:50Z
dc.date.available.fl_str_mv 2018-09-13T11:17:50Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PACHECO, Vanessa Eufrauzino. Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa. 2018. 85 f. Dissertação (Mestrado em Saúde Pública) - Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz, Rio de Janeiro, 2018.
dc.identifier.uri.fl_str_mv https://arca.fiocruz.br/handle/icict/28714
identifier_str_mv PACHECO, Vanessa Eufrauzino. Comparação de métodos para tratamento de dados faltantes em inquéritos epidemiológicos com amostragem complexa. 2018. 85 f. Dissertação (Mestrado em Saúde Pública) - Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz, Rio de Janeiro, 2018.
url https://arca.fiocruz.br/handle/icict/28714
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da FIOCRUZ (ARCA)
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Repositório Institucional da FIOCRUZ (ARCA)
collection Repositório Institucional da FIOCRUZ (ARCA)
bitstream.url.fl_str_mv https://arca.fiocruz.br/bitstreams/a8e49a5a-3934-4eeb-aab7-aa819961faf1/download
https://arca.fiocruz.br/bitstreams/0c68c3c0-3b70-4b9b-a546-4b3caac0b1ed/download
https://arca.fiocruz.br/bitstreams/cb809ce7-10d0-4d18-bc7a-d94cb4aeec2f/download
https://arca.fiocruz.br/bitstreams/d9036b9d-c575-4044-bced-d3b095a90966/download
https://arca.fiocruz.br/bitstreams/aa04c16c-474c-467b-bdd3-2bbc702c1906/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
37d0b87f31520f3fdb6355af58aa43f2
c9835986fb7c9166cba626e53a15098d
30c452ba8bdecd06f4a65a619c023155
b5725877d48ecb450d6fce5c2a401c0f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv repositorio.arca@fiocruz.br
_version_ 1855588404499054592