Comparação entre alguns modelos de regressão de contagem
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/21040 |
Resumo: | Count data reflects the number of occurrences of a behavior of interest in a given period of time (for example, a team’s goals number in Brasileirão). A common behavior of this type of data is the presence of many zeros observed, i.e. zero-inflation, which ends up somewhat overturning the estimates obtained by the Poisson and Negative Binomial Regression models, usually used to model these type of data. With this in mind, this work set out to study the variations of these models, following two fronts: The first considering models that contain a possible excess of zeros and a second, which compares models from recent literature to check whether they are good alternatives in terms estimates and performance. In total, seven models were trained, the two mentioned above, plus: Poisson-Tweedie, Bell, Zero-inflated Poisson, Zero-inflated Negative Binomial and Zero-inflated Bell. Thus, different simulation scenarios were studied by computing metrics such as mean, standard deviation, REQM and model selection criteria, such as AIC and BIC. It is worth noting that both the classical and Bayesian study methods were used for comparative classification of estimates. In addition to the simulation studies, two applications to real data are presented. As a result of the different scenarios, we understand that the models that have an exclusive part to accommodate possible excesses of zeros had greater adherence to the data in applications. Regarding the models presented in recent literature, we can state that there is similarity in the adjustments made, which validates previous studies and guarantees that they are good alternatives to the Poisson and Negative Binomial models. |
| id |
SCAR_45c1911ba44526e24afa763f176d552b |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21040 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Onuki, Lucas Akio SenagaGuzmán, Jorge Luis Bazánhttp://lattes.cnpq.br/8040998023074358https://lattes.cnpq.br/2849328325192046https://orcid.org/0009-0008-8010-2301https://orcid.org/0000-0003-3918-87952024-11-21T16:48:29Z2024-11-21T16:48:29Z2024-09-27ONUKI, Lucas Akio Senaga. Comparação entre alguns modelos de regressão de contagem. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21040.https://repositorio.ufscar.br/handle/20.500.14289/21040Count data reflects the number of occurrences of a behavior of interest in a given period of time (for example, a team’s goals number in Brasileirão). A common behavior of this type of data is the presence of many zeros observed, i.e. zero-inflation, which ends up somewhat overturning the estimates obtained by the Poisson and Negative Binomial Regression models, usually used to model these type of data. With this in mind, this work set out to study the variations of these models, following two fronts: The first considering models that contain a possible excess of zeros and a second, which compares models from recent literature to check whether they are good alternatives in terms estimates and performance. In total, seven models were trained, the two mentioned above, plus: Poisson-Tweedie, Bell, Zero-inflated Poisson, Zero-inflated Negative Binomial and Zero-inflated Bell. Thus, different simulation scenarios were studied by computing metrics such as mean, standard deviation, REQM and model selection criteria, such as AIC and BIC. It is worth noting that both the classical and Bayesian study methods were used for comparative classification of estimates. In addition to the simulation studies, two applications to real data are presented. As a result of the different scenarios, we understand that the models that have an exclusive part to accommodate possible excesses of zeros had greater adherence to the data in applications. Regarding the models presented in recent literature, we can state that there is similarity in the adjustments made, which validates previous studies and guarantees that they are good alternatives to the Poisson and Negative Binomial models.Dados de contagem refletem o número de ocorrências de um comportamento de interesse em um período fixado de tempo (por exemplo, saldo de gols de um time no brasileirão). Um comportamento comum desse tipo de dado é a presença de muitos zeros observados, ie. inflacionamento de zeros, o que acaba viesando de certo modo as estimativas obtidas pelos modelos de Regressão Poisson e Binomial Negativa, usualmente utilizados para a modelagem desse tipo de dado. Com isso em mente, este trabalho propôs-se a estudar as variações desses modelos, seguindo em duas frentes: A primeira considerando modelos que conseguem comportar o possível excesso de zeros e uma segunda, que compara modelos da literatura recente para verificar se são boas alternativas em termos de estimativas e desempenho. No total, foram estudados sete modelos, sendo os dois mencionados acima, acrescidos de: Poisson-Tweedie, Bell, Zero-inflacionado Poisson, Zero-inflacionado Binomial Negativa e Zero-inflacionado Bell. Assim, diferentes cenários de simulação foram estudados computando métricas como média, desvio padrão, REQM e critérios de seleção de modelos, tais como AIC e BIC. Cabe ressaltar que tanto o método de estimação clássico, quanto a bayesiano, foram utilizados a critério comparativo das estimativas. Além dos estudos de simulação apresentamos duas aplicações a dados reais. Como resultado dos diversos cenários, entendemos que os modelos que possuem uma parte exclusiva para a acomodação de possíveis excessos de zeros possuíram maior aderência aos dados nas aplicações. Com relação aos modelos apresentados na literatura recente, podemos afirmar que há similaridade dos ajustes realizados, o que valida estudos anteriores e garante que são boas alternativas aos modelos Poisson e Binomial Negativa.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-sa/3.0/br/info:eu-repo/semantics/openAccessModelos de regressãoDados de contagemMétodos de estimaçãoDesempenhoInflacionamento de zerosRegression modelsCounting dataEstimation methodsPerformanceZero-inflationCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAComparação entre alguns modelos de regressão de contagemComparison between some count regression modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdf.txtLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdf.txtExtracted texttext/plain103941https://repositorio.ufscar.br/bitstreams/f08763ec-97b8-42fe-abcd-7924e5e85a41/downloadc84632d0e16287ba352acab2f0f5b6cbMD53falseAnonymousREAD2024-11-19THUMBNAILLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdf.jpgLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdf.jpgGenerated Thumbnailimage/jpeg6328https://repositorio.ufscar.br/bitstreams/09c0b3ff-a597-4432-a6c5-3cf9fb657708/download6128b8d3afa427eda5b444bf1e1ddd26MD54falseAnonymousREAD2024-11-19ORIGINALLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdfLucas_Akio_Senaga_Onuki_final_v_REVISADA.pdfArtigo principalapplication/pdf1446209https://repositorio.ufscar.br/bitstreams/18d01df2-a4bb-4fba-a114-03d9aab77672/download5c44e9cbd3f4f24afa664c6fd7bdf3e0MD51trueAnonymousREAD2024-11-19CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://repositorio.ufscar.br/bitstreams/7408a2e3-787f-49f7-be4a-49ef4f32a03a/download36c17387d15ae3a457ba8815a26942c5MD52falseAnonymousREAD2024-11-1920.500.14289/210402025-02-06 04:09:40.928http://creativecommons.org/licenses/by-nc-sa/3.0/br/Attribution-NonCommercial-ShareAlike 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21040https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T07:09:40Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Comparação entre alguns modelos de regressão de contagem |
| dc.title.alternative.por.fl_str_mv |
Comparison between some count regression models |
| title |
Comparação entre alguns modelos de regressão de contagem |
| spellingShingle |
Comparação entre alguns modelos de regressão de contagem Onuki, Lucas Akio Senaga Modelos de regressão Dados de contagem Métodos de estimação Desempenho Inflacionamento de zeros Regression models Counting data Estimation methods Performance Zero-inflation CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| title_short |
Comparação entre alguns modelos de regressão de contagem |
| title_full |
Comparação entre alguns modelos de regressão de contagem |
| title_fullStr |
Comparação entre alguns modelos de regressão de contagem |
| title_full_unstemmed |
Comparação entre alguns modelos de regressão de contagem |
| title_sort |
Comparação entre alguns modelos de regressão de contagem |
| author |
Onuki, Lucas Akio Senaga |
| author_facet |
Onuki, Lucas Akio Senaga |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
https://lattes.cnpq.br/2849328325192046 |
| dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0009-0008-8010-2301 |
| dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0003-3918-8795 |
| dc.contributor.author.fl_str_mv |
Onuki, Lucas Akio Senaga |
| dc.contributor.advisor1.fl_str_mv |
Guzmán, Jorge Luis Bazán |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8040998023074358 |
| contributor_str_mv |
Guzmán, Jorge Luis Bazán |
| dc.subject.por.fl_str_mv |
Modelos de regressão Dados de contagem Métodos de estimação Desempenho Inflacionamento de zeros |
| topic |
Modelos de regressão Dados de contagem Métodos de estimação Desempenho Inflacionamento de zeros Regression models Counting data Estimation methods Performance Zero-inflation CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| dc.subject.eng.fl_str_mv |
Regression models Counting data Estimation methods Performance Zero-inflation |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| description |
Count data reflects the number of occurrences of a behavior of interest in a given period of time (for example, a team’s goals number in Brasileirão). A common behavior of this type of data is the presence of many zeros observed, i.e. zero-inflation, which ends up somewhat overturning the estimates obtained by the Poisson and Negative Binomial Regression models, usually used to model these type of data. With this in mind, this work set out to study the variations of these models, following two fronts: The first considering models that contain a possible excess of zeros and a second, which compares models from recent literature to check whether they are good alternatives in terms estimates and performance. In total, seven models were trained, the two mentioned above, plus: Poisson-Tweedie, Bell, Zero-inflated Poisson, Zero-inflated Negative Binomial and Zero-inflated Bell. Thus, different simulation scenarios were studied by computing metrics such as mean, standard deviation, REQM and model selection criteria, such as AIC and BIC. It is worth noting that both the classical and Bayesian study methods were used for comparative classification of estimates. In addition to the simulation studies, two applications to real data are presented. As a result of the different scenarios, we understand that the models that have an exclusive part to accommodate possible excesses of zeros had greater adherence to the data in applications. Regarding the models presented in recent literature, we can state that there is similarity in the adjustments made, which validates previous studies and guarantees that they are good alternatives to the Poisson and Negative Binomial models. |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-11-21T16:48:29Z |
| dc.date.available.fl_str_mv |
2024-11-21T16:48:29Z |
| dc.date.issued.fl_str_mv |
2024-09-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
ONUKI, Lucas Akio Senaga. Comparação entre alguns modelos de regressão de contagem. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21040. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/21040 |
| identifier_str_mv |
ONUKI, Lucas Akio Senaga. Comparação entre alguns modelos de regressão de contagem. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21040. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/21040 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-nc-sa/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-nc-sa/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/f08763ec-97b8-42fe-abcd-7924e5e85a41/download https://repositorio.ufscar.br/bitstreams/09c0b3ff-a597-4432-a6c5-3cf9fb657708/download https://repositorio.ufscar.br/bitstreams/18d01df2-a4bb-4fba-a114-03d9aab77672/download https://repositorio.ufscar.br/bitstreams/7408a2e3-787f-49f7-be4a-49ef4f32a03a/download |
| bitstream.checksum.fl_str_mv |
c84632d0e16287ba352acab2f0f5b6cb 6128b8d3afa427eda5b444bf1e1ddd26 5c44e9cbd3f4f24afa664c6fd7bdf3e0 36c17387d15ae3a457ba8815a26942c5 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688761548603392 |