Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/ |
Resumo: | Nas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso. |
| id |
USP_05e64218c7c9574fb0793f08eb1bd58f |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-21082025-161535 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricosAsymmetric linear regression models with missing data in covariateAlgoritmo EMAsymmetric normal distributionDados faltantesDistribuição skew normalEM algorithmMissing dataModelos de regressãoRegression modelsNas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso.In the most diverse areas of knowledge we _nd dataset with missing observations. Dealing with this problem without losing much information remains a challenge today. In this work we address regression models with missing data in the covariates, which can be qualitative or quantitative. First we consider the normal error model and the use of the maximum likelihood estimation with a simple imputation and compare with the models adjusted using the EM algorithm. Then, considering the skew-normal distribution for the error of the model with missing covariates, we propose a EM algorithm to estimate the parameters and to impute the missing data. This algorithm is based in the hierarchical form proposed by Henze (1986) to write the asymmetric normal regression model and, by the method of Louis (1982), we obtained the asymptotic covariance matrix of the maximum likelihood estimator (EMV). Finally, to illustrate the proposed methodologies, a simulation study and an application to real data are presented. In both simulations and applications we explore various percentages of missing data and in simulations we vary sample sizes. We conclude that the EM algorithm proposed in this work can be used in normal and asymmetric normal linear regression models, both with or without observations missing in covariate. It was possible to obtain closed analytical expressions for the parameter estimators, conditional on the latent variables, which allowed the construction of an e_cient algorithm. Thus, even with the incorporation of latente variables in the model, the same was not computationally costly.Biblioteca Digitais de Teses e Dissertações da USPBolfarine, HelenoBranco, Marcia D EliaAlmeida, Josemir Ramos de2019-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-21T19:38:02Zoai:teses.usp.br:tde-21082025-161535Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-21T19:38:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos Asymmetric linear regression models with missing data in covariate |
| title |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| spellingShingle |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos Almeida, Josemir Ramos de Algoritmo EM Asymmetric normal distribution Dados faltantes Distribuição skew normal EM algorithm Missing data Modelos de regressão Regression models |
| title_short |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| title_full |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| title_fullStr |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| title_full_unstemmed |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| title_sort |
Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos |
| author |
Almeida, Josemir Ramos de |
| author_facet |
Almeida, Josemir Ramos de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Bolfarine, Heleno Branco, Marcia D Elia |
| dc.contributor.author.fl_str_mv |
Almeida, Josemir Ramos de |
| dc.subject.por.fl_str_mv |
Algoritmo EM Asymmetric normal distribution Dados faltantes Distribuição skew normal EM algorithm Missing data Modelos de regressão Regression models |
| topic |
Algoritmo EM Asymmetric normal distribution Dados faltantes Distribuição skew normal EM algorithm Missing data Modelos de regressão Regression models |
| description |
Nas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-11-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370488181522432 |