Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Almeida, Josemir Ramos de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/
Resumo: Nas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso.
id USP_05e64218c7c9574fb0793f08eb1bd58f
oai_identifier_str oai:teses.usp.br:tde-21082025-161535
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricosAsymmetric linear regression models with missing data in covariateAlgoritmo EMAsymmetric normal distributionDados faltantesDistribuição skew normalEM algorithmMissing dataModelos de regressãoRegression modelsNas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso.In the most diverse areas of knowledge we _nd dataset with missing observations. Dealing with this problem without losing much information remains a challenge today. In this work we address regression models with missing data in the covariates, which can be qualitative or quantitative. First we consider the normal error model and the use of the maximum likelihood estimation with a simple imputation and compare with the models adjusted using the EM algorithm. Then, considering the skew-normal distribution for the error of the model with missing covariates, we propose a EM algorithm to estimate the parameters and to impute the missing data. This algorithm is based in the hierarchical form proposed by Henze (1986) to write the asymmetric normal regression model and, by the method of Louis (1982), we obtained the asymptotic covariance matrix of the maximum likelihood estimator (EMV). Finally, to illustrate the proposed methodologies, a simulation study and an application to real data are presented. In both simulations and applications we explore various percentages of missing data and in simulations we vary sample sizes. We conclude that the EM algorithm proposed in this work can be used in normal and asymmetric normal linear regression models, both with or without observations missing in covariate. It was possible to obtain closed analytical expressions for the parameter estimators, conditional on the latent variables, which allowed the construction of an e_cient algorithm. Thus, even with the incorporation of latente variables in the model, the same was not computationally costly.Biblioteca Digitais de Teses e Dissertações da USPBolfarine, HelenoBranco, Marcia D EliaAlmeida, Josemir Ramos de2019-11-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-21T19:38:02Zoai:teses.usp.br:tde-21082025-161535Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-21T19:38:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
Asymmetric linear regression models with missing data in covariate
title Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
spellingShingle Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
Almeida, Josemir Ramos de
Algoritmo EM
Asymmetric normal distribution
Dados faltantes
Distribuição skew normal
EM algorithm
Missing data
Modelos de regressão
Regression models
title_short Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
title_full Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
title_fullStr Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
title_full_unstemmed Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
title_sort Modelos de regressão linear com dados faltantes nas covariáveis e erros simétricos e assimétricos
author Almeida, Josemir Ramos de
author_facet Almeida, Josemir Ramos de
author_role author
dc.contributor.none.fl_str_mv Bolfarine, Heleno
Branco, Marcia D Elia
dc.contributor.author.fl_str_mv Almeida, Josemir Ramos de
dc.subject.por.fl_str_mv Algoritmo EM
Asymmetric normal distribution
Dados faltantes
Distribuição skew normal
EM algorithm
Missing data
Modelos de regressão
Regression models
topic Algoritmo EM
Asymmetric normal distribution
Dados faltantes
Distribuição skew normal
EM algorithm
Missing data
Modelos de regressão
Regression models
description Nas mais diversas áreas do conhecimento encontramos conjunto de dados com observações ausentes. Lidar com esse problema sem perder muita informação continua sendo ainda hoje um desafio. Neste trabalho abordamos modelos de regressão com dados faltantes nas covariáveis, sendo estas dos tipos qualitativa e quantitativa. Sob a suposição de normalidade dos erros, consideramos estimação por máxima verossimilhança com uma proposta de imputação simples e comparamos com os modelos ajustados via algoritmo EM. Considerando a suposição de distribuição normal assimétrica para os erros do modelo, propomos a construção do algoritmo EM para realização da estimação de máxima verossimilhança. Para tal, utilizamos a forma hierárquica proposta por Henze (1986) para escrevermos o modelo de regressão skew normal e, pelo método de Louis (1982), encontramos a matriz de covariâncias assintóticas do estimador de máxima verossimilhança (EMV). Finalmente, para ilustrar as metodologias propostas, foram realizados estudos de simulação e uma aplicação a dados reais. Tanto nas simulações quanto nas aplicações exploramos diversos percentuais de dados faltantes e nas simulações variamos os tamanhos amostrais. Concluímos que o algoritmo EM proposto neste trabalho pode ser utilizado em modelos de regressão linear normal e normal assimétrico, ambos com ou sem observações faltantes nas covariáveis. Foi possível obter expressões analíticas fechadas para os estimadores dos parâmetros, condicional as variáveis latentes, o que permitiu a construção de um algoritmo eficiente. Assim, mesmo com a incorporação de variáveis latentes no modelo, o mesmo não se mostrou computacionalmente custoso.
publishDate 2019
dc.date.none.fl_str_mv 2019-11-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-21082025-161535/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370488181522432