Proposição de dois novos métodos para análise de componentes principais

Reis, Carlos José dos

Proposição de dois novos métodos para análise de componentes principais

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Reis, Carlos José dos
Orientador(a):	Chaves, Lucas Monteiro
Banca de defesa:	Nogueira, Denismar Alves, Ferreira, Daniel Furtado, Guimarães, Paulo Henrique Sales
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Lavras
Programa de Pós-Graduação:	Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
Departamento:	Departamento de Ciências Exatas
País:	brasil
Palavras-chave em Português:	Análise de componentes principais Esparsidade Octogonal shrinkage and clustering algorithm for regression Pairwise absolute clustering and sparsity Agrupamentos Principal component analysis Esparsity
Área do conhecimento CNPq:	Estatística
Link de acesso:	https://repositorio.ufla.br/handle/1/46110
Resumo:	A análise de componentes principais (PCA, do inglês “Principal Component Analysis”) é um método multivariado amplamente utilizado, principalmente por sua capacidade de conter em poucas variáveis latentes, conhecidas como componentes principais, uma grande proporção da variância total de todas as variáveis originais. Entretanto, a PCA sofre pelo fato de cada componente principal ser a combinação linear de todas as variáveis originais, o que frequentemente ocasiona dificuldades na interpretação dos resultados. Uma das formas adotadas para contornar essa dificuldade é observar os loadings que acompanham cada variável e ignorar aqueles cujos valores sejam pequenos. O componente assim obtido passa a ser a combinação linear envolvendo as variáveis remanescentes. Embora essa prática seja muito utilizada, este procedimento é potencialmente enganoso por se basear na subjetividade. A análise de componentes principais esparsos (SPCA, do inglês “Sparse Principal Component Analysis”) surgiu como um método que pode ser aplicado para melhorar essa desvantagem da PCA. Sendo um tema de intensa pesquisa por mais de uma década, o método SPCA proposto por Zou, Hastie e Tibshirani em 2006 modifica a formulação original da PCA por tratá-la como um problema de regressão pela introdução da penalidade LASSO, acrônimo de Least Absolute Shrinkage and Selection Operator, que é útil por induzir a esparsidade (loadings nulos) nos componentes principais. Diante do que foi exposto, são propostos dois novos métodos com o objetivo de facilitar a interpretação dos resultados na PCA, principalmente para cenários em que o problema sob investigação possua um número muito elevado de variáveis. Os métodos propostos foram denominados Sparse Group for Principal Component Analysis (SGPCA) e Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). Os métodos SGPCA e PACSPCA se baseiam nos métodos de regressão Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) e Pairwise Absolute Clustering and Sparsity (PACS), respectivamente. Os dois novos métodos propostos, além de também induzirem a esparsidade nos componentes como o método SPCA, também possuem a capacidade de agrupar variáveis utilizando-se da correlação entre as mesmas pela igualdade dos seus loadings. Como ilustração, os métodos propostos SGPCA e PACSPCA foram aplicados a dados reais e simulados, visando elucidar algumas de suas características.

Metadados do item

id	UFLA_742fe5a4df1e40120f538cd1a55d0e4c
oai_identifier_str	oai:repositorio.ufla.br:1/46110
network_acronym_str	UFLA
network_name_str	Repositório Institucional da UFLA
repository_id_str
spelling	2021-02-10T16:39:01Z2021-02-10T16:39:01Z2020-08-172020-08-04REIS, C. J. dos. Proposição de dois novos métodos para análise de componentes principais. 2020. 187 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de Lavras, Lavras, 2020.https://repositorio.ufla.br/handle/1/46110A análise de componentes principais (PCA, do inglês “Principal Component Analysis”) é um método multivariado amplamente utilizado, principalmente por sua capacidade de conter em poucas variáveis latentes, conhecidas como componentes principais, uma grande proporção da variância total de todas as variáveis originais. Entretanto, a PCA sofre pelo fato de cada componente principal ser a combinação linear de todas as variáveis originais, o que frequentemente ocasiona dificuldades na interpretação dos resultados. Uma das formas adotadas para contornar essa dificuldade é observar os loadings que acompanham cada variável e ignorar aqueles cujos valores sejam pequenos. O componente assim obtido passa a ser a combinação linear envolvendo as variáveis remanescentes. Embora essa prática seja muito utilizada, este procedimento é potencialmente enganoso por se basear na subjetividade. A análise de componentes principais esparsos (SPCA, do inglês “Sparse Principal Component Analysis”) surgiu como um método que pode ser aplicado para melhorar essa desvantagem da PCA. Sendo um tema de intensa pesquisa por mais de uma década, o método SPCA proposto por Zou, Hastie e Tibshirani em 2006 modifica a formulação original da PCA por tratá-la como um problema de regressão pela introdução da penalidade LASSO, acrônimo de Least Absolute Shrinkage and Selection Operator, que é útil por induzir a esparsidade (loadings nulos) nos componentes principais. Diante do que foi exposto, são propostos dois novos métodos com o objetivo de facilitar a interpretação dos resultados na PCA, principalmente para cenários em que o problema sob investigação possua um número muito elevado de variáveis. Os métodos propostos foram denominados Sparse Group for Principal Component Analysis (SGPCA) e Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). Os métodos SGPCA e PACSPCA se baseiam nos métodos de regressão Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) e Pairwise Absolute Clustering and Sparsity (PACS), respectivamente. Os dois novos métodos propostos, além de também induzirem a esparsidade nos componentes como o método SPCA, também possuem a capacidade de agrupar variáveis utilizando-se da correlação entre as mesmas pela igualdade dos seus loadings. Como ilustração, os métodos propostos SGPCA e PACSPCA foram aplicados a dados reais e simulados, visando elucidar algumas de suas características.Principal component analysis (PCA) is a multivariate method widely used, mainly because of its ability to synthesize in a few latent variables, known as principal components, a large proportion of the total variance of all original variables. However, PCA suffers from the fact that each principal component is the linear combination of a very large number of original variables, which often causes difficulties in interpreting the results. One of the ways adopted to overcome this difficulty is to observe the loadings that accompany each variable and ignore those whose values are small. The component thus obtained becomes the linear combination involving the remaining variables. Although this practice is widely used, this procedure is potentially misleading as it is based on subjectivity. Sparse principal component analysis (SPCA) has emerged as a method that can be applied to improve this disadvantage of PCA. Being a subject of intense research for over a decade, the SPCA method proposed by Zou, Hastie and Tibshirani in 2006 modifies the original formulation of the PCA by treating it as a regression problem by introducing the LASSO penalty, acronym for Least Absolute Shrinkage and Selection Operator, which is useful for inducing sparse (null loadings) in the principal components. Because of the above, two new methods are proposed in order to facilitate the interpretation of results in the PCA, mainly for scenarios in which the problem under investigation has a very large number of variables. The proposed methods were called Sparse Group for Principal Component Analysis (SGPCA) and Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). The SGPCA and PACSPCA methods are based on the Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) and Pairwise Absolute Clustering and Sparsity (PACS) regression methods, respectively. The two new methods proposed, in addition to also inducing the sparsity in the components such as the SPCA method, also can group variables using the correlation between them by the equality of their loadings. As an illustration, the proposed SGPCA and PACSPCA methods were applied to real and simulated data, aiming to elucidate some of their characteristics.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-Graduação em Estatística e Experimentação AgropecuáriaUFLAbrasilDepartamento de Ciências ExatasEstatísticaAnálise de componentes principaisEsparsidadeOctogonal shrinkage and clustering algorithm for regressionPairwise absolute clustering and sparsityAgrupamentosPrincipal component analysisEsparsityProposição de dois novos métodos para análise de componentes principaisProposition of two new methods for principal component analysisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisChaves, Lucas MonteiroSouza, Devanil Jaques deNogueira, Denismar AlvesFerreira, Daniel FurtadoGuimarães, Paulo Henrique Saleshttp://lattes.cnpq.br/8238335560906934Reis, Carlos José dosinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALTESE_Proposição de dois novos métodos para análise de componentes principais.pdfTESE_Proposição de dois novos métodos para análise de componentes principais.pdfapplication/pdf5026266https://repositorio.ufla.br/bitstreams/783c4941-12f6-4bae-b07f-fbc771d14ef3/download2e14fe8519fe1aa82fef84bb84f3a4b3MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/134bd29e-b6be-4da3-b1cf-6b7db07b3f24/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTTESE_Proposição de dois novos métodos para análise de componentes principais.pdf.txtTESE_Proposição de dois novos métodos para análise de componentes principais.pdf.txtExtracted texttext/plain107552https://repositorio.ufla.br/bitstreams/287e9e66-9b76-423a-a62e-35dea7515abd/downloadd9d1a659932c640bf6a133057cb5795fMD53falseAnonymousREADTHUMBNAILTESE_Proposição de dois novos métodos para análise de componentes principais.pdf.jpgTESE_Proposição de dois novos métodos para análise de componentes principais.pdf.jpgGenerated Thumbnailimage/jpeg3062https://repositorio.ufla.br/bitstreams/3b471f63-b0d9-4a5a-b1df-0f61a7318cb3/downloadd2b436102edfe353a46e96611681a7bdMD54falseAnonymousREAD1/461102025-10-24 20:23:40.028open.accessoai:repositorio.ufla.br:1/46110https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br \|\| repositorio.biblioteca@ufla.bropendoar:2025-10-24T23:23:40Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv	Proposição de dois novos métodos para análise de componentes principais
dc.title.alternative.pt_BR.fl_str_mv	Proposition of two new methods for principal component analysis
title	Proposição de dois novos métodos para análise de componentes principais
spellingShingle	Proposição de dois novos métodos para análise de componentes principais Reis, Carlos José dos Estatística Análise de componentes principais Esparsidade Octogonal shrinkage and clustering algorithm for regression Pairwise absolute clustering and sparsity Agrupamentos Principal component analysis Esparsity
title_short	Proposição de dois novos métodos para análise de componentes principais
title_full	Proposição de dois novos métodos para análise de componentes principais
title_fullStr	Proposição de dois novos métodos para análise de componentes principais
title_full_unstemmed	Proposição de dois novos métodos para análise de componentes principais
title_sort	Proposição de dois novos métodos para análise de componentes principais
author	Reis, Carlos José dos
author_facet	Reis, Carlos José dos
author_role	author
dc.contributor.advisor1.fl_str_mv	Chaves, Lucas Monteiro
dc.contributor.advisor-co1.fl_str_mv	Souza, Devanil Jaques de
dc.contributor.referee1.fl_str_mv	Nogueira, Denismar Alves
dc.contributor.referee2.fl_str_mv	Ferreira, Daniel Furtado
dc.contributor.referee3.fl_str_mv	Guimarães, Paulo Henrique Sales
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/8238335560906934
dc.contributor.author.fl_str_mv	Reis, Carlos José dos
contributor_str_mv	Chaves, Lucas Monteiro Souza, Devanil Jaques de Nogueira, Denismar Alves Ferreira, Daniel Furtado Guimarães, Paulo Henrique Sales
dc.subject.cnpq.fl_str_mv	Estatística
topic	Estatística Análise de componentes principais Esparsidade Octogonal shrinkage and clustering algorithm for regression Pairwise absolute clustering and sparsity Agrupamentos Principal component analysis Esparsity
dc.subject.por.fl_str_mv	Análise de componentes principais Esparsidade Octogonal shrinkage and clustering algorithm for regression Pairwise absolute clustering and sparsity Agrupamentos Principal component analysis Esparsity
description	A análise de componentes principais (PCA, do inglês “Principal Component Analysis”) é um método multivariado amplamente utilizado, principalmente por sua capacidade de conter em poucas variáveis latentes, conhecidas como componentes principais, uma grande proporção da variância total de todas as variáveis originais. Entretanto, a PCA sofre pelo fato de cada componente principal ser a combinação linear de todas as variáveis originais, o que frequentemente ocasiona dificuldades na interpretação dos resultados. Uma das formas adotadas para contornar essa dificuldade é observar os loadings que acompanham cada variável e ignorar aqueles cujos valores sejam pequenos. O componente assim obtido passa a ser a combinação linear envolvendo as variáveis remanescentes. Embora essa prática seja muito utilizada, este procedimento é potencialmente enganoso por se basear na subjetividade. A análise de componentes principais esparsos (SPCA, do inglês “Sparse Principal Component Analysis”) surgiu como um método que pode ser aplicado para melhorar essa desvantagem da PCA. Sendo um tema de intensa pesquisa por mais de uma década, o método SPCA proposto por Zou, Hastie e Tibshirani em 2006 modifica a formulação original da PCA por tratá-la como um problema de regressão pela introdução da penalidade LASSO, acrônimo de Least Absolute Shrinkage and Selection Operator, que é útil por induzir a esparsidade (loadings nulos) nos componentes principais. Diante do que foi exposto, são propostos dois novos métodos com o objetivo de facilitar a interpretação dos resultados na PCA, principalmente para cenários em que o problema sob investigação possua um número muito elevado de variáveis. Os métodos propostos foram denominados Sparse Group for Principal Component Analysis (SGPCA) e Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). Os métodos SGPCA e PACSPCA se baseiam nos métodos de regressão Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) e Pairwise Absolute Clustering and Sparsity (PACS), respectivamente. Os dois novos métodos propostos, além de também induzirem a esparsidade nos componentes como o método SPCA, também possuem a capacidade de agrupar variáveis utilizando-se da correlação entre as mesmas pela igualdade dos seus loadings. Como ilustração, os métodos propostos SGPCA e PACSPCA foram aplicados a dados reais e simulados, visando elucidar algumas de suas características.
publishDate	2020
dc.date.submitted.none.fl_str_mv	2020-08-04
dc.date.issued.fl_str_mv	2020-08-17
dc.date.accessioned.fl_str_mv	2021-02-10T16:39:01Z
dc.date.available.fl_str_mv	2021-02-10T16:39:01Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	REIS, C. J. dos. Proposição de dois novos métodos para análise de componentes principais. 2020. 187 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de Lavras, Lavras, 2020.
dc.identifier.uri.fl_str_mv	https://repositorio.ufla.br/handle/1/46110
identifier_str_mv	REIS, C. J. dos. Proposição de dois novos métodos para análise de componentes principais. 2020. 187 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de Lavras, Lavras, 2020.
url	https://repositorio.ufla.br/handle/1/46110
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Lavras
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
dc.publisher.initials.fl_str_mv	UFLA
dc.publisher.country.fl_str_mv	brasil
dc.publisher.department.fl_str_mv	Departamento de Ciências Exatas
publisher.none.fl_str_mv	Universidade Federal de Lavras
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA
instname_str	Universidade Federal de Lavras (UFLA)
instacron_str	UFLA
institution	UFLA
reponame_str	Repositório Institucional da UFLA
collection	Repositório Institucional da UFLA
bitstream.url.fl_str_mv	https://repositorio.ufla.br/bitstreams/783c4941-12f6-4bae-b07f-fbc771d14ef3/download https://repositorio.ufla.br/bitstreams/134bd29e-b6be-4da3-b1cf-6b7db07b3f24/download https://repositorio.ufla.br/bitstreams/287e9e66-9b76-423a-a62e-35dea7515abd/download https://repositorio.ufla.br/bitstreams/3b471f63-b0d9-4a5a-b1df-0f61a7318cb3/download
bitstream.checksum.fl_str_mv	2e14fe8519fe1aa82fef84bb84f3a4b3 760884c1e72224de569e74f79eb87ce3 d9d1a659932c640bf6a133057cb5795f d2b436102edfe353a46e96611681a7bd
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv	nivaldo@ufla.br \|\| repositorio.biblioteca@ufla.br
_version_	1854947702991749120

Proposição de dois novos métodos para análise de componentes principais

Registros relacionados