Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Canova, Luciana dos Santos
Orientador(a): Gomes, Adriano de Araújo
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/274079
Resumo: O algoritmo de Projeções Sucessivas (APS), também conhecido em inglês como SPA, foi desenvolvido com o propósito de selecionar um subconjunto de variáveis informativas e minimamente redundantes para a construção de modelos de regressões lineares múltiplas (MLR). Esse método visa minimizar o impacto da multicolinearidade, que é comumente presente em dados instrumentais, ao mesmo tempo em que alcança uma melhor acurácia na previsão. A combinação do APS com o MLR, como uma abordagem de seleção variável/calibração multivariada, resultou no método APS-MLR, o qual tem sido relatado na literatura como capaz de produzir modelos com boa capacidade de previsão em comparação com os modelos convencionais de "espectro completo" via mínimos quadrados parciais (PLS), em alguns casos. Neste trabalho, é proposta a adição de uma etapa de filtro (f) à versão atual do algoritmo APS, a fim de reduzir o número de variáveis não informativas antes da fase de projeção. Essa adição auxilia o algoritmo na seleção das melhores variáveis nas etapas subsequentes. O algoritmo resultante, denominado de fAPS-MLR, é avaliado em dois estudos de caso que envolvem dados de espectroscopia no infravermelho próximo: (i) quantificação do ingrediente farmacêutico ativo (IFA) em comprimidos e (ii) quantificação de biodiesel em misturas diesel/biodiesel. Comparados com o método PLS, os modelos fAPS-MLR demonstram desempenho semelhante ou superior. Além disso, os modelos fAPS-MLR superam o APS-MLR original tanto na validação cruzada quanto na previsão externa. Independentemente do algoritmo de pré-processamento testado, incluindo primeira derivada Savitzky-Golay (SG) e Standard Normal Variate (SNV), ou mesmo em dados de espectros brutos, os modelos fAPS-MLR oferecem resultados superiores.
id URGS_fd7e31bca784ccdb9acc9d20f3d396e7
oai_identifier_str oai:www.lume.ufrgs.br:10183/274079
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Canova, Luciana dos SantosGomes, Adriano de Araújo2024-03-22T05:07:05Z2023http://hdl.handle.net/10183/274079001195497O algoritmo de Projeções Sucessivas (APS), também conhecido em inglês como SPA, foi desenvolvido com o propósito de selecionar um subconjunto de variáveis informativas e minimamente redundantes para a construção de modelos de regressões lineares múltiplas (MLR). Esse método visa minimizar o impacto da multicolinearidade, que é comumente presente em dados instrumentais, ao mesmo tempo em que alcança uma melhor acurácia na previsão. A combinação do APS com o MLR, como uma abordagem de seleção variável/calibração multivariada, resultou no método APS-MLR, o qual tem sido relatado na literatura como capaz de produzir modelos com boa capacidade de previsão em comparação com os modelos convencionais de "espectro completo" via mínimos quadrados parciais (PLS), em alguns casos. Neste trabalho, é proposta a adição de uma etapa de filtro (f) à versão atual do algoritmo APS, a fim de reduzir o número de variáveis não informativas antes da fase de projeção. Essa adição auxilia o algoritmo na seleção das melhores variáveis nas etapas subsequentes. O algoritmo resultante, denominado de fAPS-MLR, é avaliado em dois estudos de caso que envolvem dados de espectroscopia no infravermelho próximo: (i) quantificação do ingrediente farmacêutico ativo (IFA) em comprimidos e (ii) quantificação de biodiesel em misturas diesel/biodiesel. Comparados com o método PLS, os modelos fAPS-MLR demonstram desempenho semelhante ou superior. Além disso, os modelos fAPS-MLR superam o APS-MLR original tanto na validação cruzada quanto na previsão externa. Independentemente do algoritmo de pré-processamento testado, incluindo primeira derivada Savitzky-Golay (SG) e Standard Normal Variate (SNV), ou mesmo em dados de espectros brutos, os modelos fAPS-MLR oferecem resultados superiores.The Successive Projection Algorithm (APS), also known in English as SPA, was developed with the purpose of selecting a subset of informative and minimally redundant variables for the construction of multiple linear regression models (MLR). This method aims to minimize the impact of multicollinearity, which is commonly present in instrumental data, while achieving better forecast accuracy. The combination of APS with MLR, as a variable selection/multivariate calibration approach, resulted in APS-MLR method, which has been reported in literature as capable of producing models with good predictive ability compared to conventional models of "full spectrum" via Partial Least Squares (PLS) in some cases. In this work, it is proposed to add a filter step (f) to the current version of APS algorithm, to reduce the number of non-informative variables before projection phase. This addition assists the algorithm in selecting the best variables in subsequent steps. The resulting algorithm, called fAPSMLR, is evaluated in two case studies involving near-infrared spectroscopy data: (i) quantification of the active pharmaceutical ingredient (IFA), also known in English as API, in tablets and (ii) quantification of biodiesel in diesel/biodiesel blends. Compared with the PLS method, fAPS-MLR models demonstrate similar or superior performance. Furthermore, fAPS-MLR models outperform the original APS-MLR in both crossvalidation and external prediction. Regardless of the tested pre-processing algorithm, including Savitzky-Golay (SG) First Derivative and Standard Normal Variate (SNV), or even on raw spectral data, fAPS-MLR models deliver superior results.application/pdfporSeleção de variáveisRegressão linear múltiplaRegressão por mínimos quadrados parciais (PLS)Espectrometria no infravermelhoVariable selectionSuccessive projections algorithmMultilinear regressionPartial least squares, NIR spectrometryUma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltiplainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de QuímicaPrograma de Pós-Graduação em QuímicaPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001195497.pdf.txt001195497.pdf.txtExtracted Texttext/plain121884http://www.lume.ufrgs.br/bitstream/10183/274079/2/001195497.pdf.txt06028f6a00b433019a6fcd4824b10373MD52ORIGINAL001195497.pdfTexto completoapplication/pdf4481512http://www.lume.ufrgs.br/bitstream/10183/274079/1/001195497.pdf34c819d73e7843c0bad980f65c5b4892MD5110183/2740792025-07-26 08:04:58.762596oai:www.lume.ufrgs.br:10183/274079Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-07-26T11:04:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
title Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
spellingShingle Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
Canova, Luciana dos Santos
Seleção de variáveis
Regressão linear múltipla
Regressão por mínimos quadrados parciais (PLS)
Espectrometria no infravermelho
Variable selection
Successive projections algorithm
Multilinear regression
Partial least squares, NIR spectrometry
title_short Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
title_full Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
title_fullStr Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
title_full_unstemmed Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
title_sort Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
author Canova, Luciana dos Santos
author_facet Canova, Luciana dos Santos
author_role author
dc.contributor.author.fl_str_mv Canova, Luciana dos Santos
dc.contributor.advisor1.fl_str_mv Gomes, Adriano de Araújo
contributor_str_mv Gomes, Adriano de Araújo
dc.subject.por.fl_str_mv Seleção de variáveis
Regressão linear múltipla
Regressão por mínimos quadrados parciais (PLS)
Espectrometria no infravermelho
topic Seleção de variáveis
Regressão linear múltipla
Regressão por mínimos quadrados parciais (PLS)
Espectrometria no infravermelho
Variable selection
Successive projections algorithm
Multilinear regression
Partial least squares, NIR spectrometry
dc.subject.eng.fl_str_mv Variable selection
Successive projections algorithm
Multilinear regression
Partial least squares, NIR spectrometry
description O algoritmo de Projeções Sucessivas (APS), também conhecido em inglês como SPA, foi desenvolvido com o propósito de selecionar um subconjunto de variáveis informativas e minimamente redundantes para a construção de modelos de regressões lineares múltiplas (MLR). Esse método visa minimizar o impacto da multicolinearidade, que é comumente presente em dados instrumentais, ao mesmo tempo em que alcança uma melhor acurácia na previsão. A combinação do APS com o MLR, como uma abordagem de seleção variável/calibração multivariada, resultou no método APS-MLR, o qual tem sido relatado na literatura como capaz de produzir modelos com boa capacidade de previsão em comparação com os modelos convencionais de "espectro completo" via mínimos quadrados parciais (PLS), em alguns casos. Neste trabalho, é proposta a adição de uma etapa de filtro (f) à versão atual do algoritmo APS, a fim de reduzir o número de variáveis não informativas antes da fase de projeção. Essa adição auxilia o algoritmo na seleção das melhores variáveis nas etapas subsequentes. O algoritmo resultante, denominado de fAPS-MLR, é avaliado em dois estudos de caso que envolvem dados de espectroscopia no infravermelho próximo: (i) quantificação do ingrediente farmacêutico ativo (IFA) em comprimidos e (ii) quantificação de biodiesel em misturas diesel/biodiesel. Comparados com o método PLS, os modelos fAPS-MLR demonstram desempenho semelhante ou superior. Além disso, os modelos fAPS-MLR superam o APS-MLR original tanto na validação cruzada quanto na previsão externa. Independentemente do algoritmo de pré-processamento testado, incluindo primeira derivada Savitzky-Golay (SG) e Standard Normal Variate (SNV), ou mesmo em dados de espectros brutos, os modelos fAPS-MLR oferecem resultados superiores.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-03-22T05:07:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/274079
dc.identifier.nrb.pt_BR.fl_str_mv 001195497
url http://hdl.handle.net/10183/274079
identifier_str_mv 001195497
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/274079/2/001195497.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/274079/1/001195497.pdf
bitstream.checksum.fl_str_mv 06028f6a00b433019a6fcd4824b10373
34c819d73e7843c0bad980f65c5b4892
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1846255901040705536