Bayesian-based optimization of experiments using stochastic gradient methods

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Carlon, André Gustavo
Orientador(a): Lopez, Rafael Holdorf
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/215266
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2019.
id UFSC_bb5532458daf050ac89a4779e94d0eea
oai_identifier_str oai:repositorio.ufsc.br:123456789/215266
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaCarlon, André GustavoLopez, Rafael Holdorf2020-10-21T21:14:45Z2020-10-21T21:14:45Z2019364642https://repositorio.ufsc.br/handle/123456789/215266Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2019.Os experimentos desempenham um papel importante na ciência, sendoa maneira como observamos o mundo real. No entanto, em muitoscasos, os experimentos podem ser caros, demorados ou não fornecerinformação o suficiente sobre as quantidades de interesse. Nesses casos,pode ser interessante ajustar o experimento para melhorar sua eficiência.O campo da ciência cujo o objetivo é encontrar a melhor configuraçãopara experimentos é chamado de projeto ótimo de experimento (OED).Utilizamos conceitos de inferência bayesiana para modelar a realizaçãodo experimento e, assim, podemos avaliar o desempenho do experimentoutilizando o ganho esperado de informação de Shannon (EIG). Quantomais informativo um experimento for quanto às quantidades de interesse,maior será seu EIG. Assim, o EIG é nossa função de utilidade no OED;a quantidade que queremos maximizar.Para o caso geral, estimar o EIG pode ser caro. A abordagem diretaé aproximar as integrais do EIG usando integração de Monte Carlo(MCI). O estimador resultante é o Monte Carlo de laço duplo (DLMC).O DLMC é caro e é conhecido por ter problemas numéricos, assim,buscamos outro estimador de EIG que possa ter melhor desempenhoque o DLMC. Uma alternativa é aproximar a informação posterior aoexperimento por uma função gaussiana, resultando no estimador deMonte Carlo com Laplace (MCLA). Este estimador tem um viés daaproximação de Laplace e é, portanto, inconsistente. Como alternativapara estimar o EIG, apresentamos o Monte Carlo de laço duplo comamostragem por importância. A amostragem por importância usa umaestimativa Gaussiana da posterior para obter amostras mais informativasquanto às quantidades de interesse.Sendo o custo uma questão principal em OED, é importante tornara otimização o mais eficiente possível. Para otimizar o projeto de experimentos,usamos o gradiente estocástico de descida, reduzindo ocusto de cada iteração ao evitar o custo de um MCI. A diminuição notamanho do passo para o SGD torna a convergência sensível ao tamanhodo passo escolhido. Usamos técnicas no estado-da-arte em otimizaçãoestocástica para obter uma otimização robusta e rápida. Uma técnicaé a média de Polyak?Ruppert, consistindo de uma média móvel docaminho de otimização. Como a média é mais suave do que o caminho,a diminuição do tamanho do passo necessário para o SGD pode serrelaxada, fornecendo, assim, um algoritmo mais robusto. Para acelerar aconvergência, combinamos o SGD com um método de momento, a aceleraçãodo Nesterov. O algoritmo resultante, o ASGD-restart, é robustoe mantém a convergência acelerada em algumas situações.Para usar os métodos do gradiente estocástico, são necessários estimadoresnão-enviesados do gradiente verdadeiro. Assim, deduzimosos gradientes dos estimadores DLMC, MCLA e DLMCIS em funçãodo modelo direto e suas derivadas. Além disso, as complexidades dosestimadores de gradiente são apresentadas e o pseudocódigo de seusalgoritmos é mostrado para permitir a reprodução.Para testar o desempenho dos métodos, nós os usamos para resolverquatro exemplos numéricos. O primeiro é um problema de otimizaçãoestocástica pura com vinte dimensões tanto para o projeto quanto paraas quantidades de interesse. O segundo exemplo é um problema deOED sem um significado físico que criamos para testar as combinaçõesentre os estimadores EIG e os métodos de otimização. Na média decem execuções, o ASGD-restart com o MCLA resolveu este exemplocom menos de 300 avaliações de modelo, enquanto o DLMC usando adescida de gradiente deterministico precisou de 2.99 × 107 avaliações.O terceiro exemplo é o posicionamento ideal de um extensômetro emuma viga para inferir propriedades mecânicas do material do qual aviga é feita. Este exemplo é usado para mostrar que o ótimo encontradoé consistente com a intuição de engenharia. O quarto e último exemploé a otimização das correntes em um experimento de tomografia porimpedância elétrica (EIT) para inferir os ângulos nas camadas de ummaterial laminado composto. A simulação do EIT requer o uso dométodo de elementos finitos, sendo, portanto, um modelo avançado caropara avaliar. O ASGD-restart usando o gradiente do estimador MCLAconvergiu para soluções ótimas nos quatro casos testados. Até onde vaio conhecimento dos autores, esta é a primeira pesquisa para resolverefetivamente um problema OED com um modelo baseado na análise deelementos finitos.Nos testes numéricos, usando o gradiente do estimador MCLA paraotimização estocástica resultou em convergência rápida em relação aocusto. Além disso, o reinício do ASGD acoplado ao MCLA provou seruma opção viável para a otimização de experimentos com modelos caros.Abstract : Experiments play an important role in science, being the way we observethe real world. However, in many cases experiments can be expensive,time-consuming or not provide enough information about the quantitiesof interest. In such cases, it might be interesting to tune the experimentup as to improve its efficiency. The field of science concerned with findingthe best set-up for experiments is called optimal experiment design(OED). We use Bayesian inference concepts to model the experimentevaluation and, thus, are able to evaluate the experiment performanceusing the Shannon?s expected information gain (EIG). The more informativean experiment is about the quantities of interest, the larger isits EIG. Thus, the EIG is our utility function in OED; the quantity wewant to maximize.Estimating the EIG can be expensive. The straightforward approach is toapproximate the integrals in the EIG by Monte Carlo Integration (MCI).The resulting estimator is the double-loop Monte Carlo (DLMC). TheDLMC is expensive and is known to have numerical issues, thus, we seekother EIG that can have better performance than DLMC. One estimatorarises from approximating the posterior by a Gaussian function, theMonte Carlo with Laplace approximation (MCLA). This estimator hasa bias from the Laplace approximation, thus, it is inconsistent. As analternative to estimate the EIG, we present the double-loop Monte Carlowith importance sampling. The importance sampling uses a Gaussianestimate of the posterior to draw more informative samples about thequantities of interest.Being the cost a main issue in OED, it is important to make the optimizationas efficient as possible. To optimize the design of experiments,we use the stochastic gradient descent, reducing the cost of each iterationby the cost of a MCI at the cost of a decreasing step-size. Thedecrease in step-size for SGD makes the convergence sensible to thestep-size chosen. We use state-of-the-art techniques in stochastic optimizationto get a robust and fast framework. One technique is thePolyak?Ruppert averaging, consisting of a moving average of the optimizationpath. Since the average is smoother than the path, the decreaseof the step-size required for SGD can be relaxed, thus, furnishing a morerobust algorithm. To accelerate the convergence, we combine the SGDwith a momentum method, the Nesterov?s acceleration. The resultingalgorithm, the ASGD-restart is robust and maintains the acceleratedconvergence under some situations.To use the stochastic gradient methods, unbiased estimators of thetrue gradient are needed. Thus, we devise the gradients of the DLMC,MCLA, and DLMCIS estimators as a function of the forward model andits derivatives. Moreover, the complexities of the gradient estimatorsare presented and pseudocode of their algorithms is shown to allowreproduction.To test the performance of the methods, we use them to solve fournumerical examples. The first is a pure stochastic optimization problemwith twenty dimensions for both the design and quantities of interestspaces. The second example is an OED problem without a physicalmeaning that we created to test the combinations between the EIGestimators and the optimization methods. In the average of a hundredruns, the ASGD-restart with MCLA solved this example with less than300 model evaluations, whereas DLMC using full-gradient descent took2.99 × 107 evaluations. The third example is the optimal positioning ofstrain-gauges on a beam to infer mechanical properties of the materialthe beam is made. This example is used to show that the optimumfound is consistent with engineering intuition. The fourth and lastexample is the optimization of the currents in an electrical impedancetomography experiment to infer the angles in the plies of a compositelaminate material. The EIT simulation requires the use of finite elementsmethod, thus, being an expensive forward model to evaluate. The ASGDrestartusing the gradient of the MCLA estimator converged to optimumsolutions in the four cases tested. To best of the author?s knowledge,this is the first research to effectively solve an OED problem with amodel based on finite elements analysis.In the numerical tests, using the gradient of the MCLA estimator forstochastic optimization resulted in fast convergence with respect tocost. Moreover, the ASGD-restart coupled with MCLA has proven tobe a viable option for the optimization of experiments with expensiveforward models.133 p.| il., gráfs., tabs.engEngenharia civilTeoria bayesiana de decisão estatísticaAnalise estocasticaBayesian-based optimization of experiments using stochastic gradient methodsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPECV1176-T.pdfPECV1176-T.pdfapplication/pdf4181771https://repositorio.ufsc.br/bitstream/123456789/215266/-1/PECV1176-T.pdf9bb68eeec715869e8c49870e1fa4805eMD5-1123456789/2152662020-10-21 18:14:45.276oai:repositorio.ufsc.br:123456789/215266Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732020-10-21T21:14:45Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Bayesian-based optimization of experiments using stochastic gradient methods
title Bayesian-based optimization of experiments using stochastic gradient methods
spellingShingle Bayesian-based optimization of experiments using stochastic gradient methods
Carlon, André Gustavo
Engenharia civil
Teoria bayesiana de decisão estatística
Analise estocastica
title_short Bayesian-based optimization of experiments using stochastic gradient methods
title_full Bayesian-based optimization of experiments using stochastic gradient methods
title_fullStr Bayesian-based optimization of experiments using stochastic gradient methods
title_full_unstemmed Bayesian-based optimization of experiments using stochastic gradient methods
title_sort Bayesian-based optimization of experiments using stochastic gradient methods
author Carlon, André Gustavo
author_facet Carlon, André Gustavo
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Carlon, André Gustavo
dc.contributor.advisor1.fl_str_mv Lopez, Rafael Holdorf
contributor_str_mv Lopez, Rafael Holdorf
dc.subject.classification.none.fl_str_mv Engenharia civil
Teoria bayesiana de decisão estatística
Analise estocastica
topic Engenharia civil
Teoria bayesiana de decisão estatística
Analise estocastica
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Civil, Florianópolis, 2019.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-10-21T21:14:45Z
dc.date.available.fl_str_mv 2020-10-21T21:14:45Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/215266
dc.identifier.other.none.fl_str_mv 364642
identifier_str_mv 364642
url https://repositorio.ufsc.br/handle/123456789/215266
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 133 p.| il., gráfs., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/215266/-1/PECV1176-T.pdf
bitstream.checksum.fl_str_mv 9bb68eeec715869e8c49870e1fa4805e
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759297664385024