Coevolução aplicada à construção de modelos de aprendizado de máquina
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.lncc.br/handle/tede/293 |
Resumo: | Aprendizado de máquina automatizado (Auto-ML) é um campo de pesquisa em crescimento e recebendo grande atenção atualmente. Múltiplas técnicas têm sido desenvolvidas visando aprimorar o processo de automação para construção de pipelines de aprendizado de máquina, utilizando diversos tipos de abordagem e com algum sucesso, mas o problema ainda está distante de ser considerado como resolvido. Muito desta dificuldade se deve ao custo computacional do processo, dado que a avaliação de uma única solução de aprendizado de máquina pode ser custosa por si só. Como a construção de uma boa solução envolve a avaliação de diversas configurações, fica evidente a necessidade de técnicas eficientes na exploração desse complexo espaço de busca. Ainda, ensembles – combinações de modelos individuais em um “super” modelo – são frequentemente empregados em aprendizado de máquina dada sua maior capacidade preditiva e robustez quando comparados à utilização de modelos individuais. Entretanto, até o momento, não foi dada muita atenção aos mesmos no contexto de Auto-ML. Neste sentido, este trabalho apresenta o Auto-CVE (Automated Coevolutionary Voting Ensemble), uma nova abordagem para Auto-ML. Baseada no processo de evolução algo- rítmica, tal ferramenta divide a construção de modelos baseados em ensembles em dois processos: i) a busca por bons componentes a serem utilizados em ensembles e ii) a busca por formas de se combinar os componentes encontrados em ensembles. Consegue-se assim um processo eficiente de exploração do espaço de busca, podendo um único modelo ser testado em diversas composições de ensembles evitando repetitivas etapas de treinamento. Como uma segunda contribuição, foi proposta a amostragem dinâmica, uma metodologia de avaliação de modelos que se baseia na utilização de holdout. A principal alteração em relação à utilização usual de holdout está em ser concebida como um processo geracional, modificando iterativamente os conjuntos de treinamento e teste, de forma a renovar as avaliações obtidas periodicamente e evitar que o processo de busca se guie por muito tempo por uma avaliação incorreta. Comparado a duas populares técnicas de Auto-ML, o Auto-CVE atinge resultados compe- titivos tanto em tempo computacional quanto capacidade preditiva. Além disso, o uso da amostragem dinâmica no Auto-CVE acentua tal observação, sendo igual ou superior à utilização de validação cruzada em ambos os aspectos. |
| id |
LNCC_4441a33cf5633de732b1eeeb835048cc |
|---|---|
| oai_identifier_str |
oai:tede-server.lncc.br:tede/293 |
| network_acronym_str |
LNCC |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository_id_str |
|
| spelling |
Coevolução aplicada à construção de modelos de aprendizado de máquinaAprendizagem por computadorCoevoluçãoAlgoritmos genéticosProgramação genéticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAOAprendizado de máquina automatizado (Auto-ML) é um campo de pesquisa em crescimento e recebendo grande atenção atualmente. Múltiplas técnicas têm sido desenvolvidas visando aprimorar o processo de automação para construção de pipelines de aprendizado de máquina, utilizando diversos tipos de abordagem e com algum sucesso, mas o problema ainda está distante de ser considerado como resolvido. Muito desta dificuldade se deve ao custo computacional do processo, dado que a avaliação de uma única solução de aprendizado de máquina pode ser custosa por si só. Como a construção de uma boa solução envolve a avaliação de diversas configurações, fica evidente a necessidade de técnicas eficientes na exploração desse complexo espaço de busca. Ainda, ensembles – combinações de modelos individuais em um “super” modelo – são frequentemente empregados em aprendizado de máquina dada sua maior capacidade preditiva e robustez quando comparados à utilização de modelos individuais. Entretanto, até o momento, não foi dada muita atenção aos mesmos no contexto de Auto-ML. Neste sentido, este trabalho apresenta o Auto-CVE (Automated Coevolutionary Voting Ensemble), uma nova abordagem para Auto-ML. Baseada no processo de evolução algo- rítmica, tal ferramenta divide a construção de modelos baseados em ensembles em dois processos: i) a busca por bons componentes a serem utilizados em ensembles e ii) a busca por formas de se combinar os componentes encontrados em ensembles. Consegue-se assim um processo eficiente de exploração do espaço de busca, podendo um único modelo ser testado em diversas composições de ensembles evitando repetitivas etapas de treinamento. Como uma segunda contribuição, foi proposta a amostragem dinâmica, uma metodologia de avaliação de modelos que se baseia na utilização de holdout. A principal alteração em relação à utilização usual de holdout está em ser concebida como um processo geracional, modificando iterativamente os conjuntos de treinamento e teste, de forma a renovar as avaliações obtidas periodicamente e evitar que o processo de busca se guie por muito tempo por uma avaliação incorreta. Comparado a duas populares técnicas de Auto-ML, o Auto-CVE atinge resultados compe- titivos tanto em tempo computacional quanto capacidade preditiva. Além disso, o uso da amostragem dinâmica no Auto-CVE acentua tal observação, sendo igual ou superior à utilização de validação cruzada em ambos os aspectos.Automated Machine Learning (Auto-ML) is a growing research area which is receiving great attention today. Multiple techniques have been developed to improve the automation process for the construction of machine learning pipelines, using diverse types of approaches and with relative success, but still, being far from solved. Much of this difficulty is due to the computational cost involved in the process, given that just evaluating a single machine learning solution can be costly by itself. Considering that the construction of a good solution involves evaluating several configurations, the need for efficient techniques to explore this complex search space becomes evident. Furthermore, ensembles – combinations of individual models in a “super” model – are often employed in machine learning due to their greater predictive capacity and robustness when compared to using individual models. However, so far, not much attention has been given to them in the Auto-ML context. In this sense, this work presents the Auto-CVE (Automated Coevolutionary Voting Ensemble), a new approach to Auto-ML. Based on the coevolutionary algorithmic process, this tool divides the construction of ensemble models into two search processes: i) the search for good components to be used in ensembles and ii) the search for ways to combine the components found into ensembles. With this division, an efficient process of exploring the search space is achieved, allowing a single model to be tested in several ensembles compositions without the need for repetitive training and testing steps. Still, as a second contribution, dynamic sampling holdout was proposed, a model evaluation methodology based on the use of holdout. The main change from the traditional use of holdout is that it is conceived as a generational process, iteratively modifying the training and testing sets to renew the evaluations obtained periodically and prevent the search process from becoming guided for a long time by an incorrect evaluation. When compared to two popular Auto-ML techniques, Auto-CVE shows competitive results in both predictive performance and computing time. Additionally, the use of dynamic sampling in Auto-CVE emphasizes this observation, being equal or superior to the use of cross-validation both in terms of computational time and the predictive capacity of the provided models.Conselho Nacional de Desenvolvimento Científico e TecnológicoLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalBarbosa, Helio José CorrêaBarbosa, Helio José CorrêaDardenne, Laurent EmmanuelEbecken, Nelson Francisco FavillaPapa, Gisele LoboCustódio, Fábio LimaLarcher Junior, Celio Henrique Nogueira2023-02-23T18:29:57Z2022-06-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLARCHER JÚNIOR C. H. N. Coevolução aplicada à construção de modelos de aprendizado de máquina. 2022. 145 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.https://tede.lncc.br/handle/tede/293porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-02-24T04:06:13Zoai:tede-server.lncc.br:tede/293Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-02-24T04:06:13Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
| dc.title.none.fl_str_mv |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| title |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| spellingShingle |
Coevolução aplicada à construção de modelos de aprendizado de máquina Larcher Junior, Celio Henrique Nogueira Aprendizagem por computador Coevolução Algoritmos genéticos Programação genética CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO |
| title_short |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| title_full |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| title_fullStr |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| title_full_unstemmed |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| title_sort |
Coevolução aplicada à construção de modelos de aprendizado de máquina |
| author |
Larcher Junior, Celio Henrique Nogueira |
| author_facet |
Larcher Junior, Celio Henrique Nogueira |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Barbosa, Helio José Corrêa Barbosa, Helio José Corrêa Dardenne, Laurent Emmanuel Ebecken, Nelson Francisco Favilla Papa, Gisele Lobo Custódio, Fábio Lima |
| dc.contributor.author.fl_str_mv |
Larcher Junior, Celio Henrique Nogueira |
| dc.subject.por.fl_str_mv |
Aprendizagem por computador Coevolução Algoritmos genéticos Programação genética CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO |
| topic |
Aprendizagem por computador Coevolução Algoritmos genéticos Programação genética CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::ANALISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTACAO |
| description |
Aprendizado de máquina automatizado (Auto-ML) é um campo de pesquisa em crescimento e recebendo grande atenção atualmente. Múltiplas técnicas têm sido desenvolvidas visando aprimorar o processo de automação para construção de pipelines de aprendizado de máquina, utilizando diversos tipos de abordagem e com algum sucesso, mas o problema ainda está distante de ser considerado como resolvido. Muito desta dificuldade se deve ao custo computacional do processo, dado que a avaliação de uma única solução de aprendizado de máquina pode ser custosa por si só. Como a construção de uma boa solução envolve a avaliação de diversas configurações, fica evidente a necessidade de técnicas eficientes na exploração desse complexo espaço de busca. Ainda, ensembles – combinações de modelos individuais em um “super” modelo – são frequentemente empregados em aprendizado de máquina dada sua maior capacidade preditiva e robustez quando comparados à utilização de modelos individuais. Entretanto, até o momento, não foi dada muita atenção aos mesmos no contexto de Auto-ML. Neste sentido, este trabalho apresenta o Auto-CVE (Automated Coevolutionary Voting Ensemble), uma nova abordagem para Auto-ML. Baseada no processo de evolução algo- rítmica, tal ferramenta divide a construção de modelos baseados em ensembles em dois processos: i) a busca por bons componentes a serem utilizados em ensembles e ii) a busca por formas de se combinar os componentes encontrados em ensembles. Consegue-se assim um processo eficiente de exploração do espaço de busca, podendo um único modelo ser testado em diversas composições de ensembles evitando repetitivas etapas de treinamento. Como uma segunda contribuição, foi proposta a amostragem dinâmica, uma metodologia de avaliação de modelos que se baseia na utilização de holdout. A principal alteração em relação à utilização usual de holdout está em ser concebida como um processo geracional, modificando iterativamente os conjuntos de treinamento e teste, de forma a renovar as avaliações obtidas periodicamente e evitar que o processo de busca se guie por muito tempo por uma avaliação incorreta. Comparado a duas populares técnicas de Auto-ML, o Auto-CVE atinge resultados compe- titivos tanto em tempo computacional quanto capacidade preditiva. Além disso, o uso da amostragem dinâmica no Auto-CVE acentua tal observação, sendo igual ou superior à utilização de validação cruzada em ambos os aspectos. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-06-27 2023-02-23T18:29:57Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
LARCHER JÚNIOR C. H. N. Coevolução aplicada à construção de modelos de aprendizado de máquina. 2022. 145 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022. https://tede.lncc.br/handle/tede/293 |
| identifier_str_mv |
LARCHER JÚNIOR C. H. N. Coevolução aplicada à construção de modelos de aprendizado de máquina. 2022. 145 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022. |
| url |
https://tede.lncc.br/handle/tede/293 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
| instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
| instacron_str |
LNCC |
| institution |
LNCC |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
| repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
| _version_ |
1832738027756060672 |