Uma técnica de programação genética gramatical e semântica para regressão simbólica

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Freitas, João Marcos de lattes
Orientador(a): Bernardino, Heder Soares lattes
Banca de defesa: Gonçalves, Luciana Brugiolo lattes, Angelo, Jaqueline da Silva lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação
Departamento: ICE – Instituto de Ciências Exatas
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufjf.br/jspui/handle/ufjf/17731
Resumo: A Regressão Simbólica (RS) é uma técnica de modelagem cujo objetivo é encontrar uma expressão completa, e não apenas ajustar coeficientes de um modelo fixo, como ocorre em métodos de regressão convencionais. A RS consiste em descobrir automaticamente a estrutura de um modelo a partir de dados, o que pode resultar em soluções mais precisas e interpretáveis para problemas complexos. A utilização da Programação Genética (PG) para resolver problemas de RS é particularmente vantajosa, pois a PG explora o espaço de soluções de forma eficiente e garante que as expressões matemáticas geradas sejam sintaticamente válidas. Além disso, o uso de gramáticas formais livres de contexto (GLC) gera a Programação Genética Gramatical (PGG), que possibilita a definição de regras e delimitações no espaço de soluções a ser explorado durante a regressão. Isso é crucial em RS, onde simplicidade e interpretabilidade dos modelos são fatores determinantes. Contudo, a geração livre de candidatos em métodos de RS frequentemente leva à criação de soluções redundantes ou irrelevantes. A Programação Genética Semântica (PGS), ao considerar a semântica dos candidatos durante suas operações, mostrou-se capaz de evitar esses problemas entre diversas abordagens, aumentando tanto a eficiência da busca quanto a qualidade das soluções. Isso resulta em modelos de RS que capturam de maneira mais precisa as relações intrínsecas nos dados. A Programação Genética Gramatical e Semântica (PGGS) combina as gramáticas livres de contexto da PGG com o uso de semântica, aprimorando ainda mais a capacidade de orientar a busca para a produção de expressões que sejam tanto válidas quanto semanticamente relevantes para o problema em questão. Neste trabalho, a PGGS é estudada em profundidade, com foco em seu operador de recombinação, considerando diferentes abordagens e seus efeitos sobre a busca e a qualidade das soluções geradas. Propõe-se o Roulette Semantic Crossover (RSC) como um novo operador de recombinação, que cria uma roleta entre as soluções candidatas baseada em suas semânticas, aumentando as chances de gerar novos candidatos relevantes. Além disso, é realizada uma análise paramétrica desses operadores e do desempenho da técnica em um conjunto de problemas de um benchmark desenvolvido para avaliar métodos de RS, destacando as vantagens e limitações da abordagem proposta. O RSC demonstrou ser robusto, alcançando a maior área sob a curva nos Perfis de Desempenho (PP) e obtendo o maior número de sucessos nos testes. Esses resultados indicam que a PGGS é uma abordagem promissora para RS.
id UFJF_41a9d62f565b03a24fc2ffdf8e308529
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/17731
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Bernardino, Heder Soareshttp://lattes.cnpq.br/7733681743453751Oliveira, Itamar Leite dehttp://lattes.cnpq.br/1732432475089669Gonçalves, Luciana Brugiolohttp://lattes.cnpq.br/8994105119758487Angelo, Jaqueline da Silvahttp://lattes.cnpq.br/4684516083583964http://lattes.cnpq.br/4796268120528806Freitas, João Marcos de2024-11-12T12:57:14Z2024-11-112024-11-12T12:57:14Z2022-09-20https://repositorio.ufjf.br/jspui/handle/ufjf/17731A Regressão Simbólica (RS) é uma técnica de modelagem cujo objetivo é encontrar uma expressão completa, e não apenas ajustar coeficientes de um modelo fixo, como ocorre em métodos de regressão convencionais. A RS consiste em descobrir automaticamente a estrutura de um modelo a partir de dados, o que pode resultar em soluções mais precisas e interpretáveis para problemas complexos. A utilização da Programação Genética (PG) para resolver problemas de RS é particularmente vantajosa, pois a PG explora o espaço de soluções de forma eficiente e garante que as expressões matemáticas geradas sejam sintaticamente válidas. Além disso, o uso de gramáticas formais livres de contexto (GLC) gera a Programação Genética Gramatical (PGG), que possibilita a definição de regras e delimitações no espaço de soluções a ser explorado durante a regressão. Isso é crucial em RS, onde simplicidade e interpretabilidade dos modelos são fatores determinantes. Contudo, a geração livre de candidatos em métodos de RS frequentemente leva à criação de soluções redundantes ou irrelevantes. A Programação Genética Semântica (PGS), ao considerar a semântica dos candidatos durante suas operações, mostrou-se capaz de evitar esses problemas entre diversas abordagens, aumentando tanto a eficiência da busca quanto a qualidade das soluções. Isso resulta em modelos de RS que capturam de maneira mais precisa as relações intrínsecas nos dados. A Programação Genética Gramatical e Semântica (PGGS) combina as gramáticas livres de contexto da PGG com o uso de semântica, aprimorando ainda mais a capacidade de orientar a busca para a produção de expressões que sejam tanto válidas quanto semanticamente relevantes para o problema em questão. Neste trabalho, a PGGS é estudada em profundidade, com foco em seu operador de recombinação, considerando diferentes abordagens e seus efeitos sobre a busca e a qualidade das soluções geradas. Propõe-se o Roulette Semantic Crossover (RSC) como um novo operador de recombinação, que cria uma roleta entre as soluções candidatas baseada em suas semânticas, aumentando as chances de gerar novos candidatos relevantes. Além disso, é realizada uma análise paramétrica desses operadores e do desempenho da técnica em um conjunto de problemas de um benchmark desenvolvido para avaliar métodos de RS, destacando as vantagens e limitações da abordagem proposta. O RSC demonstrou ser robusto, alcançando a maior área sob a curva nos Perfis de Desempenho (PP) e obtendo o maior número de sucessos nos testes. Esses resultados indicam que a PGGS é uma abordagem promissora para RS.Symbolic Regression (SR) is a modeling technique aimed at finding a complete expression, rather than just adjusting coefficients in a fixed model, as is done in conventional regression methods. SR involves automatically discovering the structure of a model from data, which can result in more accurate and interpretable solutions for complex problems. The use of Genetic Programming (GP) to solve SR problems is particularly advantageous because GP explores the solution space efficiently and ensures that the generated mathematical expressions are syntactically valid. Additionally, the use of context-free grammars (CFG) leads to Grammatical Genetic Programming (GGP), which allows for the definition of rules and boundaries within the solution space to be explored during regression. This is crucial in SR, where simplicity and interpretability of models are key factors. However, the unrestricted generation of candidates in SR methods often leads to redundant or irrelevant solutions. Semantic Genetic Programming (SGP), by considering the semantics of candidates during its operations, has shown the ability to avoid these issues across various approaches, enhancing both search efficiency and solution quality. This results in SR models that more accurately capture the intrinsic relationships within the data. Grammatical and Semantic Genetic Programming (GSGP) combines the context-free grammars of GGP with the use of semantics, further enhancing the ability to guide the search towards producing expressions that are both valid and semantically relevant to the problem at hand. In this study, GSGP is analyzed in depth, focusing on its recombination operator and considering different approaches and their effects on search and solution quality. We propose the Roulette Semantic Crossover (RSC) as a new recombination operator that creates a roulette among candidate solutions based on their semantics, increasing the likelihood of generating relevant new candidates. Furthermore, a parametric analysis of these operators and the technique’s performance is conducted on a benchmark set of problems developed to evaluate SR methods, highlighting the advantages and limitations of the proposed approach. RSC demonstrated robustness, achieving the highest area under the curve in Performance Profiles (PP) and obtaining the highest number of successes in the tests. These results indicate that GSGP is a promising approach for SR.porUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProgramação genéticaSemânticaGramáticas formais livres de contextoAprendizado de máquinaGenetic programmingSemanticsContext-free grammarsMachine learningUma técnica de programação genética gramatical e semântica para regressão simbólicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFORIGINALjoaomarcosdefreitas.pdfjoaomarcosdefreitas.pdfapplication/pdf2278710https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/1/joaomarcosdefreitas.pdf0abb69293bd27c3a83d01c426b4df875MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/2/license_rdf4d2950bda3d176f570a9f8b328dfbbefMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTjoaomarcosdefreitas.pdf.txtjoaomarcosdefreitas.pdf.txtExtracted texttext/plain125537https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/4/joaomarcosdefreitas.pdf.txt631e21e614aaa7f6058d0249b7532ab9MD54THUMBNAILjoaomarcosdefreitas.pdf.jpgjoaomarcosdefreitas.pdf.jpgGenerated Thumbnailimage/jpeg1167https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/5/joaomarcosdefreitas.pdf.jpg69569e501aad482c19c853a9b8ce9d33MD55ufjf/177312024-11-13 04:05:08.632oai:hermes.cpd.ufjf.br:ufjf/17731Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2024-11-13T06:05:08Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Uma técnica de programação genética gramatical e semântica para regressão simbólica
title Uma técnica de programação genética gramatical e semântica para regressão simbólica
spellingShingle Uma técnica de programação genética gramatical e semântica para regressão simbólica
Freitas, João Marcos de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Programação genética
Semântica
Gramáticas formais livres de contexto
Aprendizado de máquina
Genetic programming
Semantics
Context-free grammars
Machine learning
title_short Uma técnica de programação genética gramatical e semântica para regressão simbólica
title_full Uma técnica de programação genética gramatical e semântica para regressão simbólica
title_fullStr Uma técnica de programação genética gramatical e semântica para regressão simbólica
title_full_unstemmed Uma técnica de programação genética gramatical e semântica para regressão simbólica
title_sort Uma técnica de programação genética gramatical e semântica para regressão simbólica
author Freitas, João Marcos de
author_facet Freitas, João Marcos de
author_role author
dc.contributor.advisor1.fl_str_mv Bernardino, Heder Soares
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7733681743453751
dc.contributor.advisor-co1.fl_str_mv Oliveira, Itamar Leite de
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/1732432475089669
dc.contributor.referee1.fl_str_mv Gonçalves, Luciana Brugiolo
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8994105119758487
dc.contributor.referee2.fl_str_mv Angelo, Jaqueline da Silva
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/4684516083583964
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4796268120528806
dc.contributor.author.fl_str_mv Freitas, João Marcos de
contributor_str_mv Bernardino, Heder Soares
Oliveira, Itamar Leite de
Gonçalves, Luciana Brugiolo
Angelo, Jaqueline da Silva
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Programação genética
Semântica
Gramáticas formais livres de contexto
Aprendizado de máquina
Genetic programming
Semantics
Context-free grammars
Machine learning
dc.subject.por.fl_str_mv Programação genética
Semântica
Gramáticas formais livres de contexto
Aprendizado de máquina
Genetic programming
Semantics
Context-free grammars
Machine learning
description A Regressão Simbólica (RS) é uma técnica de modelagem cujo objetivo é encontrar uma expressão completa, e não apenas ajustar coeficientes de um modelo fixo, como ocorre em métodos de regressão convencionais. A RS consiste em descobrir automaticamente a estrutura de um modelo a partir de dados, o que pode resultar em soluções mais precisas e interpretáveis para problemas complexos. A utilização da Programação Genética (PG) para resolver problemas de RS é particularmente vantajosa, pois a PG explora o espaço de soluções de forma eficiente e garante que as expressões matemáticas geradas sejam sintaticamente válidas. Além disso, o uso de gramáticas formais livres de contexto (GLC) gera a Programação Genética Gramatical (PGG), que possibilita a definição de regras e delimitações no espaço de soluções a ser explorado durante a regressão. Isso é crucial em RS, onde simplicidade e interpretabilidade dos modelos são fatores determinantes. Contudo, a geração livre de candidatos em métodos de RS frequentemente leva à criação de soluções redundantes ou irrelevantes. A Programação Genética Semântica (PGS), ao considerar a semântica dos candidatos durante suas operações, mostrou-se capaz de evitar esses problemas entre diversas abordagens, aumentando tanto a eficiência da busca quanto a qualidade das soluções. Isso resulta em modelos de RS que capturam de maneira mais precisa as relações intrínsecas nos dados. A Programação Genética Gramatical e Semântica (PGGS) combina as gramáticas livres de contexto da PGG com o uso de semântica, aprimorando ainda mais a capacidade de orientar a busca para a produção de expressões que sejam tanto válidas quanto semanticamente relevantes para o problema em questão. Neste trabalho, a PGGS é estudada em profundidade, com foco em seu operador de recombinação, considerando diferentes abordagens e seus efeitos sobre a busca e a qualidade das soluções geradas. Propõe-se o Roulette Semantic Crossover (RSC) como um novo operador de recombinação, que cria uma roleta entre as soluções candidatas baseada em suas semânticas, aumentando as chances de gerar novos candidatos relevantes. Além disso, é realizada uma análise paramétrica desses operadores e do desempenho da técnica em um conjunto de problemas de um benchmark desenvolvido para avaliar métodos de RS, destacando as vantagens e limitações da abordagem proposta. O RSC demonstrou ser robusto, alcançando a maior área sob a curva nos Perfis de Desempenho (PP) e obtendo o maior número de sucessos nos testes. Esses resultados indicam que a PGGS é uma abordagem promissora para RS.
publishDate 2022
dc.date.issued.fl_str_mv 2022-09-20
dc.date.accessioned.fl_str_mv 2024-11-12T12:57:14Z
dc.date.available.fl_str_mv 2024-11-11
2024-11-12T12:57:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/17731
url https://repositorio.ufjf.br/jspui/handle/ufjf/17731
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/1/joaomarcosdefreitas.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/2/license_rdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/3/license.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/4/joaomarcosdefreitas.pdf.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/17731/5/joaomarcosdefreitas.pdf.jpg
bitstream.checksum.fl_str_mv 0abb69293bd27c3a83d01c426b4df875
4d2950bda3d176f570a9f8b328dfbbef
8a4605be74aa9ea9d79846c1fba20a33
631e21e614aaa7f6058d0249b7532ab9
69569e501aad482c19c853a9b8ce9d33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1833922441566486528