Predição de propriedades moleculares via aprendizado de máquina e representação SMILES

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Gabriel Augusto Lins Leal Pinheiro
Orientador(a): Marcos Gonçalves Quiles, Marinalva Dias Soares
Banca de defesa: Rafael Duarte Coelho dos Santos, Eudes Eterno Fileti, Ronaldo Cristiano Prati
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação: Programa de Pós-Graduação do INPE em Computação Aplicada
Departamento: Não Informado pela instituição
País: BR
Resumo em Inglês: The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy.
Link de acesso: http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37
Resumo: O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química.
id INPE_f40d60b49e553f697862a46cc64be1bc
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m21c/2020/08.12.17.37.59-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPredição de propriedades moleculares via aprendizado de máquina e representação SMILESMachine learning prediction of molecular properties based on the SMILES representation2020-07-29Marcos Gonçalves QuilesMarinalva Dias SoaresRafael Duarte Coelho dos SantosEudes Eterno FiletiRonaldo Cristiano PratiGabriel Augusto Lins Leal PinheiroInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRaprendizado de máquinaSMILESredes neuraisciência dos materiaispropriedades molecularesmachine learningSMILESneural networksmaterials sciencemolecular propertiesO campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química.The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy.http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:21Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/08.12.17.37.59-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:22.419Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.pt.fl_str_mv Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
dc.title.alternative.en.fl_str_mv Machine learning prediction of molecular properties based on the SMILES representation
title Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
spellingShingle Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
Gabriel Augusto Lins Leal Pinheiro
title_short Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
title_full Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
title_fullStr Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
title_full_unstemmed Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
title_sort Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
author Gabriel Augusto Lins Leal Pinheiro
author_facet Gabriel Augusto Lins Leal Pinheiro
author_role author
dc.contributor.advisor1.fl_str_mv Marcos Gonçalves Quiles
dc.contributor.advisor2.fl_str_mv Marinalva Dias Soares
dc.contributor.referee1.fl_str_mv Rafael Duarte Coelho dos Santos
dc.contributor.referee2.fl_str_mv Eudes Eterno Fileti
dc.contributor.referee3.fl_str_mv Ronaldo Cristiano Prati
dc.contributor.author.fl_str_mv Gabriel Augusto Lins Leal Pinheiro
contributor_str_mv Marcos Gonçalves Quiles
Marinalva Dias Soares
Rafael Duarte Coelho dos Santos
Eudes Eterno Fileti
Ronaldo Cristiano Prati
dc.description.abstract.por.fl_txt_mv O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química.
dc.description.abstract.eng.fl_txt_mv The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy.
description O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química.
publishDate 2020
dc.date.issued.fl_str_mv 2020-07-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37
url http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Marcos Gonçalves Quiles
_version_ 1706805044880343040