Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | , |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Instituto Nacional de Pesquisas Espaciais (INPE)
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação do INPE em Computação Aplicada
|
Departamento: |
Não Informado pela instituição
|
País: |
BR
|
Resumo em Inglês: | The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy. |
Link de acesso: | http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37 |
Resumo: | O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química. |
id |
INPE_f40d60b49e553f697862a46cc64be1bc |
---|---|
oai_identifier_str |
oai:urlib.net:sid.inpe.br/mtc-m21c/2020/08.12.17.37.59-0 |
network_acronym_str |
INPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPredição de propriedades moleculares via aprendizado de máquina e representação SMILESMachine learning prediction of molecular properties based on the SMILES representation2020-07-29Marcos Gonçalves QuilesMarinalva Dias SoaresRafael Duarte Coelho dos SantosEudes Eterno FiletiRonaldo Cristiano PratiGabriel Augusto Lins Leal PinheiroInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRaprendizado de máquinaSMILESredes neuraisciência dos materiaispropriedades molecularesmachine learningSMILESneural networksmaterials sciencemolecular propertiesO campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química.The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy.http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:21Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/08.12.17.37.59-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:22.419Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
dc.title.pt.fl_str_mv |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
dc.title.alternative.en.fl_str_mv |
Machine learning prediction of molecular properties based on the SMILES representation |
title |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
spellingShingle |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES Gabriel Augusto Lins Leal Pinheiro |
title_short |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
title_full |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
title_fullStr |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
title_full_unstemmed |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
title_sort |
Predição de propriedades moleculares via aprendizado de máquina e representação SMILES |
author |
Gabriel Augusto Lins Leal Pinheiro |
author_facet |
Gabriel Augusto Lins Leal Pinheiro |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Marcos Gonçalves Quiles |
dc.contributor.advisor2.fl_str_mv |
Marinalva Dias Soares |
dc.contributor.referee1.fl_str_mv |
Rafael Duarte Coelho dos Santos |
dc.contributor.referee2.fl_str_mv |
Eudes Eterno Fileti |
dc.contributor.referee3.fl_str_mv |
Ronaldo Cristiano Prati |
dc.contributor.author.fl_str_mv |
Gabriel Augusto Lins Leal Pinheiro |
contributor_str_mv |
Marcos Gonçalves Quiles Marinalva Dias Soares Rafael Duarte Coelho dos Santos Eudes Eterno Fileti Ronaldo Cristiano Prati |
dc.description.abstract.por.fl_txt_mv |
O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química. |
dc.description.abstract.eng.fl_txt_mv |
The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy. |
description |
O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-07-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37 |
url |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/08.12.17.37 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
INPE |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
collection |
Biblioteca Digital de Teses e Dissertações do INPE |
instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
instacron_str |
INPE |
institution |
INPE |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
repository.mail.fl_str_mv |
|
publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
contributor_advisor1_txtF_mv |
Marcos Gonçalves Quiles |
_version_ |
1706805044880343040 |