Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/ |
Resumo: | Small molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development. |
| id |
USP_a6719df382208b465f4c39dbefcd1091 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-09062025-165507 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learningExplorando o espaço químico das moléculas aprovadas pela FDA: Abordagem baseada em banco de dados usando aprendizado de máquinaAprendizado de máquinaChemical SpaceCheminformaticsDrug DesignDruglikenessDruglikenessEspaço químicoMachine LearningPlanejamento de fármacosQuimioinformáticaSmall molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development.Moléculas pequenas possuem uma notável diversidade química, destacando a ampla extensão do espaço químico (Chemical Space - CS) que ocupam. Dentro desse vasto CS, moléculas com potencial para interagir com alvos biológicos possuem uma relevância especial para a química medicinal. A imensidão e complexidade desse espaço ressaltam a necessidade de ferramentas eficazes para sua exploração, sendo o conceito de druglikeness uma abordagem valiosa. Esta pesquisa explora a semelhança a medicamentos por meio da criação de um conjunto de dados composto por moléculas aprovadas pela FDA, contrastado com três conjuntos de dados negativos contendo moléculas do PDB, ZINC e compostos com toxicidade conhecida. Modelos de aprendizado de máquina ML foram desenvolvidos utilizando este conjunto de dados, alcançando um desempenho preditivo robusto. Esses modelos possibilitaram uma análise aprofundada dos descritores moleculares mais influentes na distinção de moléculas com propriedades semelhantes a medicamentos.As propriedades-chave identificadas incluem métricas consolidadas como logP, TPSA e a contagem de doadores e aceitadores de ligações de hidrogênio. O estudo também destaca a relevância de descritores topológicos, com índices de estado eletropológico (e-state) desempenhando um papel crucial na caracterização de átomos individuais. Ao integrar quimioinformática com aprendizado de máquina, este trabalho oferece insights valiosos sobre o espaço químico, fornecendo uma base para avanços na descoberta e no desenvolvimento de medicamentos.Biblioteca Digitais de Teses e Dissertações da USPTrossini, Gustavo Henrique GoulartSoares, Artur Caminero Gomes2025-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-07-01T09:01:02Zoai:teses.usp.br:tde-09062025-165507Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-01T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning Explorando o espaço químico das moléculas aprovadas pela FDA: Abordagem baseada em banco de dados usando aprendizado de máquina |
| title |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| spellingShingle |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning Soares, Artur Caminero Gomes Aprendizado de máquina Chemical Space Cheminformatics Drug Design Druglikeness Druglikeness Espaço químico Machine Learning Planejamento de fármacos Quimioinformática |
| title_short |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| title_full |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| title_fullStr |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| title_full_unstemmed |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| title_sort |
Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning |
| author |
Soares, Artur Caminero Gomes |
| author_facet |
Soares, Artur Caminero Gomes |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Trossini, Gustavo Henrique Goulart |
| dc.contributor.author.fl_str_mv |
Soares, Artur Caminero Gomes |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Chemical Space Cheminformatics Drug Design Druglikeness Druglikeness Espaço químico Machine Learning Planejamento de fármacos Quimioinformática |
| topic |
Aprendizado de máquina Chemical Space Cheminformatics Drug Design Druglikeness Druglikeness Espaço químico Machine Learning Planejamento de fármacos Quimioinformática |
| description |
Small molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-05-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/ |
| url |
https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492279951622144 |