Exportação concluída — 

Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Soares, Artur Caminero Gomes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/
Resumo: Small molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development.
id USP_a6719df382208b465f4c39dbefcd1091
oai_identifier_str oai:teses.usp.br:tde-09062025-165507
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learningExplorando o espaço químico das moléculas aprovadas pela FDA: Abordagem baseada em banco de dados usando aprendizado de máquinaAprendizado de máquinaChemical SpaceCheminformaticsDrug DesignDruglikenessDruglikenessEspaço químicoMachine LearningPlanejamento de fármacosQuimioinformáticaSmall molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development.Moléculas pequenas possuem uma notável diversidade química, destacando a ampla extensão do espaço químico (Chemical Space - CS) que ocupam. Dentro desse vasto CS, moléculas com potencial para interagir com alvos biológicos possuem uma relevância especial para a química medicinal. A imensidão e complexidade desse espaço ressaltam a necessidade de ferramentas eficazes para sua exploração, sendo o conceito de druglikeness uma abordagem valiosa. Esta pesquisa explora a semelhança a medicamentos por meio da criação de um conjunto de dados composto por moléculas aprovadas pela FDA, contrastado com três conjuntos de dados negativos contendo moléculas do PDB, ZINC e compostos com toxicidade conhecida. Modelos de aprendizado de máquina ML foram desenvolvidos utilizando este conjunto de dados, alcançando um desempenho preditivo robusto. Esses modelos possibilitaram uma análise aprofundada dos descritores moleculares mais influentes na distinção de moléculas com propriedades semelhantes a medicamentos.As propriedades-chave identificadas incluem métricas consolidadas como logP, TPSA e a contagem de doadores e aceitadores de ligações de hidrogênio. O estudo também destaca a relevância de descritores topológicos, com índices de estado eletropológico (e-state) desempenhando um papel crucial na caracterização de átomos individuais. Ao integrar quimioinformática com aprendizado de máquina, este trabalho oferece insights valiosos sobre o espaço químico, fornecendo uma base para avanços na descoberta e no desenvolvimento de medicamentos.Biblioteca Digitais de Teses e Dissertações da USPTrossini, Gustavo Henrique GoulartSoares, Artur Caminero Gomes2025-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-07-01T09:01:02Zoai:teses.usp.br:tde-09062025-165507Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-01T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
Explorando o espaço químico das moléculas aprovadas pela FDA: Abordagem baseada em banco de dados usando aprendizado de máquina
title Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
spellingShingle Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
Soares, Artur Caminero Gomes
Aprendizado de máquina
Chemical Space
Cheminformatics
Drug Design
Druglikeness
Druglikeness
Espaço químico
Machine Learning
Planejamento de fármacos
Quimioinformática
title_short Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
title_full Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
title_fullStr Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
title_full_unstemmed Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
title_sort Exploring the chemical space of FDA-approved molecules: A dataset-driven approach using machine learning
author Soares, Artur Caminero Gomes
author_facet Soares, Artur Caminero Gomes
author_role author
dc.contributor.none.fl_str_mv Trossini, Gustavo Henrique Goulart
dc.contributor.author.fl_str_mv Soares, Artur Caminero Gomes
dc.subject.por.fl_str_mv Aprendizado de máquina
Chemical Space
Cheminformatics
Drug Design
Druglikeness
Druglikeness
Espaço químico
Machine Learning
Planejamento de fármacos
Quimioinformática
topic Aprendizado de máquina
Chemical Space
Cheminformatics
Drug Design
Druglikeness
Druglikeness
Espaço químico
Machine Learning
Planejamento de fármacos
Quimioinformática
description Small molecules (SM) possess remarkable chemical diversity, emphasizing the extensive chemical space (CS) they occupy. Within this vast CS, molecules with the potential to interact with biological targets hold particular significance for medicinal chemistry. The enormity and complexity of this space highlight the need for effective tools to navigate it, with the concept of drug-likeness serving as a valuable approach.This research explores drug-likeness through the creation of a dataset comprising FDA-approved molecules, which is contrasted against three negative datasets containing molecules from PDB, ZINC, and compounds with established toxicity. Machine learning (ML) models were developed using this dataset, achieving robust predictive performance. These models facilitated an in-depth analysis of the molecular descriptors most influential in distinguishing drug-like molecules.Key properties identified include established metrics such as logP, topological polar surface area (TPSA), and the counts of hydrogen bond donors and acceptors. The study also highlights the significance of topological descriptors, with e-state indices playing a critical role in characterizing individual atoms. By integrating cheminformatics with ML, this work provides valuable insights into the chemical space, offering a foundation for advancements in drug discovery and development.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/
url https://www.teses.usp.br/teses/disponiveis/9/9138/tde-09062025-165507/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492279951622144