Semi-supervised learning approaches with applications in Medicinal Chemistry
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22082019-105334/ |
Resumo: | Semi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry. |
| id |
USP_e4040cb48a08cf354816db9c4bcbabf7 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-22082019-105334 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Semi-supervised learning approaches with applications in Medicinal ChemistryAbordagens de aprendizado semissupervisionado com aplicações em Química MedicinalAgrupamento baseado em densidadeAgrupamento semissupervisionadoAnálise de relação entre estrutura química e atividade biológicaClassificação semissupervisionadaDensity- based clusteringSemi-supervised classificationSemi-supervised clusteringStructure-activity relationshipSemi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry.O aprendizado semissupervisionado obteve, no decorrer do tempo, cada vez mais significância na área de big data, uma vez que a lacuna entre a abundância de dados não rotulados coletados de forma rápida e barada e a escassez de dados rotulados que são trabalhosos e caros de obter, está aumentando drasticamente. No presente documento, apresentamos uma visão unificada dos algoritmos de agrupamento baseados em densidade. Depois, utilizamos essa visão unificada para construção de uma ponte entre as áreas de agrupamento e classificação semissupervisionadas. Mostramos que existem relações entre algoritmos de agrupamento baseados em densidade e a abordagem baseada em grafos para classificação transdutiva. Essas relações são então usadas como base para um novo framework de classificação semissupervisionada com base em algoritmos baseados em densidade. Assim, definimos um novo framework que pode ser dividido em pequenos blocos de construção, com base nos algoritmos baseado em densidade. Essa estrutura é eficiente, eficaz e também estatisticamente sólida. Também generalizamos o framework HDBSCAN* para que ele também pudesse realizar agrupamento semissupervisionado utilizando diretamente qualquer fração de dados rotulados que possam estar disponíveis, ao invés de um conjunto de restrições. Resultados experimentais em uma grande coleção de base de dados mostram as vantagens da abordagem proposta tanto para classificação semissupervisionada quanto para o agrupamento semissupervisionado. Além disso, avaliamos os algoritmos de aprendizado semissupervisionados para determinar as relações entre a estrutura química e a atividade biológica em conjuntos de dados da área de Química Medicinal. Os conjuntos de dados avaliados nesta área são caracterizados por um baixo número de exemplos rotulados, alta dimensionalidade e, em alguns casos, não possuem uma relação clara entre estrutura química e atividade biológica, o que dificulta a aplicação de técnicas aprendizado supervisionado. Após implementação e validação das abordagens semissupervisionadas, verificamos que os mesmos podem ser uma boa opção para análise de dados em Química Medicinal.Biblioteca Digitais de Teses e Dissertações da USPCampello, Ricardo José Gabrielli BarretoGertrudes, Jadson Castro2019-05-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-22082019-105334/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2019-11-08T23:48:30Zoai:teses.usp.br:tde-22082019-105334Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-08T23:48:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Semi-supervised learning approaches with applications in Medicinal Chemistry Abordagens de aprendizado semissupervisionado com aplicações em Química Medicinal |
| title |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| spellingShingle |
Semi-supervised learning approaches with applications in Medicinal Chemistry Gertrudes, Jadson Castro Agrupamento baseado em densidade Agrupamento semissupervisionado Análise de relação entre estrutura química e atividade biológica Classificação semissupervisionada Density- based clustering Semi-supervised classification Semi-supervised clustering Structure-activity relationship |
| title_short |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| title_full |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| title_fullStr |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| title_full_unstemmed |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| title_sort |
Semi-supervised learning approaches with applications in Medicinal Chemistry |
| author |
Gertrudes, Jadson Castro |
| author_facet |
Gertrudes, Jadson Castro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Campello, Ricardo José Gabrielli Barreto |
| dc.contributor.author.fl_str_mv |
Gertrudes, Jadson Castro |
| dc.subject.por.fl_str_mv |
Agrupamento baseado em densidade Agrupamento semissupervisionado Análise de relação entre estrutura química e atividade biológica Classificação semissupervisionada Density- based clustering Semi-supervised classification Semi-supervised clustering Structure-activity relationship |
| topic |
Agrupamento baseado em densidade Agrupamento semissupervisionado Análise de relação entre estrutura química e atividade biológica Classificação semissupervisionada Density- based clustering Semi-supervised classification Semi-supervised clustering Structure-activity relationship |
| description |
Semi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-05-20 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22082019-105334/ |
| url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22082019-105334/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815258394101022720 |