Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Negretto, Diego Henrique [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/138136
Resumo: As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados.
id UNSP_05205cd74709d120789744ff9d13eb69
oai_identifier_str oai:repositorio.unesp.br:11449/138136
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformáticaSemi-supervised machine learning algorithms based on graph applied in bioinformaticsAprendizagem de máquinaProteômicaAprendizado semi-supervisionadoAlgoritmos bioinspiradoReconhecimento de padrõesMachine learningProteomicsSemi-supervised learningBioinspired algorithmPattern recognitionAs pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados.Research conducted for the sequencing of genomes, Proteomics, Systems Biology, Medical Diagnostics, among others, generate a lot of data, making it necessary the support of computing solutions for the analysis and interpretation of such data. The possibility of using machine learning techniques to extract useful knowledge of these large amounts of data has been widely discussed among researchers of Biology and Computer Science. The process of labeling all data generated by biological research, as well as in other areas, is difficult, costly and / or time consuming. Thus, searching ways to achieve a high accuracy with few labeled data is an important and challenging task. Accordingly, the Semi-Supervised Learning shows up as an important option since it uses both labeled and unlabeled data for training, being an intermediate category between the Supervised and Unsupervised Learning. Several approaches to semi-supervised learning algorithms are found in the literature. Among them, the highlights are the graph-based methods, which represent the input data as nodes in a graph, which structure is used to propagate label information from labeled nodes to the other nodes. It is also noteworthy that the graph-based approach has a great mathematical and computational validity. In this context, this paper presents a comparative analysis of some semi-supervised algorithms based on graphs, when applied to biological data analysis related to the field of proteomics and transcriptomics studies. In addition, the paper proposes a new dataset with actual data from biological research with the transcriptome of the Mycocepurus goeldii species of ants. Some experiments performed with semi-supervised algorithms are presented, considering its efficacy when compared with a few supervised methods.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2015/06780-3Universidade Estadual Paulista (Unesp)Breve, Fabrício Aparecido [UNESP]Universidade Estadual Paulista (Unesp)Negretto, Diego Henrique [UNESP]2016-04-28T19:42:24Z2016-04-28T19:42:24Z2016-03-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/13813600086827233004153073P256938600255383270000-0002-1123-9784porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-11-05T13:26:00Zoai:repositorio.unesp.br:11449/138136Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-11-05T13:26Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
Semi-supervised machine learning algorithms based on graph applied in bioinformatics
title Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
spellingShingle Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
Negretto, Diego Henrique [UNESP]
Aprendizagem de máquina
Proteômica
Aprendizado semi-supervisionado
Algoritmos bioinspirado
Reconhecimento de padrões
Machine learning
Proteomics
Semi-supervised learning
Bioinspired algorithm
Pattern recognition
title_short Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
title_full Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
title_fullStr Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
title_full_unstemmed Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
title_sort Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
author Negretto, Diego Henrique [UNESP]
author_facet Negretto, Diego Henrique [UNESP]
author_role author
dc.contributor.none.fl_str_mv Breve, Fabrício Aparecido [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Negretto, Diego Henrique [UNESP]
dc.subject.por.fl_str_mv Aprendizagem de máquina
Proteômica
Aprendizado semi-supervisionado
Algoritmos bioinspirado
Reconhecimento de padrões
Machine learning
Proteomics
Semi-supervised learning
Bioinspired algorithm
Pattern recognition
topic Aprendizagem de máquina
Proteômica
Aprendizado semi-supervisionado
Algoritmos bioinspirado
Reconhecimento de padrões
Machine learning
Proteomics
Semi-supervised learning
Bioinspired algorithm
Pattern recognition
description As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados.
publishDate 2016
dc.date.none.fl_str_mv 2016-04-28T19:42:24Z
2016-04-28T19:42:24Z
2016-03-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/138136
000868272
33004153073P2
5693860025538327
0000-0002-1123-9784
url http://hdl.handle.net/11449/138136
identifier_str_mv 000868272
33004153073P2
5693860025538327
0000-0002-1123-9784
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954777749749760