Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática
| Ano de defesa: | 2016 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://hdl.handle.net/11449/138136 |
Resumo: | As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados. |
| id |
UNSP_05205cd74709d120789744ff9d13eb69 |
|---|---|
| oai_identifier_str |
oai:repositorio.unesp.br:11449/138136 |
| network_acronym_str |
UNSP |
| network_name_str |
Repositório Institucional da UNESP |
| repository_id_str |
|
| spelling |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformáticaSemi-supervised machine learning algorithms based on graph applied in bioinformaticsAprendizagem de máquinaProteômicaAprendizado semi-supervisionadoAlgoritmos bioinspiradoReconhecimento de padrõesMachine learningProteomicsSemi-supervised learningBioinspired algorithmPattern recognitionAs pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados.Research conducted for the sequencing of genomes, Proteomics, Systems Biology, Medical Diagnostics, among others, generate a lot of data, making it necessary the support of computing solutions for the analysis and interpretation of such data. The possibility of using machine learning techniques to extract useful knowledge of these large amounts of data has been widely discussed among researchers of Biology and Computer Science. The process of labeling all data generated by biological research, as well as in other areas, is difficult, costly and / or time consuming. Thus, searching ways to achieve a high accuracy with few labeled data is an important and challenging task. Accordingly, the Semi-Supervised Learning shows up as an important option since it uses both labeled and unlabeled data for training, being an intermediate category between the Supervised and Unsupervised Learning. Several approaches to semi-supervised learning algorithms are found in the literature. Among them, the highlights are the graph-based methods, which represent the input data as nodes in a graph, which structure is used to propagate label information from labeled nodes to the other nodes. It is also noteworthy that the graph-based approach has a great mathematical and computational validity. In this context, this paper presents a comparative analysis of some semi-supervised algorithms based on graphs, when applied to biological data analysis related to the field of proteomics and transcriptomics studies. In addition, the paper proposes a new dataset with actual data from biological research with the transcriptome of the Mycocepurus goeldii species of ants. Some experiments performed with semi-supervised algorithms are presented, considering its efficacy when compared with a few supervised methods.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2015/06780-3Universidade Estadual Paulista (Unesp)Breve, Fabrício Aparecido [UNESP]Universidade Estadual Paulista (Unesp)Negretto, Diego Henrique [UNESP]2016-04-28T19:42:24Z2016-04-28T19:42:24Z2016-03-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/13813600086827233004153073P256938600255383270000-0002-1123-9784porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-11-05T13:26:00Zoai:repositorio.unesp.br:11449/138136Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-11-05T13:26Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
| dc.title.none.fl_str_mv |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática Semi-supervised machine learning algorithms based on graph applied in bioinformatics |
| title |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| spellingShingle |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática Negretto, Diego Henrique [UNESP] Aprendizagem de máquina Proteômica Aprendizado semi-supervisionado Algoritmos bioinspirado Reconhecimento de padrões Machine learning Proteomics Semi-supervised learning Bioinspired algorithm Pattern recognition |
| title_short |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| title_full |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| title_fullStr |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| title_full_unstemmed |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| title_sort |
Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática |
| author |
Negretto, Diego Henrique [UNESP] |
| author_facet |
Negretto, Diego Henrique [UNESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Breve, Fabrício Aparecido [UNESP] Universidade Estadual Paulista (Unesp) |
| dc.contributor.author.fl_str_mv |
Negretto, Diego Henrique [UNESP] |
| dc.subject.por.fl_str_mv |
Aprendizagem de máquina Proteômica Aprendizado semi-supervisionado Algoritmos bioinspirado Reconhecimento de padrões Machine learning Proteomics Semi-supervised learning Bioinspired algorithm Pattern recognition |
| topic |
Aprendizagem de máquina Proteômica Aprendizado semi-supervisionado Algoritmos bioinspirado Reconhecimento de padrões Machine learning Proteomics Semi-supervised learning Bioinspired algorithm Pattern recognition |
| description |
As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados. |
| publishDate |
2016 |
| dc.date.none.fl_str_mv |
2016-04-28T19:42:24Z 2016-04-28T19:42:24Z 2016-03-31 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/138136 000868272 33004153073P2 5693860025538327 0000-0002-1123-9784 |
| url |
http://hdl.handle.net/11449/138136 |
| identifier_str_mv |
000868272 33004153073P2 5693860025538327 0000-0002-1123-9784 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
| instname_str |
Universidade Estadual Paulista (UNESP) |
| instacron_str |
UNESP |
| institution |
UNESP |
| reponame_str |
Repositório Institucional da UNESP |
| collection |
Repositório Institucional da UNESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
| repository.mail.fl_str_mv |
repositoriounesp@unesp.br |
| _version_ |
1854954777749749760 |