Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO)
Ano de defesa: | 2013 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de São Carlos
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
Departamento: |
Não Informado pela instituição
|
País: |
BR
|
Palavras-chave em Português: | |
Palavras-chave em Inglês: | |
Área do conhecimento CNPq: | |
Link de acesso: | https://repositorio.ufscar.br/handle/ufscar/290 |
Resumo: | Nowadays, the amount of biological data available by universities, hospitals and research centers has increased exponentially due the use of bioinformatics, with the development of methods and advanced computational tools, and high-throughput techniques. Due to this significant increase in the amount of available data, new strategies for capture, storage and analysis of data are necessary. In this scenario, a new research area is developing, called biocuration. The biocuration is becoming a fundamental part in the biological and biomedical research, and the main function is related with the structuration and organization of the biological information, making it readable and accessible to mens and computers. Seeking to support a fast and reliable understanding of new domains, different initiatives are being proposed, and the Gene Ontology (GO) is one of the main examples. The GO is one the main initiatives in bioinformatics, whose main goal is to standardize the representation of genes and their products, providing interconnections between species and databases. Thus, the main objective of this research is to propose a computational architecture that uses principles of never-ending learning to help biocurators in new GO classifications. Nowadays, this classification task is totally manual. The proposed architecture uses semi-supervised learning combining different classifiers used in the classification of new GO samples. In addition, this research also aims to build high-level knowledge in the form of simple IF-THEN rules and decision trees. The generated knowledge can be used by the GO biocurators in the search for important patterns present in the biological data, revealing concise and relevant information about the application domain. |
id |
SCAR_1891a0e11774de4e180d37c7a7f31fd1 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/290 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
|
spelling |
Amaral, Laurence Rodrigues doHruschka Júnior, Estevam Rafaelhttp://lattes.cnpq.br/2097340857065853http://lattes.cnpq.br/6978567037098928d8640e3b-995e-480d-8152-684581167f612016-06-02T19:03:58Z2014-08-062016-06-02T19:03:58Z2013-10-08AMARAL, Laurence Rodrigues do. Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO). 2013. 112 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.https://repositorio.ufscar.br/handle/ufscar/290Nowadays, the amount of biological data available by universities, hospitals and research centers has increased exponentially due the use of bioinformatics, with the development of methods and advanced computational tools, and high-throughput techniques. Due to this significant increase in the amount of available data, new strategies for capture, storage and analysis of data are necessary. In this scenario, a new research area is developing, called biocuration. The biocuration is becoming a fundamental part in the biological and biomedical research, and the main function is related with the structuration and organization of the biological information, making it readable and accessible to mens and computers. Seeking to support a fast and reliable understanding of new domains, different initiatives are being proposed, and the Gene Ontology (GO) is one of the main examples. The GO is one the main initiatives in bioinformatics, whose main goal is to standardize the representation of genes and their products, providing interconnections between species and databases. Thus, the main objective of this research is to propose a computational architecture that uses principles of never-ending learning to help biocurators in new GO classifications. Nowadays, this classification task is totally manual. The proposed architecture uses semi-supervised learning combining different classifiers used in the classification of new GO samples. In addition, this research also aims to build high-level knowledge in the form of simple IF-THEN rules and decision trees. The generated knowledge can be used by the GO biocurators in the search for important patterns present in the biological data, revealing concise and relevant information about the application domain.Nos dias atuais, a quantidade de dados biológicos disponibilizados por universidades, hospitais e centros de pesquisa tem aumentado de forma exponencial, devido ao emprego da bio-informática, através do desenvolvimento de métodos e técnicas computacionais avançados, e de técnicas de high-throughput. Devido a esse significativo aumento na quantidade de dados disponibilizados, gerou-se a necessidade da criação de novas estratégias para captura, armazenamento e principalmente analise desses dados. Devido a esse cenário, um novo campo de trabalho e pesquisa vem surgindo, chamado biocuragem. A biocuragem está se tornando parte fundamental na pesquisa biomédica e biológica, e tem por principal função estruturar e organizar a informação biológica, tornando-a legível e acessível a homens e computadores. Buscando prover um rápido e confiável entendimento de novos domínios, diferentes iniciativas estão sendo propostas, tendo no Gene Ontology (GO) um dos seus principais exemplos. O GO se destaca mundialmente sendo uma das principais iniciativas em bioinformática, cuja principal meta e padronizar a representação dos genes e seus produtos, provendo interconexões entre espécies e bancos de dados. Dessa forma, objetiva-se com essa pesquisa propor uma arquitetura computacional que utiliza princípios de aprendizado de maquina sem-fim para auxiliar biocuradores do GO na tarefa de classificação de novos termos, tarefa essa, totalmente manual. A arquitetura proposta utiliza aprendizado semi-supervisionado combinando diferentes classificadores na rotulação de novas instâncias do GO. Além disso, essa pesquisa também tem por objetivo a construção de conhecimento de alto-nível na forma de simples regras SE-ENTÃO e árvores de decisão. Esse conhecimento gerado pode ser utilizado pelos biocuradores do GO na busca por padrões importantes presentes nos dados biológicos, revelando informações concisas e relevantes sobre o domínio da aplicação.application/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRCiência da computaçãoAprendizado de máquina sem-fimOntologia genéticaComposição de classificadoresBiocuragemNever-Ending language learnerGene ontologyCombining classifiersBiocurationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO)info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis-1-16c142165-1935-4e21-8c88-f27f8c42b0c1info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL6030.pdfapplication/pdf2345815https://repositorio.ufscar.br/bitstream/ufscar/290/1/6030.pdf385c6d8c1bda1d4afe540c01668338faMD51TEXT6030.pdf.txt6030.pdf.txtExtracted texttext/plain186163https://repositorio.ufscar.br/bitstream/ufscar/290/2/6030.pdf.txt847c87c246fc9b6ac574c315b4a0fbfeMD52THUMBNAIL6030.pdf.jpg6030.pdf.jpgIM Thumbnailimage/jpeg8841https://repositorio.ufscar.br/bitstream/ufscar/290/3/6030.pdf.jpg5c96fe6ab1edbcc8ce77eae1cdec0368MD53ufscar/2902023-09-18 18:31:19.011oai:repositorio.ufscar.br:ufscar/290Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:19Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
title |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
spellingShingle |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) Amaral, Laurence Rodrigues do Ciência da computação Aprendizado de máquina sem-fim Ontologia genética Composição de classificadores Biocuragem Never-Ending language learner Gene ontology Combining classifiers Biocuration CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
title_full |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
title_fullStr |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
title_full_unstemmed |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
title_sort |
Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO) |
author |
Amaral, Laurence Rodrigues do |
author_facet |
Amaral, Laurence Rodrigues do |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/6978567037098928 |
dc.contributor.author.fl_str_mv |
Amaral, Laurence Rodrigues do |
dc.contributor.advisor1.fl_str_mv |
Hruschka Júnior, Estevam Rafael |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2097340857065853 |
dc.contributor.authorID.fl_str_mv |
d8640e3b-995e-480d-8152-684581167f61 |
contributor_str_mv |
Hruschka Júnior, Estevam Rafael |
dc.subject.por.fl_str_mv |
Ciência da computação Aprendizado de máquina sem-fim Ontologia genética Composição de classificadores Biocuragem |
topic |
Ciência da computação Aprendizado de máquina sem-fim Ontologia genética Composição de classificadores Biocuragem Never-Ending language learner Gene ontology Combining classifiers Biocuration CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Never-Ending language learner Gene ontology Combining classifiers Biocuration |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Nowadays, the amount of biological data available by universities, hospitals and research centers has increased exponentially due the use of bioinformatics, with the development of methods and advanced computational tools, and high-throughput techniques. Due to this significant increase in the amount of available data, new strategies for capture, storage and analysis of data are necessary. In this scenario, a new research area is developing, called biocuration. The biocuration is becoming a fundamental part in the biological and biomedical research, and the main function is related with the structuration and organization of the biological information, making it readable and accessible to mens and computers. Seeking to support a fast and reliable understanding of new domains, different initiatives are being proposed, and the Gene Ontology (GO) is one of the main examples. The GO is one the main initiatives in bioinformatics, whose main goal is to standardize the representation of genes and their products, providing interconnections between species and databases. Thus, the main objective of this research is to propose a computational architecture that uses principles of never-ending learning to help biocurators in new GO classifications. Nowadays, this classification task is totally manual. The proposed architecture uses semi-supervised learning combining different classifiers used in the classification of new GO samples. In addition, this research also aims to build high-level knowledge in the form of simple IF-THEN rules and decision trees. The generated knowledge can be used by the GO biocurators in the search for important patterns present in the biological data, revealing concise and relevant information about the application domain. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013-10-08 |
dc.date.available.fl_str_mv |
2014-08-06 2016-06-02T19:03:58Z |
dc.date.accessioned.fl_str_mv |
2016-06-02T19:03:58Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
AMARAL, Laurence Rodrigues do. Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO). 2013. 112 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/290 |
identifier_str_mv |
AMARAL, Laurence Rodrigues do. Aplicando princípios de aprendizado de máquina na construção de um biocurador automático para o Gene Ontology (GO). 2013. 112 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013. |
url |
https://repositorio.ufscar.br/handle/ufscar/290 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
-1 -1 |
dc.relation.authority.fl_str_mv |
6c142165-1935-4e21-8c88-f27f8c42b0c1 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/290/1/6030.pdf https://repositorio.ufscar.br/bitstream/ufscar/290/2/6030.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/290/3/6030.pdf.jpg |
bitstream.checksum.fl_str_mv |
385c6d8c1bda1d4afe540c01668338fa 847c87c246fc9b6ac574c315b4a0fbfe 5c96fe6ab1edbcc8ce77eae1cdec0368 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136457354149888 |