Exportação concluída — 

Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Tedesque, Fernanda Hondo
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.unb.br/handle/10482/34715
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
id UNB_29c473633a764b2c0b1cf70bd8869d4a
oai_identifier_str oai:repositorio.unb.br:10482/34715
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacionalWorkflows científicosBanco de dadosBioinformáticaComputação em nuvemDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.Os experimentos da biologia molecular são frequentemente apresentados sob a forma de workflows científicos. Um workflow científico é composto por um conjunto de atividades realizadas por diferentes entidades de processamento através de tarefas gerenciadas. O conhecimento sobre a trajetória dos dados ao longo de um determinado workflow permite a reprodutibilidade por meio da proveniência de dados. Para reproduzir um experimento de Bioinformática in silico, é preciso considerar outros aspectos, além das tarefas executadas em um workflow. De fato, as configurações computacionais nas quais os programas envolvidos são executados são um requisito para a reprodutibilidade. A tecnologia da computação em nuvem pode ocultar detalhes técnicos e facilitar ao usuário a configuração desse ambiente sob demanda. Os sistemas de banco de dados NoSQL também ganharam popularidade, particularmente na nuvem. Considerando este cenário, é proposta uma modelagem para a proveniência de dados de experimentos científicos, em ambiente de nuvem computacional, utilizando o PROV-DM e realizando o mapeamento para três diferentes tipos de famílias de sistemas de banco de dados NoSQL. Foram executados dois workflows de Bioinformática envolvendo diferentes fases, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra, MongoDB e OrientDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de armazenamento da proveniência são mínimos comparados aos tempos de execução dos workflows sem o uso da proveniência e, portanto, os modelos propostos para os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de proveniência de dados biológicos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Molecular biology experiments are often presented in the form of scientific workflows. There is a set of activities performed by different processing entities through managed tasks. Knowledge about the data trajectory throughout a given workflow enables reproducibility by data provenance. In order to reproduce an in silico bioinformatics experiment one must consider other aspects besides those steps followed by a workflow. Indeed, the computational settings in which the involved programs run is a requirement for reproducibility. Cloud computing technology may hide the technical details and make it easier for the user to set up such an on-demand environment. NoSQL database systems have also gained popularity, particularly in the cloud. Considering this scenario, a model for the provenance of data from scientific experiments in a computational cloud environment is proposed, using the PROV-DM and mapping to three different types of families of NoSQL database systems. Two Bioinformatics workflows involving different phases were performed, which were used for the tests in the NoSQL Cassandra, MongoDB and OrientDB databases, followed by an analysis of these executions and tests.The results obtained showed that the storage times of the provenance are minimal compared to the execution times of the workflows without the use of the provenance and therefore, the proposed models for the NoSQL databases proved to be a good option for storage and management of biological data.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaHolanda, Maristela Terto deAraújo, Aletéia Patrícia Favacho deTedesque, Fernanda Hondo2019-06-05T17:35:49Z2019-06-05T17:35:49Z2019-06-052018-07-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfTEDESQUE, Fernanda Hondo. Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional. 2018. xii, 65 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.http://repositorio.unb.br/handle/10482/34715A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-03-14T15:41:36Zoai:repositorio.unb.br:10482/34715Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-03-14T15:41:36Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
title Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
spellingShingle Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
Tedesque, Fernanda Hondo
Workflows científicos
Banco de dados
Bioinformática
Computação em nuvem
title_short Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
title_full Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
title_fullStr Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
title_full_unstemmed Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
title_sort Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
author Tedesque, Fernanda Hondo
author_facet Tedesque, Fernanda Hondo
author_role author
dc.contributor.none.fl_str_mv Holanda, Maristela Terto de
Araújo, Aletéia Patrícia Favacho de
dc.contributor.author.fl_str_mv Tedesque, Fernanda Hondo
dc.subject.por.fl_str_mv Workflows científicos
Banco de dados
Bioinformática
Computação em nuvem
topic Workflows científicos
Banco de dados
Bioinformática
Computação em nuvem
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
publishDate 2018
dc.date.none.fl_str_mv 2018-07-25
2019-06-05T17:35:49Z
2019-06-05T17:35:49Z
2019-06-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv TEDESQUE, Fernanda Hondo. Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional. 2018. xii, 65 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.
http://repositorio.unb.br/handle/10482/34715
identifier_str_mv TEDESQUE, Fernanda Hondo. Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional. 2018. xii, 65 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.
url http://repositorio.unb.br/handle/10482/34715
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083894713876480