Solução de integração e avaliação de softwares de anotação genômica em coffea spp

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Cantelli, Geraldo Cesar
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/5420
Resumo: One of the biggest challenges of bioinformatics is the analysis of complete genomes, for instance the identification of computationally predicted genes and its association to respective biological functions. Therefore, it is important to design experiments that can test these predictions and compare them with existing ones so that you can measure their performance. With a growing volume of genomic and transcriptomic available data, efficient and affordable pipelines to perform a good gene annotation process are needed. How to improve the correct genome annotation avoiding over or under prediction to obtain more accurary? In this work we study which characteristic is more interesting to a genomic annotation software comparing two software, PASA and MAKER, analyzing the genome of Coffea canephora, C. eugenioides and C. arabica. We also executed a quality improvement in these Coffea genome annotation and peformed statistical comparison between these two software. Besides it is proposed an automated tool which allows to repeat some of the analyses performed in this work. Results show the effectiveness of using detection of all alternative splicing possibilities in the algorithm of annotation due to PASA finding more exclusive genes (compared with MAKER) and located genes equally in different regions of the chromosomes, which is difficult for many gene predictors. New versions of the annotation of the genomes of C. arabica, C. canephora and C. eugenioides were generated to be made available for use by the scientific community. The Ensemble Solution program was developed to make possible evaluation of genomic annotation software, GFF3 files, lists of genes exclusively and Venn diagrams, to import GenBank properties and generate more complete reports.
id UTFPR-12_62abc94865dd1ff4493ac9df5251386c
oai_identifier_str oai:repositorio.utfpr.edu.br:1/5420
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Solução de integração e avaliação de softwares de anotação genômica em coffea sppGenomaCaféSoftware - DesenvolvimentoGenomesCoffeeComputer software - DevelopmentCNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIAEngenharia/Tecnologia/GestãoOne of the biggest challenges of bioinformatics is the analysis of complete genomes, for instance the identification of computationally predicted genes and its association to respective biological functions. Therefore, it is important to design experiments that can test these predictions and compare them with existing ones so that you can measure their performance. With a growing volume of genomic and transcriptomic available data, efficient and affordable pipelines to perform a good gene annotation process are needed. How to improve the correct genome annotation avoiding over or under prediction to obtain more accurary? In this work we study which characteristic is more interesting to a genomic annotation software comparing two software, PASA and MAKER, analyzing the genome of Coffea canephora, C. eugenioides and C. arabica. We also executed a quality improvement in these Coffea genome annotation and peformed statistical comparison between these two software. Besides it is proposed an automated tool which allows to repeat some of the analyses performed in this work. Results show the effectiveness of using detection of all alternative splicing possibilities in the algorithm of annotation due to PASA finding more exclusive genes (compared with MAKER) and located genes equally in different regions of the chromosomes, which is difficult for many gene predictors. New versions of the annotation of the genomes of C. arabica, C. canephora and C. eugenioides were generated to be made available for use by the scientific community. The Ensemble Solution program was developed to make possible evaluation of genomic annotation software, GFF3 files, lists of genes exclusively and Venn diagrams, to import GenBank properties and generate more complete reports.Um dos maiores desafios da bioinformática é a análise de genomas completos, por exemplo, a identificação de genes preditos computacionalmente e a sua associação com as respectivas funções biológicas. Portanto é importante o design de experimentos que possam testar essas previsões e compara-las com outras já existentes para que se possa mensurar seu desempenho. Realizar o experimento apenas com um software não seria interessante pela necessidade de comparar algoritmos e sua eficiência. Devido ao volume crescente de dados genômicos e transcriptômicos disponíveis, são necessárias pipelines eficientes e acessíveis para gerar predições gênicas e inferir com um maior grau de confiabilidade as suas respectivas funções biológicas. Como melhorar a qualidade da anotação genômica, evitando “over” ou “under prediction” e obtendo mais precisão? Neste trabalho, estudamos qual característica e mais interessante para um software de anotação genômica comparando dois programas, PASA e MAKER, analisando o genoma de Coffea canephora, C. eugenioides e C. arábica. Através da realização dessas pipelines, notou-se através de programas como BUSCO e Quast um aprimoramento no genoma das amostras de café e realizada uma comparação estatística entre esses dois programas. Além disso e proposta uma nova ferramenta automatizada que permite repetir algumas das analises realizadas neste trabalho. Os resultados mostram a eficácia do uso da detecção de todas as possibilidades de splices alternativos no algoritmo de anotação, devido o PASA encontrar mais genes exclusivos e genes localizados igualmente em diferentes regiões dos cromossomos, o que é difícil para muitos preditores de genes. Foram geradas novas versões da anotações dos genomas de C. arábica, C. canephora e C. eugenioides para que possam ser disponibilizadas para utilização pela comunidade científica. Foi desenvolvido um programa Ensemble Solution para viabilizar a automatização da avaliação de software de anotação genômica, o qual trabalhando com arquivos de GFF3, produz listas de genes encontrados exclusivamente por cada software avaliado e gera diagramas de Venn, permitindo importar dados do GenBank (como a tradução das proteínas) e gerar relatórios mais completos.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRPereira, Luiz Filipe Protasiohttps://orcid.org/0000-0002-4872-6607http://lattes.cnpq.br/1177022282500069Lopes, Fabricio Martinshttp://orcid.org/0000-0002-8786-3313http://lattes.cnpq.br/1660070580824436Kashiwabara, Andre Yoshiakihttp://lattes.cnpq.br/3194328548975437Pereira, Luiz Filipe Protasiohttp://lattes.cnpq.br/1177022282500069Suzuki, Suzana Tiemi Ivamotohttp://lattes.cnpq.br/1763200047578046Cantelli, Geraldo Cesar2020-11-03T17:12:41Z2020-11-03T17:12:41Z2020-09-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCANTELLI, Geraldo Cesar. Solução de integração e avaliação de softwares de anotação genômica em coffea spp. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.http://repositorio.utfpr.edu.br/jspui/handle/1/5420porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2020-11-04T06:01:30Zoai:repositorio.utfpr.edu.br:1/5420Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2020-11-04T06:01:30Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Solução de integração e avaliação de softwares de anotação genômica em coffea spp
title Solução de integração e avaliação de softwares de anotação genômica em coffea spp
spellingShingle Solução de integração e avaliação de softwares de anotação genômica em coffea spp
Cantelli, Geraldo Cesar
Genoma
Café
Software - Desenvolvimento
Genomes
Coffee
Computer software - Development
CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA
Engenharia/Tecnologia/Gestão
title_short Solução de integração e avaliação de softwares de anotação genômica em coffea spp
title_full Solução de integração e avaliação de softwares de anotação genômica em coffea spp
title_fullStr Solução de integração e avaliação de softwares de anotação genômica em coffea spp
title_full_unstemmed Solução de integração e avaliação de softwares de anotação genômica em coffea spp
title_sort Solução de integração e avaliação de softwares de anotação genômica em coffea spp
author Cantelli, Geraldo Cesar
author_facet Cantelli, Geraldo Cesar
author_role author
dc.contributor.none.fl_str_mv Pereira, Luiz Filipe Protasio
https://orcid.org/0000-0002-4872-6607
http://lattes.cnpq.br/1177022282500069
Lopes, Fabricio Martins
http://orcid.org/0000-0002-8786-3313
http://lattes.cnpq.br/1660070580824436
Kashiwabara, Andre Yoshiaki
http://lattes.cnpq.br/3194328548975437
Pereira, Luiz Filipe Protasio
http://lattes.cnpq.br/1177022282500069
Suzuki, Suzana Tiemi Ivamoto
http://lattes.cnpq.br/1763200047578046
dc.contributor.author.fl_str_mv Cantelli, Geraldo Cesar
dc.subject.por.fl_str_mv Genoma
Café
Software - Desenvolvimento
Genomes
Coffee
Computer software - Development
CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA
Engenharia/Tecnologia/Gestão
topic Genoma
Café
Software - Desenvolvimento
Genomes
Coffee
Computer software - Development
CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA
Engenharia/Tecnologia/Gestão
description One of the biggest challenges of bioinformatics is the analysis of complete genomes, for instance the identification of computationally predicted genes and its association to respective biological functions. Therefore, it is important to design experiments that can test these predictions and compare them with existing ones so that you can measure their performance. With a growing volume of genomic and transcriptomic available data, efficient and affordable pipelines to perform a good gene annotation process are needed. How to improve the correct genome annotation avoiding over or under prediction to obtain more accurary? In this work we study which characteristic is more interesting to a genomic annotation software comparing two software, PASA and MAKER, analyzing the genome of Coffea canephora, C. eugenioides and C. arabica. We also executed a quality improvement in these Coffea genome annotation and peformed statistical comparison between these two software. Besides it is proposed an automated tool which allows to repeat some of the analyses performed in this work. Results show the effectiveness of using detection of all alternative splicing possibilities in the algorithm of annotation due to PASA finding more exclusive genes (compared with MAKER) and located genes equally in different regions of the chromosomes, which is difficult for many gene predictors. New versions of the annotation of the genomes of C. arabica, C. canephora and C. eugenioides were generated to be made available for use by the scientific community. The Ensemble Solution program was developed to make possible evaluation of genomic annotation software, GFF3 files, lists of genes exclusively and Venn diagrams, to import GenBank properties and generate more complete reports.
publishDate 2020
dc.date.none.fl_str_mv 2020-11-03T17:12:41Z
2020-11-03T17:12:41Z
2020-09-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CANTELLI, Geraldo Cesar. Solução de integração e avaliação de softwares de anotação genômica em coffea spp. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
http://repositorio.utfpr.edu.br/jspui/handle/1/5420
identifier_str_mv CANTELLI, Geraldo Cesar. Solução de integração e avaliação de softwares de anotação genômica em coffea spp. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
url http://repositorio.utfpr.edu.br/jspui/handle/1/5420
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498320929128448