Biotex : mineração de textos inspirada em técnicas de bioinformática

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Machado, Diogo de Jesus Soares
Orientador(a): Raittz, Roberto Tadeu, 1966-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/69573
Resumo: Orientador: Prof. Dr. Roberto Tadeu Raittz
id UFPR_7ead62cdc99065a92d70331fb6ed7ab7
oai_identifier_str oai:acervodigital.ufpr.br:1884/69573
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Machado, Diogo de Jesus SoaresUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-2022-05-09T19:48:50Z2022-05-09T19:48:50Z2020https://hdl.handle.net/1884/69573Orientador: Prof. Dr. Roberto Tadeu RaittzDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 19/06/2020Inclui referências: p. 59-63Resumo: A mineração de textos trata da obtenção de informação a partir do processamento de dados não estruturados, escritos em linguagem natural. A grande quantidade de conteúdo textual digitalizado disponível através da internet propiciou o interesse no desenvolvimento de técnicas envolvendo processamento de linguagem natural e aprendizado de máquina. Da mesma forma que ocorre com os textos também ocorre com dados de origem biológica. Os dados genômicos, proteômicos e transcriptômicos muitas vezes são disponibilizados na forma de arquivos FASTA, que são arquivos de texto com uma estrutura específica. Para trabalhar com esses dados foram desenvolvidas muitas ferramentas destinadas para bioinformática. A partir dessas observações, é válido supor a possibilidade de transformar textos escritos em linguagem natural para um formato baseado na representação de sequências biológicas, para propiciar a aplicação de ferramentas de bioinformática em estratégias de mineração de textos, ampliando o arsenal de recursos disponíveis para a área. Para possibilitar o avanço nessa abordagem, desenvolvemos um pacote em Python que chamamos de "BioTEX", que oferece recursos para codificar textos para um formato baseado na representação de sequências biológicas, além de outros módulos para auxiliar no processo de mineração de textos através da estratégia proposta. Apresentamos um estudo de caso em que obtivemos artigos do PubMed e aplicamos o BioTEX para gerar um dendrograma de palavras, com o qual demonstramos indícios da ascensão da pandemia do SARS-CoV-2 apenas utilizando textos escritos até outubro de 2019, ou seja, identificamos indícios de eventos presentes em literatura passada. Palavras-chave: Mineração de textos. Codificação de textos. Vetorização de textos. Bioinformática.Abstract: Text mining deals with obtaining information from the processing of unstructured data, written in natural language. The large amount of digitized textual content available over the internet has sparked interest in the development of techniques involving natural language processing and machine learning. As with texts, it also occurs with data of biological origin. Genomic, proteomic and transcriptomic data are often made available in the form of FASTA files, which are text files with a specific structure. To work with this data, many tools designed for Bioinformatics were developed. Based on these observations, it is valid to assume the possibility of transforming texts written in natural language into a format based on the representation of biological sequences, to provide the application of bioinformatics tools in text mining strategies, expanding the arsenal of resources available for the area. In order to advance this approach, we developed a Python package that we call "BioTEX", which offers resources to encode texts into a format based on the representation of biological sequences, in addition to other modules to assist in the text mining process through the strategy proposed. We present a case study in which we obtained articles from PubMed and applied BioTEX to generate a word dendrogram, with which we demonstrate evidence of the rise of the SARS-CoV-2 pandemic only using texts written until October 2019, that is, we identified evidence of events present in past literature. Keywords: Text mining. Text encoding. Text vectorization. Bioinformatics.1 recurso online : PDF.application/pdfMineração de dados (Computação)BioinformáticaBiotex : mineração de textos inspirada em técnicas de bioinformáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DIOGO DE JESUS SOARES MACHADO.pdfapplication/pdf1623111https://acervodigital.ufpr.br/bitstream/1884/69573/1/R%20-%20D%20-%20DIOGO%20DE%20JESUS%20SOARES%20MACHADO.pdfdc345e193930da9eae10ac280906711cMD51open access1884/695732022-05-09 16:48:50.137open accessoai:acervodigital.ufpr.br:1884/69573Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082022-05-09T19:48:50Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Biotex : mineração de textos inspirada em técnicas de bioinformática
title Biotex : mineração de textos inspirada em técnicas de bioinformática
spellingShingle Biotex : mineração de textos inspirada em técnicas de bioinformática
Machado, Diogo de Jesus Soares
Mineração de dados (Computação)
Bioinformática
title_short Biotex : mineração de textos inspirada em técnicas de bioinformática
title_full Biotex : mineração de textos inspirada em técnicas de bioinformática
title_fullStr Biotex : mineração de textos inspirada em técnicas de bioinformática
title_full_unstemmed Biotex : mineração de textos inspirada em técnicas de bioinformática
title_sort Biotex : mineração de textos inspirada em técnicas de bioinformática
author Machado, Diogo de Jesus Soares
author_facet Machado, Diogo de Jesus Soares
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Machado, Diogo de Jesus Soares
dc.contributor.advisor1.fl_str_mv Raittz, Roberto Tadeu, 1966-
contributor_str_mv Raittz, Roberto Tadeu, 1966-
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Bioinformática
topic Mineração de dados (Computação)
Bioinformática
description Orientador: Prof. Dr. Roberto Tadeu Raittz
publishDate 2020
dc.date.issued.fl_str_mv 2020
dc.date.accessioned.fl_str_mv 2022-05-09T19:48:50Z
dc.date.available.fl_str_mv 2022-05-09T19:48:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/69573
url https://hdl.handle.net/1884/69573
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/69573/1/R%20-%20D%20-%20DIOGO%20DE%20JESUS%20SOARES%20MACHADO.pdf
bitstream.checksum.fl_str_mv dc345e193930da9eae10ac280906711c
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526340363812864