Biotex : mineração de textos inspirada em técnicas de bioinformática
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1884/69573 |
Resumo: | Orientador: Prof. Dr. Roberto Tadeu Raittz |
| id |
UFPR_7ead62cdc99065a92d70331fb6ed7ab7 |
|---|---|
| oai_identifier_str |
oai:acervodigital.ufpr.br:1884/69573 |
| network_acronym_str |
UFPR |
| network_name_str |
Repositório Institucional da UFPR |
| repository_id_str |
|
| spelling |
Machado, Diogo de Jesus SoaresUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-2022-05-09T19:48:50Z2022-05-09T19:48:50Z2020https://hdl.handle.net/1884/69573Orientador: Prof. Dr. Roberto Tadeu RaittzDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 19/06/2020Inclui referências: p. 59-63Resumo: A mineração de textos trata da obtenção de informação a partir do processamento de dados não estruturados, escritos em linguagem natural. A grande quantidade de conteúdo textual digitalizado disponível através da internet propiciou o interesse no desenvolvimento de técnicas envolvendo processamento de linguagem natural e aprendizado de máquina. Da mesma forma que ocorre com os textos também ocorre com dados de origem biológica. Os dados genômicos, proteômicos e transcriptômicos muitas vezes são disponibilizados na forma de arquivos FASTA, que são arquivos de texto com uma estrutura específica. Para trabalhar com esses dados foram desenvolvidas muitas ferramentas destinadas para bioinformática. A partir dessas observações, é válido supor a possibilidade de transformar textos escritos em linguagem natural para um formato baseado na representação de sequências biológicas, para propiciar a aplicação de ferramentas de bioinformática em estratégias de mineração de textos, ampliando o arsenal de recursos disponíveis para a área. Para possibilitar o avanço nessa abordagem, desenvolvemos um pacote em Python que chamamos de "BioTEX", que oferece recursos para codificar textos para um formato baseado na representação de sequências biológicas, além de outros módulos para auxiliar no processo de mineração de textos através da estratégia proposta. Apresentamos um estudo de caso em que obtivemos artigos do PubMed e aplicamos o BioTEX para gerar um dendrograma de palavras, com o qual demonstramos indícios da ascensão da pandemia do SARS-CoV-2 apenas utilizando textos escritos até outubro de 2019, ou seja, identificamos indícios de eventos presentes em literatura passada. Palavras-chave: Mineração de textos. Codificação de textos. Vetorização de textos. Bioinformática.Abstract: Text mining deals with obtaining information from the processing of unstructured data, written in natural language. The large amount of digitized textual content available over the internet has sparked interest in the development of techniques involving natural language processing and machine learning. As with texts, it also occurs with data of biological origin. Genomic, proteomic and transcriptomic data are often made available in the form of FASTA files, which are text files with a specific structure. To work with this data, many tools designed for Bioinformatics were developed. Based on these observations, it is valid to assume the possibility of transforming texts written in natural language into a format based on the representation of biological sequences, to provide the application of bioinformatics tools in text mining strategies, expanding the arsenal of resources available for the area. In order to advance this approach, we developed a Python package that we call "BioTEX", which offers resources to encode texts into a format based on the representation of biological sequences, in addition to other modules to assist in the text mining process through the strategy proposed. We present a case study in which we obtained articles from PubMed and applied BioTEX to generate a word dendrogram, with which we demonstrate evidence of the rise of the SARS-CoV-2 pandemic only using texts written until October 2019, that is, we identified evidence of events present in past literature. Keywords: Text mining. Text encoding. Text vectorization. Bioinformatics.1 recurso online : PDF.application/pdfMineração de dados (Computação)BioinformáticaBiotex : mineração de textos inspirada em técnicas de bioinformáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DIOGO DE JESUS SOARES MACHADO.pdfapplication/pdf1623111https://acervodigital.ufpr.br/bitstream/1884/69573/1/R%20-%20D%20-%20DIOGO%20DE%20JESUS%20SOARES%20MACHADO.pdfdc345e193930da9eae10ac280906711cMD51open access1884/695732022-05-09 16:48:50.137open accessoai:acervodigital.ufpr.br:1884/69573Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082022-05-09T19:48:50Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
| dc.title.pt_BR.fl_str_mv |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| title |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| spellingShingle |
Biotex : mineração de textos inspirada em técnicas de bioinformática Machado, Diogo de Jesus Soares Mineração de dados (Computação) Bioinformática |
| title_short |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| title_full |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| title_fullStr |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| title_full_unstemmed |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| title_sort |
Biotex : mineração de textos inspirada em técnicas de bioinformática |
| author |
Machado, Diogo de Jesus Soares |
| author_facet |
Machado, Diogo de Jesus Soares |
| author_role |
author |
| dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática |
| dc.contributor.author.fl_str_mv |
Machado, Diogo de Jesus Soares |
| dc.contributor.advisor1.fl_str_mv |
Raittz, Roberto Tadeu, 1966- |
| contributor_str_mv |
Raittz, Roberto Tadeu, 1966- |
| dc.subject.por.fl_str_mv |
Mineração de dados (Computação) Bioinformática |
| topic |
Mineração de dados (Computação) Bioinformática |
| description |
Orientador: Prof. Dr. Roberto Tadeu Raittz |
| publishDate |
2020 |
| dc.date.issued.fl_str_mv |
2020 |
| dc.date.accessioned.fl_str_mv |
2022-05-09T19:48:50Z |
| dc.date.available.fl_str_mv |
2022-05-09T19:48:50Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/69573 |
| url |
https://hdl.handle.net/1884/69573 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
| instname_str |
Universidade Federal do Paraná (UFPR) |
| instacron_str |
UFPR |
| institution |
UFPR |
| reponame_str |
Repositório Institucional da UFPR |
| collection |
Repositório Institucional da UFPR |
| bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/69573/1/R%20-%20D%20-%20DIOGO%20DE%20JESUS%20SOARES%20MACHADO.pdf |
| bitstream.checksum.fl_str_mv |
dc345e193930da9eae10ac280906711c |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
| repository.mail.fl_str_mv |
informacaodigital@ufpr.br |
| _version_ |
1847526340363812864 |