Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Machado, Leandro Bertani lattes
Orientador(a): Ferneda, Edilson lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Católica de Brasília
Programa de Pós-Graduação: Programa Stricto Sensu em Governança, Tecnologia e Inovação
Departamento: Escola de Educação, Tecnologia e Comunicação
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://bdtd.ucb.br:8443/jspui/handle/tede/3145
Resumo: Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics.
id UCB_6d1fcc9afa6eea91477335c1bf015e70
oai_identifier_str oai:bdtd.ucb.br:tede/3145
network_acronym_str UCB
network_name_str Biblioteca Digital de Teses e Dissertações da UCB
repository_id_str
spelling Ferneda, Edilsonhttp://lattes.cnpq.br/2531761427648020Prado, Hércules Antonio dohttp://lattes.cnpq.br/1350331210278996Moresi, Eduardo Amadeu Dutrahttp://lattes.cnpq.br/1088020888142000http://lattes.cnpq.br/0080319766968575Machado, Leandro Bertani2023-02-14T14:04:24Z2022-12-20MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília.https://bdtd.ucb.br:8443/jspui/handle/tede/3145Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics.A produção científica tem crescido significativamente nos últimos anos. Devido ao volume considerável e crescente de dados obtidos dessas publicações, métodos, técnicas e ferramentas metodológicas e aplicações computacionais são necessá rias para levantamentos bibliográficos e bibliométricos. No entanto, as ferramentas bibliométricas disponíveis no mercado não possuem todas as funções necessárias para uma análise completa em um único aplicativo, exigindo a orquestração de um conjunto de ferramentas. Este trabalho visa identificar lacunas nas ferramentas dis poníveis, levantar tecnologias emergentes no campo da análise bibliométrica e su gerir um framework para preencher essas lacunas. Como prova de conceito, foi de senvolvida uma ferramenta de modelagem de tópicos utilizando técnicas de Pro cessamento de Linguagem Natural. Por fim, a ferramenta foi aplicada para analisar a convergência de temas entre Ciência e Tecnologia para o termo Mundo Virtual onde foi possível destacar sete tópicos convergentes.Submitted by Claudia Carvalho (claudia.carvalho@ucb.br) on 2023-02-07T21:38:06Z No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5)Approved for entry into archive by Sara Ribeiro (sara.ribeiro@ucb.br) on 2023-02-14T14:04:24Z (GMT) No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5)Made available in DSpace on 2023-02-14T14:04:24Z (GMT). No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5) Previous issue date: 2022-12-20application/pdfhttps://bdtd.ucb.br:8443/jspui/retrieve/10685/LeandroBertaniDissertacao2022.pdf.jpgporUniversidade Católica de BrasíliaPrograma Stricto Sensu em Governança, Tecnologia e InovaçãoUCBBrasilEscola de Educação, Tecnologia e ComunicaçãoProcessamento de linguagem naturalControle de vocabulárioGeração de corpusModelagem de tópicosGeração de textosNatural language processingControle de vocabulárioCorpus generationTopic modelingText generationCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOUm framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometriainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UCBinstname:Universidade Católica de Brasília (UCB)instacron:UCBLICENSElicense.txtlicense.txttext/plain; charset=utf-81905https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/1/license.txt75558dcf859532757239878b42f1c2c7MD51ORIGINALLeandroBertaniDissertacao2022.pdfLeandroBertaniDissertacao2022.pdfapplication/pdf3766380https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/2/LeandroBertaniDissertacao2022.pdf823337a9b684e304fed7bab0f9e39feaMD52TEXTLeandroBertaniDissertacao2022.pdf.txtLeandroBertaniDissertacao2022.pdf.txttext/plain111007https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/3/LeandroBertaniDissertacao2022.pdf.txt7870afed42cfa6c0ec5897ef9f36f991MD53THUMBNAILLeandroBertaniDissertacao2022.pdf.jpgLeandroBertaniDissertacao2022.pdf.jpgimage/jpeg5291https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/4/LeandroBertaniDissertacao2022.pdf.jpg351b249ebe70a67c5adbb4866e47c2d8MD54tede/31452023-02-15 13:01:14.556oai:bdtd.ucb.br:tede/3145TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAoYXV0b3Igb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRlIEJyYXPDrWxpYSAoVUNCKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVDQiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVQ0IgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVDQiBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNhc28gYSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gZGVwb3NpdGFkYSB0ZW5oYSBzaWRvIHJlc3VsdGFkbyBkZSB1bSBwYXRyb2PDrW5pbyBvdSBhcG9pbyBkZSB1bWEgYWfDqm5jaWEgZGUgZm9tZW50byBvdSBvdXRybyBvcmdhbmlzbW8gcXVlIG7Do28gc2VqYSBhIFVDQiwgdm9jw6ogZGVjbGFyYSBxdWUgcmVzcGVpdG91IHRvZG9zIGUgcXVhaXNxdWVyIGRpcmVpdG9zIGRlIHJldmlzw6NvIGNvbW8gdGFtYsOpbSBhcyBkZW1haXMgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVDQiBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSB0ZXNlIG91IGRpc3NlcnRhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://bdtd.ucb.br:8443/jspui/PRIhttps://bdtd.ucb.br:8443/oai/requestsdi@ucb.bropendoar:47812023-02-15T13:01:14Biblioteca Digital de Teses e Dissertações da UCB - Universidade Católica de Brasília (UCB)false
dc.title.por.fl_str_mv Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
title Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
spellingShingle Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
Machado, Leandro Bertani
Processamento de linguagem natural
Controle de vocabulário
Geração de corpus
Modelagem de tópicos
Geração de textos
Natural language processing
Controle de vocabulário
Corpus generation
Topic modeling
Text generation
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
title_full Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
title_fullStr Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
title_full_unstemmed Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
title_sort Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
author Machado, Leandro Bertani
author_facet Machado, Leandro Bertani
author_role author
dc.contributor.advisor1.fl_str_mv Ferneda, Edilson
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2531761427648020
dc.contributor.advisor-co1.fl_str_mv Prado, Hércules Antonio do
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/1350331210278996
dc.contributor.advisor-co2.fl_str_mv Moresi, Eduardo Amadeu Dutra
dc.contributor.advisor-co2Lattes.fl_str_mv http://lattes.cnpq.br/1088020888142000
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0080319766968575
dc.contributor.author.fl_str_mv Machado, Leandro Bertani
contributor_str_mv Ferneda, Edilson
Prado, Hércules Antonio do
Moresi, Eduardo Amadeu Dutra
dc.subject.por.fl_str_mv Processamento de linguagem natural
Controle de vocabulário
Geração de corpus
Modelagem de tópicos
Geração de textos
topic Processamento de linguagem natural
Controle de vocabulário
Geração de corpus
Modelagem de tópicos
Geração de textos
Natural language processing
Controle de vocabulário
Corpus generation
Topic modeling
Text generation
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Natural language processing
Controle de vocabulário
Corpus generation
Topic modeling
Text generation
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics.
publishDate 2022
dc.date.issued.fl_str_mv 2022-12-20
dc.date.accessioned.fl_str_mv 2023-02-14T14:04:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília.
dc.identifier.uri.fl_str_mv https://bdtd.ucb.br:8443/jspui/handle/tede/3145
identifier_str_mv MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília.
url https://bdtd.ucb.br:8443/jspui/handle/tede/3145
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Católica de Brasília
dc.publisher.program.fl_str_mv Programa Stricto Sensu em Governança, Tecnologia e Inovação
dc.publisher.initials.fl_str_mv UCB
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola de Educação, Tecnologia e Comunicação
publisher.none.fl_str_mv Universidade Católica de Brasília
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UCB
instname:Universidade Católica de Brasília (UCB)
instacron:UCB
instname_str Universidade Católica de Brasília (UCB)
instacron_str UCB
institution UCB
reponame_str Biblioteca Digital de Teses e Dissertações da UCB
collection Biblioteca Digital de Teses e Dissertações da UCB
bitstream.url.fl_str_mv https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/1/license.txt
https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/2/LeandroBertaniDissertacao2022.pdf
https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/3/LeandroBertaniDissertacao2022.pdf.txt
https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/4/LeandroBertaniDissertacao2022.pdf.jpg
bitstream.checksum.fl_str_mv 75558dcf859532757239878b42f1c2c7
823337a9b684e304fed7bab0f9e39fea
7870afed42cfa6c0ec5897ef9f36f991
351b249ebe70a67c5adbb4866e47c2d8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UCB - Universidade Católica de Brasília (UCB)
repository.mail.fl_str_mv sdi@ucb.br
_version_ 1865735255282941952