Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Católica de Brasília
|
| Programa de Pós-Graduação: |
Programa Stricto Sensu em Governança, Tecnologia e Inovação
|
| Departamento: |
Escola de Educação, Tecnologia e Comunicação
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://bdtd.ucb.br:8443/jspui/handle/tede/3145 |
Resumo: | Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics. |
| id |
UCB_6d1fcc9afa6eea91477335c1bf015e70 |
|---|---|
| oai_identifier_str |
oai:bdtd.ucb.br:tede/3145 |
| network_acronym_str |
UCB |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UCB |
| repository_id_str |
|
| spelling |
Ferneda, Edilsonhttp://lattes.cnpq.br/2531761427648020Prado, Hércules Antonio dohttp://lattes.cnpq.br/1350331210278996Moresi, Eduardo Amadeu Dutrahttp://lattes.cnpq.br/1088020888142000http://lattes.cnpq.br/0080319766968575Machado, Leandro Bertani2023-02-14T14:04:24Z2022-12-20MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília.https://bdtd.ucb.br:8443/jspui/handle/tede/3145Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics.A produção científica tem crescido significativamente nos últimos anos. Devido ao volume considerável e crescente de dados obtidos dessas publicações, métodos, técnicas e ferramentas metodológicas e aplicações computacionais são necessá rias para levantamentos bibliográficos e bibliométricos. No entanto, as ferramentas bibliométricas disponíveis no mercado não possuem todas as funções necessárias para uma análise completa em um único aplicativo, exigindo a orquestração de um conjunto de ferramentas. Este trabalho visa identificar lacunas nas ferramentas dis poníveis, levantar tecnologias emergentes no campo da análise bibliométrica e su gerir um framework para preencher essas lacunas. Como prova de conceito, foi de senvolvida uma ferramenta de modelagem de tópicos utilizando técnicas de Pro cessamento de Linguagem Natural. Por fim, a ferramenta foi aplicada para analisar a convergência de temas entre Ciência e Tecnologia para o termo Mundo Virtual onde foi possível destacar sete tópicos convergentes.Submitted by Claudia Carvalho (claudia.carvalho@ucb.br) on 2023-02-07T21:38:06Z No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5)Approved for entry into archive by Sara Ribeiro (sara.ribeiro@ucb.br) on 2023-02-14T14:04:24Z (GMT) No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5)Made available in DSpace on 2023-02-14T14:04:24Z (GMT). No. of bitstreams: 1 LeandroBertaniDissertacao2022.pdf: 3766380 bytes, checksum: 823337a9b684e304fed7bab0f9e39fea (MD5) Previous issue date: 2022-12-20application/pdfhttps://bdtd.ucb.br:8443/jspui/retrieve/10685/LeandroBertaniDissertacao2022.pdf.jpgporUniversidade Católica de BrasíliaPrograma Stricto Sensu em Governança, Tecnologia e InovaçãoUCBBrasilEscola de Educação, Tecnologia e ComunicaçãoProcessamento de linguagem naturalControle de vocabulárioGeração de corpusModelagem de tópicosGeração de textosNatural language processingControle de vocabulárioCorpus generationTopic modelingText generationCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOUm framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometriainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UCBinstname:Universidade Católica de Brasília (UCB)instacron:UCBLICENSElicense.txtlicense.txttext/plain; charset=utf-81905https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/1/license.txt75558dcf859532757239878b42f1c2c7MD51ORIGINALLeandroBertaniDissertacao2022.pdfLeandroBertaniDissertacao2022.pdfapplication/pdf3766380https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/2/LeandroBertaniDissertacao2022.pdf823337a9b684e304fed7bab0f9e39feaMD52TEXTLeandroBertaniDissertacao2022.pdf.txtLeandroBertaniDissertacao2022.pdf.txttext/plain111007https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/3/LeandroBertaniDissertacao2022.pdf.txt7870afed42cfa6c0ec5897ef9f36f991MD53THUMBNAILLeandroBertaniDissertacao2022.pdf.jpgLeandroBertaniDissertacao2022.pdf.jpgimage/jpeg5291https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/4/LeandroBertaniDissertacao2022.pdf.jpg351b249ebe70a67c5adbb4866e47c2d8MD54tede/31452023-02-15 13:01:14.556oai:bdtd.ucb.br:tede/3145TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAoYXV0b3Igb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRlIEJyYXPDrWxpYSAoVUNCKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVDQiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVQ0IgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVDQiBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNhc28gYSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gZGVwb3NpdGFkYSB0ZW5oYSBzaWRvIHJlc3VsdGFkbyBkZSB1bSBwYXRyb2PDrW5pbyBvdSBhcG9pbyBkZSB1bWEgYWfDqm5jaWEgZGUgZm9tZW50byBvdSBvdXRybyBvcmdhbmlzbW8gcXVlIG7Do28gc2VqYSBhIFVDQiwgdm9jw6ogZGVjbGFyYSBxdWUgcmVzcGVpdG91IHRvZG9zIGUgcXVhaXNxdWVyIGRpcmVpdG9zIGRlIHJldmlzw6NvIGNvbW8gdGFtYsOpbSBhcyBkZW1haXMgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVDQiBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSB0ZXNlIG91IGRpc3NlcnRhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://bdtd.ucb.br:8443/jspui/PRIhttps://bdtd.ucb.br:8443/oai/requestsdi@ucb.bropendoar:47812023-02-15T13:01:14Biblioteca Digital de Teses e Dissertações da UCB - Universidade Católica de Brasília (UCB)false |
| dc.title.por.fl_str_mv |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| title |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| spellingShingle |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria Machado, Leandro Bertani Processamento de linguagem natural Controle de vocabulário Geração de corpus Modelagem de tópicos Geração de textos Natural language processing Controle de vocabulário Corpus generation Topic modeling Text generation CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| title_full |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| title_fullStr |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| title_full_unstemmed |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| title_sort |
Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria |
| author |
Machado, Leandro Bertani |
| author_facet |
Machado, Leandro Bertani |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Ferneda, Edilson |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2531761427648020 |
| dc.contributor.advisor-co1.fl_str_mv |
Prado, Hércules Antonio do |
| dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/1350331210278996 |
| dc.contributor.advisor-co2.fl_str_mv |
Moresi, Eduardo Amadeu Dutra |
| dc.contributor.advisor-co2Lattes.fl_str_mv |
http://lattes.cnpq.br/1088020888142000 |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0080319766968575 |
| dc.contributor.author.fl_str_mv |
Machado, Leandro Bertani |
| contributor_str_mv |
Ferneda, Edilson Prado, Hércules Antonio do Moresi, Eduardo Amadeu Dutra |
| dc.subject.por.fl_str_mv |
Processamento de linguagem natural Controle de vocabulário Geração de corpus Modelagem de tópicos Geração de textos |
| topic |
Processamento de linguagem natural Controle de vocabulário Geração de corpus Modelagem de tópicos Geração de textos Natural language processing Controle de vocabulário Corpus generation Topic modeling Text generation CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Natural language processing Controle de vocabulário Corpus generation Topic modeling Text generation |
| dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Scientific production has grown significantly in recent years. Due to the considerable and growing volume of data obtained from these publications, methods, techniques and tools are needed for bibliographic and bibliometric surveys. However, the bibliometric tools available on the market do not have all the necessary functions for a complete analysis in a single application, requiring a set of tools to be orchestrated. This work aims at identifying gaps in the available tools, to rise emerging technologies in the field of bibliometric analysis, and suggest a framework to fill these gaps. As a proof of concept, a topic modeling tool using Natural Language Processing techniques was developed. Finally, the tool was applied to analyse the convergence of themes between Science and Technology for the term Virtual World where it was possible to highlight seven convergent topics. |
| publishDate |
2022 |
| dc.date.issued.fl_str_mv |
2022-12-20 |
| dc.date.accessioned.fl_str_mv |
2023-02-14T14:04:24Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília. |
| dc.identifier.uri.fl_str_mv |
https://bdtd.ucb.br:8443/jspui/handle/tede/3145 |
| identifier_str_mv |
MACHADO, Leandro Bertani. Um framework para a geração de corpus e categorização de tópicos textual no contexto da bibliometria. 2022. 71 f. Dissertação (Programa Stricto Sensu em Governança, Tecnologia e Inovação) - Universidade Católica de Brasília, Brasília. |
| url |
https://bdtd.ucb.br:8443/jspui/handle/tede/3145 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Católica de Brasília |
| dc.publisher.program.fl_str_mv |
Programa Stricto Sensu em Governança, Tecnologia e Inovação |
| dc.publisher.initials.fl_str_mv |
UCB |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Escola de Educação, Tecnologia e Comunicação |
| publisher.none.fl_str_mv |
Universidade Católica de Brasília |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UCB instname:Universidade Católica de Brasília (UCB) instacron:UCB |
| instname_str |
Universidade Católica de Brasília (UCB) |
| instacron_str |
UCB |
| institution |
UCB |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UCB |
| collection |
Biblioteca Digital de Teses e Dissertações da UCB |
| bitstream.url.fl_str_mv |
https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/1/license.txt https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/2/LeandroBertaniDissertacao2022.pdf https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/3/LeandroBertaniDissertacao2022.pdf.txt https://bdtd.ucb.br:8443/jspui/bitstream/tede/3145/4/LeandroBertaniDissertacao2022.pdf.jpg |
| bitstream.checksum.fl_str_mv |
75558dcf859532757239878b42f1c2c7 823337a9b684e304fed7bab0f9e39fea 7870afed42cfa6c0ec5897ef9f36f991 351b249ebe70a67c5adbb4866e47c2d8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UCB - Universidade Católica de Brasília (UCB) |
| repository.mail.fl_str_mv |
sdi@ucb.br |
| _version_ |
1865735255282941952 |