SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: DEMETRIUS MOREIRA PANOVITCH
Orientador(a): Bruno Magalhaes Nogueira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Fundação Universidade Federal de Mato Grosso do Sul
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufms.br/handle/123456789/9210
Resumo: Secondary studies aggregate relevant literature to a topic to evaluate them, provide an overview, interpret them, among other purposes. However, its development has a high cost in terms of time and resources, in addition to being subject to human bias at some stages, such as the identification of primary studies. This may compromise the quality and accuracy of the review. In this work, we propose an automated approach for one of the main steps of a secondary study: formulation and refinement of search strings. The approach, called SeSGx-BT, uses a deep learning-based algorithm, called BERTopic, to perform topic modeling on a set of studies used as a Quasi-Gold Standard. The topics are used to build search strings to be applied in a hybrid search strategy, which includes database search and snowballing strategies. The results demonstrated that SeSGx-BT is capable of finding a high number of relevant studies, and a low number of irrelevant studies in hybrid search environments, resulting in a greater recall and precision, respectively, when compared to SeSGx-LDA, a similar approach that uses LDA for topic extraction. These results suggest that deep learning-based approaches can capture topics with greater semantics, minimizing human effort in the stage of primary studies identification. Based on the precision and recall values obtaineds from experiments with 10 datasets, SeSGx-BT presents itself as a promising solution for automating the formulation and refinement of search strings for secondary studies, obtaining an increase of 270% in precision at most, and 20% on recall at most.
id UFMS_523d90fbec2dc676c0205fc25a39fa77
oai_identifier_str oai:repositorio.ufms.br:123456789/9210
network_acronym_str UFMS
network_name_str Repositório Institucional da UFMS
repository_id_str
spelling 2024-08-20T19:03:44Z2024-08-20T19:03:44Z2024https://repositorio.ufms.br/handle/123456789/9210Secondary studies aggregate relevant literature to a topic to evaluate them, provide an overview, interpret them, among other purposes. However, its development has a high cost in terms of time and resources, in addition to being subject to human bias at some stages, such as the identification of primary studies. This may compromise the quality and accuracy of the review. In this work, we propose an automated approach for one of the main steps of a secondary study: formulation and refinement of search strings. The approach, called SeSGx-BT, uses a deep learning-based algorithm, called BERTopic, to perform topic modeling on a set of studies used as a Quasi-Gold Standard. The topics are used to build search strings to be applied in a hybrid search strategy, which includes database search and snowballing strategies. The results demonstrated that SeSGx-BT is capable of finding a high number of relevant studies, and a low number of irrelevant studies in hybrid search environments, resulting in a greater recall and precision, respectively, when compared to SeSGx-LDA, a similar approach that uses LDA for topic extraction. These results suggest that deep learning-based approaches can capture topics with greater semantics, minimizing human effort in the stage of primary studies identification. Based on the precision and recall values obtaineds from experiments with 10 datasets, SeSGx-BT presents itself as a promising solution for automating the formulation and refinement of search strings for secondary studies, obtaining an increase of 270% in precision at most, and 20% on recall at most.Estudos secundários agregam literatura relevante à algum tema para avaliá-los, fornecer uma visão geral, interpretá-los, entre outros fins. No entanto, seu desenvolvimento tem um custo elevado em termos de tempo e recurso, além de estar sujeito ao viés do pesquisador em algumas etapas, como na identificação de estudos primários. Isso pode comprometer a qualidade e acurácia da revisão. Neste trabalho, é proposta uma abordagem automatizada para uma das etapas principais de um estudo secundário: formulação e refinamento de strings de busca. A abordagem, chamada SeSGx-BT, utiliza de um algoritmo baseado em aprendizado profundo, chamado BERTopic, para modelagem de tópicos em um conjunto de estudos utilizado como um Quasi-Gold Standard. Os tópicos são utilizados para construir strings de busca para serem aplicadas em uma estratégia de busca híbrida, que inclui as estratégias de busca em bases e snowballing. Os resultados mostraram que a SeSGx-BT é capaz de encontrar um alto número de estudos relevantes, e um baixo número de estudos irrelevantes em ambientes de busca híbrida, resultando numa maior revocação e precisão, respectivamente, quando comparada à SeSGx-LDA, uma abordagem similar que utiliza o LDA para extração de tópicos. Esses resultados sugerem que abordagens baseadas em aprendizado profundo podem capturar tópicos com maior semântica, minimizando o esforço humano na etapa de identificação de estudos primários. Com base nas métricas de precisão e revocação obtidas a partir de experimentos executados com 10 bases de dados, a SeSGx-BT se apresenta como uma solução promissora para a automação da formulação e refinamento de strings de busca para estudos secundários, obtendo um aumento de até 270% na precisão, e de até 20% na revocação.Fundação Universidade Federal de Mato Grosso do SulUFMSBrasildeep learningmachine learningtransformersestudos secundáriosSeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundáriosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisBruno Magalhaes NogueiraDEMETRIUS MOREIRA PANOVITCHinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSORIGINALdissertacao-demetrius-panovitch.pdfdissertacao-demetrius-panovitch.pdfapplication/pdf1962687https://repositorio.ufms.br/bitstream/123456789/9210/-1/dissertacao-demetrius-panovitch.pdf4d936edee08605d6e02f7294c485f459MD5-1123456789/92102024-08-20 15:03:44.673oai:repositorio.ufms.br:123456789/9210Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242024-08-20T19:03:44Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
title SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
spellingShingle SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
DEMETRIUS MOREIRA PANOVITCH
deep learning
machine learning
transformers
estudos secundários
title_short SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
title_full SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
title_fullStr SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
title_full_unstemmed SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
title_sort SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários
author DEMETRIUS MOREIRA PANOVITCH
author_facet DEMETRIUS MOREIRA PANOVITCH
author_role author
dc.contributor.advisor1.fl_str_mv Bruno Magalhaes Nogueira
dc.contributor.author.fl_str_mv DEMETRIUS MOREIRA PANOVITCH
contributor_str_mv Bruno Magalhaes Nogueira
dc.subject.por.fl_str_mv deep learning
machine learning
transformers
estudos secundários
topic deep learning
machine learning
transformers
estudos secundários
description Secondary studies aggregate relevant literature to a topic to evaluate them, provide an overview, interpret them, among other purposes. However, its development has a high cost in terms of time and resources, in addition to being subject to human bias at some stages, such as the identification of primary studies. This may compromise the quality and accuracy of the review. In this work, we propose an automated approach for one of the main steps of a secondary study: formulation and refinement of search strings. The approach, called SeSGx-BT, uses a deep learning-based algorithm, called BERTopic, to perform topic modeling on a set of studies used as a Quasi-Gold Standard. The topics are used to build search strings to be applied in a hybrid search strategy, which includes database search and snowballing strategies. The results demonstrated that SeSGx-BT is capable of finding a high number of relevant studies, and a low number of irrelevant studies in hybrid search environments, resulting in a greater recall and precision, respectively, when compared to SeSGx-LDA, a similar approach that uses LDA for topic extraction. These results suggest that deep learning-based approaches can capture topics with greater semantics, minimizing human effort in the stage of primary studies identification. Based on the precision and recall values obtaineds from experiments with 10 datasets, SeSGx-BT presents itself as a promising solution for automating the formulation and refinement of search strings for secondary studies, obtaining an increase of 270% in precision at most, and 20% on recall at most.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-08-20T19:03:44Z
dc.date.available.fl_str_mv 2024-08-20T19:03:44Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufms.br/handle/123456789/9210
url https://repositorio.ufms.br/handle/123456789/9210
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.publisher.initials.fl_str_mv UFMS
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMS
instname:Universidade Federal de Mato Grosso do Sul (UFMS)
instacron:UFMS
instname_str Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str UFMS
institution UFMS
reponame_str Repositório Institucional da UFMS
collection Repositório Institucional da UFMS
bitstream.url.fl_str_mv https://repositorio.ufms.br/bitstream/123456789/9210/-1/dissertacao-demetrius-panovitch.pdf
bitstream.checksum.fl_str_mv 4d936edee08605d6e02f7294c485f459
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv ri.prograd@ufms.br
_version_ 1845881953521238016