Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras

Fossato, Letícia

Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Fossato, Letícia
Orientador(a):	Bergamasco, L. C. C.
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Centro Universitário FEI, São Bernardo do Campo
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Modelo de linguagem Processamento de linguagem natural (Computação) Vetorização Similaridade
Link de acesso:	https://repositorio.fei.edu.br/handle/FEI/4875 https://doi.org/10.31414/EE.2023.D.131643
Resumo:	Nas últimas décadas, o rápido avanço tecnológico gerou reflexos diretos na comunidade científica devido ao aumento da quantidade de pesquisas publicadas mensalmente. Visando colaborar com a rotina de estudo dos pesquisadores e diminuir a quantidade de tempo dedicada para a leitura e interpretação de artigos, técnicas para a extração de sentenças relevantes ganharam destaque no ramo de Processamento de Linguagem Natural. Neste sentido, o presente trabalho propõe duas investigações para automatizar a extração de frases representativas de artigos científicos. A primeira, consiste na premissa de extração de frases representativas comparando as sentenças presentes simultaneamente nas seções “Resumo”, “Introdução” e “Conclusão”. A segunda, na criação de um Modelo de Linguagem N-Gramas, treinado a partir das frases selecionadas pela premissa anterior, para aprender e generalizar o comportamento destas sentenças. O estudo incluiu técnicas de pré-processamento, vetorização de palavras (Word2Vec e FastText), similaridade cosseno e Modelo de Linguagem N-Gramas para a obtenção dos resultados. As frases obtidas foram validadas por meio da comparação com a sumarização padrão ouro e metrificadas pelo ROUGE-1. Entre os dois métodos testados, o melhor resultado foi obtido por meio da premissa de frases simultâneas entre as três seções mencionadas, utilizando o algoritmo de vetorização FastText, com 89% de F-Score ROUGE-1. O modelo de linguagem, mesmo com técnicas de suavização aplicadas, não teve dados suficientes para generalizar o comportamento da base de dados, pois 88% do vocabulário dos artigos de teste foi inédito ao modelo

Metadados do item

id	FEI_ac436120ac1f27efa7763b6e59de4d4a
oai_identifier_str	oai:repositorio.fei.edu.br:FEI/4875
network_acronym_str	FEI
network_name_str	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
repository_id_str
spelling	Fossato, LetíciaBergamasco, L. C. C.2023-08-09T13:32:43Z2023-08-09T13:32:43Z2023FOSSATO, Letícia; BERGAMASCO, L. C. C. <b> Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras. </b> 2023. 93 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2023. Disponível em: https://doi.org/10.31414/EE.2023.D.131643.https://repositorio.fei.edu.br/handle/FEI/4875https://doi.org/10.31414/EE.2023.D.131643Nas últimas décadas, o rápido avanço tecnológico gerou reflexos diretos na comunidade científica devido ao aumento da quantidade de pesquisas publicadas mensalmente. Visando colaborar com a rotina de estudo dos pesquisadores e diminuir a quantidade de tempo dedicada para a leitura e interpretação de artigos, técnicas para a extração de sentenças relevantes ganharam destaque no ramo de Processamento de Linguagem Natural. Neste sentido, o presente trabalho propõe duas investigações para automatizar a extração de frases representativas de artigos científicos. A primeira, consiste na premissa de extração de frases representativas comparando as sentenças presentes simultaneamente nas seções “Resumo”, “Introdução” e “Conclusão”. A segunda, na criação de um Modelo de Linguagem N-Gramas, treinado a partir das frases selecionadas pela premissa anterior, para aprender e generalizar o comportamento destas sentenças. O estudo incluiu técnicas de pré-processamento, vetorização de palavras (Word2Vec e FastText), similaridade cosseno e Modelo de Linguagem N-Gramas para a obtenção dos resultados. As frases obtidas foram validadas por meio da comparação com a sumarização padrão ouro e metrificadas pelo ROUGE-1. Entre os dois métodos testados, o melhor resultado foi obtido por meio da premissa de frases simultâneas entre as três seções mencionadas, utilizando o algoritmo de vetorização FastText, com 89% de F-Score ROUGE-1. O modelo de linguagem, mesmo com técnicas de suavização aplicadas, não teve dados suficientes para generalizar o comportamento da base de dados, pois 88% do vocabulário dos artigos de teste foi inédito ao modeloIn the last decades, the fast technological advance has generated direct effects in the scientific community due to the increase in the quantity of researches published monthly. Aiming to collaborate with the study routine of researchers and reduce the amount of time dedicated to reading and interpreting articles, techniques for extracting relevant sentences have gained prominence in the field of Natural Language Processing. In this sense, the present work proposes two investigations to automate the extraction of representative sentences from scientific articles. The first, consists in the premise of extracting representative sentences by comparing the sentences simultaneously present in the Summary, Introduction and Conclusion sections. The second, in the creation of an N-Gram Language Model, trained from the sentences selected by the previous premise, to learn and generalize the behavior of these sentences. The study applied preprocessing, word vectorization (Word2Vec and FastText), cosine similarity and N-Gram Language Model techniques to obtain the results. The obtained sentences were validated by comparing with the gold standard summarization and metrified by ROUGE-1. Among the two tested methods, the best result was obtained by premised on simultaneous sentences among the three mentioned sections, using the vectorization algorithm FastText, with 89% of ROUGE-1 F-Score. The language model, even with smoothing techniques applied, did not have enough data to generalize the behavior of the database, as 88% of the test articles’ vocabulary was unknown to the model.FUNDAÇÃO EDUCACIONAL INACIANA PADRE SABIOA DE MEDEIROSengen_USCentro Universitário FEI, São Bernardo do CampoModelo de linguagemProcessamento de linguagem natural (Computação)VetorizaçãoSimilaridadeExtração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavrasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)instname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccessORIGINALfulltext.pdfapplication/pdf1592739https://repositorio.fei.edu.br/bitstreams/2c97768c-b95f-478a-9f28-efabfce4db28/download27441614e5c4fb37f37201100e69605fMD51trueAnonymousREADTEXTfulltext.pdf.txtfulltext.pdf.txtExtracted texttext/plain103571https://repositorio.fei.edu.br/bitstreams/0bc16e7d-3984-4735-8e6d-3fa7cb3a79e0/downloadfe152838d42dc4826762eac49bfcc999MD52falseAnonymousREADTHUMBNAILfulltext.pdf.jpgfulltext.pdf.jpgGenerated Thumbnailimage/jpeg2578https://repositorio.fei.edu.br/bitstreams/ce719da0-7b9f-4b3a-be5b-ea68b4f78daa/downloadb14eea6dc591f1880af238542b4c9ecbMD53falseAnonymousREADFEI/48752025-04-02 23:35:09.704open.accessoai:repositorio.fei.edu.br:FEI/4875https://repositorio.fei.edu.brBiblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRIhttps://repositorio-api.fei.edu.br/server/oai/requestcfernandes@fei.edu.bropendoar:2025-04-02T23:35:09Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) - Centro Universitário da Fundação Educacional Inaciana (FEI)false
dc.title.pt_BR.fl_str_mv	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
title	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
spellingShingle	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras Fossato, Letícia Modelo de linguagem Processamento de linguagem natural (Computação) Vetorização Similaridade
title_short	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
title_full	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
title_fullStr	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
title_full_unstemmed	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
title_sort	Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
author	Fossato, Letícia
author_facet	Fossato, Letícia
author_role	author
dc.contributor.author.fl_str_mv	Fossato, Letícia
dc.contributor.advisor1.fl_str_mv	Bergamasco, L. C. C.
contributor_str_mv	Bergamasco, L. C. C.
dc.subject.por.fl_str_mv	Modelo de linguagem Processamento de linguagem natural (Computação) Vetorização Similaridade
topic	Modelo de linguagem Processamento de linguagem natural (Computação) Vetorização Similaridade
description	Nas últimas décadas, o rápido avanço tecnológico gerou reflexos diretos na comunidade científica devido ao aumento da quantidade de pesquisas publicadas mensalmente. Visando colaborar com a rotina de estudo dos pesquisadores e diminuir a quantidade de tempo dedicada para a leitura e interpretação de artigos, técnicas para a extração de sentenças relevantes ganharam destaque no ramo de Processamento de Linguagem Natural. Neste sentido, o presente trabalho propõe duas investigações para automatizar a extração de frases representativas de artigos científicos. A primeira, consiste na premissa de extração de frases representativas comparando as sentenças presentes simultaneamente nas seções “Resumo”, “Introdução” e “Conclusão”. A segunda, na criação de um Modelo de Linguagem N-Gramas, treinado a partir das frases selecionadas pela premissa anterior, para aprender e generalizar o comportamento destas sentenças. O estudo incluiu técnicas de pré-processamento, vetorização de palavras (Word2Vec e FastText), similaridade cosseno e Modelo de Linguagem N-Gramas para a obtenção dos resultados. As frases obtidas foram validadas por meio da comparação com a sumarização padrão ouro e metrificadas pelo ROUGE-1. Entre os dois métodos testados, o melhor resultado foi obtido por meio da premissa de frases simultâneas entre as três seções mencionadas, utilizando o algoritmo de vetorização FastText, com 89% de F-Score ROUGE-1. O modelo de linguagem, mesmo com técnicas de suavização aplicadas, não teve dados suficientes para generalizar o comportamento da base de dados, pois 88% do vocabulário dos artigos de teste foi inédito ao modelo
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-08-09T13:32:43Z
dc.date.available.fl_str_mv	2023-08-09T13:32:43Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	FOSSATO, Letícia; BERGAMASCO, L. C. C. <b> Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras. </b> 2023. 93 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2023. Disponível em: https://doi.org/10.31414/EE.2023.D.131643.
dc.identifier.uri.fl_str_mv	https://repositorio.fei.edu.br/handle/FEI/4875
dc.identifier.doi.none.fl_str_mv	https://doi.org/10.31414/EE.2023.D.131643
identifier_str_mv	FOSSATO, Letícia; BERGAMASCO, L. C. C. <b> Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras. </b> 2023. 93 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2023. Disponível em: https://doi.org/10.31414/EE.2023.D.131643.
url	https://repositorio.fei.edu.br/handle/FEI/4875 https://doi.org/10.31414/EE.2023.D.131643
dc.language.iso.fl_str_mv	eng en_US
language	eng
language_invalid_str_mv	en_US
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv	reponame:Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) instname:Centro Universitário da Fundação Educacional Inaciana (FEI) instacron:FEI
instname_str	Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str	FEI
institution	FEI
reponame_str	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
collection	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
bitstream.url.fl_str_mv	https://repositorio.fei.edu.br/bitstreams/2c97768c-b95f-478a-9f28-efabfce4db28/download https://repositorio.fei.edu.br/bitstreams/0bc16e7d-3984-4735-8e6d-3fa7cb3a79e0/download https://repositorio.fei.edu.br/bitstreams/ce719da0-7b9f-4b3a-be5b-ea68b4f78daa/download
bitstream.checksum.fl_str_mv	27441614e5c4fb37f37201100e69605f fe152838d42dc4826762eac49bfcc999 b14eea6dc591f1880af238542b4c9ecb
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) - Centro Universitário da Fundação Educacional Inaciana (FEI)
repository.mail.fl_str_mv	cfernandes@fei.edu.br
_version_	1865734572739657728

Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras

Registros relacionados