ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Costa, Lucas Mucida
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br/handle/123456789/33026
https://doi.org/10.47328/ufvbbt.2024.593
Resumo: Em uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples.
id UFV_deceaf80d9f4b97d2fe0a971c2da2e25
oai_identifier_str oai:locus.ufv.br:123456789/33026
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling ISiM: proposta de uma métrica para simplificação de sentenças em linguagem naturalISiM: proposal of a metric for sentence simplification in natural languageInteligência artificialProcessamento de linguagem natural (Computação)Ciência da ComputaçãoEm uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples.In a complex society, the ability to simplify texts can be quite useful. Clear, concise, and easily understandable communication is highly valued in interactions between people. Due to this necessity, research focused on the development of models capable of produc- ing simpler texts is important, and the search for suitable corpora to train and improve these models is an active field of research. However, to meet this demand, it is necessary to develop metrics that allow us to verify how much simpler one sentence is compared to another with a similar meaning. In this research, we developed a text simplification metric for the field of Natural Language Processing (NLP), named ISiM. The proposed metric overcomes the limitations of existing metrics, offering a quick, simple, language- independent, and human-intervention-free approach, contributing to the evaluation of the quality of text simplification. Additionally, ISiM proved to be efficient in creating and refining corpora of complex/simple sentence pairs, making it a valuable contribution to research in the area. Moreover, in this research, a simplified text generator model was created, using a corpus optimized by the ISiM metric for fine-tuning. During the experi- ments, the metric demonstrated its effectiveness in various applications, such as its speed in generating results within seconds, achieving an accuracy rate of 96.94% when tested on an existing corpus of complex/simple sentence pairs, and 77.5% accuracy when compared with a human-answered form, also surpassing other simplified sentence generation mod- els from the literature. Furthermore, the research highlights the social relevance of text simplification, especially in a context like Brazil, where functional illiteracy affects more than 62 million people, representing a significant challenge to be overcome. The difficulty in understanding complex texts due to deficiencies in the population’s education shows how much we still need to improve our education system and reinforces the importance of developing tools like ISiM to help make information more accessible and comprehensible for everyone. Keywords: Artificial Intelligence; Natural Language Processing; Text Simplification; Metric; ISiM; MucimplesUniversidade Federal de ViçosaCiência da ComputaçãoOliveira, Alcione de Paivahttp://lattes.cnpq.br/4192005936413557Costa, Lucas Mucida2024-10-15T18:52:38Z2024-06-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfCOSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.https://locus.ufv.br/handle/123456789/33026https://doi.org/10.47328/ufvbbt.2024.593porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-10-16T06:00:25Zoai:locus.ufv.br:123456789/33026Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-10-16T06:00:25LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
ISiM: proposal of a metric for sentence simplification in natural language
title ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
spellingShingle ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
Costa, Lucas Mucida
Inteligência artificial
Processamento de linguagem natural (Computação)
Ciência da Computação
title_short ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
title_full ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
title_fullStr ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
title_full_unstemmed ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
title_sort ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
author Costa, Lucas Mucida
author_facet Costa, Lucas Mucida
author_role author
dc.contributor.none.fl_str_mv Oliveira, Alcione de Paiva
http://lattes.cnpq.br/4192005936413557
dc.contributor.author.fl_str_mv Costa, Lucas Mucida
dc.subject.por.fl_str_mv Inteligência artificial
Processamento de linguagem natural (Computação)
Ciência da Computação
topic Inteligência artificial
Processamento de linguagem natural (Computação)
Ciência da Computação
description Em uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples.
publishDate 2024
dc.date.none.fl_str_mv 2024-10-15T18:52:38Z
2024-06-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv COSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.
https://locus.ufv.br/handle/123456789/33026
https://doi.org/10.47328/ufvbbt.2024.593
identifier_str_mv COSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.
url https://locus.ufv.br/handle/123456789/33026
https://doi.org/10.47328/ufvbbt.2024.593
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Viçosa
Ciência da Computação
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1855045559225679872