ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Viçosa
Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://locus.ufv.br/handle/123456789/33026 https://doi.org/10.47328/ufvbbt.2024.593 |
Resumo: | Em uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples. |
| id |
UFV_deceaf80d9f4b97d2fe0a971c2da2e25 |
|---|---|
| oai_identifier_str |
oai:locus.ufv.br:123456789/33026 |
| network_acronym_str |
UFV |
| network_name_str |
LOCUS Repositório Institucional da UFV |
| repository_id_str |
|
| spelling |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem naturalISiM: proposal of a metric for sentence simplification in natural languageInteligência artificialProcessamento de linguagem natural (Computação)Ciência da ComputaçãoEm uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples.In a complex society, the ability to simplify texts can be quite useful. Clear, concise, and easily understandable communication is highly valued in interactions between people. Due to this necessity, research focused on the development of models capable of produc- ing simpler texts is important, and the search for suitable corpora to train and improve these models is an active field of research. However, to meet this demand, it is necessary to develop metrics that allow us to verify how much simpler one sentence is compared to another with a similar meaning. In this research, we developed a text simplification metric for the field of Natural Language Processing (NLP), named ISiM. The proposed metric overcomes the limitations of existing metrics, offering a quick, simple, language- independent, and human-intervention-free approach, contributing to the evaluation of the quality of text simplification. Additionally, ISiM proved to be efficient in creating and refining corpora of complex/simple sentence pairs, making it a valuable contribution to research in the area. Moreover, in this research, a simplified text generator model was created, using a corpus optimized by the ISiM metric for fine-tuning. During the experi- ments, the metric demonstrated its effectiveness in various applications, such as its speed in generating results within seconds, achieving an accuracy rate of 96.94% when tested on an existing corpus of complex/simple sentence pairs, and 77.5% accuracy when compared with a human-answered form, also surpassing other simplified sentence generation mod- els from the literature. Furthermore, the research highlights the social relevance of text simplification, especially in a context like Brazil, where functional illiteracy affects more than 62 million people, representing a significant challenge to be overcome. The difficulty in understanding complex texts due to deficiencies in the population’s education shows how much we still need to improve our education system and reinforces the importance of developing tools like ISiM to help make information more accessible and comprehensible for everyone. Keywords: Artificial Intelligence; Natural Language Processing; Text Simplification; Metric; ISiM; MucimplesUniversidade Federal de ViçosaCiência da ComputaçãoOliveira, Alcione de Paivahttp://lattes.cnpq.br/4192005936413557Costa, Lucas Mucida2024-10-15T18:52:38Z2024-06-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfCOSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.https://locus.ufv.br/handle/123456789/33026https://doi.org/10.47328/ufvbbt.2024.593porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-10-16T06:00:25Zoai:locus.ufv.br:123456789/33026Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-10-16T06:00:25LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
| dc.title.none.fl_str_mv |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural ISiM: proposal of a metric for sentence simplification in natural language |
| title |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| spellingShingle |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural Costa, Lucas Mucida Inteligência artificial Processamento de linguagem natural (Computação) Ciência da Computação |
| title_short |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| title_full |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| title_fullStr |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| title_full_unstemmed |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| title_sort |
ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural |
| author |
Costa, Lucas Mucida |
| author_facet |
Costa, Lucas Mucida |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Oliveira, Alcione de Paiva http://lattes.cnpq.br/4192005936413557 |
| dc.contributor.author.fl_str_mv |
Costa, Lucas Mucida |
| dc.subject.por.fl_str_mv |
Inteligência artificial Processamento de linguagem natural (Computação) Ciência da Computação |
| topic |
Inteligência artificial Processamento de linguagem natural (Computação) Ciência da Computação |
| description |
Em uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-10-15T18:52:38Z 2024-06-03 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
COSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024. https://locus.ufv.br/handle/123456789/33026 https://doi.org/10.47328/ufvbbt.2024.593 |
| identifier_str_mv |
COSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024. |
| url |
https://locus.ufv.br/handle/123456789/33026 https://doi.org/10.47328/ufvbbt.2024.593 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa Ciência da Computação |
| publisher.none.fl_str_mv |
Universidade Federal de Viçosa Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
| instname_str |
Universidade Federal de Viçosa (UFV) |
| instacron_str |
UFV |
| institution |
UFV |
| reponame_str |
LOCUS Repositório Institucional da UFV |
| collection |
LOCUS Repositório Institucional da UFV |
| repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
| repository.mail.fl_str_mv |
fabiojreis@ufv.br |
| _version_ |
1855045559225679872 |