Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Ferreira Neto, José Carlos lattes
Orientador(a): Ferreira, Danton Diego
Banca de defesa: Ferreira, Danton Diego, Barbosa, Bruno Henrique Groenner, Pereira, Denilson Alves, Cardoso, Paula Christina Figueira, Vitor, Giovani Bernardes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Lavras
Programa de Pós-Graduação: Programa de Pós-graduação em Engenharia de Sistemas e Automação
Departamento: Departamento de Engenharia
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/58857
Resumo: A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas.
id UFLA_4c020eda65f185091b04756b2bc78fd3
oai_identifier_str oai:repositorio.ufla.br:1/58857
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2024-01-30T12:08:19Z2024-01-30T12:08:19Z2024-01-292023-12-08FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023.https://repositorio.ufla.br/handle/1/58857A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas.The identification and extraction of aspects are essential in text analysis for discerning opinions and emotions. However, there is a gap in applying these techniques to Portuguese. This work aims to adapt approaches originally developed for English to this language in the TV and ReLi datasets. The goal of this work is to evaluate the application of language models for aspect extraction in Portuguese in the context of TV device reviews and literary reviews in the TV and ReLi datasets. To achieve this goal, models based on the BERT architecture were employed, both in the pre-trained form for general domains (BERTimbau) and for specific domains (BERTtv and BERTreli). Additionally, a double embedding technique was implemented, combining general and specific domain models. Large Language Models (LLMs) were also evaluated, including variants of GPT-3 via the OpenAI API and a variant of LLaMa, Cabrita, which is trained for the Portuguese language. To optimize hardware resource demand, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) for BERTimbau and QLoRa (Quantized Low-Rank Adaptation) for Cabrita were applied. The results showed that the BERTimbau model adjusted with LoRA was superior in both datasets, achieving F1 scores of 0.846 for the TV dataset and 0.615 for ReLi. In contrast, the Cabrita model showed inferior performance, with less favorable results for both datasets, 0.68 for TV and 0.46 for ReLi. This study, therefore, offers a valuable contribution to research in aspect extraction in Portuguese, demonstrating the feasibility and effectiveness of adapting and optimizing techniques and models originally developed for other languages.Universidade Federal de LavrasPrograma de Pós-graduação em Engenharia de Sistemas e AutomaçãoUFLAbrasilDepartamento de EngenhariaAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessCiência da ComputaçãoProcessamento de linguagem naturalExtração de aspectosBERTModelos de linguagemNatural language processingAspect extractionBidirectional Encoder Representations from TransformersLanguage modelsDesenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesaDevelopment of language models for aspect extraction in portugueseinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisFerreira, Danton DiegoFerreira, Danton DiegoBarbosa, Bruno Henrique GroennerPereira, Denilson AlvesCardoso, Paula Christina FigueiraVitor, Giovani Bernardeshttp://lattes.cnpq.br/2512230222423651Ferreira Neto, José Carlosporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLACC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8907https://repositorio.ufla.br/bitstreams/a39b73d5-e059-459e-9829-b4d0186e4fb5/downloadc07b6daef3dbee864bf87e6aa836cde2MD51falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8956https://repositorio.ufla.br/bitstreams/6e50e9f1-8445-477c-b203-53a11e9fff25/download5ea4a165b7202cbf475be400d2e16893MD52falseAnonymousREADORIGINALDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdfDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdfapplication/pdf1126985https://repositorio.ufla.br/bitstreams/4a8f3f5b-a0c6-4692-bc96-0888616e70dc/downloadd9e7cb9535ed74f6c279d364559c8abbMD53trueAnonymousREADTEXTDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.txtDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.txtExtracted texttext/plain103065https://repositorio.ufla.br/bitstreams/72aa9af7-0bbf-4cc2-b508-03bd533744d1/downloadae8f20201db66fc9bcf1b90722a13b9fMD54falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.jpgDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.jpgGenerated Thumbnailimage/jpeg3178https://repositorio.ufla.br/bitstreams/e827e8a7-f04b-402d-b3f9-b0d2a3d76d32/download69a967c7b4a98e6da10bbe5a92a6079aMD55falseAnonymousREAD1/588572025-08-19 09:36:59.403http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accessoai:repositorio.ufla.br:1/58857https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-19T12:36:59Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CgphKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlIGRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEgdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpIHBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91ICBlbnRpZGFkZS4KCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
dc.title.alternative.pt_BR.fl_str_mv Development of language models for aspect extraction in portuguese
title Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
spellingShingle Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
Ferreira Neto, José Carlos
Ciência da Computação
Processamento de linguagem natural
Extração de aspectos
BERT
Modelos de linguagem
Natural language processing
Aspect extraction
Bidirectional Encoder Representations from Transformers
Language models
title_short Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
title_full Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
title_fullStr Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
title_full_unstemmed Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
title_sort Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
author Ferreira Neto, José Carlos
author_facet Ferreira Neto, José Carlos
author_role author
dc.contributor.advisor1.fl_str_mv Ferreira, Danton Diego
dc.contributor.referee1.fl_str_mv Ferreira, Danton Diego
dc.contributor.referee2.fl_str_mv Barbosa, Bruno Henrique Groenner
dc.contributor.referee3.fl_str_mv Pereira, Denilson Alves
dc.contributor.referee4.fl_str_mv Cardoso, Paula Christina Figueira
dc.contributor.referee5.fl_str_mv Vitor, Giovani Bernardes
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2512230222423651
dc.contributor.author.fl_str_mv Ferreira Neto, José Carlos
contributor_str_mv Ferreira, Danton Diego
Ferreira, Danton Diego
Barbosa, Bruno Henrique Groenner
Pereira, Denilson Alves
Cardoso, Paula Christina Figueira
Vitor, Giovani Bernardes
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Processamento de linguagem natural
Extração de aspectos
BERT
Modelos de linguagem
Natural language processing
Aspect extraction
Bidirectional Encoder Representations from Transformers
Language models
dc.subject.por.fl_str_mv Processamento de linguagem natural
Extração de aspectos
BERT
Modelos de linguagem
Natural language processing
Aspect extraction
Bidirectional Encoder Representations from Transformers
Language models
description A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas.
publishDate 2023
dc.date.submitted.none.fl_str_mv 2023-12-08
dc.date.accessioned.fl_str_mv 2024-01-30T12:08:19Z
dc.date.available.fl_str_mv 2024-01-30T12:08:19Z
dc.date.issued.fl_str_mv 2024-01-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/58857
identifier_str_mv FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023.
url https://repositorio.ufla.br/handle/1/58857
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Engenharia de Sistemas e Automação
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv brasil
dc.publisher.department.fl_str_mv Departamento de Engenharia
publisher.none.fl_str_mv Universidade Federal de Lavras
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/a39b73d5-e059-459e-9829-b4d0186e4fb5/download
https://repositorio.ufla.br/bitstreams/6e50e9f1-8445-477c-b203-53a11e9fff25/download
https://repositorio.ufla.br/bitstreams/4a8f3f5b-a0c6-4692-bc96-0888616e70dc/download
https://repositorio.ufla.br/bitstreams/72aa9af7-0bbf-4cc2-b508-03bd533744d1/download
https://repositorio.ufla.br/bitstreams/e827e8a7-f04b-402d-b3f9-b0d2a3d76d32/download
bitstream.checksum.fl_str_mv c07b6daef3dbee864bf87e6aa836cde2
5ea4a165b7202cbf475be400d2e16893
d9e7cb9535ed74f6c279d364559c8abb
ae8f20201db66fc9bcf1b90722a13b9f
69a967c7b4a98e6da10bbe5a92a6079a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947766241853440