Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Lavras
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Engenharia de Sistemas e Automação
|
| Departamento: |
Departamento de Engenharia
|
| País: |
brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufla.br/handle/1/58857 |
Resumo: | A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas. |
| id |
UFLA_4c020eda65f185091b04756b2bc78fd3 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufla.br:1/58857 |
| network_acronym_str |
UFLA |
| network_name_str |
Repositório Institucional da UFLA |
| repository_id_str |
|
| spelling |
2024-01-30T12:08:19Z2024-01-30T12:08:19Z2024-01-292023-12-08FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023.https://repositorio.ufla.br/handle/1/58857A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas.The identification and extraction of aspects are essential in text analysis for discerning opinions and emotions. However, there is a gap in applying these techniques to Portuguese. This work aims to adapt approaches originally developed for English to this language in the TV and ReLi datasets. The goal of this work is to evaluate the application of language models for aspect extraction in Portuguese in the context of TV device reviews and literary reviews in the TV and ReLi datasets. To achieve this goal, models based on the BERT architecture were employed, both in the pre-trained form for general domains (BERTimbau) and for specific domains (BERTtv and BERTreli). Additionally, a double embedding technique was implemented, combining general and specific domain models. Large Language Models (LLMs) were also evaluated, including variants of GPT-3 via the OpenAI API and a variant of LLaMa, Cabrita, which is trained for the Portuguese language. To optimize hardware resource demand, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) for BERTimbau and QLoRa (Quantized Low-Rank Adaptation) for Cabrita were applied. The results showed that the BERTimbau model adjusted with LoRA was superior in both datasets, achieving F1 scores of 0.846 for the TV dataset and 0.615 for ReLi. In contrast, the Cabrita model showed inferior performance, with less favorable results for both datasets, 0.68 for TV and 0.46 for ReLi. This study, therefore, offers a valuable contribution to research in aspect extraction in Portuguese, demonstrating the feasibility and effectiveness of adapting and optimizing techniques and models originally developed for other languages.Universidade Federal de LavrasPrograma de Pós-graduação em Engenharia de Sistemas e AutomaçãoUFLAbrasilDepartamento de EngenhariaAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessCiência da ComputaçãoProcessamento de linguagem naturalExtração de aspectosBERTModelos de linguagemNatural language processingAspect extractionBidirectional Encoder Representations from TransformersLanguage modelsDesenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesaDevelopment of language models for aspect extraction in portugueseinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisFerreira, Danton DiegoFerreira, Danton DiegoBarbosa, Bruno Henrique GroennerPereira, Denilson AlvesCardoso, Paula Christina FigueiraVitor, Giovani Bernardeshttp://lattes.cnpq.br/2512230222423651Ferreira Neto, José Carlosporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLACC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8907https://repositorio.ufla.br/bitstreams/a39b73d5-e059-459e-9829-b4d0186e4fb5/downloadc07b6daef3dbee864bf87e6aa836cde2MD51falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8956https://repositorio.ufla.br/bitstreams/6e50e9f1-8445-477c-b203-53a11e9fff25/download5ea4a165b7202cbf475be400d2e16893MD52falseAnonymousREADORIGINALDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdfDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdfapplication/pdf1126985https://repositorio.ufla.br/bitstreams/4a8f3f5b-a0c6-4692-bc96-0888616e70dc/downloadd9e7cb9535ed74f6c279d364559c8abbMD53trueAnonymousREADTEXTDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.txtDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.txtExtracted texttext/plain103065https://repositorio.ufla.br/bitstreams/72aa9af7-0bbf-4cc2-b508-03bd533744d1/downloadae8f20201db66fc9bcf1b90722a13b9fMD54falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.jpgDISSERTAÇÃO_Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa.pdf.jpgGenerated Thumbnailimage/jpeg3178https://repositorio.ufla.br/bitstreams/e827e8a7-f04b-402d-b3f9-b0d2a3d76d32/download69a967c7b4a98e6da10bbe5a92a6079aMD55falseAnonymousREAD1/588572025-08-19 09:36:59.403http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accessoai:repositorio.ufla.br:1/58857https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-19T12:36:59Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CgphKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlIGRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEgdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpIHBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91ICBlbnRpZGFkZS4KCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo= |
| dc.title.pt_BR.fl_str_mv |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| dc.title.alternative.pt_BR.fl_str_mv |
Development of language models for aspect extraction in portuguese |
| title |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| spellingShingle |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa Ferreira Neto, José Carlos Ciência da Computação Processamento de linguagem natural Extração de aspectos BERT Modelos de linguagem Natural language processing Aspect extraction Bidirectional Encoder Representations from Transformers Language models |
| title_short |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| title_full |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| title_fullStr |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| title_full_unstemmed |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| title_sort |
Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa |
| author |
Ferreira Neto, José Carlos |
| author_facet |
Ferreira Neto, José Carlos |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Ferreira, Danton Diego |
| dc.contributor.referee1.fl_str_mv |
Ferreira, Danton Diego |
| dc.contributor.referee2.fl_str_mv |
Barbosa, Bruno Henrique Groenner |
| dc.contributor.referee3.fl_str_mv |
Pereira, Denilson Alves |
| dc.contributor.referee4.fl_str_mv |
Cardoso, Paula Christina Figueira |
| dc.contributor.referee5.fl_str_mv |
Vitor, Giovani Bernardes |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/2512230222423651 |
| dc.contributor.author.fl_str_mv |
Ferreira Neto, José Carlos |
| contributor_str_mv |
Ferreira, Danton Diego Ferreira, Danton Diego Barbosa, Bruno Henrique Groenner Pereira, Denilson Alves Cardoso, Paula Christina Figueira Vitor, Giovani Bernardes |
| dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
| topic |
Ciência da Computação Processamento de linguagem natural Extração de aspectos BERT Modelos de linguagem Natural language processing Aspect extraction Bidirectional Encoder Representations from Transformers Language models |
| dc.subject.por.fl_str_mv |
Processamento de linguagem natural Extração de aspectos BERT Modelos de linguagem Natural language processing Aspect extraction Bidirectional Encoder Representations from Transformers Language models |
| description |
A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas. |
| publishDate |
2023 |
| dc.date.submitted.none.fl_str_mv |
2023-12-08 |
| dc.date.accessioned.fl_str_mv |
2024-01-30T12:08:19Z |
| dc.date.available.fl_str_mv |
2024-01-30T12:08:19Z |
| dc.date.issued.fl_str_mv |
2024-01-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufla.br/handle/1/58857 |
| identifier_str_mv |
FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023. |
| url |
https://repositorio.ufla.br/handle/1/58857 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution 4.0 International http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution 4.0 International http://creativecommons.org/licenses/by/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Lavras |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Engenharia de Sistemas e Automação |
| dc.publisher.initials.fl_str_mv |
UFLA |
| dc.publisher.country.fl_str_mv |
brasil |
| dc.publisher.department.fl_str_mv |
Departamento de Engenharia |
| publisher.none.fl_str_mv |
Universidade Federal de Lavras |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
| instname_str |
Universidade Federal de Lavras (UFLA) |
| instacron_str |
UFLA |
| institution |
UFLA |
| reponame_str |
Repositório Institucional da UFLA |
| collection |
Repositório Institucional da UFLA |
| bitstream.url.fl_str_mv |
https://repositorio.ufla.br/bitstreams/a39b73d5-e059-459e-9829-b4d0186e4fb5/download https://repositorio.ufla.br/bitstreams/6e50e9f1-8445-477c-b203-53a11e9fff25/download https://repositorio.ufla.br/bitstreams/4a8f3f5b-a0c6-4692-bc96-0888616e70dc/download https://repositorio.ufla.br/bitstreams/72aa9af7-0bbf-4cc2-b508-03bd533744d1/download https://repositorio.ufla.br/bitstreams/e827e8a7-f04b-402d-b3f9-b0d2a3d76d32/download |
| bitstream.checksum.fl_str_mv |
c07b6daef3dbee864bf87e6aa836cde2 5ea4a165b7202cbf475be400d2e16893 d9e7cb9535ed74f6c279d364559c8abb ae8f20201db66fc9bcf1b90722a13b9f 69a967c7b4a98e6da10bbe5a92a6079a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
| repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
| _version_ |
1854947766241853440 |