Expansão de córpus para detecção de posicionamentos em textos
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/ |
Resumo: | A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original. |
| id |
USP_75196bf62a996795ef5b08963724ae64 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-24052023-121357 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Expansão de córpus para detecção de posicionamentos em textosCorpus expansion for detection of stance in textsCórpus expansionDeteccão de posicionamentosExpansão de córpusNatural Language ProcessingProcessamento de Línguas NaturaisStance deteccionA classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.Stance deteccion is a Natural Language Processing (NLP) task that aims to identify the attitude expressed in a text towards a chosen topic. It can include the stances \"in favor\" or \"against\" the target topic, although it is also possible to include other labels such as ``neutral\'\' or ``ambiguous\'\'. The task gained relevance with the intensification of the use of social networks. In particular, there was an increase in the number of studies about this task with the availability of labeled datasets, mainly in the English language. As most research in syance deteccion is based on supervised methods, the availability of annotated corpus is an essential resource to enable the advancement of the area in other languages. One of the barriers to be overcome is the cost of annotating the data. The present work aims, as a first task, to build a corpus in Portuguese manually labeled with information about stance, which is done in collaboration with a research team. Following that, the constructed corpus is used to train stance detection models with different computational methods. Finally, the corpus is expanded using data expansion methods already applied to the sentiment analysis task, combined with BERT-type pre-trained language models. The resulting set was evaluated with intrinsic methods and human evaluation, achieving F1 measurement results close to those generated with the original set.Biblioteca Digitais de Teses e Dissertações da USPParaboni, IvandrePereira, Camila Farias Pena2023-04-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-18T13:23:02Zoai:teses.usp.br:tde-24052023-121357Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-18T13:23:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Expansão de córpus para detecção de posicionamentos em textos Corpus expansion for detection of stance in texts |
| title |
Expansão de córpus para detecção de posicionamentos em textos |
| spellingShingle |
Expansão de córpus para detecção de posicionamentos em textos Pereira, Camila Farias Pena Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion |
| title_short |
Expansão de córpus para detecção de posicionamentos em textos |
| title_full |
Expansão de córpus para detecção de posicionamentos em textos |
| title_fullStr |
Expansão de córpus para detecção de posicionamentos em textos |
| title_full_unstemmed |
Expansão de córpus para detecção de posicionamentos em textos |
| title_sort |
Expansão de córpus para detecção de posicionamentos em textos |
| author |
Pereira, Camila Farias Pena |
| author_facet |
Pereira, Camila Farias Pena |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Paraboni, Ivandre |
| dc.contributor.author.fl_str_mv |
Pereira, Camila Farias Pena |
| dc.subject.por.fl_str_mv |
Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion |
| topic |
Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion |
| description |
A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-04-10 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492337253154816 |