Expansão de córpus para detecção de posicionamentos em textos

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Pereira, Camila Farias Pena
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
Resumo: A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.
id USP_75196bf62a996795ef5b08963724ae64
oai_identifier_str oai:teses.usp.br:tde-24052023-121357
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Expansão de córpus para detecção de posicionamentos em textosCorpus expansion for detection of stance in textsCórpus expansionDeteccão de posicionamentosExpansão de córpusNatural Language ProcessingProcessamento de Línguas NaturaisStance deteccionA classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.Stance deteccion is a Natural Language Processing (NLP) task that aims to identify the attitude expressed in a text towards a chosen topic. It can include the stances \"in favor\" or \"against\" the target topic, although it is also possible to include other labels such as ``neutral\'\' or ``ambiguous\'\'. The task gained relevance with the intensification of the use of social networks. In particular, there was an increase in the number of studies about this task with the availability of labeled datasets, mainly in the English language. As most research in syance deteccion is based on supervised methods, the availability of annotated corpus is an essential resource to enable the advancement of the area in other languages. One of the barriers to be overcome is the cost of annotating the data. The present work aims, as a first task, to build a corpus in Portuguese manually labeled with information about stance, which is done in collaboration with a research team. Following that, the constructed corpus is used to train stance detection models with different computational methods. Finally, the corpus is expanded using data expansion methods already applied to the sentiment analysis task, combined with BERT-type pre-trained language models. The resulting set was evaluated with intrinsic methods and human evaluation, achieving F1 measurement results close to those generated with the original set.Biblioteca Digitais de Teses e Dissertações da USPParaboni, IvandrePereira, Camila Farias Pena2023-04-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-18T13:23:02Zoai:teses.usp.br:tde-24052023-121357Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-18T13:23:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Expansão de córpus para detecção de posicionamentos em textos
Corpus expansion for detection of stance in texts
title Expansão de córpus para detecção de posicionamentos em textos
spellingShingle Expansão de córpus para detecção de posicionamentos em textos
Pereira, Camila Farias Pena
Córpus expansion
Deteccão de posicionamentos
Expansão de córpus
Natural Language Processing
Processamento de Línguas Naturais
Stance deteccion
title_short Expansão de córpus para detecção de posicionamentos em textos
title_full Expansão de córpus para detecção de posicionamentos em textos
title_fullStr Expansão de córpus para detecção de posicionamentos em textos
title_full_unstemmed Expansão de córpus para detecção de posicionamentos em textos
title_sort Expansão de córpus para detecção de posicionamentos em textos
author Pereira, Camila Farias Pena
author_facet Pereira, Camila Farias Pena
author_role author
dc.contributor.none.fl_str_mv Paraboni, Ivandre
dc.contributor.author.fl_str_mv Pereira, Camila Farias Pena
dc.subject.por.fl_str_mv Córpus expansion
Deteccão de posicionamentos
Expansão de córpus
Natural Language Processing
Processamento de Línguas Naturais
Stance deteccion
topic Córpus expansion
Deteccão de posicionamentos
Expansão de córpus
Natural Language Processing
Processamento de Línguas Naturais
Stance deteccion
description A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.
publishDate 2023
dc.date.none.fl_str_mv 2023-04-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492337253154816