Expansão de córpus para detecção de posicionamentos em textos

Pereira, Camila Farias Pena

Expansão de córpus para detecção de posicionamentos em textos

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Pereira, Camila Farias Pena
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
Resumo:	A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.

Metadados do item

id	USP_75196bf62a996795ef5b08963724ae64
oai_identifier_str	oai:teses.usp.br:tde-24052023-121357
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Expansão de córpus para detecção de posicionamentos em textosCorpus expansion for detection of stance in textsCórpus expansionDeteccão de posicionamentosExpansão de córpusNatural Language ProcessingProcessamento de Línguas NaturaisStance deteccionA classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.Stance deteccion is a Natural Language Processing (NLP) task that aims to identify the attitude expressed in a text towards a chosen topic. It can include the stances \"in favor\" or \"against\" the target topic, although it is also possible to include other labels such as ``neutral\'\' or ``ambiguous\'\'. The task gained relevance with the intensification of the use of social networks. In particular, there was an increase in the number of studies about this task with the availability of labeled datasets, mainly in the English language. As most research in syance deteccion is based on supervised methods, the availability of annotated corpus is an essential resource to enable the advancement of the area in other languages. One of the barriers to be overcome is the cost of annotating the data. The present work aims, as a first task, to build a corpus in Portuguese manually labeled with information about stance, which is done in collaboration with a research team. Following that, the constructed corpus is used to train stance detection models with different computational methods. Finally, the corpus is expanded using data expansion methods already applied to the sentiment analysis task, combined with BERT-type pre-trained language models. The resulting set was evaluated with intrinsic methods and human evaluation, achieving F1 measurement results close to those generated with the original set.Biblioteca Digitais de Teses e Dissertações da USPParaboni, IvandrePereira, Camila Farias Pena2023-04-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-18T13:23:02Zoai:teses.usp.br:tde-24052023-121357Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-08-18T13:23:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Expansão de córpus para detecção de posicionamentos em textos Corpus expansion for detection of stance in texts
title	Expansão de córpus para detecção de posicionamentos em textos
spellingShingle	Expansão de córpus para detecção de posicionamentos em textos Pereira, Camila Farias Pena Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion
title_short	Expansão de córpus para detecção de posicionamentos em textos
title_full	Expansão de córpus para detecção de posicionamentos em textos
title_fullStr	Expansão de córpus para detecção de posicionamentos em textos
title_full_unstemmed	Expansão de córpus para detecção de posicionamentos em textos
title_sort	Expansão de córpus para detecção de posicionamentos em textos
author	Pereira, Camila Farias Pena
author_facet	Pereira, Camila Farias Pena
author_role	author
dc.contributor.none.fl_str_mv	Paraboni, Ivandre
dc.contributor.author.fl_str_mv	Pereira, Camila Farias Pena
dc.subject.por.fl_str_mv	Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion
topic	Córpus expansion Deteccão de posicionamentos Expansão de córpus Natural Language Processing Processamento de Línguas Naturais Stance deteccion
description	A classificação de posicionamentos é uma tarefa de Processamento de Língua Natural (PLN) que objetiva identificar a atitude expressa em um texto em relação a um tópico escolhido. De forma geral, essa classificação é feita entre favorável ou contrário ao tópico, mas também pode incluir outros rótulos como ``neutro\'\' ou ``ambíguo\'\'. A tarefa ganhou relevância com a intensificação do uso das redes sociais. Em especial, houve um aumento no número de estudos com a disponibilização de conjuntos de dados rotulados, principalmente no idioma inglês. Como a maior parte das pesquisas em classificação de posicionamentos é baseada em métodos supervisionados, a oferta de conjuntos de dados anotados é um recurso imprescindível para possibilitar o avanço da área em outros idiomas. Uma das barreiras a serem superadas é o custo de anotação dos dados. Este trabalho visa, como primeira tarefa, construir um córpus em português rotulado manualmente com informações de posicionamentos, tarefa feita em colaboração com o time de pesquisa em que este trabalho está inserido. Em seguida, utilizar o córpus construído para treinar modelos de detecção de posicionamento com diferentes métodos computacionais. Por fim, expandir o córpus com o uso de métodos de expansão de dados já aplicados à tarefa de análise de sentimentos combinados com modelos de língua pré-treinados do tipo BERT. O conjunto resultante foi avaliado com métodos intrínsecos e avaliação humana, tendo alcançado resultados de medida F1 próximos aos gerados com o conjunto original.
publishDate	2023
dc.date.none.fl_str_mv	2023-04-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
url	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-24052023-121357/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492337253154816

Expansão de córpus para detecção de posicionamentos em textos

Registros relacionados