Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro

Piai, Laís

Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Piai, Laís
Orientador(a):	Di Felippo, Ariani
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de São Carlos Câmpus São Carlos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Linguística - PPGL
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro
Área do conhecimento CNPq:	LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
Link de acesso:	https://hdl.handle.net/20.500.14289/22651
Resumo:	Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.

Metadados do item

id	SCAR_1d2a53302ba146a04aba63da2c8c7d1d
oai_identifier_str	oai:repositorio.ufscar.br:20.500.14289/22651
network_acronym_str	SCAR
network_name_str	Repositório Institucional da UFSCAR
repository_id_str
spelling	Piai, LaísDi Felippo, Arianihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/6432497406260164https://orcid.org/0000-0002-1441-8550https://orcid.org/0000-0002-4566-93522025-08-29T16:48:39Z2025-07-30PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.https://hdl.handle.net/20.500.14289/22651Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.A anotação de corpus desempenha um papel central no Processamento de Línguas Naturais (PLN), servindo tanto como base para a construção e avaliação de sistemas de Aprendizado de Máquina quanto como recurso essencial para a investigação do comportamento linguístico em diferentes domínios. A anotação de Entidades Nomeadas (ENs), em particular, configura-se como uma tarefa especialmente desafiadora em conteúdo gerado por usuários (CGU), como os tweets, uma vez que a linguagem informal e os fenômenos de gênero e domínio demandam metodologias adaptadas. Diante desse cenário, este trabalho realizou a anotação de ENs no DANTEStocks, um corpus em língua portuguesa composto por 4.048 tweets (84.396 tokens) sobre o mercado financeiro. Embora esse recurso já contasse com uma primeira versão anotada, essa considerava apenas as 10 categorias genéricas do Segundo HAREM. Diante disso, este trabalho conduziu uma reanotação independente. A metodologia adotada partiu da taxonomia das 10 categorias do Segundo HAREM, utilizadas na anotação anterior, e a expandiu para um conjunto de 47 tipos, com a proposição de quatro novos (certificado, indicador, ticker e usuário), de modo a aumentar a granularidade. Essa reavaliação foi fundamentada em decisões linguisticamente motivadas e implementada por um único anotador, por meio de uma abordagem semiautomática. Esse método combinou a aplicação de regras baseadas em pistas estruturais e morfossintáticas com a curadoria humana, o que permitiu não só gerar uma anotação de referência, mas também um novo conjunto de diretrizes. A partir dessa nova anotação, que resultou em 20.092 entidades, correspondentes a 24.825 tokens, a caracterização do corpus revelou um perfil linguístico dominado por entidades unitárias, isto é, compostas por um único token, e pelos tipos ticker, moeda e virtual, confirmando a forte influência do domínio. Em suma, as contribuições desta dissertação são: o enriquecimento do corpus DANTEStocks com uma anotação de ENs de granularidade fina, um conjunto de diretrizes para anotação de CGU/tweets e uma série de discussões sobre os desafios enfrentados e as estratégias adotadas para superá-los.OutraporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarhttps://repositorio.usp.br/item/003258357Attribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICAPLNCorpusEntidade nomeadaConteúdo gerado por usuárioTweetMercado financeiroAnotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiroCorpus annotation: characterization of Named Entities in stock market tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_LaisPiai.pdfDissertacao_LaisPiai.pdfapplication/pdf2956388https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download9ffd3d03a2b663b3ec216cae0515718eMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/downloadfba754f0467e45ac3862bc2533fb2736MD52falseAnonymousREADTEXTDissertacao_LaisPiai.pdf.txtDissertacao_LaisPiai.pdf.txtExtracted texttext/plain103112https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download72b56e9b5acd4cb2765c5705d339de71MD53falseAnonymousREADTHUMBNAILDissertacao_LaisPiai.pdf.jpgDissertacao_LaisPiai.pdf.jpgGenerated Thumbnailimage/jpeg6805https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download8f377ff496f0455966a8efd5b87f726dMD54falseAnonymousREAD20.500.14289/226512025-08-30T03:11:59.592294Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22651https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-08-30T03:11:59Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
dc.title.alternative.eng.fl_str_mv	Corpus annotation: characterization of Named Entities in stock market tweets
title	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
spellingShingle	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro Piai, Laís LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro
title_short	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_full	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_fullStr	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_full_unstemmed	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_sort	Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
author	Piai, Laís
author_facet	Piai, Laís
author_role	author
dc.contributor.authorlattes.none.fl_str_mv	http://lattes.cnpq.br/6432497406260164
dc.contributor.authororcid.none.fl_str_mv	https://orcid.org/0000-0002-1441-8550
dc.contributor.advisor1orcid.none.fl_str_mv	https://orcid.org/0000-0002-4566-9352
dc.contributor.author.fl_str_mv	Piai, Laís
dc.contributor.advisor1.fl_str_mv	Di Felippo, Ariani
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/8648412103197455
contributor_str_mv	Di Felippo, Ariani
dc.subject.cnpq.fl_str_mv	LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
topic	LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro
dc.subject.por.fl_str_mv	PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro
description	Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-08-29T16:48:39Z
dc.date.issued.fl_str_mv	2025-07-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/20.500.14289/22651
identifier_str_mv	PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.
url	https://hdl.handle.net/20.500.14289/22651
dc.language.iso.fl_str_mv	por
language	por
dc.relation.uri.none.fl_str_mv	https://repositorio.usp.br/item/003258357
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de São Carlos Câmpus São Carlos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Linguística - PPGL
dc.publisher.initials.fl_str_mv	UFSCar
publisher.none.fl_str_mv	Universidade Federal de São Carlos Câmpus São Carlos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR
instname_str	Universidade Federal de São Carlos (UFSCAR)
instacron_str	UFSCAR
institution	UFSCAR
reponame_str	Repositório Institucional da UFSCAR
collection	Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv	https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/download https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download
bitstream.checksum.fl_str_mv	9ffd3d03a2b663b3ec216cae0515718e fba754f0467e45ac3862bc2533fb2736 72b56e9b5acd4cb2765c5705d339de71 8f377ff496f0455966a8efd5b87f726d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv	repositorio.sibi@ufscar.br
_version_	1851688851339214848

Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro

Registros relacionados