Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Piai, Laís
Orientador(a): Di Felippo, Ariani lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Linguística - PPGL
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
PLN
Área do conhecimento CNPq:
Link de acesso: https://hdl.handle.net/20.500.14289/22651
Resumo: Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.
id SCAR_1d2a53302ba146a04aba63da2c8c7d1d
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/22651
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Piai, LaísDi Felippo, Arianihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/6432497406260164https://orcid.org/0000-0002-1441-8550https://orcid.org/0000-0002-4566-93522025-08-29T16:48:39Z2025-07-30PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.https://hdl.handle.net/20.500.14289/22651Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.A anotação de corpus desempenha um papel central no Processamento de Línguas Naturais (PLN), servindo tanto como base para a construção e avaliação de sistemas de Aprendizado de Máquina quanto como recurso essencial para a investigação do comportamento linguístico em diferentes domínios. A anotação de Entidades Nomeadas (ENs), em particular, configura-se como uma tarefa especialmente desafiadora em conteúdo gerado por usuários (CGU), como os tweets, uma vez que a linguagem informal e os fenômenos de gênero e domínio demandam metodologias adaptadas. Diante desse cenário, este trabalho realizou a anotação de ENs no DANTEStocks, um corpus em língua portuguesa composto por 4.048 tweets (84.396 tokens) sobre o mercado financeiro. Embora esse recurso já contasse com uma primeira versão anotada, essa considerava apenas as 10 categorias genéricas do Segundo HAREM. Diante disso, este trabalho conduziu uma reanotação independente. A metodologia adotada partiu da taxonomia das 10 categorias do Segundo HAREM, utilizadas na anotação anterior, e a expandiu para um conjunto de 47 tipos, com a proposição de quatro novos (certificado, indicador, ticker e usuário), de modo a aumentar a granularidade. Essa reavaliação foi fundamentada em decisões linguisticamente motivadas e implementada por um único anotador, por meio de uma abordagem semiautomática. Esse método combinou a aplicação de regras baseadas em pistas estruturais e morfossintáticas com a curadoria humana, o que permitiu não só gerar uma anotação de referência, mas também um novo conjunto de diretrizes. A partir dessa nova anotação, que resultou em 20.092 entidades, correspondentes a 24.825 tokens, a caracterização do corpus revelou um perfil linguístico dominado por entidades unitárias, isto é, compostas por um único token, e pelos tipos ticker, moeda e virtual, confirmando a forte influência do domínio. Em suma, as contribuições desta dissertação são: o enriquecimento do corpus DANTEStocks com uma anotação de ENs de granularidade fina, um conjunto de diretrizes para anotação de CGU/tweets e uma série de discussões sobre os desafios enfrentados e as estratégias adotadas para superá-los.OutraporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarhttps://repositorio.usp.br/item/003258357Attribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICAPLNCorpusEntidade nomeadaConteúdo gerado por usuárioTweetMercado financeiroAnotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiroCorpus annotation: characterization of Named Entities in stock market tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_LaisPiai.pdfDissertacao_LaisPiai.pdfapplication/pdf2956388https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download9ffd3d03a2b663b3ec216cae0515718eMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/downloadfba754f0467e45ac3862bc2533fb2736MD52falseAnonymousREADTEXTDissertacao_LaisPiai.pdf.txtDissertacao_LaisPiai.pdf.txtExtracted texttext/plain103112https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download72b56e9b5acd4cb2765c5705d339de71MD53falseAnonymousREADTHUMBNAILDissertacao_LaisPiai.pdf.jpgDissertacao_LaisPiai.pdf.jpgGenerated Thumbnailimage/jpeg6805https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download8f377ff496f0455966a8efd5b87f726dMD54falseAnonymousREAD20.500.14289/226512025-08-30T03:11:59.592294Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22651https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-08-30T03:11:59Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
dc.title.alternative.eng.fl_str_mv Corpus annotation: characterization of Named Entities in stock market tweets
title Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
spellingShingle Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
Piai, Laís
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
PLN
Corpus
Entidade nomeada
Conteúdo gerado por usuário
Tweet
Mercado financeiro
title_short Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_full Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_fullStr Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_full_unstemmed Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
title_sort Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
author Piai, Laís
author_facet Piai, Laís
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/6432497406260164
dc.contributor.authororcid.none.fl_str_mv https://orcid.org/0000-0002-1441-8550
dc.contributor.advisor1orcid.none.fl_str_mv https://orcid.org/0000-0002-4566-9352
dc.contributor.author.fl_str_mv Piai, Laís
dc.contributor.advisor1.fl_str_mv Di Felippo, Ariani
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8648412103197455
contributor_str_mv Di Felippo, Ariani
dc.subject.cnpq.fl_str_mv LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
topic LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
PLN
Corpus
Entidade nomeada
Conteúdo gerado por usuário
Tweet
Mercado financeiro
dc.subject.por.fl_str_mv PLN
Corpus
Entidade nomeada
Conteúdo gerado por usuário
Tweet
Mercado financeiro
description Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-08-29T16:48:39Z
dc.date.issued.fl_str_mv 2025-07-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.14289/22651
identifier_str_mv PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.
url https://hdl.handle.net/20.500.14289/22651
dc.language.iso.fl_str_mv por
language por
dc.relation.uri.none.fl_str_mv https://repositorio.usp.br/item/003258357
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Linguística - PPGL
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download
https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/download
https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download
https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download
bitstream.checksum.fl_str_mv 9ffd3d03a2b663b3ec216cae0515718e
fba754f0467e45ac3862bc2533fb2736
72b56e9b5acd4cb2765c5705d339de71
8f377ff496f0455966a8efd5b87f726d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688851339214848