Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Linguística - PPGL
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/22651 |
Resumo: | Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task. |
| id |
SCAR_1d2a53302ba146a04aba63da2c8c7d1d |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/22651 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Piai, LaísDi Felippo, Arianihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/6432497406260164https://orcid.org/0000-0002-1441-8550https://orcid.org/0000-0002-4566-93522025-08-29T16:48:39Z2025-07-30PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.https://hdl.handle.net/20.500.14289/22651Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.A anotação de corpus desempenha um papel central no Processamento de Línguas Naturais (PLN), servindo tanto como base para a construção e avaliação de sistemas de Aprendizado de Máquina quanto como recurso essencial para a investigação do comportamento linguístico em diferentes domínios. A anotação de Entidades Nomeadas (ENs), em particular, configura-se como uma tarefa especialmente desafiadora em conteúdo gerado por usuários (CGU), como os tweets, uma vez que a linguagem informal e os fenômenos de gênero e domínio demandam metodologias adaptadas. Diante desse cenário, este trabalho realizou a anotação de ENs no DANTEStocks, um corpus em língua portuguesa composto por 4.048 tweets (84.396 tokens) sobre o mercado financeiro. Embora esse recurso já contasse com uma primeira versão anotada, essa considerava apenas as 10 categorias genéricas do Segundo HAREM. Diante disso, este trabalho conduziu uma reanotação independente. A metodologia adotada partiu da taxonomia das 10 categorias do Segundo HAREM, utilizadas na anotação anterior, e a expandiu para um conjunto de 47 tipos, com a proposição de quatro novos (certificado, indicador, ticker e usuário), de modo a aumentar a granularidade. Essa reavaliação foi fundamentada em decisões linguisticamente motivadas e implementada por um único anotador, por meio de uma abordagem semiautomática. Esse método combinou a aplicação de regras baseadas em pistas estruturais e morfossintáticas com a curadoria humana, o que permitiu não só gerar uma anotação de referência, mas também um novo conjunto de diretrizes. A partir dessa nova anotação, que resultou em 20.092 entidades, correspondentes a 24.825 tokens, a caracterização do corpus revelou um perfil linguístico dominado por entidades unitárias, isto é, compostas por um único token, e pelos tipos ticker, moeda e virtual, confirmando a forte influência do domínio. Em suma, as contribuições desta dissertação são: o enriquecimento do corpus DANTEStocks com uma anotação de ENs de granularidade fina, um conjunto de diretrizes para anotação de CGU/tweets e uma série de discussões sobre os desafios enfrentados e as estratégias adotadas para superá-los.OutraporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarhttps://repositorio.usp.br/item/003258357Attribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICAPLNCorpusEntidade nomeadaConteúdo gerado por usuárioTweetMercado financeiroAnotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiroCorpus annotation: characterization of Named Entities in stock market tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_LaisPiai.pdfDissertacao_LaisPiai.pdfapplication/pdf2956388https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download9ffd3d03a2b663b3ec216cae0515718eMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/downloadfba754f0467e45ac3862bc2533fb2736MD52falseAnonymousREADTEXTDissertacao_LaisPiai.pdf.txtDissertacao_LaisPiai.pdf.txtExtracted texttext/plain103112https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download72b56e9b5acd4cb2765c5705d339de71MD53falseAnonymousREADTHUMBNAILDissertacao_LaisPiai.pdf.jpgDissertacao_LaisPiai.pdf.jpgGenerated Thumbnailimage/jpeg6805https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download8f377ff496f0455966a8efd5b87f726dMD54falseAnonymousREAD20.500.14289/226512025-08-30T03:11:59.592294Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22651https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-08-30T03:11:59Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.none.fl_str_mv |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| dc.title.alternative.eng.fl_str_mv |
Corpus annotation: characterization of Named Entities in stock market tweets |
| title |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| spellingShingle |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro Piai, Laís LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro |
| title_short |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| title_full |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| title_fullStr |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| title_full_unstemmed |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| title_sort |
Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro |
| author |
Piai, Laís |
| author_facet |
Piai, Laís |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/6432497406260164 |
| dc.contributor.authororcid.none.fl_str_mv |
https://orcid.org/0000-0002-1441-8550 |
| dc.contributor.advisor1orcid.none.fl_str_mv |
https://orcid.org/0000-0002-4566-9352 |
| dc.contributor.author.fl_str_mv |
Piai, Laís |
| dc.contributor.advisor1.fl_str_mv |
Di Felippo, Ariani |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8648412103197455 |
| contributor_str_mv |
Di Felippo, Ariani |
| dc.subject.cnpq.fl_str_mv |
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| topic |
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro |
| dc.subject.por.fl_str_mv |
PLN Corpus Entidade nomeada Conteúdo gerado por usuário Tweet Mercado financeiro |
| description |
Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-08-29T16:48:39Z |
| dc.date.issued.fl_str_mv |
2025-07-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/22651 |
| identifier_str_mv |
PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651. |
| url |
https://hdl.handle.net/20.500.14289/22651 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.uri.none.fl_str_mv |
https://repositorio.usp.br/item/003258357 |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Linguística - PPGL |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/0a2e1283-d679-422d-ad93-1ce377604428/download https://repositorio.ufscar.br/bitstreams/384b8ba0-97fb-4474-9008-afd2b05e8f32/download https://repositorio.ufscar.br/bitstreams/7420e425-cd09-41a4-a480-f7e0830d2e14/download https://repositorio.ufscar.br/bitstreams/e21c6400-0fee-47fb-a420-d976466a9a37/download |
| bitstream.checksum.fl_str_mv |
9ffd3d03a2b663b3ec216cae0515718e fba754f0467e45ac3862bc2533fb2736 72b56e9b5acd4cb2765c5705d339de71 8f377ff496f0455966a8efd5b87f726d |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688851339214848 |