Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Silva, Emanuel Huber da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
Resumo: A etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).
id USP_4a04dd1c5e98da974efd69c470738e08
oai_identifier_str oai:teses.usp.br:tde-04092023-145651
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal DependenciesMultigenre part-of-speech tagging for Brazilian Portuguese according to the Universal Dependencies modelEtiquetagem morfossintáticaEtiquetagem multigênerMultigenre taggingPart-of-Speech taggingUniversal dependenciesUniversal DependenciesA etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).Part-of-Speech tagging is one of the first levels of linguistic structuring. Lying between morphology and syntax, and seeks to identify the grammatical classes of each word or token. The task is necessary for morphosyntactic disambiguation and, consequently, for the creation of more robust Natural Language Processing tools and methods. In this line, there is a variety of work for Brazilian Portuguese using journalistic genre corpus with different sets of tags. The Universal Dependencies (UD) formalism is the linguistic theory that has been most adopted by corpora in the area, which allows standardization across different languages and textual genres, including the set of morphosyntactic tags. Although there are works on taggers for Brazilian Portuguese based on several formalisms, there are few works based on UD. Furthermore, there is a dearth of works that address corpus with a variety of textual genres. Each text genre has different linguistic characteristics and, consequently, presents challenges for tagging methods. In this project, we investigated morphosyntactic tagging methods for Brazilian Portuguese adopting the UD formalism. Notably, the analysis in the multigenre context with journalistic, academic and User-Generated Content (UGC) texts.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSilva, Emanuel Huber da2023-06-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-09-04T18:06:02Zoai:teses.usp.br:tde-04092023-145651Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-09-04T18:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
Multigenre part-of-speech tagging for Brazilian Portuguese according to the Universal Dependencies model
title Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
spellingShingle Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
Silva, Emanuel Huber da
Etiquetagem morfossintática
Etiquetagem multigêner
Multigenre tagging
Part-of-Speech tagging
Universal dependencies
Universal Dependencies
title_short Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_full Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_fullStr Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_full_unstemmed Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_sort Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
author Silva, Emanuel Huber da
author_facet Silva, Emanuel Huber da
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Silva, Emanuel Huber da
dc.subject.por.fl_str_mv Etiquetagem morfossintática
Etiquetagem multigêner
Multigenre tagging
Part-of-Speech tagging
Universal dependencies
Universal Dependencies
topic Etiquetagem morfossintática
Etiquetagem multigêner
Multigenre tagging
Part-of-Speech tagging
Universal dependencies
Universal Dependencies
description A etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).
publishDate 2023
dc.date.none.fl_str_mv 2023-06-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257862868303872