Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies

Silva, Emanuel Huber da

Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Silva, Emanuel Huber da
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Etiquetagem morfossintática Etiquetagem multigêner Multigenre tagging Part-of-Speech tagging Universal dependencies Universal Dependencies
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
Resumo:	A etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).

Metadados do item

id	USP_4a04dd1c5e98da974efd69c470738e08
oai_identifier_str	oai:teses.usp.br:tde-04092023-145651
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal DependenciesMultigenre part-of-speech tagging for Brazilian Portuguese according to the Universal Dependencies modelEtiquetagem morfossintáticaEtiquetagem multigênerMultigenre taggingPart-of-Speech taggingUniversal dependenciesUniversal DependenciesA etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).Part-of-Speech tagging is one of the first levels of linguistic structuring. Lying between morphology and syntax, and seeks to identify the grammatical classes of each word or token. The task is necessary for morphosyntactic disambiguation and, consequently, for the creation of more robust Natural Language Processing tools and methods. In this line, there is a variety of work for Brazilian Portuguese using journalistic genre corpus with different sets of tags. The Universal Dependencies (UD) formalism is the linguistic theory that has been most adopted by corpora in the area, which allows standardization across different languages and textual genres, including the set of morphosyntactic tags. Although there are works on taggers for Brazilian Portuguese based on several formalisms, there are few works based on UD. Furthermore, there is a dearth of works that address corpus with a variety of textual genres. Each text genre has different linguistic characteristics and, consequently, presents challenges for tagging methods. In this project, we investigated morphosyntactic tagging methods for Brazilian Portuguese adopting the UD formalism. Notably, the analysis in the multigenre context with journalistic, academic and User-Generated Content (UGC) texts.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSilva, Emanuel Huber da2023-06-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-09-04T18:06:02Zoai:teses.usp.br:tde-04092023-145651Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212023-09-04T18:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies Multigenre part-of-speech tagging for Brazilian Portuguese according to the Universal Dependencies model
title	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
spellingShingle	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies Silva, Emanuel Huber da Etiquetagem morfossintática Etiquetagem multigêner Multigenre tagging Part-of-Speech tagging Universal dependencies Universal Dependencies
title_short	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_full	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_fullStr	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_full_unstemmed	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
title_sort	Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
author	Silva, Emanuel Huber da
author_facet	Silva, Emanuel Huber da
author_role	author
dc.contributor.none.fl_str_mv	Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv	Silva, Emanuel Huber da
dc.subject.por.fl_str_mv	Etiquetagem morfossintática Etiquetagem multigêner Multigenre tagging Part-of-Speech tagging Universal dependencies Universal Dependencies
topic	Etiquetagem morfossintática Etiquetagem multigêner Multigenre tagging Part-of-Speech tagging Universal dependencies Universal Dependencies
description	A etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).
publishDate	2023
dc.date.none.fl_str_mv	2023-06-05
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
url	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092023-145651/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865490878983831552

Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies

Registros relacionados