[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: ELVIS ALVES DE SOUZA
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2
http://doi.org/10.17771/PUCRio.acad.62693
Resumo: [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior.
id PUC_RIO-1_bd5cdfd218c9b00c80c33dec45c76279
oai_identifier_str oai:MAXWELL.puc-rio.br:62693
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO [pt] LINGUISTICA COMPUTACIONAL[pt] ANOTACAO DE CORPUS[pt] TREEBANKS[pt] DESCRICAO DO PORTUGUES[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] COMPUTATIONAL LINGUISTICS[en] CORPUS ANNOTATION[en] TREEBANKS[en] PORTUGUESE DESCRIPTION[en] NATURAL LANGUAGE PROCESSING[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version.MAXWELLMARIA CLAUDIA DE FREITASMARIA CLAUDIA DE FREITASMARIA CLAUDIA DE FREITASELVIS ALVES DE SOUZA2023-05-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2http://doi.org/10.17771/PUCRio.acad.62693porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2023-05-29T00:00:00Zoai:MAXWELL.puc-rio.br:62693Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342023-05-29T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
[pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO
title [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
spellingShingle [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
ELVIS ALVES DE SOUZA
[pt] LINGUISTICA COMPUTACIONAL
[pt] ANOTACAO DE CORPUS
[pt] TREEBANKS
[pt] DESCRICAO DO PORTUGUES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] COMPUTATIONAL LINGUISTICS
[en] CORPUS ANNOTATION
[en] TREEBANKS
[en] PORTUGUESE DESCRIPTION
[en] NATURAL LANGUAGE PROCESSING
title_short [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
title_full [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
title_fullStr [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
title_full_unstemmed [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
title_sort [en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
author ELVIS ALVES DE SOUZA
author_facet ELVIS ALVES DE SOUZA
author_role author
dc.contributor.none.fl_str_mv MARIA CLAUDIA DE FREITAS
MARIA CLAUDIA DE FREITAS
MARIA CLAUDIA DE FREITAS
dc.contributor.author.fl_str_mv ELVIS ALVES DE SOUZA
dc.subject.por.fl_str_mv [pt] LINGUISTICA COMPUTACIONAL
[pt] ANOTACAO DE CORPUS
[pt] TREEBANKS
[pt] DESCRICAO DO PORTUGUES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] COMPUTATIONAL LINGUISTICS
[en] CORPUS ANNOTATION
[en] TREEBANKS
[en] PORTUGUESE DESCRIPTION
[en] NATURAL LANGUAGE PROCESSING
topic [pt] LINGUISTICA COMPUTACIONAL
[pt] ANOTACAO DE CORPUS
[pt] TREEBANKS
[pt] DESCRICAO DO PORTUGUES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] COMPUTATIONAL LINGUISTICS
[en] CORPUS ANNOTATION
[en] TREEBANKS
[en] PORTUGUESE DESCRIPTION
[en] NATURAL LANGUAGE PROCESSING
description [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2
http://doi.org/10.17771/PUCRio.acad.62693
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2
http://doi.org/10.17771/PUCRio.acad.62693
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1862548652616056832