[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
MAXWELL
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2 http://doi.org/10.17771/PUCRio.acad.62693 |
Resumo: | [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. |
| id |
PUC_RIO-1_bd5cdfd218c9b00c80c33dec45c76279 |
|---|---|
| oai_identifier_str |
oai:MAXWELL.puc-rio.br:62693 |
| network_acronym_str |
PUC_RIO-1 |
| network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository_id_str |
|
| spelling |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO [pt] LINGUISTICA COMPUTACIONAL[pt] ANOTACAO DE CORPUS[pt] TREEBANKS[pt] DESCRICAO DO PORTUGUES[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] COMPUTATIONAL LINGUISTICS[en] CORPUS ANNOTATION[en] TREEBANKS[en] PORTUGUESE DESCRIPTION[en] NATURAL LANGUAGE PROCESSING[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version.MAXWELLMARIA CLAUDIA DE FREITASMARIA CLAUDIA DE FREITASMARIA CLAUDIA DE FREITASELVIS ALVES DE SOUZA2023-05-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2http://doi.org/10.17771/PUCRio.acad.62693porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2023-05-29T00:00:00Zoai:MAXWELL.puc-rio.br:62693Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342023-05-29T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
| dc.title.none.fl_str_mv |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO |
| title |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| spellingShingle |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK ELVIS ALVES DE SOUZA [pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING |
| title_short |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| title_full |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| title_fullStr |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| title_full_unstemmed |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| title_sort |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK |
| author |
ELVIS ALVES DE SOUZA |
| author_facet |
ELVIS ALVES DE SOUZA |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
MARIA CLAUDIA DE FREITAS MARIA CLAUDIA DE FREITAS MARIA CLAUDIA DE FREITAS |
| dc.contributor.author.fl_str_mv |
ELVIS ALVES DE SOUZA |
| dc.subject.por.fl_str_mv |
[pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING |
| topic |
[pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING |
| description |
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-05-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2 http://doi.org/10.17771/PUCRio.acad.62693 |
| url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693&idi=2 http://doi.org/10.17771/PUCRio.acad.62693 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
MAXWELL |
| publisher.none.fl_str_mv |
MAXWELL |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
| instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| instacron_str |
PUC_RIO |
| institution |
PUC_RIO |
| reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| repository.mail.fl_str_mv |
|
| _version_ |
1862548652616056832 |