Analysing semantic resources for coreference resolution

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Lima, Thiago Machado
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/9079
Resumo: Coreference Resolution is the task that consists of identifying mentions in a discourse that refer to the same entity. The task has the potential to improve other Natural Language Processing tasks such as sentiment analysis, information extraction, question answering, and others. Some coreferent relationships can be identified using lexical and syntactical rules, while others require semantic knowledge. However, few works focus on the possible improvements of using semantic knowledge. This work’s objective is to improve the coreference resolution task by using semantic knowledge. For that, we reviewed the semantic resources available for the Portuguese language, and selected ContoPT, Concept-Net and a word embedding model for our experiments. Experiments were performed using CORP, a coreference tool for the Portuguese language which already uses OntoPT as a semantic resource. The evaluation was composed of metrics MUC, B3 and CEAFe, using Corref-PT and Summ-it++ as corpora. Compared to OntoPT, we obtained better results in terms of F-Measure using ContoPT and ConceptNet. The experiments using the semantic similarity rule based in word embeddings was not able to surpass the results obtained with the structured semantic bases. Texts with more semantic relationships were selected for error analysis, and we were able to observe some difficulties involved in the detection of semantic relationships. To overcome these difficulties improvements are proposed. Besides the analysis of available semantic basis, this work brings as contribution a new CORP version, integrated with three new semantic resources, which obtained a higher F-Measure using semantics than the version that uses OntoPT.
id P_RS_09e8daf2c93eb4b29d9fc901a205cbd1
oai_identifier_str oai:tede2.pucrs.br:tede/9079
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Analysing semantic resources for coreference resolutionCoreference ResolutionSemantic KnowledgeCorpus AnalysisResolução de CorreferênciaConhecimento SemânticoAnálise de CorpusCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOCoreference Resolution is the task that consists of identifying mentions in a discourse that refer to the same entity. The task has the potential to improve other Natural Language Processing tasks such as sentiment analysis, information extraction, question answering, and others. Some coreferent relationships can be identified using lexical and syntactical rules, while others require semantic knowledge. However, few works focus on the possible improvements of using semantic knowledge. This work’s objective is to improve the coreference resolution task by using semantic knowledge. For that, we reviewed the semantic resources available for the Portuguese language, and selected ContoPT, Concept-Net and a word embedding model for our experiments. Experiments were performed using CORP, a coreference tool for the Portuguese language which already uses OntoPT as a semantic resource. The evaluation was composed of metrics MUC, B3 and CEAFe, using Corref-PT and Summ-it++ as corpora. Compared to OntoPT, we obtained better results in terms of F-Measure using ContoPT and ConceptNet. The experiments using the semantic similarity rule based in word embeddings was not able to surpass the results obtained with the structured semantic bases. Texts with more semantic relationships were selected for error analysis, and we were able to observe some difficulties involved in the detection of semantic relationships. To overcome these difficulties improvements are proposed. Besides the analysis of available semantic basis, this work brings as contribution a new CORP version, integrated with three new semantic resources, which obtained a higher F-Measure using semantics than the version that uses OntoPT.Resolução de Correferência é uma tarefa que consiste em identificar menções em um discurso que se referem a uma mesma entidade. A tarefa tem o potencial de aprimorar outras tarefas de Processamento de Linguagem Natural como análise de sentimentos, extração de informação, sistemas de pergunta-resposta, entre outras. Algumas relações de correferência podem ser identificadas utilizando-se regras lexicais e sintáticas, enquanto para outras é necessário conhecimento semântico. No entanto, poucos trabalhos de resolução de correferência focaram em melhorias que possam ser realizadas com conhecimento semântico. O objetivo deste trabalho é aprimorar a tarefa de resolução de correferência utilizando semântica. Para isso, foram revisados os recursos semânticos disponíveis para o Português, dos quais foram selecionados para os experimentos o ContoPT, o Concept- Net e um modelo de word embeddings. Os experimentos foram realizados no CORP, uma ferramenta de correferência para o Português que já utiliza o OntoPT como recurso semântico. A avaliação foi composta pelas métricas MUC, B3 e CEAFe, utilizando-se os corpora Corref-PT e Summ-it++. Ao comparar com o OntoPT, obtivemos melhores resultados em termos de Medida-F utilizando o ContoPT e o ConceptNet. Nos experimentos com a regra de similaridade semântica que utiliza o modelo de word embeddings não foi posível atingirmos os resultados obtidos com as bases semânticas estruturadas. Textos com mais relações semânticas foram selecionados para análise de erros, na qual observamos algumasdificuldades envolvendo a detecção de relacionamentos semânticos. Para tratar essas dificuldades foram propostas melhorias. Como contribuição este trabalho traz, além da análise das bases, uma nova versão do CORP integrada com três novos recursos semânticos. A nova versão obteve uma maior Medida-F utilizando semântica em relação à versão anterior que utiliza o OntoPT.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoVieira, Renatahttp://lattes.cnpq.br/6218967777630412Collovini, Sandrahttp://lattes.cnpq.br/0943477449872196Lima, Thiago Machado2020-01-27T20:28:16Z2019-03-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://tede2.pucrs.br/tede2/handle/tede/9079enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2020-01-27T22:00:18Zoai:tede2.pucrs.br:tede/9079Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2020-01-27T22:00:18Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Analysing semantic resources for coreference resolution
title Analysing semantic resources for coreference resolution
spellingShingle Analysing semantic resources for coreference resolution
Lima, Thiago Machado
Coreference Resolution
Semantic Knowledge
Corpus Analysis
Resolução de Correferência
Conhecimento Semântico
Análise de Corpus
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Analysing semantic resources for coreference resolution
title_full Analysing semantic resources for coreference resolution
title_fullStr Analysing semantic resources for coreference resolution
title_full_unstemmed Analysing semantic resources for coreference resolution
title_sort Analysing semantic resources for coreference resolution
author Lima, Thiago Machado
author_facet Lima, Thiago Machado
author_role author
dc.contributor.none.fl_str_mv Vieira, Renata
http://lattes.cnpq.br/6218967777630412
Collovini, Sandra
http://lattes.cnpq.br/0943477449872196
dc.contributor.author.fl_str_mv Lima, Thiago Machado
dc.subject.por.fl_str_mv Coreference Resolution
Semantic Knowledge
Corpus Analysis
Resolução de Correferência
Conhecimento Semântico
Análise de Corpus
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic Coreference Resolution
Semantic Knowledge
Corpus Analysis
Resolução de Correferência
Conhecimento Semântico
Análise de Corpus
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Coreference Resolution is the task that consists of identifying mentions in a discourse that refer to the same entity. The task has the potential to improve other Natural Language Processing tasks such as sentiment analysis, information extraction, question answering, and others. Some coreferent relationships can be identified using lexical and syntactical rules, while others require semantic knowledge. However, few works focus on the possible improvements of using semantic knowledge. This work’s objective is to improve the coreference resolution task by using semantic knowledge. For that, we reviewed the semantic resources available for the Portuguese language, and selected ContoPT, Concept-Net and a word embedding model for our experiments. Experiments were performed using CORP, a coreference tool for the Portuguese language which already uses OntoPT as a semantic resource. The evaluation was composed of metrics MUC, B3 and CEAFe, using Corref-PT and Summ-it++ as corpora. Compared to OntoPT, we obtained better results in terms of F-Measure using ContoPT and ConceptNet. The experiments using the semantic similarity rule based in word embeddings was not able to surpass the results obtained with the structured semantic bases. Texts with more semantic relationships were selected for error analysis, and we were able to observe some difficulties involved in the detection of semantic relationships. To overcome these difficulties improvements are proposed. Besides the analysis of available semantic basis, this work brings as contribution a new CORP version, integrated with three new semantic resources, which obtained a higher F-Measure using semantics than the version that uses OntoPT.
publishDate 2019
dc.date.none.fl_str_mv 2019-03-15
2020-01-27T20:28:16Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/9079
url http://tede2.pucrs.br/tede2/handle/tede/9079
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041298048778240