Learning non-verbal relations under open information extraction paradigm

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Xavier, Clarissa Castellã
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informáca
BR
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/5275
Resumo: The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.
id P_RS_ee4c4d591ce74f7e1a50d701bf24967f
oai_identifier_str oai:tede2.pucrs.br:tede/5275
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Learning non-verbal relations under open information extraction paradigmINFORMÁTICAPROCESSAMENTO DA LINGUAGEM NATURALCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.O paradigma Open Information Extraction - Open IE (Extração Aberta de Informações) de extração de relações trabalha com a identificação de relações não definidas previamente, buscando superar as limitações impostas pelos métodos tradicionais de Extração de Informações como a dependência de domínio e a difícil escalabilidade. Visando estender o paradigma Open IE para que sejam extraídas relações não expressas por verbos a partir de textos em inglês, apresentamos CompIE, um componente que aprende relações expressas em compostos nominais (CNs), como (oil, extracted from, olive) - (óleo, extraído da, oliva) - do composto nominal olive oil - óleo de oliva, ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous) - (lua, que é, linda) - do AS gorgeous moon (linda lua). A entrada do CompIE é um arquivo texto, e sua saída é um conjunto de triplas descrevendo relações binárias. Sua arquitetura é composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpretação dos CNs e ASs gerando as triplas que descrevem as relações extraídas do corpus. Para estudar a viabilidade da solução apresentada, realizamos uma avaliação baseada em hipóteses. Um protótipo foi construído com o intuito de validar cada uma das hipóteses. Os resultados obtidos mostram que nossa solução alcança 89% de Precisão e demonstram que o CompIE atinge sua meta de estender o paradigma Open IE extraindo relações expressas dentro dos CNs e ASs.Pontifícia Universidade Católica do Rio Grande do SulFaculdade de InformácaBRPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoLima, Vera Lúcia Strube dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8Xavier, Clarissa Castellã2015-04-14T14:50:19Z2015-03-162014-03-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfXAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.http://tede2.pucrs.br/tede2/handle/tede/5275enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2015-04-29T19:42:02Zoai:tede2.pucrs.br:tede/5275Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-29T19:42:02Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Learning non-verbal relations under open information extraction paradigm
title Learning non-verbal relations under open information extraction paradigm
spellingShingle Learning non-verbal relations under open information extraction paradigm
Xavier, Clarissa Castellã
INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Learning non-verbal relations under open information extraction paradigm
title_full Learning non-verbal relations under open information extraction paradigm
title_fullStr Learning non-verbal relations under open information extraction paradigm
title_full_unstemmed Learning non-verbal relations under open information extraction paradigm
title_sort Learning non-verbal relations under open information extraction paradigm
author Xavier, Clarissa Castellã
author_facet Xavier, Clarissa Castellã
author_role author
dc.contributor.none.fl_str_mv Lima, Vera Lúcia Strube de
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8
dc.contributor.author.fl_str_mv Xavier, Clarissa Castellã
dc.subject.por.fl_str_mv INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.
publishDate 2014
dc.date.none.fl_str_mv 2014-03-12
2015-04-14T14:50:19Z
2015-03-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv XAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.
http://tede2.pucrs.br/tede2/handle/tede/5275
identifier_str_mv XAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.
url http://tede2.pucrs.br/tede2/handle/tede/5275
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informáca
BR
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informáca
BR
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041267720814592