Learning non-verbal relations under open information extraction paradigm
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://tede2.pucrs.br/tede2/handle/tede/5275 |
Resumo: | The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs. |
| id |
P_RS_ee4c4d591ce74f7e1a50d701bf24967f |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/5275 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
Learning non-verbal relations under open information extraction paradigmINFORMÁTICAPROCESSAMENTO DA LINGUAGEM NATURALCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.O paradigma Open Information Extraction - Open IE (Extração Aberta de Informações) de extração de relações trabalha com a identificação de relações não definidas previamente, buscando superar as limitações impostas pelos métodos tradicionais de Extração de Informações como a dependência de domínio e a difícil escalabilidade. Visando estender o paradigma Open IE para que sejam extraídas relações não expressas por verbos a partir de textos em inglês, apresentamos CompIE, um componente que aprende relações expressas em compostos nominais (CNs), como (oil, extracted from, olive) - (óleo, extraído da, oliva) - do composto nominal olive oil - óleo de oliva, ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous) - (lua, que é, linda) - do AS gorgeous moon (linda lua). A entrada do CompIE é um arquivo texto, e sua saída é um conjunto de triplas descrevendo relações binárias. Sua arquitetura é composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpretação dos CNs e ASs gerando as triplas que descrevem as relações extraídas do corpus. Para estudar a viabilidade da solução apresentada, realizamos uma avaliação baseada em hipóteses. Um protótipo foi construído com o intuito de validar cada uma das hipóteses. Os resultados obtidos mostram que nossa solução alcança 89% de Precisão e demonstram que o CompIE atinge sua meta de estender o paradigma Open IE extraindo relações expressas dentro dos CNs e ASs.Pontifícia Universidade Católica do Rio Grande do SulFaculdade de InformácaBRPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoLima, Vera Lúcia Strube dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8Xavier, Clarissa Castellã2015-04-14T14:50:19Z2015-03-162014-03-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfXAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.http://tede2.pucrs.br/tede2/handle/tede/5275enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2015-04-29T19:42:02Zoai:tede2.pucrs.br:tede/5275Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-29T19:42:02Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
Learning non-verbal relations under open information extraction paradigm |
| title |
Learning non-verbal relations under open information extraction paradigm |
| spellingShingle |
Learning non-verbal relations under open information extraction paradigm Xavier, Clarissa Castellã INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Learning non-verbal relations under open information extraction paradigm |
| title_full |
Learning non-verbal relations under open information extraction paradigm |
| title_fullStr |
Learning non-verbal relations under open information extraction paradigm |
| title_full_unstemmed |
Learning non-verbal relations under open information extraction paradigm |
| title_sort |
Learning non-verbal relations under open information extraction paradigm |
| author |
Xavier, Clarissa Castellã |
| author_facet |
Xavier, Clarissa Castellã |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lima, Vera Lúcia Strube de http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8 |
| dc.contributor.author.fl_str_mv |
Xavier, Clarissa Castellã |
| dc.subject.por.fl_str_mv |
INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs. |
| publishDate |
2014 |
| dc.date.none.fl_str_mv |
2014-03-12 2015-04-14T14:50:19Z 2015-03-16 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
XAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014. http://tede2.pucrs.br/tede2/handle/tede/5275 |
| identifier_str_mv |
XAVIER, Clarissa Castellã. Learning non-verbal relations under open information extraction paradigm. 2014. 219 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014. |
| url |
http://tede2.pucrs.br/tede2/handle/tede/5275 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041267720814592 |