RePort: um sistema de extração aberta de informações para língua portuguesa

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Pereira, Victor dos Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/109022
Resumo: Um campo emergente de pesquisa em Processamento e Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Aberta (em inglês - Open Information Extraction Systems - Open IE systems, em inglês) que têm como a principal característica não necessitar de definição a priori dos tipos de relações semânticas a serem extraídas de textos, visando padrões genéricos para a extração de quaisquer informações independente de domínio. Seguindo este paradigma, este trabalho apresenta o RePort ¿ um Sistema de Extração de Informações Aberta para Língua Portuguesa, projetado para escalar bases massivas de dados e extrair de quaisquer tipos de relações mediadas por verbo a partir de documentos textuais em português. Como contribuições secundárias deste trabalho têm-se um Golden Standard composto dos textos e suas respectivas relações semânticas anotadas; um léxico de relações verbais gerado a partir do corpus CETENFolha; e métodos genéricos para criação e evolução do léxico de relações verbais a partir de corpora ou consultas na Web. Avaliações experimentais em corpus bilíngue inglês-português evidenciou a necessidade de conhecimento linguístico para adaptar o sistema correlato em língua inglesa ¿ ReVerb. Em uma segunda análise, avaliações automáticas do RePort apontou que este obteve seus melhores resultados utilizando o léxico de relações verbais ampliado, próximo ao estado da arte, quando considerada apenas a extração de relações verbais. Por fim, cumpre salientar a importância do sistema RePort, e das demais contribuições e análises aqui apresentadas para evolução da área de Open IE system para o português. Palavras-chave: Linguística Computacional, Inteligência Artificial, Processamento de Linguagem Natural, Extração de Informações, Sistemas de Extração de Informações Aberta, Língua Portuguesa.
id UFOR_af3940d15ac688a3b8afafbcdeb51662
oai_identifier_str oai::109022
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling RePort: um sistema de extração aberta de informações para língua portuguesaLinguagem naturalInteligência artificialUm campo emergente de pesquisa em Processamento e Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Aberta (em inglês - Open Information Extraction Systems - Open IE systems, em inglês) que têm como a principal característica não necessitar de definição a priori dos tipos de relações semânticas a serem extraídas de textos, visando padrões genéricos para a extração de quaisquer informações independente de domínio. Seguindo este paradigma, este trabalho apresenta o RePort ¿ um Sistema de Extração de Informações Aberta para Língua Portuguesa, projetado para escalar bases massivas de dados e extrair de quaisquer tipos de relações mediadas por verbo a partir de documentos textuais em português. Como contribuições secundárias deste trabalho têm-se um Golden Standard composto dos textos e suas respectivas relações semânticas anotadas; um léxico de relações verbais gerado a partir do corpus CETENFolha; e métodos genéricos para criação e evolução do léxico de relações verbais a partir de corpora ou consultas na Web. Avaliações experimentais em corpus bilíngue inglês-português evidenciou a necessidade de conhecimento linguístico para adaptar o sistema correlato em língua inglesa ¿ ReVerb. Em uma segunda análise, avaliações automáticas do RePort apontou que este obteve seus melhores resultados utilizando o léxico de relações verbais ampliado, próximo ao estado da arte, quando considerada apenas a extração de relações verbais. Por fim, cumpre salientar a importância do sistema RePort, e das demais contribuições e análises aqui apresentadas para evolução da área de Open IE system para o português. Palavras-chave: Linguística Computacional, Inteligência Artificial, Processamento de Linguagem Natural, Extração de Informações, Sistemas de Extração de Informações Aberta, Língua Portuguesa.An emerging Natural Language Processing (NLP) research field proposes Open Information Extraction Systems (Open IE systems) which the main feature is do not need predefined semantic relations for text extraction and instead of this aims at generic standards to extract any domain-independent information. Following this paradigm, this work introduces RePort - an Open Information Extraction System for Portuguese Language, which is designed to scale massive data bases and extract any kind of verb-mediated relationships from Portuguese plain text files. The work¿s other contributions are as follows: a Golden Standard relation-labeled sentences in Portuguese; a lexical database of verbal relations generated from CETENFolha corpus; and generic methods for the creation and evolution of this lexical database of verbal relations via corpora or web queries. Experimental evaluations in English-Portuguese bilingual corpus show the need for linguistic knowledge to adapt the correlated system ¿ ReVerb from English to Portuguese. Based on a second analysis, an automatic evaluation of RePort achieves best results using the extended lexical database of verbal relations and is near to the state-of-the art, when considered only the extraction¿s verbal relations. Finally, it is important to point out the importance of the RePort system, and of the other contributions and analyzes show here aim at evolution of the Open IE system area for Portuguese Language. Keywords: Computational Linguistics, Artificial Intelligence, Natural Language Processing, Information Extraction, Open Information Extraction System, Portuguese Language.Pinheiro, Vladia Celia MonteiroPinheiro, Vladia Celia MonteiroAraripe, Leonel Figueiredo de AlencarFurtado, João José Vasco PeixotoUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaPereira, Victor dos Santos2016info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/109022https://uol.unifor.br/auth-sophia/exibicao/16241Disponibilidade forma física: Existe obra impressa de código : 99913porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2024-01-25T20:48:02Zoai::109022Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2024-01-25T20:48:02Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv RePort: um sistema de extração aberta de informações para língua portuguesa
title RePort: um sistema de extração aberta de informações para língua portuguesa
spellingShingle RePort: um sistema de extração aberta de informações para língua portuguesa
Pereira, Victor dos Santos
Linguagem natural
Inteligência artificial
title_short RePort: um sistema de extração aberta de informações para língua portuguesa
title_full RePort: um sistema de extração aberta de informações para língua portuguesa
title_fullStr RePort: um sistema de extração aberta de informações para língua portuguesa
title_full_unstemmed RePort: um sistema de extração aberta de informações para língua portuguesa
title_sort RePort: um sistema de extração aberta de informações para língua portuguesa
author Pereira, Victor dos Santos
author_facet Pereira, Victor dos Santos
author_role author
dc.contributor.none.fl_str_mv Pinheiro, Vladia Celia Monteiro
Pinheiro, Vladia Celia Monteiro
Araripe, Leonel Figueiredo de Alencar
Furtado, João José Vasco Peixoto
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Pereira, Victor dos Santos
dc.subject.por.fl_str_mv Linguagem natural
Inteligência artificial
topic Linguagem natural
Inteligência artificial
description Um campo emergente de pesquisa em Processamento e Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Aberta (em inglês - Open Information Extraction Systems - Open IE systems, em inglês) que têm como a principal característica não necessitar de definição a priori dos tipos de relações semânticas a serem extraídas de textos, visando padrões genéricos para a extração de quaisquer informações independente de domínio. Seguindo este paradigma, este trabalho apresenta o RePort ¿ um Sistema de Extração de Informações Aberta para Língua Portuguesa, projetado para escalar bases massivas de dados e extrair de quaisquer tipos de relações mediadas por verbo a partir de documentos textuais em português. Como contribuições secundárias deste trabalho têm-se um Golden Standard composto dos textos e suas respectivas relações semânticas anotadas; um léxico de relações verbais gerado a partir do corpus CETENFolha; e métodos genéricos para criação e evolução do léxico de relações verbais a partir de corpora ou consultas na Web. Avaliações experimentais em corpus bilíngue inglês-português evidenciou a necessidade de conhecimento linguístico para adaptar o sistema correlato em língua inglesa ¿ ReVerb. Em uma segunda análise, avaliações automáticas do RePort apontou que este obteve seus melhores resultados utilizando o léxico de relações verbais ampliado, próximo ao estado da arte, quando considerada apenas a extração de relações verbais. Por fim, cumpre salientar a importância do sistema RePort, e das demais contribuições e análises aqui apresentadas para evolução da área de Open IE system para o português. Palavras-chave: Linguística Computacional, Inteligência Artificial, Processamento de Linguagem Natural, Extração de Informações, Sistemas de Extração de Informações Aberta, Língua Portuguesa.
publishDate 2016
dc.date.none.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/109022
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/109022
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/16241
Disponibilidade forma física: Existe obra impressa de código : 99913
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1800408755499696128