Extração de passagens de texto usando um método independente de domínio.

SILVA, Welmisson Jammesson da.

Extração de passagens de texto usando um método independente de domínio.

Detalhes bibliográficos
Ano de defesa:	2009
Autor(a) principal:	SILVA, Welmisson Jammesson da.
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Extração de Informação Dados Não-estruturados Método de Extração Supervisionado Similaridade Estrutural Similaridade Textual Information Extraction Unstructured Data Supervised Extraction Method Structural Similarity Textual Similarity Ciência da Computação
Link de acesso:	https://dspace.sti.ufcg.edu.br/handle/riufcg/4982
Resumo:	Extração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores.

Metadados do item

id	UFCG_14ab62b82c3965f2eb310ea008d358f2
oai_identifier_str	oai:dspace.sti.ufcg.edu.br:riufcg/4982
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling	Extração de passagens de texto usando um método independente de domínio.Extract text strings using a domain-independent method.Extração de InformaçãoDados Não-estruturadosMétodo de Extração SupervisionadoSimilaridade EstruturalSimilaridade TextualInformation ExtractionUnstructured DataSupervised Extraction MethodStructural SimilarityTextual SimilarityCiência da ComputaçãoExtração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores.Information Extraction (IE) is a collection of methods and techniques that have as objective to extract, from semi-structured or non-structured data sources, relevant information. An EI system is able to extract, from textual information sources, only information that is of interest to system users, the parts that are not interesting to users are not extracted. In this work, a new supervised IE method is proposed where the extracted information, text parts, is non-structured; this represents a progress in relation to 'traditional' IE, where the extracted information is structured according to a user-defined template. Being supervised, information extraction from new documents is induced from a previous collection of documents with their marked relevant - parts training set -; however, the method innovates in the sense that the training set can be very small in absolute terms, this way propitiating low cost of its preparation. Another innovation of the method is its extraction technique, that is an appropriate combination of existent techniques. Domain independence and independence of format of documents are other two important characteristics of the method. For the validation of the method, the system TIES-Textual Information Extraction System - was developed and tested with two disparate domains, one on electric power systems and the another on legislation for public administration: the results of the tests, for the two domains, were promising.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGSAMPAIO, Marcus Costa.SAMPAIO, M. C.http://lattes.cnpq.br/7407058401863661SCHIEL, Ulrich.SCHIEL, U.http://lattes.cnpq.br/2971250918247087SILVA, Altigran Soares da.SILVA, A. S.http://lattes.cnpq.br/3405503472010994SILVA, Welmisson Jammesson da.2009-08-112019-07-22T13:08:28Z2019-07-222019-07-22T13:08:28Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://dspace.sti.ufcg.edu.br/handle/riufcg/4982SILVA, Welmisson Jammesson da. Extração de passagens de texto usando um método independente de domínio. 2009. 91 f. Dissertação (Mestrado em Informática) - Programa de Pós-Graduação em Informática, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2009. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/4982porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2025-07-24T07:08:36Zoai:dspace.sti.ufcg.edu.br:riufcg/4982Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512025-07-24T07:08:36Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv	Extração de passagens de texto usando um método independente de domínio. Extract text strings using a domain-independent method.
title	Extração de passagens de texto usando um método independente de domínio.
spellingShingle	Extração de passagens de texto usando um método independente de domínio. SILVA, Welmisson Jammesson da. Extração de Informação Dados Não-estruturados Método de Extração Supervisionado Similaridade Estrutural Similaridade Textual Information Extraction Unstructured Data Supervised Extraction Method Structural Similarity Textual Similarity Ciência da Computação
title_short	Extração de passagens de texto usando um método independente de domínio.
title_full	Extração de passagens de texto usando um método independente de domínio.
title_fullStr	Extração de passagens de texto usando um método independente de domínio.
title_full_unstemmed	Extração de passagens de texto usando um método independente de domínio.
title_sort	Extração de passagens de texto usando um método independente de domínio.
author	SILVA, Welmisson Jammesson da.
author_facet	SILVA, Welmisson Jammesson da.
author_role	author
dc.contributor.none.fl_str_mv	SAMPAIO, Marcus Costa. SAMPAIO, M. C. http://lattes.cnpq.br/7407058401863661 SCHIEL, Ulrich. SCHIEL, U. http://lattes.cnpq.br/2971250918247087 SILVA, Altigran Soares da. SILVA, A. S. http://lattes.cnpq.br/3405503472010994
dc.contributor.author.fl_str_mv	SILVA, Welmisson Jammesson da.
dc.subject.por.fl_str_mv	Extração de Informação Dados Não-estruturados Método de Extração Supervisionado Similaridade Estrutural Similaridade Textual Information Extraction Unstructured Data Supervised Extraction Method Structural Similarity Textual Similarity Ciência da Computação
topic	Extração de Informação Dados Não-estruturados Método de Extração Supervisionado Similaridade Estrutural Similaridade Textual Information Extraction Unstructured Data Supervised Extraction Method Structural Similarity Textual Similarity Ciência da Computação
description	Extração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores.
publishDate	2009
dc.date.none.fl_str_mv	2009-08-11 2019-07-22T13:08:28Z 2019-07-22 2019-07-22T13:08:28Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://dspace.sti.ufcg.edu.br/handle/riufcg/4982 SILVA, Welmisson Jammesson da. Extração de passagens de texto usando um método independente de domínio. 2009. 91 f. Dissertação (Mestrado em Informática) - Programa de Pós-Graduação em Informática, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2009. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/4982
url	https://dspace.sti.ufcg.edu.br/handle/riufcg/4982
identifier_str_mv	SILVA, Welmisson Jammesson da. Extração de passagens de texto usando um método independente de domínio. 2009. 91 f. Dissertação (Mestrado em Informática) - Programa de Pós-Graduação em Informática, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2009. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/4982
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1851784621142835200

Extração de passagens de texto usando um método independente de domínio.

Registros relacionados