Extraction d information adaptative de pages web par induction supervisée d extracteurs

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: José de Lima, Rinaldo
Orientador(a): Luiz Goncalves de Freitas, Frederico
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: fra
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/2000
Resumo: A Extração de Informação (EI) compreende técnicas e algoritmos que realisam duas tarefas importantes: a identificação de informações desejadas a partir de documentos estruturados e não-estruturados, e o armazenamento dessas informações em um formato apropriado para uso futuro. Este trabalho concentrase nos sistemas d'EI adaptativos que podem ser customizados para novos domínios através de um processo de treinamento (Machine Learning) usando coleções de documentos anotados como entrada. Particularmente, técnicas de induçao automática de wrappers são estudadas para extração de informação que se baseiam na exploração de regularidades estruturais encontradas em documentos Web. Wrappers são procedimentos para extrair dados de documentos. A indução de wrappers é definida como uma técnica de extração de informação que usa algoritmos de aprendizado de máquina para automaticamente construir wrappers a partir de um corpus previamente anotado e que tem mostrado bons resultados quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de extração que combina, no final do processo, um conjunto de wrapers específicos por voto ponderado. Alguns autores tem estudado como as técnicas de boosting contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando a direção desafiadora de usá-lo como um método de extração de informação para documentos não-estruturados em linguaguem natural. Este fato foi a principal motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento do sistema d'EI ora proposto. Afim de se avaliar o desempenho do sistema, vários experimentos foram executados usando-se três corpora como testbed para a tarefa de extração de informação no preenchimento de esquemas de extração (template filling task). Outros experimentos foram também conduzidos usando-se diversas combinações de atributos para sistematicamente avaliar os efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os resultados obtidos experimentalmente mostraram que o desempenho geral do sistema proposto é comparável a outros sistemas de EI do estado da arte
id UFPE_bb7dc0bd8135bcb08814a6f0e6cba63f
oai_identifier_str oai:repositorio.ufpe.br:123456789/2000
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling José de Lima, RinaldoLuiz Goncalves de Freitas, Frederico 2014-06-12T15:53:44Z2014-06-12T15:53:44Z2009-01-31José de Lima, Rinaldo; Luiz Goncalves de Freitas, Frederico. Extraction d information adaptative de pages web par induction supervisée d extracteurs. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.https://repositorio.ufpe.br/handle/123456789/2000A Extração de Informação (EI) compreende técnicas e algoritmos que realisam duas tarefas importantes: a identificação de informações desejadas a partir de documentos estruturados e não-estruturados, e o armazenamento dessas informações em um formato apropriado para uso futuro. Este trabalho concentrase nos sistemas d'EI adaptativos que podem ser customizados para novos domínios através de um processo de treinamento (Machine Learning) usando coleções de documentos anotados como entrada. Particularmente, técnicas de induçao automática de wrappers são estudadas para extração de informação que se baseiam na exploração de regularidades estruturais encontradas em documentos Web. Wrappers são procedimentos para extrair dados de documentos. A indução de wrappers é definida como uma técnica de extração de informação que usa algoritmos de aprendizado de máquina para automaticamente construir wrappers a partir de um corpus previamente anotado e que tem mostrado bons resultados quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de extração que combina, no final do processo, um conjunto de wrapers específicos por voto ponderado. Alguns autores tem estudado como as técnicas de boosting contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando a direção desafiadora de usá-lo como um método de extração de informação para documentos não-estruturados em linguaguem natural. Este fato foi a principal motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento do sistema d'EI ora proposto. Afim de se avaliar o desempenho do sistema, vários experimentos foram executados usando-se três corpora como testbed para a tarefa de extração de informação no preenchimento de esquemas de extração (template filling task). Outros experimentos foram também conduzidos usando-se diversas combinações de atributos para sistematicamente avaliar os efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os resultados obtidos experimentalmente mostraram que o desempenho geral do sistema proposto é comparável a outros sistemas de EI do estado da artefraUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessExtraction d'informationInduction d'extracteursClassification SuperviséeParties du DiscoursApprentissage MachineExtraction d information adaptative de pages web par induction supervisée d extracteursinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALarquivo1927_1.pdfapplication/pdf1553346https://repositorio.ufpe.br/bitstream/123456789/2000/1/arquivo1927_1.pdf9cb96fb0a0fd3a50810d1ec103dedc95MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/2000/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo1927_1.pdf.txtarquivo1927_1.pdf.txtExtracted texttext/plain250154https://repositorio.ufpe.br/bitstream/123456789/2000/3/arquivo1927_1.pdf.txt4088667c0aa14aac8d5570461f276c8bMD53THUMBNAILarquivo1927_1.pdf.jpgarquivo1927_1.pdf.jpgGenerated Thumbnailimage/jpeg1362https://repositorio.ufpe.br/bitstream/123456789/2000/4/arquivo1927_1.pdf.jpgbeeff12b263a5d9735bb0fd9d850cba9MD54123456789/20002019-10-25 02:50:18.552oai:repositorio.ufpe.br:123456789/2000Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T05:50:18Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Extraction d information adaptative de pages web par induction supervisée d extracteurs
title Extraction d information adaptative de pages web par induction supervisée d extracteurs
spellingShingle Extraction d information adaptative de pages web par induction supervisée d extracteurs
José de Lima, Rinaldo
Extraction d'information
Induction d'extracteurs
Classification Supervisée
Parties du Discours
Apprentissage Machine
title_short Extraction d information adaptative de pages web par induction supervisée d extracteurs
title_full Extraction d information adaptative de pages web par induction supervisée d extracteurs
title_fullStr Extraction d information adaptative de pages web par induction supervisée d extracteurs
title_full_unstemmed Extraction d information adaptative de pages web par induction supervisée d extracteurs
title_sort Extraction d information adaptative de pages web par induction supervisée d extracteurs
author José de Lima, Rinaldo
author_facet José de Lima, Rinaldo
author_role author
dc.contributor.author.fl_str_mv José de Lima, Rinaldo
dc.contributor.advisor1.fl_str_mv Luiz Goncalves de Freitas, Frederico
contributor_str_mv Luiz Goncalves de Freitas, Frederico
dc.subject.por.fl_str_mv Extraction d'information
Induction d'extracteurs
Classification Supervisée
Parties du Discours
Apprentissage Machine
topic Extraction d'information
Induction d'extracteurs
Classification Supervisée
Parties du Discours
Apprentissage Machine
description A Extração de Informação (EI) compreende técnicas e algoritmos que realisam duas tarefas importantes: a identificação de informações desejadas a partir de documentos estruturados e não-estruturados, e o armazenamento dessas informações em um formato apropriado para uso futuro. Este trabalho concentrase nos sistemas d'EI adaptativos que podem ser customizados para novos domínios através de um processo de treinamento (Machine Learning) usando coleções de documentos anotados como entrada. Particularmente, técnicas de induçao automática de wrappers são estudadas para extração de informação que se baseiam na exploração de regularidades estruturais encontradas em documentos Web. Wrappers são procedimentos para extrair dados de documentos. A indução de wrappers é definida como uma técnica de extração de informação que usa algoritmos de aprendizado de máquina para automaticamente construir wrappers a partir de um corpus previamente anotado e que tem mostrado bons resultados quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de extração que combina, no final do processo, um conjunto de wrapers específicos por voto ponderado. Alguns autores tem estudado como as técnicas de boosting contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando a direção desafiadora de usá-lo como um método de extração de informação para documentos não-estruturados em linguaguem natural. Este fato foi a principal motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento do sistema d'EI ora proposto. Afim de se avaliar o desempenho do sistema, vários experimentos foram executados usando-se três corpora como testbed para a tarefa de extração de informação no preenchimento de esquemas de extração (template filling task). Outros experimentos foram também conduzidos usando-se diversas combinações de atributos para sistematicamente avaliar os efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os resultados obtidos experimentalmente mostraram que o desempenho geral do sistema proposto é comparável a outros sistemas de EI do estado da arte
publishDate 2009
dc.date.issued.fl_str_mv 2009-01-31
dc.date.accessioned.fl_str_mv 2014-06-12T15:53:44Z
dc.date.available.fl_str_mv 2014-06-12T15:53:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv José de Lima, Rinaldo; Luiz Goncalves de Freitas, Frederico. Extraction d information adaptative de pages web par induction supervisée d extracteurs. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/2000
identifier_str_mv José de Lima, Rinaldo; Luiz Goncalves de Freitas, Frederico. Extraction d information adaptative de pages web par induction supervisée d extracteurs. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
url https://repositorio.ufpe.br/handle/123456789/2000
dc.language.iso.fl_str_mv fra
language fra
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/2000/1/arquivo1927_1.pdf
https://repositorio.ufpe.br/bitstream/123456789/2000/2/license.txt
https://repositorio.ufpe.br/bitstream/123456789/2000/3/arquivo1927_1.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/2000/4/arquivo1927_1.pdf.jpg
bitstream.checksum.fl_str_mv 9cb96fb0a0fd3a50810d1ec103dedc95
8a4605be74aa9ea9d79846c1fba20a33
4088667c0aa14aac8d5570461f276c8b
beeff12b263a5d9735bb0fd9d850cba9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1862742003108806656