Recuperação de informação com auxílio de extratos automáticos

Detalhes bibliográficos
Ano de defesa: 2006
Autor(a) principal: Batista Junior, Wilson dos Santos
Orientador(a): Rino, Lúcia Helena Machado lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: BR
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/314
Resumo: This dissertation investigates the use of Automatic Summarization (AS) techniques on Information Retrieval (IR), two areas that have attracted growing attention due to the continuous growth of information repositories in digital format. The main goal of this work is to verify the contribution of extracts generated automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In general, the main goal of both phases is to find the most descriptive terms of a given document. This goal in turn is strongly related to that of the AS techniques to summarize the main parts of a document which justifies the study. In order to verify the effectiveness of the AS techniques, we have developed five systems that use extracts generated by a summarizing system that was considered useful in the task of indicating the content of documents to human readers. These systems were assessed through a set of documents written in Portuguese to test IR. In general, the results show that the generated extracts were not useful for indexing, presenting worse performance compared to when using a full document for IR. In the PRF case, however, the results obtained using specific extracts were better than those obtained by a system that does not embed PRF. The best results were obtained when using query-biased multi-documents extracts, indicating that this type of extract may be useful for PRF.
id SCAR_d5c48a5e7dd33b9df0236d36c5f79f7a
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/314
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Batista Junior, Wilson dos SantosRino, Lúcia Helena Machadohttp://lattes.cnpq.br/0315640846525832a6a84ef2-fc03-4d9d-b841-bf5a250863992016-06-02T19:05:17Z2007-10-192016-06-02T19:05:17Z2006-05-08BATISTA JUNIOR, Wilson dos Santos. Recuperação de informação com auxílio de extratos automáticos. 2006. 139 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.https://repositorio.ufscar.br/handle/20.500.14289/314This dissertation investigates the use of Automatic Summarization (AS) techniques on Information Retrieval (IR), two areas that have attracted growing attention due to the continuous growth of information repositories in digital format. The main goal of this work is to verify the contribution of extracts generated automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In general, the main goal of both phases is to find the most descriptive terms of a given document. This goal in turn is strongly related to that of the AS techniques to summarize the main parts of a document which justifies the study. In order to verify the effectiveness of the AS techniques, we have developed five systems that use extracts generated by a summarizing system that was considered useful in the task of indicating the content of documents to human readers. These systems were assessed through a set of documents written in Portuguese to test IR. In general, the results show that the generated extracts were not useful for indexing, presenting worse performance compared to when using a full document for IR. In the PRF case, however, the results obtained using specific extracts were better than those obtained by a system that does not embed PRF. The best results were obtained when using query-biased multi-documents extracts, indicating that this type of extract may be useful for PRF.Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente número de repositórios de informação digital disponíveis, têm se mostrado muito importantes para a captura de informações. O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as principais partes do documento, o que justifica o emprego. Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRInteligência artificialProcessamento da linguagem naturalSumarização automáticaSistemas de recuperação da informaçãoCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORecuperação de informação com auxílio de extratos automáticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis629307e8-d9f0-4e50-b2e4-e495b4d8b0fbinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissWSBJ.pdfapplication/pdf1130582https://repositorio.ufscar.br/bitstreams/f2f4c59b-3d5b-49f2-b863-0bf9ae0d3066/downloadcddbd8f8a11a6e29a95cea9e62612f2bMD51trueAnonymousREADTEXTDissWSBJ.pdf.txtDissWSBJ.pdf.txtExtracted texttext/plain255404https://repositorio.ufscar.br/bitstreams/cc8fad3e-7b30-4eff-8640-8dcbc9d5d66d/download961a907cb726ed8c4f69aa593223cf22MD52falseAnonymousREADTHUMBNAILDissWSBJ.pdf.jpgDissWSBJ.pdf.jpgIM Thumbnailimage/jpeg6592https://repositorio.ufscar.br/bitstreams/53921249-2d3b-40f8-8897-dffd76389e31/downloada6fb9c842ac8721c697155785fa18850MD53falseAnonymousREAD20.500.14289/3142025-02-05 22:12:24.626open.accessoai:repositorio.ufscar.br:20.500.14289/314https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T01:12:24Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Recuperação de informação com auxílio de extratos automáticos
title Recuperação de informação com auxílio de extratos automáticos
spellingShingle Recuperação de informação com auxílio de extratos automáticos
Batista Junior, Wilson dos Santos
Inteligência artificial
Processamento da linguagem natural
Sumarização automática
Sistemas de recuperação da informação
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Recuperação de informação com auxílio de extratos automáticos
title_full Recuperação de informação com auxílio de extratos automáticos
title_fullStr Recuperação de informação com auxílio de extratos automáticos
title_full_unstemmed Recuperação de informação com auxílio de extratos automáticos
title_sort Recuperação de informação com auxílio de extratos automáticos
author Batista Junior, Wilson dos Santos
author_facet Batista Junior, Wilson dos Santos
author_role author
dc.contributor.author.fl_str_mv Batista Junior, Wilson dos Santos
dc.contributor.advisor1.fl_str_mv Rino, Lúcia Helena Machado
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0315640846525832
dc.contributor.authorID.fl_str_mv a6a84ef2-fc03-4d9d-b841-bf5a25086399
contributor_str_mv Rino, Lúcia Helena Machado
dc.subject.por.fl_str_mv Inteligência artificial
Processamento da linguagem natural
Sumarização automática
Sistemas de recuperação da informação
topic Inteligência artificial
Processamento da linguagem natural
Sumarização automática
Sistemas de recuperação da informação
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description This dissertation investigates the use of Automatic Summarization (AS) techniques on Information Retrieval (IR), two areas that have attracted growing attention due to the continuous growth of information repositories in digital format. The main goal of this work is to verify the contribution of extracts generated automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In general, the main goal of both phases is to find the most descriptive terms of a given document. This goal in turn is strongly related to that of the AS techniques to summarize the main parts of a document which justifies the study. In order to verify the effectiveness of the AS techniques, we have developed five systems that use extracts generated by a summarizing system that was considered useful in the task of indicating the content of documents to human readers. These systems were assessed through a set of documents written in Portuguese to test IR. In general, the results show that the generated extracts were not useful for indexing, presenting worse performance compared to when using a full document for IR. In the PRF case, however, the results obtained using specific extracts were better than those obtained by a system that does not embed PRF. The best results were obtained when using query-biased multi-documents extracts, indicating that this type of extract may be useful for PRF.
publishDate 2006
dc.date.issued.fl_str_mv 2006-05-08
dc.date.available.fl_str_mv 2007-10-19
2016-06-02T19:05:17Z
dc.date.accessioned.fl_str_mv 2016-06-02T19:05:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BATISTA JUNIOR, Wilson dos Santos. Recuperação de informação com auxílio de extratos automáticos. 2006. 139 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/314
identifier_str_mv BATISTA JUNIOR, Wilson dos Santos. Recuperação de informação com auxílio de extratos automáticos. 2006. 139 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.
url https://repositorio.ufscar.br/handle/20.500.14289/314
dc.language.iso.fl_str_mv por
language por
dc.relation.authority.fl_str_mv 629307e8-d9f0-4e50-b2e4-e495b4d8b0fb
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/f2f4c59b-3d5b-49f2-b863-0bf9ae0d3066/download
https://repositorio.ufscar.br/bitstreams/cc8fad3e-7b30-4eff-8640-8dcbc9d5d66d/download
https://repositorio.ufscar.br/bitstreams/53921249-2d3b-40f8-8897-dffd76389e31/download
bitstream.checksum.fl_str_mv cddbd8f8a11a6e29a95cea9e62612f2b
961a907cb726ed8c4f69aa593223cf22
a6fb9c842ac8721c697155785fa18850
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688800830357504