Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Costa, José Henrique Calenzo
Orientador(a): Dorneles, Carina Friedrich
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/xmlui/handle/123456789/167840
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.
id UFSC_28087e76ed3485a55d36992df2e3f876
oai_identifier_str oai:repositorio.ufsc.br:123456789/167840
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaCosta, José Henrique CalenzoDorneles, Carina Friedrich2016-09-20T04:25:42Z2016-09-20T04:25:42Z2016341906https://repositorio.ufsc.br/xmlui/handle/123456789/167840Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.Algoritmos de ranking de páginas Web podem ser criados usando técnicas baseadas em elementos estruturais da página Web, em segmentação da página ou na busca personalizada. Esta pesquisa aborda um método de ranking de documentos previamente filtrados, que segmenta a página Web em blocos de três categorias para delas eliminar conteúdo irrelevante. O método de ranking proposto, chamado Filtered-Page Ranking (FPR), consta de duas etapas principais: (i) segmentação da página web e eliminação de conteúdo irrelevante e (ii) ranking de páginas Web. O foco da extração de conteúdo irrelevante é eliminar conteúdos não relacionados à consulta do usuário, através do algoritmo proposto Query-Based Blocks Mining (QBM), para que o ranking considere somente conteúdo relevante. O foco da etapa de ranking é calcular quão relevante cada página Web é para determinada consulta, usando critérios considerados em estudos de recuperação da informação. Com a presente pesquisa pretende-se demonstrar que o QBM extrai eficientemente o conteúdo irrelevante e que os critérios utilizados para calcular quão próximo uma página Web é da consulta são relevantes, produzindo uma média de resultados de ranking de páginas Web de qualidade melhor que a do clássico modelo vetorial.<br>Abstract : Web page ranking algorithms can be created using content-based, structure-based or user search-based techniques. This research addresses an user search-based approach applied over previously filtered documents ranking, which relies in a segmentation process to extract irrelevante content from documents before ranking. The process splits the document into three categories of blocks in order to fragment the document and eliminate irrelevante content. The ranking method, called Page Filtered Ranking, has two main steps: (i) irrelevante content extraction; and (ii) document ranking. The focus of the extraction step is to eliminate irrelevante content from the document, by means of the Query-Based Blocks Mining algorithm, creating a tree that is evaluated in the ranking process. During the ranking step, the focus is to calculate the relevance of each document for a given query, using criteria that give importance to specific parts of the document and to the highlighted features of some HTML elements. Our proposal is compared to two baselines: the classic vectorial model, and the CETR noise removal algorithm, and the results demonstrate that our irrelevante content removal algorithm improves the results and our relevance criteria are relevant to the process.108 p.| il., grafs., tabs.porComputaçãoSites da WebHTML (Linguagem de marcação de documento)Mineração de dados (Computação)Recuperação da informaçãoFiltered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtradosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL341906.pdfapplication/pdf4935734https://repositorio.ufsc.br/bitstream/123456789/167840/1/341906.pdf5630ca8c10871314b7f54120d18ae335MD51123456789/1678402016-09-20 01:25:42.721oai:repositorio.ufsc.br:123456789/167840Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732016-09-20T04:25:42Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
spellingShingle Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
Costa, José Henrique Calenzo
Computação
Sites da Web
HTML (Linguagem de marcação de documento)
Mineração de dados (Computação)
Recuperação da informação
title_short Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_full Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_fullStr Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_full_unstemmed Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_sort Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
author Costa, José Henrique Calenzo
author_facet Costa, José Henrique Calenzo
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Costa, José Henrique Calenzo
dc.contributor.advisor1.fl_str_mv Dorneles, Carina Friedrich
contributor_str_mv Dorneles, Carina Friedrich
dc.subject.classification.pt_BR.fl_str_mv Computação
Sites da Web
HTML (Linguagem de marcação de documento)
Mineração de dados (Computação)
Recuperação da informação
topic Computação
Sites da Web
HTML (Linguagem de marcação de documento)
Mineração de dados (Computação)
Recuperação da informação
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-09-20T04:25:42Z
dc.date.available.fl_str_mv 2016-09-20T04:25:42Z
dc.date.issued.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/xmlui/handle/123456789/167840
dc.identifier.other.pt_BR.fl_str_mv 341906
identifier_str_mv 341906
url https://repositorio.ufsc.br/xmlui/handle/123456789/167840
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 108 p.| il., grafs., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/167840/1/341906.pdf
bitstream.checksum.fl_str_mv 5630ca8c10871314b7f54120d18ae335
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851758907525955584