Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

Costa, José Henrique Calenzo

Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

Detalhes bibliográficos
Ano de defesa:	2016
Autor(a) principal:	Costa, José Henrique Calenzo
Orientador(a):	Dorneles, Carina Friedrich
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Link de acesso:	https://repositorio.ufsc.br/xmlui/handle/123456789/167840
Resumo:	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.

Metadados do item

id	UFSC_28087e76ed3485a55d36992df2e3f876
oai_identifier_str	oai:repositorio.ufsc.br:123456789/167840
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str
spelling	Universidade Federal de Santa CatarinaCosta, José Henrique CalenzoDorneles, Carina Friedrich2016-09-20T04:25:42Z2016-09-20T04:25:42Z2016341906https://repositorio.ufsc.br/xmlui/handle/123456789/167840Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.Algoritmos de ranking de páginas Web podem ser criados usando técnicas baseadas em elementos estruturais da página Web, em segmentação da página ou na busca personalizada. Esta pesquisa aborda um método de ranking de documentos previamente filtrados, que segmenta a página Web em blocos de três categorias para delas eliminar conteúdo irrelevante. O método de ranking proposto, chamado Filtered-Page Ranking (FPR), consta de duas etapas principais: (i) segmentação da página web e eliminação de conteúdo irrelevante e (ii) ranking de páginas Web. O foco da extração de conteúdo irrelevante é eliminar conteúdos não relacionados à consulta do usuário, através do algoritmo proposto Query-Based Blocks Mining (QBM), para que o ranking considere somente conteúdo relevante. O foco da etapa de ranking é calcular quão relevante cada página Web é para determinada consulta, usando critérios considerados em estudos de recuperação da informação. Com a presente pesquisa pretende-se demonstrar que o QBM extrai eficientemente o conteúdo irrelevante e que os critérios utilizados para calcular quão próximo uma página Web é da consulta são relevantes, produzindo uma média de resultados de ranking de páginas Web de qualidade melhor que a do clássico modelo vetorial.<br>Abstract : Web page ranking algorithms can be created using content-based, structure-based or user search-based techniques. This research addresses an user search-based approach applied over previously filtered documents ranking, which relies in a segmentation process to extract irrelevante content from documents before ranking. The process splits the document into three categories of blocks in order to fragment the document and eliminate irrelevante content. The ranking method, called Page Filtered Ranking, has two main steps: (i) irrelevante content extraction; and (ii) document ranking. The focus of the extraction step is to eliminate irrelevante content from the document, by means of the Query-Based Blocks Mining algorithm, creating a tree that is evaluated in the ranking process. During the ranking step, the focus is to calculate the relevance of each document for a given query, using criteria that give importance to specific parts of the document and to the highlighted features of some HTML elements. Our proposal is compared to two baselines: the classic vectorial model, and the CETR noise removal algorithm, and the results demonstrate that our irrelevante content removal algorithm improves the results and our relevance criteria are relevant to the process.108 p.\| il., grafs., tabs.porComputaçãoSites da WebHTML (Linguagem de marcação de documento)Mineração de dados (Computação)Recuperação da informaçãoFiltered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtradosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL341906.pdfapplication/pdf4935734https://repositorio.ufsc.br/bitstream/123456789/167840/1/341906.pdf5630ca8c10871314b7f54120d18ae335MD51123456789/1678402016-09-20 01:25:42.721oai:repositorio.ufsc.br:123456789/167840Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732016-09-20T04:25:42Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
spellingShingle	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados Costa, José Henrique Calenzo Computação Sites da Web HTML (Linguagem de marcação de documento) Mineração de dados (Computação) Recuperação da informação
title_short	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_full	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_fullStr	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_full_unstemmed	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
title_sort	Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados
author	Costa, José Henrique Calenzo
author_facet	Costa, José Henrique Calenzo
author_role	author
dc.contributor.pt_BR.fl_str_mv	Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Costa, José Henrique Calenzo
dc.contributor.advisor1.fl_str_mv	Dorneles, Carina Friedrich
contributor_str_mv	Dorneles, Carina Friedrich
dc.subject.classification.pt_BR.fl_str_mv	Computação Sites da Web HTML (Linguagem de marcação de documento) Mineração de dados (Computação) Recuperação da informação
topic	Computação Sites da Web HTML (Linguagem de marcação de documento) Mineração de dados (Computação) Recuperação da informação
description	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016.
publishDate	2016
dc.date.accessioned.fl_str_mv	2016-09-20T04:25:42Z
dc.date.available.fl_str_mv	2016-09-20T04:25:42Z
dc.date.issued.fl_str_mv	2016
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufsc.br/xmlui/handle/123456789/167840
dc.identifier.other.pt_BR.fl_str_mv	341906
identifier_str_mv	341906
url	https://repositorio.ufsc.br/xmlui/handle/123456789/167840
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	108 p.\| il., grafs., tabs.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
bitstream.url.fl_str_mv	https://repositorio.ufsc.br/bitstream/123456789/167840/1/341906.pdf
bitstream.checksum.fl_str_mv	5630ca8c10871314b7f54120d18ae335
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv	sandra.sobrera@ufsc.br
_version_	1851758907525955584

Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

Registros relacionados