Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Velloso, Roberto Panerai
Orientador(a): Dorneles, Carina Friedrich
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/xmlui/handle/123456789/129142
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014
id UFSC_d84d50d950aedc8263b181ac36af034f
oai_identifier_str oai:repositorio.ufsc.br:123456789/129142
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaVelloso, Roberto PaneraiDorneles, Carina Friedrich2015-02-05T20:44:43Z2015-02-05T20:44:43Z2014329914https://repositorio.ufsc.br/xmlui/handle/123456789/129142Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br>Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.65 p.| il., grafs.porComputaçãoSites da WebRuídoMineração de dados (Computação)Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag pathsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL329914.pdfapplication/pdf1331548https://repositorio.ufsc.br/bitstream/123456789/129142/1/329914.pdf83651130b0ac80ced63647347769e15aMD51123456789/1291422015-02-05 18:44:43.596oai:repositorio.ufsc.br:123456789/129142Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732015-02-05T20:44:43Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
spellingShingle Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
Velloso, Roberto Panerai
Computação
Sites da Web
Ruído
Mineração de dados (Computação)
title_short Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_full Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_fullStr Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_full_unstemmed Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
title_sort Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
author Velloso, Roberto Panerai
author_facet Velloso, Roberto Panerai
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Velloso, Roberto Panerai
dc.contributor.advisor1.fl_str_mv Dorneles, Carina Friedrich
contributor_str_mv Dorneles, Carina Friedrich
dc.subject.classification.pt_BR.fl_str_mv Computação
Sites da Web
Ruído
Mineração de dados (Computação)
topic Computação
Sites da Web
Ruído
Mineração de dados (Computação)
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014
publishDate 2014
dc.date.issued.fl_str_mv 2014
dc.date.accessioned.fl_str_mv 2015-02-05T20:44:43Z
dc.date.available.fl_str_mv 2015-02-05T20:44:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/xmlui/handle/123456789/129142
dc.identifier.other.pt_BR.fl_str_mv 329914
identifier_str_mv 329914
url https://repositorio.ufsc.br/xmlui/handle/123456789/129142
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 65 p.| il., grafs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/129142/1/329914.pdf
bitstream.checksum.fl_str_mv 83651130b0ac80ced63647347769e15a
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759055624732672