Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Link de acesso: | https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
Resumo: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 |
| id |
UFSC_d84d50d950aedc8263b181ac36af034f |
|---|---|
| oai_identifier_str |
oai:repositorio.ufsc.br:123456789/129142 |
| network_acronym_str |
UFSC |
| network_name_str |
Repositório Institucional da UFSC |
| repository_id_str |
|
| spelling |
Universidade Federal de Santa CatarinaVelloso, Roberto PaneraiDorneles, Carina Friedrich2015-02-05T20:44:43Z2015-02-05T20:44:43Z2014329914https://repositorio.ufsc.br/xmlui/handle/123456789/129142Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br>Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.65 p.| il., grafs.porComputaçãoSites da WebRuídoMineração de dados (Computação)Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag pathsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINAL329914.pdfapplication/pdf1331548https://repositorio.ufsc.br/bitstream/123456789/129142/1/329914.pdf83651130b0ac80ced63647347769e15aMD51123456789/1291422015-02-05 18:44:43.596oai:repositorio.ufsc.br:123456789/129142Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732015-02-05T20:44:43Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
| dc.title.pt_BR.fl_str_mv |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| title |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| spellingShingle |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths Velloso, Roberto Panerai Computação Sites da Web Ruído Mineração de dados (Computação) |
| title_short |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| title_full |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| title_fullStr |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| title_full_unstemmed |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| title_sort |
Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths |
| author |
Velloso, Roberto Panerai |
| author_facet |
Velloso, Roberto Panerai |
| author_role |
author |
| dc.contributor.pt_BR.fl_str_mv |
Universidade Federal de Santa Catarina |
| dc.contributor.author.fl_str_mv |
Velloso, Roberto Panerai |
| dc.contributor.advisor1.fl_str_mv |
Dorneles, Carina Friedrich |
| contributor_str_mv |
Dorneles, Carina Friedrich |
| dc.subject.classification.pt_BR.fl_str_mv |
Computação Sites da Web Ruído Mineração de dados (Computação) |
| topic |
Computação Sites da Web Ruído Mineração de dados (Computação) |
| description |
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 |
| publishDate |
2014 |
| dc.date.issued.fl_str_mv |
2014 |
| dc.date.accessioned.fl_str_mv |
2015-02-05T20:44:43Z |
| dc.date.available.fl_str_mv |
2015-02-05T20:44:43Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
| dc.identifier.other.pt_BR.fl_str_mv |
329914 |
| identifier_str_mv |
329914 |
| url |
https://repositorio.ufsc.br/xmlui/handle/123456789/129142 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
65 p.| il., grafs. |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
| instname_str |
Universidade Federal de Santa Catarina (UFSC) |
| instacron_str |
UFSC |
| institution |
UFSC |
| reponame_str |
Repositório Institucional da UFSC |
| collection |
Repositório Institucional da UFSC |
| bitstream.url.fl_str_mv |
https://repositorio.ufsc.br/bitstream/123456789/129142/1/329914.pdf |
| bitstream.checksum.fl_str_mv |
83651130b0ac80ced63647347769e15a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
| repository.mail.fl_str_mv |
sandra.sobrera@ufsc.br |
| _version_ |
1851759055624732672 |