Aprendendo a segmentar páginas web

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Daoud, Caio Moura
Outros Autores: http://lattes.cnpq.br/8569893814198940
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
BR
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ufam.edu.br/handle/tede/2924
Resumo: Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura.
id UFAM_00a749f76e519345fca1c75cbba56448
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/2924
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling Aprendendo a segmentar páginas webSegmentação de páginas WebAprendizagem de máquinaÁrvore SOMWeb pages segmentationMachine learningSOMtreeCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃODiferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura.Unlike traditional documents, Web pages are composed of different segments or blocks, each block has specific functions in each page. Recent work in the literature has shown that information on these segments may be useful to improve the results of numerous tasks in information retrieval and data mining areas. For this reason, there are many scientific works proposing different methods for Web pages segmentation. Generally speaking, the targeting methods found in the literature only use evidences of the page to be segmented. However, based on the observation that the pages of a site tend to have very similar layouts, we present a strategy based on machine learning that explores overall evidences of Web sites. Our method, which adopts Support Vector Machines for the learning process, and use the SOM structure (Site Object Model) to aggregate information from all pages of aWeb site, achieved good results when compared a manual segmentation approach, and with a recent approach in the literature.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBRUFAMPrograma de Pós-graduação em InformáticaOliveira, David Braga Fernandes dehttp://lattes.cnpq.br/9561812825173697Daoud, Caio Mourahttp://lattes.cnpq.br/85698938141989402015-04-11T14:02:58Z2014-07-152013-03-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDAOUD, Caio Moura. Aprendendo a segmentar páginas web. 2013. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2013.http://tede.ufam.edu.br/handle/tede/2924porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-05-11T14:29:40Zoai:https://tede.ufam.edu.br/handle/:tede/2924Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922016-05-11T14:29:40Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Aprendendo a segmentar páginas web
title Aprendendo a segmentar páginas web
spellingShingle Aprendendo a segmentar páginas web
Daoud, Caio Moura
Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short Aprendendo a segmentar páginas web
title_full Aprendendo a segmentar páginas web
title_fullStr Aprendendo a segmentar páginas web
title_full_unstemmed Aprendendo a segmentar páginas web
title_sort Aprendendo a segmentar páginas web
author Daoud, Caio Moura
author_facet Daoud, Caio Moura
http://lattes.cnpq.br/8569893814198940
author_role author
author2 http://lattes.cnpq.br/8569893814198940
author2_role author
dc.contributor.none.fl_str_mv Oliveira, David Braga Fernandes de
http://lattes.cnpq.br/9561812825173697
dc.contributor.author.fl_str_mv Daoud, Caio Moura
http://lattes.cnpq.br/8569893814198940
dc.subject.por.fl_str_mv Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura.
publishDate 2013
dc.date.none.fl_str_mv 2013-03-28
2014-07-15
2015-04-11T14:02:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DAOUD, Caio Moura. Aprendendo a segmentar páginas web. 2013. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2013.
http://tede.ufam.edu.br/handle/tede/2924
identifier_str_mv DAOUD, Caio Moura. Aprendendo a segmentar páginas web. 2013. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2013.
url http://tede.ufam.edu.br/handle/tede/2924
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
BR
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
BR
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1851781265542348800