[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: THORAN ARAGUEZ RODRIGUES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2
http://doi.org/10.17771/PUCRio.acad.13890
Resumo: [pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas.
id PUC_RIO-1_9179dc1fe2f36a232a1439cc06624442
oai_identifier_str oai:MAXWELL.puc-rio.br:13890
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB [pt] APRENDIZADO DE MAQUINA[pt] BLOG[pt] WEB[pt] CLASSIFICACAO[en] MACHINE LEARNING[en] BLOG[en] WEB[en] CLASSIFICATION[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas.[en] The amount of information on the Internet increases every day. Even though this proliferation increases the chances that the subject being searched for by an user is on the Web, it also makes finding the desired information much harder. The automated classification of pages is, therefore, an important tool for organizing Web content, with specific applications on the improvement of results displayed by search engines. In this dissertation, a comparative study of different attribute sets and classification methods for the functional classification of web pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and News. Throughout the experiments, it became evident the best approach for this task is to employ attributes that come both from the structure and the text of the web pages. We also presented a new strategy for extracting and building text attribute sets, that takes into account the different writing styles for each page class.MAXWELLEDUARDO SANY LABEREDUARDO SANY LABERTHORAN ARAGUEZ RODRIGUES2009-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2http://doi.org/10.17771/PUCRio.acad.13890porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2017-09-14T00:00:00Zoai:MAXWELL.puc-rio.br:13890Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
[pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB
title [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
spellingShingle [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
THORAN ARAGUEZ RODRIGUES
[pt] APRENDIZADO DE MAQUINA
[pt] BLOG
[pt] WEB
[pt] CLASSIFICACAO
[en] MACHINE LEARNING
[en] BLOG
[en] WEB
[en] CLASSIFICATION
title_short [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
title_full [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
title_fullStr [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
title_full_unstemmed [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
title_sort [en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
author THORAN ARAGUEZ RODRIGUES
author_facet THORAN ARAGUEZ RODRIGUES
author_role author
dc.contributor.none.fl_str_mv EDUARDO SANY LABER
EDUARDO SANY LABER
dc.contributor.author.fl_str_mv THORAN ARAGUEZ RODRIGUES
dc.subject.por.fl_str_mv [pt] APRENDIZADO DE MAQUINA
[pt] BLOG
[pt] WEB
[pt] CLASSIFICACAO
[en] MACHINE LEARNING
[en] BLOG
[en] WEB
[en] CLASSIFICATION
topic [pt] APRENDIZADO DE MAQUINA
[pt] BLOG
[pt] WEB
[pt] CLASSIFICACAO
[en] MACHINE LEARNING
[en] BLOG
[en] WEB
[en] CLASSIFICATION
description [pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas.
publishDate 2009
dc.date.none.fl_str_mv 2009-07-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2
http://doi.org/10.17771/PUCRio.acad.13890
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2
http://doi.org/10.17771/PUCRio.acad.13890
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1856395903008505856