[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
| Ano de defesa: | 2009 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
MAXWELL
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2 http://doi.org/10.17771/PUCRio.acad.13890 |
Resumo: | [pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas. |
| id |
PUC_RIO-1_9179dc1fe2f36a232a1439cc06624442 |
|---|---|
| oai_identifier_str |
oai:MAXWELL.puc-rio.br:13890 |
| network_acronym_str |
PUC_RIO-1 |
| network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository_id_str |
|
| spelling |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB [pt] APRENDIZADO DE MAQUINA[pt] BLOG[pt] WEB[pt] CLASSIFICACAO[en] MACHINE LEARNING[en] BLOG[en] WEB[en] CLASSIFICATION[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas.[en] The amount of information on the Internet increases every day. Even though this proliferation increases the chances that the subject being searched for by an user is on the Web, it also makes finding the desired information much harder. The automated classification of pages is, therefore, an important tool for organizing Web content, with specific applications on the improvement of results displayed by search engines. In this dissertation, a comparative study of different attribute sets and classification methods for the functional classification of web pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and News. Throughout the experiments, it became evident the best approach for this task is to employ attributes that come both from the structure and the text of the web pages. We also presented a new strategy for extracting and building text attribute sets, that takes into account the different writing styles for each page class.MAXWELLEDUARDO SANY LABEREDUARDO SANY LABERTHORAN ARAGUEZ RODRIGUES2009-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2http://doi.org/10.17771/PUCRio.acad.13890porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2017-09-14T00:00:00Zoai:MAXWELL.puc-rio.br:13890Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
| dc.title.none.fl_str_mv |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB |
| title |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| spellingShingle |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES THORAN ARAGUEZ RODRIGUES [pt] APRENDIZADO DE MAQUINA [pt] BLOG [pt] WEB [pt] CLASSIFICACAO [en] MACHINE LEARNING [en] BLOG [en] WEB [en] CLASSIFICATION |
| title_short |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| title_full |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| title_fullStr |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| title_full_unstemmed |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| title_sort |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES |
| author |
THORAN ARAGUEZ RODRIGUES |
| author_facet |
THORAN ARAGUEZ RODRIGUES |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
EDUARDO SANY LABER EDUARDO SANY LABER |
| dc.contributor.author.fl_str_mv |
THORAN ARAGUEZ RODRIGUES |
| dc.subject.por.fl_str_mv |
[pt] APRENDIZADO DE MAQUINA [pt] BLOG [pt] WEB [pt] CLASSIFICACAO [en] MACHINE LEARNING [en] BLOG [en] WEB [en] CLASSIFICATION |
| topic |
[pt] APRENDIZADO DE MAQUINA [pt] BLOG [pt] WEB [pt] CLASSIFICACAO [en] MACHINE LEARNING [en] BLOG [en] WEB [en] CLASSIFICATION |
| description |
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas. |
| publishDate |
2009 |
| dc.date.none.fl_str_mv |
2009-07-20 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2 http://doi.org/10.17771/PUCRio.acad.13890 |
| url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2 http://doi.org/10.17771/PUCRio.acad.13890 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
MAXWELL |
| publisher.none.fl_str_mv |
MAXWELL |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
| instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| instacron_str |
PUC_RIO |
| institution |
PUC_RIO |
| reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| repository.mail.fl_str_mv |
|
| _version_ |
1856395903008505856 |