Removing DUST using multiple alignment of sequences

Rodrigues, Kaio Wagner Lima; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9

Removing DUST using multiple alignment of sequences

Detalhes bibliográficos
Ano de defesa:	2016
Autor(a) principal:	Rodrigues, Kaio Wagner Lima
Outros Autores:	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Search engines Crawling De-duplication URL Normalization Rewrite rules Motores de busca Eliminação de Duplicatas Normalização de URLs Regras de Reescrita CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Link de acesso:	https://tede.ufam.edu.br/handle/tede/6557
Resumo:	Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperdício de recursos, a criação de rankings de baixa qualidade e, consequentemente, uma experiência pior para o usuário. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses métodos se baseiam no aprendizado de regras de normalização que transformam todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser então usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de regras que alcance uma grande taxa de redução com baixa incidência de falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada na análise de pares, a qualidade das regras é afetada pelo critério usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um número muito alto de exemplos, em geral, são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a sites, o que impede a geração de regras que envolvam diferentes nomes de DNS. Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos casos, derivam regras muito específicas. Nesta tese, é proposta uma nova técnica para derivar regras, baseada em uma estratégia de alinhamento múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das URLs com conteúdo duplicado contribui para uma melhor generalização, o que resulta na geração de regras mais efetivas. Através de experimentos em duas diferentes coleções extraídas da Web, observa-se que a técnica proposta, além de ser mais rápida, filtra um número maior de URLs duplicadas. Uma versão distribuída do método, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para coleções com dimensões compatíveis com a Web.

Metadados do item

id	UFAM_224f25160c0c006e0159d0ae2a3ad762
oai_identifier_str	oai:https://tede.ufam.edu.br/handle/:tede/6557
network_acronym_str	UFAM
network_name_str	Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling	Removing DUST using multiple alignment of sequencesSearch enginesCrawlingDe-duplicationURL NormalizationRewrite rulesMotores de buscaEliminação de DuplicatasNormalização de URLsRegras de ReescritaCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOUm grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperdício de recursos, a criação de rankings de baixa qualidade e, consequentemente, uma experiência pior para o usuário. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses métodos se baseiam no aprendizado de regras de normalização que transformam todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser então usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de regras que alcance uma grande taxa de redução com baixa incidência de falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada na análise de pares, a qualidade das regras é afetada pelo critério usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um número muito alto de exemplos, em geral, são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a sites, o que impede a geração de regras que envolvam diferentes nomes de DNS. Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos casos, derivam regras muito específicas. Nesta tese, é proposta uma nova técnica para derivar regras, baseada em uma estratégia de alinhamento múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das URLs com conteúdo duplicado contribui para uma melhor generalização, o que resulta na geração de regras mais efetivas. Através de experimentos em duas diferentes coleções extraídas da Web, observa-se que a técnica proposta, além de ser mais rápida, filtra um número maior de URLs duplicadas. Uma versão distribuída do método, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para coleções com dimensões compatíveis com a Web.A large number of URLs collected by web crawlers correspond to pages with duplicate or near-duplicate contents. These duplicate URLs, generically known as DUST (Different URLs with Similar Text), adversely impact search engines since crawling, storing and using such data imply waste of resources, the building of low quality rankings and poor user experiences. To deal with this problem, several studies have been proposed to detect and remove duplicate documents without fetching their contents. To accomplish this, the proposed methods learn normalization rules to transform all duplicate URLs into the same canonical form. This information can be used by crawlers to avoid fetching DUST. A challenging aspect of this strategy is to efficiently derive the minimum set of rules that achieve larger reductions with the smallest false positive rate. As most methods are based on pairwise analysis, the quality of the rules is affected by the criterion used to select the examples and the availability of representative examples in the training sets. To avoid processing large numbers of URLs, they employ techniques such as random sampling or by looking for DUST only within sites, preventing the generation of rules involving multiple DNS names. As a consequence of these issues, current methods are very susceptible to noise and, in many cases, derive rules that are very specific. In this thesis, we present a new approach to derive quality rules that take advantage of a multi-sequence alignment strategy. We demonstrate that a full multi-sequence alignment of URLs with duplicated content, before the generation of the rules, can lead to the deployment of very effective rules. Experimental results demonstrate that our approach achieved larger reductions in the number of duplicate URLs than our best baseline in two different web collections, in spite of being much faster. We also present a distributed version of our method, using the MapReduce framework, and demonstrate its scalability by evaluating it using a set of 7.37 million URLs.FAPEAM - Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaCristo, Marco Antônio Pinheiro dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6Cristo, Marco Antônio Pinheiro dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6Santos, Eulanda Miranda doshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766289H3Barreto, Raimundo da Silvahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766577H8Rodrigues, Kaio Wagner Limahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E92018-08-24T13:43:58Z2016-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisimage/jpegapplication/pdfRODRIGUES, Kaio Wagner Lima. Removing DUST using multiple alignment of sequences. 2016. 91 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2016.https://tede.ufam.edu.br/handle/tede/6557enghttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2018-08-25T05:03:30Zoai:https://tede.ufam.edu.br/handle/:tede/6557Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br\|\|ddbc@ufam.edu.bropendoar:65922018-08-25T05:03:30Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv	Removing DUST using multiple alignment of sequences
title	Removing DUST using multiple alignment of sequences
spellingShingle	Removing DUST using multiple alignment of sequences Rodrigues, Kaio Wagner Lima Search engines Crawling De-duplication URL Normalization Rewrite rules Motores de busca Eliminação de Duplicatas Normalização de URLs Regras de Reescrita CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short	Removing DUST using multiple alignment of sequences
title_full	Removing DUST using multiple alignment of sequences
title_fullStr	Removing DUST using multiple alignment of sequences
title_full_unstemmed	Removing DUST using multiple alignment of sequences
title_sort	Removing DUST using multiple alignment of sequences
author	Rodrigues, Kaio Wagner Lima
author_facet	Rodrigues, Kaio Wagner Lima http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9
author_role	author
author2	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9
author2_role	author
dc.contributor.none.fl_str_mv	Cristo, Marco Antônio Pinheiro de http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6 Cristo, Marco Antônio Pinheiro de http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6 Santos, Eulanda Miranda dos http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766289H3 Barreto, Raimundo da Silva http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766577H8
dc.contributor.author.fl_str_mv	Rodrigues, Kaio Wagner Lima http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9
dc.subject.por.fl_str_mv	Search engines Crawling De-duplication URL Normalization Rewrite rules Motores de busca Eliminação de Duplicatas Normalização de URLs Regras de Reescrita CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic	Search engines Crawling De-duplication URL Normalization Rewrite rules Motores de busca Eliminação de Duplicatas Normalização de URLs Regras de Reescrita CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperdício de recursos, a criação de rankings de baixa qualidade e, consequentemente, uma experiência pior para o usuário. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses métodos se baseiam no aprendizado de regras de normalização que transformam todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser então usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de regras que alcance uma grande taxa de redução com baixa incidência de falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada na análise de pares, a qualidade das regras é afetada pelo critério usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um número muito alto de exemplos, em geral, são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a sites, o que impede a geração de regras que envolvam diferentes nomes de DNS. Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos casos, derivam regras muito específicas. Nesta tese, é proposta uma nova técnica para derivar regras, baseada em uma estratégia de alinhamento múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das URLs com conteúdo duplicado contribui para uma melhor generalização, o que resulta na geração de regras mais efetivas. Através de experimentos em duas diferentes coleções extraídas da Web, observa-se que a técnica proposta, além de ser mais rápida, filtra um número maior de URLs duplicadas. Uma versão distribuída do método, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para coleções com dimensões compatíveis com a Web.
publishDate	2016
dc.date.none.fl_str_mv	2016-09-21 2018-08-24T13:43:58Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	RODRIGUES, Kaio Wagner Lima. Removing DUST using multiple alignment of sequences. 2016. 91 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2016. https://tede.ufam.edu.br/handle/tede/6557
identifier_str_mv	RODRIGUES, Kaio Wagner Lima. Removing DUST using multiple alignment of sequences. 2016. 91 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2016.
url	https://tede.ufam.edu.br/handle/tede/6557
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	image/jpeg application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM
instname_str	Universidade Federal do Amazonas (UFAM)
instacron_str	UFAM
institution	UFAM
reponame_str	Biblioteca Digital de Teses e Dissertações da UFAM
collection	Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv	ddbc@ufam.edu.br\|\|ddbc@ufam.edu.br
_version_	1797040496921542656

Removing DUST using multiple alignment of sequences

Registros relacionados