A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação

Conceição, Claudio Roberto de Oliveira

A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Conceição, Claudio Roberto de Oliveira
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Recuperação de informação Mecanismos e busca Web crawler Clustering Information retrieval Search engines
Link de acesso:	http://hdl.handle.net/11449/235053
Resumo:	Em vista da rápida expansão e dinamicidade da Web, os mecanismos de busca assumiram um papel essencial para a recuperação de informação nesse imenso repositório. Com o grande número de páginas sendo constantemente adicionados e modificadas, a eficiência dos mecanismos de busca torna-se fundamental. Um crawler é o elemento principal de um mecanismo de busca. Sua função é navegar pela estrutura hipertextual da Web de forma sistemática afim obter e indexar páginas, formando um acervo documental utilizados pelo mecanismo de busca. Os Web Crawlers de propósito geral, utilizados pelos mecanismos de busca como o Google e o Bing, funcionam exaustivamente, procurando coletar e indexar o maior número de documentos possível. Um Web crawler focado é um tipo de crawler que coleta páginas contendo informações sobre um determinado tema ou assunto, gerando um conjunto de documentos qualificado e contextualizado, permitindo aumentar a eficiência de um mecanismo de busca. Este trabalho propõe a utilização de Web crawlers focados juntamente com técnicas de clustering. Técnicas de clustering (agrupamento) têm sido usadas na recuperação de informações para muitos propósitos diferentes tais como expansão de consulta, agrupamento de documentos, indexação de documentos e visualização de resultados de busca. A partir de uma pesquisa exploratória e descritiva, fundamentada em bibliografia específica, este trabalho propõe a utilização conjunta de Web crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Inicialmente o crawler focado fornece um conjunto de documentos (páginas Web) restrito a um assunto ou tema. A partir do corpus temático fornecido pelo crawler, o processo classificatório dos algoritmos de Clustering podem então gerar grupos (clusters) de documentos relacionados às especificidades ou detalhamentos do tema. A base teórica apresentada neste estudo possui o potencial de tornar-se uma proposta para a implementação um mecanismo de busca experimental, demonstrando a sua aplicabilidade e contribuindo para o campo de pesquisa.

Metadados do item

id	UNSP_790c101bd58c8c6a66d1e6a5c6a9ae29
oai_identifier_str	oai:repositorio.unesp.br:11449/235053
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informaçãoThe use of focused crawler and clustering techniques as complementary resources in the information retrieved processRecuperação de informaçãoMecanismos e buscaWeb crawlerClusteringInformation retrievalSearch enginesEm vista da rápida expansão e dinamicidade da Web, os mecanismos de busca assumiram um papel essencial para a recuperação de informação nesse imenso repositório. Com o grande número de páginas sendo constantemente adicionados e modificadas, a eficiência dos mecanismos de busca torna-se fundamental. Um crawler é o elemento principal de um mecanismo de busca. Sua função é navegar pela estrutura hipertextual da Web de forma sistemática afim obter e indexar páginas, formando um acervo documental utilizados pelo mecanismo de busca. Os Web Crawlers de propósito geral, utilizados pelos mecanismos de busca como o Google e o Bing, funcionam exaustivamente, procurando coletar e indexar o maior número de documentos possível. Um Web crawler focado é um tipo de crawler que coleta páginas contendo informações sobre um determinado tema ou assunto, gerando um conjunto de documentos qualificado e contextualizado, permitindo aumentar a eficiência de um mecanismo de busca. Este trabalho propõe a utilização de Web crawlers focados juntamente com técnicas de clustering. Técnicas de clustering (agrupamento) têm sido usadas na recuperação de informações para muitos propósitos diferentes tais como expansão de consulta, agrupamento de documentos, indexação de documentos e visualização de resultados de busca. A partir de uma pesquisa exploratória e descritiva, fundamentada em bibliografia específica, este trabalho propõe a utilização conjunta de Web crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Inicialmente o crawler focado fornece um conjunto de documentos (páginas Web) restrito a um assunto ou tema. A partir do corpus temático fornecido pelo crawler, o processo classificatório dos algoritmos de Clustering podem então gerar grupos (clusters) de documentos relacionados às especificidades ou detalhamentos do tema. A base teórica apresentada neste estudo possui o potencial de tornar-se uma proposta para a implementação um mecanismo de busca experimental, demonstrando a sua aplicabilidade e contribuindo para o campo de pesquisa.In view of rapid expansion and dynamism of the Web, search engines have assumed an essential role in the retrieval of information in this immense repository. With the large number of pages constantly being added and modified, the efficiency of search engines becomes critical. A crawler is the core element of a search engine. Its function is to systematically navigate the hypertextual structure of the Web in order to obtain and index pages, forming a collection of documents used by the search engine. General purpose Web crawlers, used by search engines like Google and Bing, work extensively, seeking to collect and index as many documents as possible. A focused Web crawler is a type of crawler that collects pages containing information about a certain theme or subject, generating a set of qualified and contextualized documents, allowing to increase the efficiency of a search engine. This work proposes the use of focused Web crawlers together with clustering techniques. Clustering techniques have been used in information retrieval for many different purposes such as query expansion, document grouping, document indexing, and viewing search results. From an exploratory and descriptive research, based on specific bibliography, this work proposes the joint use of focused Web crawler and Clustering techniques as complementary resources in the information retrieval process. Initially Focused Crawler provides a set of documents (Webpages) restricted to a subject or theme. From the thematic corpus provided by Crawler, the classification process of the Clustering algorithms can then generate groups of documents related to the specifics or details of the theme. The theoretical basis presented in this study has the potential to become a proposal for the implementation of an experimental search engine, demonstrating its applicability and contributing to the research field.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88887.610471/2021-00Universidade Estadual Paulista (Unesp)Ferneda, Edberto [UNESP]Universidade Estadual Paulista (Unesp)Conceição, Claudio Roberto de Oliveira2022-06-06T17:48:01Z2022-06-06T17:48:01Z2022-05-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCONCEIÇÃO, Claudio Roberto de Oliveira. A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Universidade Estadual Paulista (Unesp), 2022.http://hdl.handle.net/11449/23505333004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:10:11Zoai:repositorio.unesp.br:11449/235053Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-12T18:10:11Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação The use of focused crawler and clustering techniques as complementary resources in the information retrieved process
title	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
spellingShingle	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação Conceição, Claudio Roberto de Oliveira Recuperação de informação Mecanismos e busca Web crawler Clustering Information retrieval Search engines
title_short	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
title_full	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
title_fullStr	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
title_full_unstemmed	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
title_sort	A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação
author	Conceição, Claudio Roberto de Oliveira
author_facet	Conceição, Claudio Roberto de Oliveira
author_role	author
dc.contributor.none.fl_str_mv	Ferneda, Edberto [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Conceição, Claudio Roberto de Oliveira
dc.subject.por.fl_str_mv	Recuperação de informação Mecanismos e busca Web crawler Clustering Information retrieval Search engines
topic	Recuperação de informação Mecanismos e busca Web crawler Clustering Information retrieval Search engines
description	Em vista da rápida expansão e dinamicidade da Web, os mecanismos de busca assumiram um papel essencial para a recuperação de informação nesse imenso repositório. Com o grande número de páginas sendo constantemente adicionados e modificadas, a eficiência dos mecanismos de busca torna-se fundamental. Um crawler é o elemento principal de um mecanismo de busca. Sua função é navegar pela estrutura hipertextual da Web de forma sistemática afim obter e indexar páginas, formando um acervo documental utilizados pelo mecanismo de busca. Os Web Crawlers de propósito geral, utilizados pelos mecanismos de busca como o Google e o Bing, funcionam exaustivamente, procurando coletar e indexar o maior número de documentos possível. Um Web crawler focado é um tipo de crawler que coleta páginas contendo informações sobre um determinado tema ou assunto, gerando um conjunto de documentos qualificado e contextualizado, permitindo aumentar a eficiência de um mecanismo de busca. Este trabalho propõe a utilização de Web crawlers focados juntamente com técnicas de clustering. Técnicas de clustering (agrupamento) têm sido usadas na recuperação de informações para muitos propósitos diferentes tais como expansão de consulta, agrupamento de documentos, indexação de documentos e visualização de resultados de busca. A partir de uma pesquisa exploratória e descritiva, fundamentada em bibliografia específica, este trabalho propõe a utilização conjunta de Web crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Inicialmente o crawler focado fornece um conjunto de documentos (páginas Web) restrito a um assunto ou tema. A partir do corpus temático fornecido pelo crawler, o processo classificatório dos algoritmos de Clustering podem então gerar grupos (clusters) de documentos relacionados às especificidades ou detalhamentos do tema. A base teórica apresentada neste estudo possui o potencial de tornar-se uma proposta para a implementação um mecanismo de busca experimental, demonstrando a sua aplicabilidade e contribuindo para o campo de pesquisa.
publishDate	2022
dc.date.none.fl_str_mv	2022-06-06T17:48:01Z 2022-06-06T17:48:01Z 2022-05-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	CONCEIÇÃO, Claudio Roberto de Oliveira. A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Universidade Estadual Paulista (Unesp), 2022. http://hdl.handle.net/11449/235053 33004110043P4
identifier_str_mv	CONCEIÇÃO, Claudio Roberto de Oliveira. A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação. Universidade Estadual Paulista (Unesp), 2022. 33004110043P4
url	http://hdl.handle.net/11449/235053
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854955042435497984

A utilização de crawler focado e técnicas de clustering como recursos complementares no processo de recuperação de informação

Registros relacionados