RetriBlog: um framework centrado na arquitetura para criação de blog crawlers

Ferreira Leite de Mello, Rafael

RetriBlog: um framework centrado na arquitetura para criação de blog crawlers

Detalhes bibliográficos
Ano de defesa:	2011
Autor(a) principal:	Ferreira Leite de Mello, Rafael
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pernambuco
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Recuperação de informação Rastreadores de Blogs Arcabouço
Link de acesso:	https://repositorio.ufpe.br/handle/123456789/2828
Resumo:	Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos

Metadados do item

id	UFPE_c756cd360a4b8f33f5082c7de63acf36
oai_identifier_str	oai:repositorio.ufpe.br:123456789/2828
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str
spelling	RetriBlog: um framework centrado na arquitetura para criação de blog crawlersRecuperação de informaçãoRastreadores de BlogsArcabouçoCom o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostosCoordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de PernambucoLuiz Goncalves de Freitas, Frederico Ferreira Leite de Mello, Rafael2014-06-12T16:01:25Z2014-06-12T16:01:25Z2011-01-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFerreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.https://repositorio.ufpe.br/handle/123456789/2828porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-25T05:59:02Zoai:repositorio.ufpe.br:123456789/2828Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T05:59:02Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
spellingShingle	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers Ferreira Leite de Mello, Rafael Recuperação de informação Rastreadores de Blogs Arcabouço
title_short	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_full	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_fullStr	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_full_unstemmed	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_sort	RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
author	Ferreira Leite de Mello, Rafael
author_facet	Ferreira Leite de Mello, Rafael
author_role	author
dc.contributor.none.fl_str_mv	Luiz Goncalves de Freitas, Frederico
dc.contributor.author.fl_str_mv	Ferreira Leite de Mello, Rafael
dc.subject.por.fl_str_mv	Recuperação de informação Rastreadores de Blogs Arcabouço
topic	Recuperação de informação Rastreadores de Blogs Arcabouço
description	Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos
publishDate	2011
dc.date.none.fl_str_mv	2011-01-31 2014-06-12T16:01:25Z 2014-06-12T16:01:25Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011. https://repositorio.ufpe.br/handle/123456789/2828
identifier_str_mv	Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.
url	https://repositorio.ufpe.br/handle/123456789/2828
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1856042008684003328

RetriBlog: um framework centrado na arquitetura para criação de blog crawlers

Registros relacionados