RetriBlog: um framework centrado na arquitetura para criação de blog crawlers

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Ferreira Leite de Mello, Rafael
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/2828
Resumo: Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos
id UFPE_c756cd360a4b8f33f5082c7de63acf36
oai_identifier_str oai:repositorio.ufpe.br:123456789/2828
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling RetriBlog: um framework centrado na arquitetura para criação de blog crawlersRecuperação de informaçãoRastreadores de BlogsArcabouçoCom o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostosCoordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de PernambucoLuiz Goncalves de Freitas, Frederico Ferreira Leite de Mello, Rafael2014-06-12T16:01:25Z2014-06-12T16:01:25Z2011-01-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFerreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.https://repositorio.ufpe.br/handle/123456789/2828porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-25T05:59:02Zoai:repositorio.ufpe.br:123456789/2828Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T05:59:02Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
spellingShingle RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
Ferreira Leite de Mello, Rafael
Recuperação de informação
Rastreadores de Blogs
Arcabouço
title_short RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_full RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_fullStr RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_full_unstemmed RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
title_sort RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
author Ferreira Leite de Mello, Rafael
author_facet Ferreira Leite de Mello, Rafael
author_role author
dc.contributor.none.fl_str_mv Luiz Goncalves de Freitas, Frederico
dc.contributor.author.fl_str_mv Ferreira Leite de Mello, Rafael
dc.subject.por.fl_str_mv Recuperação de informação
Rastreadores de Blogs
Arcabouço
topic Recuperação de informação
Rastreadores de Blogs
Arcabouço
description Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos
publishDate 2011
dc.date.none.fl_str_mv 2011-01-31
2014-06-12T16:01:25Z
2014-06-12T16:01:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.
https://repositorio.ufpe.br/handle/123456789/2828
identifier_str_mv Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.
url https://repositorio.ufpe.br/handle/123456789/2828
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856042008684003328