RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
| Ano de defesa: | 2011 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Pernambuco
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpe.br/handle/123456789/2828 |
Resumo: | Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos |
| id |
UFPE_c756cd360a4b8f33f5082c7de63acf36 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/2828 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
|
| spelling |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlersRecuperação de informaçãoRastreadores de BlogsArcabouçoCom o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostosCoordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de PernambucoLuiz Goncalves de Freitas, Frederico Ferreira Leite de Mello, Rafael2014-06-12T16:01:25Z2014-06-12T16:01:25Z2011-01-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFerreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.https://repositorio.ufpe.br/handle/123456789/2828porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-25T05:59:02Zoai:repositorio.ufpe.br:123456789/2828Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T05:59:02Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.none.fl_str_mv |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| title |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| spellingShingle |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers Ferreira Leite de Mello, Rafael Recuperação de informação Rastreadores de Blogs Arcabouço |
| title_short |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| title_full |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| title_fullStr |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| title_full_unstemmed |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| title_sort |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlers |
| author |
Ferreira Leite de Mello, Rafael |
| author_facet |
Ferreira Leite de Mello, Rafael |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Luiz Goncalves de Freitas, Frederico |
| dc.contributor.author.fl_str_mv |
Ferreira Leite de Mello, Rafael |
| dc.subject.por.fl_str_mv |
Recuperação de informação Rastreadores de Blogs Arcabouço |
| topic |
Recuperação de informação Rastreadores de Blogs Arcabouço |
| description |
Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos |
| publishDate |
2011 |
| dc.date.none.fl_str_mv |
2011-01-31 2014-06-12T16:01:25Z 2014-06-12T16:01:25Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011. https://repositorio.ufpe.br/handle/123456789/2828 |
| identifier_str_mv |
Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011. |
| url |
https://repositorio.ufpe.br/handle/123456789/2828 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1856042008684003328 |