A probabilistic and incremental model for online classification of documents : DV-INBC

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Rodrigues, Thiago Fredes
Orientador(a): Engel, Paulo Martins
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/142171
Resumo: Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares.
id URGS_77dbafaadfc57107782f722c3e030ef0
oai_identifier_str oai:www.lume.ufrgs.br:10183/142171
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Rodrigues, Thiago FredesEngel, Paulo Martins2016-05-28T02:09:37Z2016http://hdl.handle.net/10183/142171000993262Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares.Recently the fields of Data Mining and Machine Learning have seen a rapid increase in the creation and availability of data repositories. This is mainly due to its rapid creation in social networks. Also, a large part of those data is made of text documents. The information stored in such texts can range from a description of a user profile to common textual topics such as politics, sports and science, information very useful for many applications. Besides, since many of this data are created in streams, scalable and on-line algorithms are desired, because tasks like organization and exploration of large document collections would be benefited by them. In this thesis an incremental, on-line and probabilistic model for document classification is presented, as an effort of tackling this problem. The algorithm is called DV-INBC and is an extension to the INBC algorithm. The two main characteristics of DV-INBC are: only a single scan over the data is necessary to create a model of it; the data vocabulary need not to be known a priori. Therefore, little knowledge about the data stream is needed. To assess its performance, tests using well known datasets are presented.application/pdfengMineracao : DadosAprendizagem eletrônicaTopic modelingDocument classificationOnline learningIncremental learningA probabilistic and incremental model for online classification of documents : DV-INBCinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2016mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000993262.pdf000993262.pdfTexto completo (inglês)application/pdf2361934http://www.lume.ufrgs.br/bitstream/10183/142171/1/000993262.pdf67939b5181286f4e0d2977477f47adf5MD51TEXT000993262.pdf.txt000993262.pdf.txtExtracted Texttext/plain120797http://www.lume.ufrgs.br/bitstream/10183/142171/2/000993262.pdf.txtfd714bd2099dba34649f0632445d4848MD52THUMBNAIL000993262.pdf.jpg000993262.pdf.jpgGenerated Thumbnailimage/jpeg1057http://www.lume.ufrgs.br/bitstream/10183/142171/3/000993262.pdf.jpg4752dd5b2dc753973f067fc4474b6397MD5310183/1421712021-05-26 04:35:31.590674oai:www.lume.ufrgs.br:10183/142171Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:35:31Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv A probabilistic and incremental model for online classification of documents : DV-INBC
title A probabilistic and incremental model for online classification of documents : DV-INBC
spellingShingle A probabilistic and incremental model for online classification of documents : DV-INBC
Rodrigues, Thiago Fredes
Mineracao : Dados
Aprendizagem eletrônica
Topic modeling
Document classification
Online learning
Incremental learning
title_short A probabilistic and incremental model for online classification of documents : DV-INBC
title_full A probabilistic and incremental model for online classification of documents : DV-INBC
title_fullStr A probabilistic and incremental model for online classification of documents : DV-INBC
title_full_unstemmed A probabilistic and incremental model for online classification of documents : DV-INBC
title_sort A probabilistic and incremental model for online classification of documents : DV-INBC
author Rodrigues, Thiago Fredes
author_facet Rodrigues, Thiago Fredes
author_role author
dc.contributor.author.fl_str_mv Rodrigues, Thiago Fredes
dc.contributor.advisor1.fl_str_mv Engel, Paulo Martins
contributor_str_mv Engel, Paulo Martins
dc.subject.por.fl_str_mv Mineracao : Dados
Aprendizagem eletrônica
topic Mineracao : Dados
Aprendizagem eletrônica
Topic modeling
Document classification
Online learning
Incremental learning
dc.subject.eng.fl_str_mv Topic modeling
Document classification
Online learning
Incremental learning
description Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-05-28T02:09:37Z
dc.date.issued.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/142171
dc.identifier.nrb.pt_BR.fl_str_mv 000993262
url http://hdl.handle.net/10183/142171
identifier_str_mv 000993262
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/142171/1/000993262.pdf
http://www.lume.ufrgs.br/bitstream/10183/142171/2/000993262.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/142171/3/000993262.pdf.jpg
bitstream.checksum.fl_str_mv 67939b5181286f4e0d2977477f47adf5
fd714bd2099dba34649f0632445d4848
4752dd5b2dc753973f067fc4474b6397
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831315992917049344