Melhoria na classificação de tópicos em textos curtos usando background knowledge

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Ribeiro Neto, Francisco Porfírio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpb.br/jspui/handle/tede/9035
Resumo: The power of interaction between internet users has grown since the appearance of tools aligned with the principles of WEB 2.0, including blogs, forums and social networks like Twitter and Facebook. This kind of application is based on frequent message exchanges between users, generating large quantities of textual data comprised of small messages. Text classification techniques allow the extraction of relevant information from such messages. In this context, the challenges are related to the fact that the short messages common in social networks contain, individually, too little data for the traditional analyses. In this work a new technique for improving topic classification in short texts is proposed. This technique is based on the idea of combining a standard text classifier with a keywords-based simple classification scheme; the novelty here beyond the combination of two classification schemes is the use of a semi-automated, unsupervised technique for building the list of keywords reated to the desired topic; this technique is based on the use of topic modeling using the LDA algorithm. To demonstrate the validity of the proposed approach, a Corpus of twitter messages was built around the topic “violence”. This Corpus was used in experiments to assess the performance of the proposed classification technique. Results show that topic classification for short texts is improved by the proposed technique.
id UFPB_737eb3eb65c1127c41739786bcf1a108
oai_identifier_str oai:repositorio.ufpb.br:tede/9035
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Melhoria na classificação de tópicos em textos curtos usando background knowledgeRedes sociaisweb 2.0Background KnowledgeCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe power of interaction between internet users has grown since the appearance of tools aligned with the principles of WEB 2.0, including blogs, forums and social networks like Twitter and Facebook. This kind of application is based on frequent message exchanges between users, generating large quantities of textual data comprised of small messages. Text classification techniques allow the extraction of relevant information from such messages. In this context, the challenges are related to the fact that the short messages common in social networks contain, individually, too little data for the traditional analyses. In this work a new technique for improving topic classification in short texts is proposed. This technique is based on the idea of combining a standard text classifier with a keywords-based simple classification scheme; the novelty here beyond the combination of two classification schemes is the use of a semi-automated, unsupervised technique for building the list of keywords reated to the desired topic; this technique is based on the use of topic modeling using the LDA algorithm. To demonstrate the validity of the proposed approach, a Corpus of twitter messages was built around the topic “violence”. This Corpus was used in experiments to assess the performance of the proposed classification technique. Results show that topic classification for short texts is improved by the proposed technique.O poder da interação entre usuários na internet aumentou consideravelmente através do surgimento de ferramentas alinhadas com os conceitos da WEB 2.0, a exemplo dos blogs, fóruns de discussão, e redes sociais como o Facebook e Twitter. Estas aplicações são constituídas por uma troca contínua de mensagens entre os usuários, gerando com isso, uma expressiva massa de dados formada por várias pequenas mensagens. Estudos mostram que informações podem ser extraídas com base em tais dados através da classificação de textos. O desafio da classificação de texto nesse contexto é que as mensagens dos usuários nas redes sociais são curtas, por exemplo o twitter, que possui apenas cento e quarenta caracteres, fazendo com que ocorra o problema de escassez de dados e ausência de similaridade entre palavras relevantes. Nesta dissertação é apresentada uma técnica que propõe uma melhoria na classificação de tópicos em textos curtos usando background knowledge. A técnica proposta consiste em realizar a classificação de textos curtos em três etapas, usando um algoritmo de classificação de texto convencional, sendo o NaiveBayes escolhido para esta dissertação, realizando uma comparação simples de texto, aqui denominada de “Contador de Palavras” que verifica a existência ou não das palavras-chave da background knowledge nos textos e, finalmente, ao término das duas etapas, os resultados são combinados para que o texto seja efetivamente classificado. Para demonstrar a eficiência da melhoria proposta, foram extraídos mensagens do Twitter e construído um Corpus em português tendo como tema a “Violência”. Esse Corpus foi utilizado em um experimento para determinar o desempenho de classificação da técnica proposta. Os resultados demonstram que a técnica de classificação proposta consegue melhorar o desempenho de classificação de tópicos em textos curtos.Universidade Federal da ParaíbaBrasilInformáticaPrograma de Pós-Graduação em InformáticaUFPBFormiga, Andrei de Araújohttp://lattes.cnpq.br/0506569373440954Ribeiro Neto, Francisco Porfírio2017-06-29T13:56:38Z2018-07-21T00:15:11Z2018-07-21T00:15:11Z2015-08-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRIBEIRO NETO, Francisco Porfírio. Melhoria na classificação de tópicos em textos curtos usando background knowledge. 2015. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.https://repositorio.ufpb.br/jspui/handle/tede/9035porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2018-09-06T01:06:35Zoai:repositorio.ufpb.br:tede/9035Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| bdtd@biblioteca.ufpb.bropendoar:2018-09-06T01:06:35Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Melhoria na classificação de tópicos em textos curtos usando background knowledge
title Melhoria na classificação de tópicos em textos curtos usando background knowledge
spellingShingle Melhoria na classificação de tópicos em textos curtos usando background knowledge
Ribeiro Neto, Francisco Porfírio
Redes sociais
web 2.0
Background Knowledge
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Melhoria na classificação de tópicos em textos curtos usando background knowledge
title_full Melhoria na classificação de tópicos em textos curtos usando background knowledge
title_fullStr Melhoria na classificação de tópicos em textos curtos usando background knowledge
title_full_unstemmed Melhoria na classificação de tópicos em textos curtos usando background knowledge
title_sort Melhoria na classificação de tópicos em textos curtos usando background knowledge
author Ribeiro Neto, Francisco Porfírio
author_facet Ribeiro Neto, Francisco Porfírio
author_role author
dc.contributor.none.fl_str_mv Formiga, Andrei de Araújo
http://lattes.cnpq.br/0506569373440954
dc.contributor.author.fl_str_mv Ribeiro Neto, Francisco Porfírio
dc.subject.por.fl_str_mv Redes sociais
web 2.0
Background Knowledge
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Redes sociais
web 2.0
Background Knowledge
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The power of interaction between internet users has grown since the appearance of tools aligned with the principles of WEB 2.0, including blogs, forums and social networks like Twitter and Facebook. This kind of application is based on frequent message exchanges between users, generating large quantities of textual data comprised of small messages. Text classification techniques allow the extraction of relevant information from such messages. In this context, the challenges are related to the fact that the short messages common in social networks contain, individually, too little data for the traditional analyses. In this work a new technique for improving topic classification in short texts is proposed. This technique is based on the idea of combining a standard text classifier with a keywords-based simple classification scheme; the novelty here beyond the combination of two classification schemes is the use of a semi-automated, unsupervised technique for building the list of keywords reated to the desired topic; this technique is based on the use of topic modeling using the LDA algorithm. To demonstrate the validity of the proposed approach, a Corpus of twitter messages was built around the topic “violence”. This Corpus was used in experiments to assess the performance of the proposed classification technique. Results show that topic classification for short texts is improved by the proposed technique.
publishDate 2015
dc.date.none.fl_str_mv 2015-08-31
2017-06-29T13:56:38Z
2018-07-21T00:15:11Z
2018-07-21T00:15:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv RIBEIRO NETO, Francisco Porfírio. Melhoria na classificação de tópicos em textos curtos usando background knowledge. 2015. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.
https://repositorio.ufpb.br/jspui/handle/tede/9035
identifier_str_mv RIBEIRO NETO, Francisco Porfírio. Melhoria na classificação de tópicos em textos curtos usando background knowledge. 2015. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.
url https://repositorio.ufpb.br/jspui/handle/tede/9035
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| bdtd@biblioteca.ufpb.br
_version_ 1831315270484885504