Uma investigação de aspectos da classificação de tópicos para textos curtos

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Oliveira, Ewerton Lopes Silva de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpb.br/jspui/handle/tede/7842
Resumo: In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages.
id UFPB_774920e324b7b971f1cefb73de7ece60
oai_identifier_str oai:repositorio.ufpb.br:tede/7842
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Uma investigação de aspectos da classificação de tópicos para textos curtosAprendizagem de máquinaMachine learningClassificação de textoMensagens sociaisText classificationSocial messagesCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOIn recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESNos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas.Universidade Federal da ParaíbaBrasilInformáticaPrograma de Pós-Graduação em InformáticaUFPBFormiga, Andrei de Araujohttp://lattes.cnpq.br/0506569373440954Oliveira, Ewerton Lopes Silva de2016-02-15T17:35:03Z2018-07-21T00:15:01Z2018-07-21T00:15:01Z2015-02-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfOLIVEIRA, Ewerton Lopes Silva de. Uma investigação de aspectos da classificação de tópicos para textos curtos. 2015. 82 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.https://repositorio.ufpb.br/jspui/handle/tede/7842porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2018-09-06T00:44:36Zoai:repositorio.ufpb.br:tede/7842Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| bdtd@biblioteca.ufpb.bropendoar:2018-09-06T00:44:36Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Uma investigação de aspectos da classificação de tópicos para textos curtos
title Uma investigação de aspectos da classificação de tópicos para textos curtos
spellingShingle Uma investigação de aspectos da classificação de tópicos para textos curtos
Oliveira, Ewerton Lopes Silva de
Aprendizagem de máquina
Machine learning
Classificação de texto
Mensagens sociais
Text classification
Social messages
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Uma investigação de aspectos da classificação de tópicos para textos curtos
title_full Uma investigação de aspectos da classificação de tópicos para textos curtos
title_fullStr Uma investigação de aspectos da classificação de tópicos para textos curtos
title_full_unstemmed Uma investigação de aspectos da classificação de tópicos para textos curtos
title_sort Uma investigação de aspectos da classificação de tópicos para textos curtos
author Oliveira, Ewerton Lopes Silva de
author_facet Oliveira, Ewerton Lopes Silva de
author_role author
dc.contributor.none.fl_str_mv Formiga, Andrei de Araujo
http://lattes.cnpq.br/0506569373440954
dc.contributor.author.fl_str_mv Oliveira, Ewerton Lopes Silva de
dc.subject.por.fl_str_mv Aprendizagem de máquina
Machine learning
Classificação de texto
Mensagens sociais
Text classification
Social messages
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Aprendizagem de máquina
Machine learning
Classificação de texto
Mensagens sociais
Text classification
Social messages
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages.
publishDate 2015
dc.date.none.fl_str_mv 2015-02-23
2016-02-15T17:35:03Z
2018-07-21T00:15:01Z
2018-07-21T00:15:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv OLIVEIRA, Ewerton Lopes Silva de. Uma investigação de aspectos da classificação de tópicos para textos curtos. 2015. 82 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.
https://repositorio.ufpb.br/jspui/handle/tede/7842
identifier_str_mv OLIVEIRA, Ewerton Lopes Silva de. Uma investigação de aspectos da classificação de tópicos para textos curtos. 2015. 82 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.
url https://repositorio.ufpb.br/jspui/handle/tede/7842
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Informática
Programa de Pós-Graduação em Informática
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| bdtd@biblioteca.ufpb.br
_version_ 1831315269975277568