Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Miranda, Marcelo Drudi lattes
Orientador(a): Sassi, Renato José lattes
Banca de defesa: Chaves, Marcírio Silveira lattes, Santana, José Carlos Curvelo lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Nove de Julho
Programa de Pós-Graduação: Programa de Pós-Graduação de Mestrado e Doutorado em Engenharia de Produção
Departamento: Engenharia
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://bibliotecatede.uninove.br/tede/handle/tede/225
Resumo: The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies.
id NOVE_278d0cbd383449c6cd49b4f4ccc48236
oai_identifier_str oai:localhost:tede/225
network_acronym_str NOVE
network_name_str Biblioteca Digital de Teses e Dissertações da Uninove
repository_id_str
spelling Sassi, Renato Joséhttp://lattes.cnpq.br/8750334661789610Chaves, Marcírio Silveirahttp://lattes.cnpq.br/1149445153608393Santana, José Carlos Curvelohttp://lattes.cnpq.br/0408226658529368CPF:25649674850http://lattes.cnpq.br/6065923965032871Miranda, Marcelo Drudi2015-04-07T21:10:40Z2015-02-112014-09-28MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014.http://bibliotecatede.uninove.br/tede/handle/tede/225The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies.A Internet hoje é uma realidade presente na vida das pessoas, possibilitando o surgimento de muitas empresas que fornecem serviços online. Porém, para se manterem no mercado, é fundamental que essas empresas se preocupem com a qualidade dos serviços prestados. Neste contexto, torna-se importante conseguir avaliar a satisfação do cliente em relação a esses serviços. Uma das formas utilizadas para avaliar o sentimento dos clientes em relação aos serviços prestados é a Mineração de Opiniões, que se refere ao conjunto de técnicas utilizadas para extrair e avaliar sentimentos expressos em fontes de dados textuais. O objetivo deste trabalho foi comparar Modelos de Classificação dos comentários de clientes para a Mineração de Opiniões em empresa brasileira de classificados online de empregos. Foram implementados três Modelos de Classificação: baseado no software comercial Repustate; baseado em Dicionário e baseado em Naive Bayes. Os modelos foram aplicados em uma base de dados contendo comentários não estruturados de clientes em língua portuguesa, coletados no formulário de cancelamento do serviço. Um comentário não estruturado apresenta erro de grafia, de concordância e pode ser quase ininteligível. Classificar comentários não estruturados em língua portuguesa é uma tarefa complexa para um classificador por dois motivos: os erros contidos nos comentários e a escassez de modelos de classificação de comentários em língua portuguesa disponíveis para serem tomados como exemplo. Estes motivos tornam os modelos desenvolvidos nesse trabalho relevantes para as pesquisas em Análise de Sentimentos e Mineração de Opiniões. A avaliação do desempenho dos modelos de classificação foi feita usando o índice Kappa e a Matriz de Confusão. O desempenho na classificação dos três Modelos foi analisado por meio da comparação com a classificação realizada por jurados (seres humanos), que também tiveram a avaliação de sua concordância realizada com o índice Kappa e a Matriz de Confusão. A característica não estruturada dos comentários provocou divergência na sua classificação por parte dos jurados e também dos Modelos de Classificação. A concordância entre os classificadores e os jurados chegou no máximo a moderada, com melhor desempenho para o classificador baseado em Naive Bayes. Os modelos foram aplicados na base de dados e, apesar das características dos comentários, a Mineração de Opiniões foi realizada. Conclui-se, então, que o desempenho dos classificadores na mineração de opiniões em empresa brasileira de classificados online de empregos foi positivo e o objetivo do trabalho foi atingido. Vale destacar que a Mineração de Opiniões em comentários não estruturados em língua portuguesa é uma tarefa complexa, que exige pesquisa e que este cenário está aberto para novos estudos.Made available in DSpace on 2015-04-07T21:10:40Z (GMT). No. of bitstreams: 1 Marcelo Drudi Miranda.pdf: 3254291 bytes, checksum: b450eef19b2c6a7289297f386cc74738 (MD5) Previous issue date: 2014-09-28application/pdfporUniversidade Nove de JulhoPrograma de Pós-Graduação de Mestrado e Doutorado em Engenharia de ProduçãoUninoveBREngenhariamineração de opiniõesanálise de sentimentosmodelos de classificaçãoclassificação de comentários em língua portuguesarecuperação de informaçõesprocessamento de linguagem naturalopinion miningsentiment analysisclassification modelscomment classification in portugueseinformation retrievalnatural language processingENGENHARIAS::ENGENHARIA DE PRODUCAOComparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2551182063231974631600info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da Uninoveinstname:Universidade Nove de Julho (UNINOVE)instacron:UNINOVEORIGINALMarcelo Drudi Miranda.pdfapplication/pdf3254291http://localhost:8080/tede/bitstream/tede/225/1/Marcelo+Drudi+Miranda.pdfb450eef19b2c6a7289297f386cc74738MD51tede/2252021-10-08 17:15:36.8oai:localhost:tede/225Biblioteca Digital de Teses e Dissertaçõeshttp://bibliotecatede.uninove.br/PRIhttp://bibliotecatede.uninove.br/oai/requestbibliotecatede@uninove.br||bibliotecatede@uninove.bropendoar:2021-10-08T20:15:36Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)false
dc.title.por.fl_str_mv Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
title Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
spellingShingle Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
Miranda, Marcelo Drudi
mineração de opiniões
análise de sentimentos
modelos de classificação
classificação de comentários em língua portuguesa
recuperação de informações
processamento de linguagem natural
opinion mining
sentiment analysis
classification models
comment classification in portuguese
information retrieval
natural language processing
ENGENHARIAS::ENGENHARIA DE PRODUCAO
title_short Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
title_full Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
title_fullStr Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
title_full_unstemmed Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
title_sort Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
author Miranda, Marcelo Drudi
author_facet Miranda, Marcelo Drudi
author_role author
dc.contributor.advisor1.fl_str_mv Sassi, Renato José
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8750334661789610
dc.contributor.referee1.fl_str_mv Chaves, Marcírio Silveira
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/1149445153608393
dc.contributor.referee2.fl_str_mv Santana, José Carlos Curvelo
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/0408226658529368
dc.contributor.authorID.fl_str_mv CPF:25649674850
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6065923965032871
dc.contributor.author.fl_str_mv Miranda, Marcelo Drudi
contributor_str_mv Sassi, Renato José
Chaves, Marcírio Silveira
Santana, José Carlos Curvelo
dc.subject.por.fl_str_mv mineração de opiniões
análise de sentimentos
modelos de classificação
classificação de comentários em língua portuguesa
recuperação de informações
processamento de linguagem natural
topic mineração de opiniões
análise de sentimentos
modelos de classificação
classificação de comentários em língua portuguesa
recuperação de informações
processamento de linguagem natural
opinion mining
sentiment analysis
classification models
comment classification in portuguese
information retrieval
natural language processing
ENGENHARIAS::ENGENHARIA DE PRODUCAO
dc.subject.eng.fl_str_mv opinion mining
sentiment analysis
classification models
comment classification in portuguese
information retrieval
natural language processing
dc.subject.cnpq.fl_str_mv ENGENHARIAS::ENGENHARIA DE PRODUCAO
description The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies.
publishDate 2014
dc.date.issued.fl_str_mv 2014-09-28
dc.date.accessioned.fl_str_mv 2015-04-07T21:10:40Z
dc.date.available.fl_str_mv 2015-02-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014.
dc.identifier.uri.fl_str_mv http://bibliotecatede.uninove.br/tede/handle/tede/225
identifier_str_mv MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014.
url http://bibliotecatede.uninove.br/tede/handle/tede/225
dc.language.iso.fl_str_mv por
language por
dc.relation.cnpq.fl_str_mv 2551182063231974631
dc.relation.confidence.fl_str_mv 600
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Nove de Julho
dc.publisher.program.fl_str_mv Programa de Pós-Graduação de Mestrado e Doutorado em Engenharia de Produção
dc.publisher.initials.fl_str_mv Uninove
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Engenharia
publisher.none.fl_str_mv Universidade Nove de Julho
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Uninove
instname:Universidade Nove de Julho (UNINOVE)
instacron:UNINOVE
instname_str Universidade Nove de Julho (UNINOVE)
instacron_str UNINOVE
institution UNINOVE
reponame_str Biblioteca Digital de Teses e Dissertações da Uninove
collection Biblioteca Digital de Teses e Dissertações da Uninove
bitstream.url.fl_str_mv http://localhost:8080/tede/bitstream/tede/225/1/Marcelo+Drudi+Miranda.pdf
bitstream.checksum.fl_str_mv b450eef19b2c6a7289297f386cc74738
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)
repository.mail.fl_str_mv bibliotecatede@uninove.br||bibliotecatede@uninove.br
_version_ 1797250742435708928