Clustering multilingual aspect phrases for sentiment analysis
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/189069 |
Resumo: | A pesquisa em análise de sentimentos obteve um significante desenvolvimento nos últimos anos motivado pela crescente disponibilidade de comentários opinativos sobre produtos. Mais especificamente, tem havido um crescente interesse em análise de sentimentos baseada em aspectos, cujo objetivo principal consiste em extrair, agrupar e avaliar a opinião global em relação às características da entidade que está sendo avaliada. As técnicas existentes para extração de aspectos podem produzir uma quantidade excessiva de aspectos – muitos destes relacionados a uma mesma característica do produto. Este problema é agravado quando os comentários estão escritos em muitos idiomas. Este trabalho aborda a tarefa de agrupamento de aspectos multilíngues, que consiste em criar grupos de aspectos semanticamente relacionados, extraídos de comentários escritos em diversos idiomas. Este trabalho propõe uma técnica não supervisionada para esta tarefa. Ela baseia-se na informação contextual advinda dos aspectos, que é representada através de word embeddings. Esta representação aliada a uma medida de similaridade (Word Mover’s Distance) permitiu realizar o agrupamento de aspectos relacionados, utilizando o algoritmo k-means. A contribuição deste trabalho inclui as técnicas para resolver este problema juntamente com os testes realizados em comentários escritos em cinco idiomas. Os experimentos mostraram que a técnica não supervisionada de agrupamento alcança resultados que superam um baseline semi-supervisionado. |
| id |
URGS_3dc5c812a046bb5c06047a87f7bdd3bf |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/189069 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Pessutto, Lucas Rafael CostellaMoreira, Viviane Pereira2019-03-01T02:27:59Z2019http://hdl.handle.net/10183/189069001086991A pesquisa em análise de sentimentos obteve um significante desenvolvimento nos últimos anos motivado pela crescente disponibilidade de comentários opinativos sobre produtos. Mais especificamente, tem havido um crescente interesse em análise de sentimentos baseada em aspectos, cujo objetivo principal consiste em extrair, agrupar e avaliar a opinião global em relação às características da entidade que está sendo avaliada. As técnicas existentes para extração de aspectos podem produzir uma quantidade excessiva de aspectos – muitos destes relacionados a uma mesma característica do produto. Este problema é agravado quando os comentários estão escritos em muitos idiomas. Este trabalho aborda a tarefa de agrupamento de aspectos multilíngues, que consiste em criar grupos de aspectos semanticamente relacionados, extraídos de comentários escritos em diversos idiomas. Este trabalho propõe uma técnica não supervisionada para esta tarefa. Ela baseia-se na informação contextual advinda dos aspectos, que é representada através de word embeddings. Esta representação aliada a uma medida de similaridade (Word Mover’s Distance) permitiu realizar o agrupamento de aspectos relacionados, utilizando o algoritmo k-means. A contribuição deste trabalho inclui as técnicas para resolver este problema juntamente com os testes realizados em comentários escritos em cinco idiomas. Os experimentos mostraram que a técnica não supervisionada de agrupamento alcança resultados que superam um baseline semi-supervisionado.The area of sentiment analysis has experienced significant developments in the last few years. More specifically, there has been growing interest in aspect-based sentiment analysis in which the goal is to extract, group, and rate the overall opinion about the features of the entity being evaluated. Techniques for aspect extraction can produce an undesirably large number of aspects – with many of those relating to the same product feature. This problem is aggravated when the reviews are written in many languages. We address the novel task of multilingual aspect clustering which aims at grouping together semantic related aspects extracted from reviews written in several languages. Our method is unsupervised. We rely on the contextual information of the aspects, whichwas represented through word embeddings in our approach. This representation allied with a good similarity measure (Word Mover’s Distance) allows us to cluster together related aspect phrases, using k-means algorithm. We contribute with a proposal of techniques to tackle this problem and test them on reviews written in five languages. Our experiments show that our unsupervised clustering technique achieves results that outperform a semi-supervised baseline.application/pdfengLinguística computacionalAspectos CognitivosAspect-based sentiment analysisMultilingual aspect clusteringUnsupervised learningWord embeddingsClustering multilingual aspect phrases for sentiment analysisAgrupamento de expressões de aspecto multilíngues em análise de sentimentos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001086991.pdf.txt001086991.pdf.txtExtracted Texttext/plain146343http://www.lume.ufrgs.br/bitstream/10183/189069/2/001086991.pdf.txt54971dd48ad365dd969e7a2c0dd64c0dMD52ORIGINAL001086991.pdfTexto completo (inglês)application/pdf1519129http://www.lume.ufrgs.br/bitstream/10183/189069/1/001086991.pdf788c693d62b66fc4672813ba9a2880c9MD5110183/1890692019-03-02 02:30:59.439587oai:www.lume.ufrgs.br:10183/189069Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532019-03-02T05:30:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Clustering multilingual aspect phrases for sentiment analysis |
| dc.title.alternative.pt.fl_str_mv |
Agrupamento de expressões de aspecto multilíngues em análise de sentimentos |
| title |
Clustering multilingual aspect phrases for sentiment analysis |
| spellingShingle |
Clustering multilingual aspect phrases for sentiment analysis Pessutto, Lucas Rafael Costella Linguística computacional Aspectos Cognitivos Aspect-based sentiment analysis Multilingual aspect clustering Unsupervised learning Word embeddings |
| title_short |
Clustering multilingual aspect phrases for sentiment analysis |
| title_full |
Clustering multilingual aspect phrases for sentiment analysis |
| title_fullStr |
Clustering multilingual aspect phrases for sentiment analysis |
| title_full_unstemmed |
Clustering multilingual aspect phrases for sentiment analysis |
| title_sort |
Clustering multilingual aspect phrases for sentiment analysis |
| author |
Pessutto, Lucas Rafael Costella |
| author_facet |
Pessutto, Lucas Rafael Costella |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Pessutto, Lucas Rafael Costella |
| dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
| contributor_str_mv |
Moreira, Viviane Pereira |
| dc.subject.por.fl_str_mv |
Linguística computacional Aspectos Cognitivos |
| topic |
Linguística computacional Aspectos Cognitivos Aspect-based sentiment analysis Multilingual aspect clustering Unsupervised learning Word embeddings |
| dc.subject.eng.fl_str_mv |
Aspect-based sentiment analysis Multilingual aspect clustering Unsupervised learning Word embeddings |
| description |
A pesquisa em análise de sentimentos obteve um significante desenvolvimento nos últimos anos motivado pela crescente disponibilidade de comentários opinativos sobre produtos. Mais especificamente, tem havido um crescente interesse em análise de sentimentos baseada em aspectos, cujo objetivo principal consiste em extrair, agrupar e avaliar a opinião global em relação às características da entidade que está sendo avaliada. As técnicas existentes para extração de aspectos podem produzir uma quantidade excessiva de aspectos – muitos destes relacionados a uma mesma característica do produto. Este problema é agravado quando os comentários estão escritos em muitos idiomas. Este trabalho aborda a tarefa de agrupamento de aspectos multilíngues, que consiste em criar grupos de aspectos semanticamente relacionados, extraídos de comentários escritos em diversos idiomas. Este trabalho propõe uma técnica não supervisionada para esta tarefa. Ela baseia-se na informação contextual advinda dos aspectos, que é representada através de word embeddings. Esta representação aliada a uma medida de similaridade (Word Mover’s Distance) permitiu realizar o agrupamento de aspectos relacionados, utilizando o algoritmo k-means. A contribuição deste trabalho inclui as técnicas para resolver este problema juntamente com os testes realizados em comentários escritos em cinco idiomas. Os experimentos mostraram que a técnica não supervisionada de agrupamento alcança resultados que superam um baseline semi-supervisionado. |
| publishDate |
2019 |
| dc.date.accessioned.fl_str_mv |
2019-03-01T02:27:59Z |
| dc.date.issued.fl_str_mv |
2019 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/189069 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001086991 |
| url |
http://hdl.handle.net/10183/189069 |
| identifier_str_mv |
001086991 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/189069/2/001086991.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/189069/1/001086991.pdf |
| bitstream.checksum.fl_str_mv |
54971dd48ad365dd969e7a2c0dd64c0d 788c693d62b66fc4672813ba9a2880c9 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831316062156619776 |