Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: VIEIRA, Arthur Caíque Bezerra
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/34142
Resumo: A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa.
id UFPE_3c0f8a80a77edd82aa945cc9a6a1ae4a
oai_identifier_str oai:repositorio.ufpe.br:123456789/34142
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double PropagationInteligência computacionalMineração de opiniãoA popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa.FACEPEThe popularization of online forums and e-commerce benefited the increase of the number of comments/evaluations about products and services on the Web, making impratical to manually analyze the huge amount of comments. To overcome this challenge, we use an area of computing named Opinion Mining - also known as Sentiment Analysis. The Opinion Mining aims to extract opinions about entities (products, services, people, brands, events, etc) and their aspects (attributes of each entity - e.g., size and weigth of a smartphone) from texts in natural language. The ultimate goal is to classify the extracted opinions between positive or negative, in order to identify how each entity and their aspects are evaluated by the users. This Master’s thesis investigated the Opinion Mining from portuguese reviews of products, focusing in the first stage of Opinion Mining, which means, in the terms extraction of entities and their aspects. Given the lack of data (comments/reviews) labaled with information of aspect terms in portuguese, it becomes difficult to apply a supervised approach for the aspect term extraction of reviews written in brazilian portuguese. Thus, this work was developed in a unsupervised manner (based on knowledge - explicit rules taking into account statistics and/or linguistics information, ontologies, etc.), which have been getting comparable performance to the supervised approach for the portuguese language. In this work, we used as a starting point an algorithm originally constructed for the english language, which presented high recall on the task of aspect term extraction: the Double Propagation. This algorithm uses the Part-of-speech tagging and dependency relations of words in sentences to accomplish the extraction process. As the main contribution of this work, we adapted the original Double Propagation algorithm for the portuguese language. Next, we proposed the addition of more types of dependency relations in the process of extraction, and we considered more Part-of Speech tags than the base algorithm. Another core contribution of this work was the investigation of the effectiveness of text normalizers in the processing of reviews from the Web (which, in its nature comes with spelling, grammatical and punctuation errors). The conducted experiments compared several configurations of the extraction process, varying the extraction algorithm (original and the proposed - with the additional rules), the external resources (text normalizers, sentiment lexicons and configuration of the pruning methods). The obtained results were very promising, being comparable to others approachs used in works with a focus on the portuguese language.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoPRUDENCIO, Ricardo Bastos CavalcanteBARROS, Flávia de Almeidahttp://lattes.cnpq.br/1521869500050398http://lattes.cnpq.br/2984888073123287http://lattes.cnpq.br/5390541720896559VIEIRA, Arthur Caíque Bezerra2019-10-03T18:18:13Z2019-10-03T18:18:13Z2018-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.ufpe.br/handle/123456789/34142porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-26T05:52:27Zoai:repositorio.ufpe.br:123456789/34142Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T05:52:27Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
title Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
spellingShingle Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
VIEIRA, Arthur Caíque Bezerra
Inteligência computacional
Mineração de opinião
title_short Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
title_full Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
title_fullStr Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
title_full_unstemmed Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
title_sort Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
author VIEIRA, Arthur Caíque Bezerra
author_facet VIEIRA, Arthur Caíque Bezerra
author_role author
dc.contributor.none.fl_str_mv PRUDENCIO, Ricardo Bastos Cavalcante
BARROS, Flávia de Almeida
http://lattes.cnpq.br/1521869500050398
http://lattes.cnpq.br/2984888073123287
http://lattes.cnpq.br/5390541720896559
dc.contributor.author.fl_str_mv VIEIRA, Arthur Caíque Bezerra
dc.subject.por.fl_str_mv Inteligência computacional
Mineração de opinião
topic Inteligência computacional
Mineração de opinião
description A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa.
publishDate 2018
dc.date.none.fl_str_mv 2018-08-27
2019-10-03T18:18:13Z
2019-10-03T18:18:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/34142
url https://repositorio.ufpe.br/handle/123456789/34142
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856042111140364288