Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: VITÓRIO, Douglas Álisson Marques de Sá
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38119
Resumo: Mineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viável
id UFPE_6306bd0f015f2d99322f7aa72532633e
oai_identifier_str oai:repositorio.ufpe.br:123456789/38119
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dadosInteligência computacionaMineração de opiniãoMineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viávelCNPqOpinion Mining, also known as Sentiment Analysis, is the field of study that analyzes people’s sentiments and opinions about entities, such as products and services, expressed in an unstructured form, e.g., in textual input. However, the most common Opinion Mining approaches are not able to deal with the characteristics and challenges brought by the processing of continuous data streams, mainly due to the evolutive nature of the streams, and due to the fact that these approaches are strongly based on Supervised Learning; so, an alternative is the use of semi-supervised techniques such as Active Learning, which aims to label only selected data, rather the entire data set. The Active Learning approach requires the choice of a sampling strategy to select the most valuable instances to update the learning model; nevertheless, no study has performed an analysis in order to identify the best strategies for Opinion Mining. Therefore, in this study, this analysis is made based on eight sampling strategies: six of them found in the literature and two proposed by the author; and using 20 data sets from four data streams corpora, two of them specially built for this research and containing Facebook and Twitter data about the 2018 Presidential Election in Brazil. The strategies were evaluated in three different scenarios and with three kinds of classifiers. According to the results and considering the 20 data sets used, it could be observed that the Entropy is the most indicated strategy, in terms of accuracy, for most cases; however, this strategy selects a large number of instances, in most cases sampling a number twice as large as the others, not being recommended for scenarios in which there is no possibility of labeling a lot of data. In these cases, the Variable Entropy strategy, proposed in this work, proved to be the most viable choice.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoOLIVEIRA, Adriano Lorena Inacio deSOUZA, Ellen Polliana Ramoshttp://lattes.cnpq.br/2138402381175111http://lattes.cnpq.br/5194381227316437http://lattes.cnpq.br/6593918610781356VITÓRIO, Douglas Álisson Marques de Sá2020-09-28T18:25:23Z2020-09-28T18:25:23Z2020-02-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38119porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2020-09-29T05:14:50Zoai:repositorio.ufpe.br:123456789/38119Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-09-29T05:14:50Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
title Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
spellingShingle Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
VITÓRIO, Douglas Álisson Marques de Sá
Inteligência computaciona
Mineração de opinião
title_short Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
title_full Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
title_fullStr Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
title_full_unstemmed Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
title_sort Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
author VITÓRIO, Douglas Álisson Marques de Sá
author_facet VITÓRIO, Douglas Álisson Marques de Sá
author_role author
dc.contributor.none.fl_str_mv OLIVEIRA, Adriano Lorena Inacio de
SOUZA, Ellen Polliana Ramos
http://lattes.cnpq.br/2138402381175111
http://lattes.cnpq.br/5194381227316437
http://lattes.cnpq.br/6593918610781356
dc.contributor.author.fl_str_mv VITÓRIO, Douglas Álisson Marques de Sá
dc.subject.por.fl_str_mv Inteligência computaciona
Mineração de opinião
topic Inteligência computaciona
Mineração de opinião
description Mineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viável
publishDate 2020
dc.date.none.fl_str_mv 2020-09-28T18:25:23Z
2020-09-28T18:25:23Z
2020-02-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
https://repositorio.ufpe.br/handle/123456789/38119
identifier_str_mv VITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/38119
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856042097654628352