Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Guimarães, Eliseu Paz e Silva de
Orientador(a): Carvalho, Alexandre Plastino de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal Fluminense (UFF)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.mar.mil.br/handle/ripcmb/844785
Resumo: Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores.
id MB_dac54ad0c8bd9d01a440f51025834857
oai_identifier_str oai:www.repositorio.mar.mil.br:ripcmb/844785
network_acronym_str MB
network_name_str Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
repository_id_str
spelling Guimarães, Eliseu Paz e Silva deCarvalho, Alexandre Plastino de2022-07-05T18:13:35Z2022-07-05T18:13:35Z2021GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021.http://www.repositorio.mar.mil.br/handle/ripcmb/844785Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores.The advent and popularization of social networks have been leading more and more people to feel free to express their opinions on various issues in those environments. This type of attitude generates a growing volume of data, whose analysis is an important tool in the decision-making process of institutions, governments or people, that can assess their performance related to a desired target audience. The computational field of study that aims to meet this objective is called sentiment analysis, which has the polarity classification of texts as one of its most prominent tasks. To meet the need to classify texts as positive or negative, the use of approaches based on supervised machine learning is promising, in which a classifier is trained with a dataset from a given domain whose labels (positive or negative) are known. The idea behind this approach is that this classifier can predict the labels of new data from this same domain. However, labeled data are not always available as the domain of interest can be rare and data scarse, or manually labeling the data can be prohibitive. In this scenario, transfer learning strategies arise, seeking to take advantage of the knowledge acquired in a given source domain to adapt or reuse classifiers for a given target domain. One of the approaches used is based on data selection or enrichment from a source domain - which has been widely proposed in the literature. However, there is a lack of specific studies for instance selection in the challenging scenario of Twitter. This dissertation seeks to investigate data selection techniques for transfer learning in the scenario of sentiment analysis in tweets. For this, experiments are conducted using a set of 22 tweets datasets in English. These experiments propose techniques: (i.) to select source datasets to train classifiers for an unlabeled target dataset, (ii.) to select instances of the union of source datasets to train classifiers for an unlabeled target dataset and (iii.) to select instances of the union of source datasets to train classifiers for a labeled target dataset. With the proposed techniques, it is observed that the size of training set plays a fundamental role in the predictive capability of the classifiers and that using balanced and diverse training sets constitutes a good decision for transfer learning methods based on instance selection and reuse of classifiers.porUniversidade Federal Fluminense (UFF)Tecnologia da InformaçãoCiência da computaçãoAnálise de sentimentosTransferência de aprendizadoSeleção de dadosAprendizado de MáquinaTwitterSentiment analysisTransfer learningData selectionMachine LearningTwitterSeleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)instname:Marinha do Brasil (MB)instacron:MBORIGINALCT_ELISEU_Autorizacao.pdfCT_ELISEU_Autorizacao.pdfapplication/pdf59334https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/1/CT_ELISEU_Autorizacao.pdf45d6ff74c4cc599d992c8ccc40fa4d21MD51CT_ELISEU_Dissertacao.pdfCT_ELISEU_Dissertacao.pdfapplication/pdf1441533https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/2/CT_ELISEU_Dissertacao.pdf7821eec77441a48ec1ed185beb9d40b0MD52TEXTCT_ELISEU_Autorizacao.pdf.txtCT_ELISEU_Autorizacao.pdf.txtExtracted texttext/plain1https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/3/CT_ELISEU_Autorizacao.pdf.txt68b329da9893e34099c7d8ad5cb9c940MD53CT_ELISEU_Dissertacao.pdf.txtCT_ELISEU_Dissertacao.pdf.txtExtracted texttext/plain200580https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/5/CT_ELISEU_Dissertacao.pdf.txt3b136f48b1a27b1a8da24e6cb754ff45MD55THUMBNAILCT_ELISEU_Autorizacao.pdf.jpgCT_ELISEU_Autorizacao.pdf.jpgGenerated Thumbnailimage/jpeg1734https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/4/CT_ELISEU_Autorizacao.pdf.jpg359bcf4e660a2b7051fd09a0e993f029MD54CT_ELISEU_Dissertacao.pdf.jpgCT_ELISEU_Dissertacao.pdf.jpgGenerated Thumbnailimage/jpeg1287https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/6/CT_ELISEU_Dissertacao.pdf.jpgc34c06b4be7ecede194b46c55d3c8ea5MD56ripcmb/8447852022-09-23 10:27:19.818oai:www.repositorio.mar.mil.br:ripcmb/844785Repositório InstitucionalPUBhttps://www.repositorio.mar.mil.br/oai/requestdphdm.repositorio@marinha.mil.bropendoar:2024-03-20T14:15:00.302222Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)false
dc.title.pt_BR.fl_str_mv Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
title Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
spellingShingle Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
Guimarães, Eliseu Paz e Silva de
Análise de sentimentos
Transferência de aprendizado
Seleção de dados
Aprendizado de Máquina
Twitter
Sentiment analysis
Transfer learning
Data selection
Machine Learning
Twitter
Tecnologia da Informação
Ciência da computação
title_short Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
title_full Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
title_fullStr Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
title_full_unstemmed Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
title_sort Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
author Guimarães, Eliseu Paz e Silva de
author_facet Guimarães, Eliseu Paz e Silva de
author_role author
dc.contributor.author.fl_str_mv Guimarães, Eliseu Paz e Silva de
dc.contributor.advisor1.fl_str_mv Carvalho, Alexandre Plastino de
contributor_str_mv Carvalho, Alexandre Plastino de
dc.subject.por.fl_str_mv Análise de sentimentos
Transferência de aprendizado
Seleção de dados
Aprendizado de Máquina
Twitter
Sentiment analysis
Transfer learning
Data selection
Machine Learning
Twitter
topic Análise de sentimentos
Transferência de aprendizado
Seleção de dados
Aprendizado de Máquina
Twitter
Sentiment analysis
Transfer learning
Data selection
Machine Learning
Twitter
Tecnologia da Informação
Ciência da computação
dc.subject.dgpm.pt_BR.fl_str_mv Tecnologia da Informação
Ciência da computação
description Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores.
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2022-07-05T18:13:35Z
dc.date.available.fl_str_mv 2022-07-05T18:13:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021.
dc.identifier.uri.fl_str_mv http://www.repositorio.mar.mil.br/handle/ripcmb/844785
identifier_str_mv GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021.
url http://www.repositorio.mar.mil.br/handle/ripcmb/844785
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal Fluminense (UFF)
publisher.none.fl_str_mv Universidade Federal Fluminense (UFF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
instname:Marinha do Brasil (MB)
instacron:MB
instname_str Marinha do Brasil (MB)
instacron_str MB
institution MB
reponame_str Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
collection Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
bitstream.url.fl_str_mv https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/1/CT_ELISEU_Autorizacao.pdf
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/2/CT_ELISEU_Dissertacao.pdf
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/3/CT_ELISEU_Autorizacao.pdf.txt
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/5/CT_ELISEU_Dissertacao.pdf.txt
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/4/CT_ELISEU_Autorizacao.pdf.jpg
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/6/CT_ELISEU_Dissertacao.pdf.jpg
bitstream.checksum.fl_str_mv 45d6ff74c4cc599d992c8ccc40fa4d21
7821eec77441a48ec1ed185beb9d40b0
68b329da9893e34099c7d8ad5cb9c940
3b136f48b1a27b1a8da24e6cb754ff45
359bcf4e660a2b7051fd09a0e993f029
c34c06b4be7ecede194b46c55d3c8ea5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)
repository.mail.fl_str_mv dphdm.repositorio@marinha.mil.br
_version_ 1794067774036770816