A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Martins, Rayssa Küllian
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/
Resumo: A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados
id USP_d8efd0463344111c239d810c8cd0d715
oai_identifier_str oai:teses.usp.br:tde-20230727-113522
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para portuguêsThe detection of irony\2019s conversational implicatures in social media through machine learning applied to portuguese languageAprendizado ComputacionalMineração De DadosProcessamento De Linguagem NaturalRedes SociaisSistemas ColaborativosA ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizadosIrony is an expression language commonly used and interpreted by human beings. However, this simplicity is not quite distinguishable when talking about a textual dialogue, making it puzzling to formally define and detect. When training a predictive classification model to provide Sentiment Analysis in social media chats or product reviews on any retail website, e.g., binary labeled records are not enough and has its performance sharply reduced when some customer is ironic. Hence, textual irony becomes a noise or a polarity inverter within the classifier and the issue gets worse when the language is Portuguese, where there is no public labeled corpus for these scenario. This project presents a study of works related to irony in the Computational Linguistics point of view, approaching its philosophical concept, textual implied nuances and proposals for how to process it. The complexity of this subject is presented in the course of the text and its peculiar challenges are pointed out through examples, also indicating possible research gaps. The proposal of this research is to offer a set of Machine Learning and Natural Language Processing techniques to accomplish the automatic detection of textual irony, whereas Twitter’s reviews will be its main application and the main goal is to collect all tweets with the hashtag #metrosp for the context of subways in the city of Sao Paulo, Brazil. Two approaches are compared across 41 experiments and 900 tests: the classification of linguistic components with Natural Language Processing using only the text of the tweets, and the classifi- cation of new attributes built to represent this text with its main identified characteristics during the exploratory analysis. The best performance was found using the Bayes algorithm with 96 percent of f1 when classifying the attributes on a balanced training set of 538 tweets, which performance was also the most stable one with a average of 0.8014 in all the performed experimentsBiblioteca Digitais de Teses e Dissertações da USPFinger, MarceloMartins, Rayssa Küllian2018-07-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T20:00:05Zoai:teses.usp.br:tde-20230727-113522Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T20:00:05Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
The detection of irony\2019s conversational implicatures in social media through machine learning applied to portuguese language
title A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
spellingShingle A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
Martins, Rayssa Küllian
Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos
title_short A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
title_full A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
title_fullStr A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
title_full_unstemmed A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
title_sort A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
author Martins, Rayssa Küllian
author_facet Martins, Rayssa Küllian
author_role author
dc.contributor.none.fl_str_mv Finger, Marcelo
dc.contributor.author.fl_str_mv Martins, Rayssa Küllian
dc.subject.por.fl_str_mv Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos
topic Aprendizado Computacional
Mineração De Dados
Processamento De Linguagem Natural
Redes Sociais
Sistemas Colaborativos
description A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados
publishDate 2018
dc.date.none.fl_str_mv 2018-07-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/
url https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258342452363264