A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/ |
Resumo: | A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados |
| id |
USP_d8efd0463344111c239d810c8cd0d715 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-20230727-113522 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para portuguêsThe detection of irony\2019s conversational implicatures in social media through machine learning applied to portuguese languageAprendizado ComputacionalMineração De DadosProcessamento De Linguagem NaturalRedes SociaisSistemas ColaborativosA ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizadosIrony is an expression language commonly used and interpreted by human beings. However, this simplicity is not quite distinguishable when talking about a textual dialogue, making it puzzling to formally define and detect. When training a predictive classification model to provide Sentiment Analysis in social media chats or product reviews on any retail website, e.g., binary labeled records are not enough and has its performance sharply reduced when some customer is ironic. Hence, textual irony becomes a noise or a polarity inverter within the classifier and the issue gets worse when the language is Portuguese, where there is no public labeled corpus for these scenario. This project presents a study of works related to irony in the Computational Linguistics point of view, approaching its philosophical concept, textual implied nuances and proposals for how to process it. The complexity of this subject is presented in the course of the text and its peculiar challenges are pointed out through examples, also indicating possible research gaps. The proposal of this research is to offer a set of Machine Learning and Natural Language Processing techniques to accomplish the automatic detection of textual irony, whereas Twitters reviews will be its main application and the main goal is to collect all tweets with the hashtag #metrosp for the context of subways in the city of Sao Paulo, Brazil. Two approaches are compared across 41 experiments and 900 tests: the classification of linguistic components with Natural Language Processing using only the text of the tweets, and the classifi- cation of new attributes built to represent this text with its main identified characteristics during the exploratory analysis. The best performance was found using the Bayes algorithm with 96 percent of f1 when classifying the attributes on a balanced training set of 538 tweets, which performance was also the most stable one with a average of 0.8014 in all the performed experimentsBiblioteca Digitais de Teses e Dissertações da USPFinger, MarceloMartins, Rayssa Küllian2018-07-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T20:00:05Zoai:teses.usp.br:tde-20230727-113522Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T20:00:05Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português The detection of irony\2019s conversational implicatures in social media through machine learning applied to portuguese language |
| title |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| spellingShingle |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português Martins, Rayssa Küllian Aprendizado Computacional Mineração De Dados Processamento De Linguagem Natural Redes Sociais Sistemas Colaborativos |
| title_short |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| title_full |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| title_fullStr |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| title_full_unstemmed |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| title_sort |
A detecção de implicaturas conversacionais da ironia em textos de redes sociais através do aprendizado de máquina para português |
| author |
Martins, Rayssa Küllian |
| author_facet |
Martins, Rayssa Küllian |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Finger, Marcelo |
| dc.contributor.author.fl_str_mv |
Martins, Rayssa Küllian |
| dc.subject.por.fl_str_mv |
Aprendizado Computacional Mineração De Dados Processamento De Linguagem Natural Redes Sociais Sistemas Colaborativos |
| topic |
Aprendizado Computacional Mineração De Dados Processamento De Linguagem Natural Redes Sociais Sistemas Colaborativos |
| description |
A ironia é uma expressão de linguagem comumente utilizada e interpretada por seres humanos. Porém, esta simplicidade não é perceptível quando se trata de um diálogo textual, tornando com- plexa sua definição formal e consequente detecção. Ao treinar um modelo de classificação preditiva para realizar Análise de Sentimento em conversas em redes sociais ou avaliações de produtos em sites de comércio eletrônico, e.g., exemplos rotulados binariamente não são suficientes e tem seu de- sempenho acentuadamente reduzido quando um usuário é irônico. Por este motivo, a ironia textual se torna um ruído ou um inversor de polaridade no classificador e o problema é agravado quando se trata do idioma Português, onde não existem córpus públicos anotados para estas ocorrências. Este trabalho apresenta um estudo relacionado à ironia do ponto de vista da Linguística Com- putacional, abordando desde a discussão acerca de sua definição até nuances implícitas do texto e sugestões de como processá-las. A complexidade deste tema é abordada no decorrer do texto e seus desafios peculiares são evidenciados através de exemplos, apontando, inclusive, possíveis lacunas de pesquisa. A proposta desta pesquisa é apresentar um conjunto de técnicas de Aprendizado de Máquina e Processamento Natural de Linguagem para realizar a detecção automática de ironias textuais, tendo como principal aplicação a detecção aplicada às opiniões postadas publicamente no Twitter utilizando a hashtag #metrosp no contexto de metrô e trens da CPTM na cidade de São Paulo, Brasil. Duas abordagens são comparadas ao longo de 51 experimentos e 900 testes: a classificação de componentes linguísticos com Processamento de Língua Natural através do texto dos tweets, e a classificação de novos atributos que representam este texto a partir de principais características identificadas na análise exploratória. O melhor desempenho foi encontrado com a utilização do al- goritmo de Bayes com 96 por cento de f1 na classificação de atributos em uma base balanceada de 538 tweets, cujo desempenho também foi o mais estável com uma média de 0.8014 em todos os experimentos realizados |
| publishDate |
2018 |
| dc.date.none.fl_str_mv |
2018-07-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/ |
| url |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113522/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815258342452363264 |