Exportação concluída — 

Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: De Bortoli, Arthur Facin
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Pato Branco
Brasil
Programa de Pós-Graduação em Engenharia de Produção e Sistemas
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/30878
Resumo: It is believed that the global urban population, in the year 2050, will reach the mark of 68%. In the wake of the growing, rapid and continuous urbanization, management challenges have become more complex, which has made cities, thinking about providing a better quality of life for their citizens, start to adopt concepts of Smart Cities. A city becomes reasonably technological, from the point of view of Smart Cities, when it is able to make use of ICT tools to solve urban problems. As a subset of these ICT tools, there are social media, in which are produced continuous data, of wide diffusion and dissemination. The ability to know what subject citizens are talking about the most, and how they feel about it, through data from social media, is something that meets the use of ICT, aimed at the context of Smart Cities. However, the task of extracting and analyzing data from social media is not trivial, especially in Brazilian cities of intermediate size, which calls for new solutions. Thus, what is proposed here is a model for extracting and analyzing data, having the social media Twitter as the source of content, geographically located in the context of intermediate cities, with the city of Maringá as the locus of this study. For that, an approach of central users is used, in the social network Twitter, to extract the data. For analysis, Dirichlet Latent Allocation (LDA) is applied to identify the prominent topic(s), and Sentiment Analysis to discover its polarity. The data extraction located in the context of cities, using both the central users approach and the geotagged approach was successful as was the application of the LDA, indicating the most proeminent topics, which made it possible to verify the themes most discussed by netizens. The main topics identified through the LDA were related to: Pandemic, with data collected in January 2022, in the first model test, and Urban Mobility, with data collected from September to December 2022, in the second model test. Carrying out the thematic collection on these subjects, the predominant sentiment within the data was negative. It was also found that the supervised strategy was more successful for classifying the sentiment polarity of tweets, especially the SVM and Random Forest methods, especially in the second application test of the model. Having the contribution of the literature and subsequent performance of two tests, the final flowchart as well as a generic model are presented at the end, being, subsequently, raised limitations of the work and opportunities for future studies.
id UTFPR-12_8e93bb16edb663e366ed51249590ee76
oai_identifier_str oai:repositorio.utfpr.edu.br:1/30878
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do TwitterModel for data extraction and sentiment analysis in intermediate cities: an approach using Twitter central usersBanco de dadosCidades inteligentesAlgorítmos computacionaisAprendizado do computadorData basesSmart citiesComputer algorithmsMachine learningCNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAOEngenharia/Tecnologia/GestãoIt is believed that the global urban population, in the year 2050, will reach the mark of 68%. In the wake of the growing, rapid and continuous urbanization, management challenges have become more complex, which has made cities, thinking about providing a better quality of life for their citizens, start to adopt concepts of Smart Cities. A city becomes reasonably technological, from the point of view of Smart Cities, when it is able to make use of ICT tools to solve urban problems. As a subset of these ICT tools, there are social media, in which are produced continuous data, of wide diffusion and dissemination. The ability to know what subject citizens are talking about the most, and how they feel about it, through data from social media, is something that meets the use of ICT, aimed at the context of Smart Cities. However, the task of extracting and analyzing data from social media is not trivial, especially in Brazilian cities of intermediate size, which calls for new solutions. Thus, what is proposed here is a model for extracting and analyzing data, having the social media Twitter as the source of content, geographically located in the context of intermediate cities, with the city of Maringá as the locus of this study. For that, an approach of central users is used, in the social network Twitter, to extract the data. For analysis, Dirichlet Latent Allocation (LDA) is applied to identify the prominent topic(s), and Sentiment Analysis to discover its polarity. The data extraction located in the context of cities, using both the central users approach and the geotagged approach was successful as was the application of the LDA, indicating the most proeminent topics, which made it possible to verify the themes most discussed by netizens. The main topics identified through the LDA were related to: Pandemic, with data collected in January 2022, in the first model test, and Urban Mobility, with data collected from September to December 2022, in the second model test. Carrying out the thematic collection on these subjects, the predominant sentiment within the data was negative. It was also found that the supervised strategy was more successful for classifying the sentiment polarity of tweets, especially the SVM and Random Forest methods, especially in the second application test of the model. Having the contribution of the literature and subsequent performance of two tests, the final flowchart as well as a generic model are presented at the end, being, subsequently, raised limitations of the work and opportunities for future studies.Acredita-se que a população urbana global, no ano de 2050, alcance a marca de 68% do total de habitantes. Na esteira da crescente, rápida e contínua urbanização, tem-se a complexificação dos desafios de gestão, que tem feito com que as cidades, pensando em prover melhor qualidade de vida aos seus cidadãos, passem a adotar conceitos de Cidades Inteligentes. Uma cidade passa a ser razoavelmente tecnológica, sob a ótica de Cidades Inteligentes, quando é capaz de fazer uso das ferramentas de TIC para resolução de problemas urbanos. Enquanto subconjunto destas ferramentas de TIC tem-se as redes sociais, que são produtoras de dados contínuos, de ampla difusão e disseminação. A capacidade de conhecer sobre que assuntos os cidadãos mais estão discutindo, e como se sentem diante disso, por meio dos dados de redes sociais, é algo que vai ao encontro da utilização da TIC, voltada ao contexto de Cidades Inteligentes. Todavia, a tarefa de extração e análise de dados de redes sociais não é algo trivial, especialmente em cidades de porte intermediário, brasileiras, o que clama por novas soluções. Assim, o que se propõe aqui é um modelo para extração e análise de dados, tendo por fonte a rede social Twitter, geograficamente situados no contexto das cidades intermediárias, tendo a cidade de Maringá, como lócus do estudo. Para tanto, faz-se uso de uma abordagem em usuários centrais da rede social Twitter, para extração dos dados. Para análise, são aplicadas a Alocação Latente de Dirichlet (LDA), para identificar o(s) tópico(s) proeminente(s), e Análise de Sentimentos, para descobrir sua polaridade. A extração situada no contexto das cidades, fazendo uso tanto da abordagem de usuários centrais, como da abordagem geolocalizada foi bem-sucedida e a aplicação da LDA obteve êxito, indicando os tópicos mais discutidos, o que possibilitou a constatação das temáticas mais discutidas pelos netizens. Observou-se que os tópicos principais identificados por meio da LDA foram relacionados a: Pandemia, no primeiro teste de aplicação do modelo, com coleta em janeiro de 2022, e Mobilidade Urbana, com coleta feita de setembro a dezembro de 2022, no segundo teste de aplicação do modelo. Realizando a coleta temática acerca destes assuntos, a polaridade de sentimento predominante dos netizens sobre o tema foi negativa. Verificou-se ainda que a estratégia supervisionada foi mais bem sucedida para classificação da polaridade de sentimento dos tweets, sobretudo os métodos SVM e Random Forest, sobretudo no segundo teste de aplicação do modelo. Tendo o aporte da literatura e posterior a realização de dois testes, o fluxograma final bem como um modelo genérico são apresentados ao final, sendo, posteriormente, levantadas limitações do trabalho e oportunidades para estudos futuros.Universidade Tecnológica Federal do ParanáPato BrancoBrasilPrograma de Pós-Graduação em Engenharia de Produção e SistemasUTFPRSantos, Gilson Ditzelhttps://orcid.org/0000-0002-7839-2281http://lattes.cnpq.br/7588810166034182Oliveira, Gilson Adamczukhttps://orcid.org/0000-0002-5028-4473http://lattes.cnpq.br/5725118465825490Santos, Gilson Ditzelhttps://orcid.org/0000-0002-7839-2281http://lattes.cnpq.br/7588810166034182Moron, Marie Anne Macadarhttps://orcid.org/0000-0003-2744-5352http://lattes.cnpq.br/2770084256076947De Bortoli, Arthur Facin2023-03-20T11:26:52Z2023-03-20T11:26:52Z2023-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDE BORTOLI, Arthur Facin. Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter. 2023. Dissertação (Mestrado em Engenharia de Produção e Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/30878porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-03-21T06:07:39Zoai:repositorio.utfpr.edu.br:1/30878Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-03-21T06:07:39Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
Model for data extraction and sentiment analysis in intermediate cities: an approach using Twitter central users
title Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
spellingShingle Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
De Bortoli, Arthur Facin
Banco de dados
Cidades inteligentes
Algorítmos computacionais
Aprendizado do computador
Data bases
Smart cities
Computer algorithms
Machine learning
CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
Engenharia/Tecnologia/Gestão
title_short Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
title_full Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
title_fullStr Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
title_full_unstemmed Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
title_sort Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter
author De Bortoli, Arthur Facin
author_facet De Bortoli, Arthur Facin
author_role author
dc.contributor.none.fl_str_mv Santos, Gilson Ditzel
https://orcid.org/0000-0002-7839-2281
http://lattes.cnpq.br/7588810166034182
Oliveira, Gilson Adamczuk
https://orcid.org/0000-0002-5028-4473
http://lattes.cnpq.br/5725118465825490
Santos, Gilson Ditzel
https://orcid.org/0000-0002-7839-2281
http://lattes.cnpq.br/7588810166034182
Moron, Marie Anne Macadar
https://orcid.org/0000-0003-2744-5352
http://lattes.cnpq.br/2770084256076947
dc.contributor.author.fl_str_mv De Bortoli, Arthur Facin
dc.subject.por.fl_str_mv Banco de dados
Cidades inteligentes
Algorítmos computacionais
Aprendizado do computador
Data bases
Smart cities
Computer algorithms
Machine learning
CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
Engenharia/Tecnologia/Gestão
topic Banco de dados
Cidades inteligentes
Algorítmos computacionais
Aprendizado do computador
Data bases
Smart cities
Computer algorithms
Machine learning
CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
Engenharia/Tecnologia/Gestão
description It is believed that the global urban population, in the year 2050, will reach the mark of 68%. In the wake of the growing, rapid and continuous urbanization, management challenges have become more complex, which has made cities, thinking about providing a better quality of life for their citizens, start to adopt concepts of Smart Cities. A city becomes reasonably technological, from the point of view of Smart Cities, when it is able to make use of ICT tools to solve urban problems. As a subset of these ICT tools, there are social media, in which are produced continuous data, of wide diffusion and dissemination. The ability to know what subject citizens are talking about the most, and how they feel about it, through data from social media, is something that meets the use of ICT, aimed at the context of Smart Cities. However, the task of extracting and analyzing data from social media is not trivial, especially in Brazilian cities of intermediate size, which calls for new solutions. Thus, what is proposed here is a model for extracting and analyzing data, having the social media Twitter as the source of content, geographically located in the context of intermediate cities, with the city of Maringá as the locus of this study. For that, an approach of central users is used, in the social network Twitter, to extract the data. For analysis, Dirichlet Latent Allocation (LDA) is applied to identify the prominent topic(s), and Sentiment Analysis to discover its polarity. The data extraction located in the context of cities, using both the central users approach and the geotagged approach was successful as was the application of the LDA, indicating the most proeminent topics, which made it possible to verify the themes most discussed by netizens. The main topics identified through the LDA were related to: Pandemic, with data collected in January 2022, in the first model test, and Urban Mobility, with data collected from September to December 2022, in the second model test. Carrying out the thematic collection on these subjects, the predominant sentiment within the data was negative. It was also found that the supervised strategy was more successful for classifying the sentiment polarity of tweets, especially the SVM and Random Forest methods, especially in the second application test of the model. Having the contribution of the literature and subsequent performance of two tests, the final flowchart as well as a generic model are presented at the end, being, subsequently, raised limitations of the work and opportunities for future studies.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-20T11:26:52Z
2023-03-20T11:26:52Z
2023-02-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DE BORTOLI, Arthur Facin. Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter. 2023. Dissertação (Mestrado em Engenharia de Produção e Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
http://repositorio.utfpr.edu.br/jspui/handle/1/30878
identifier_str_mv DE BORTOLI, Arthur Facin. Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter. 2023. Dissertação (Mestrado em Engenharia de Produção e Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
url http://repositorio.utfpr.edu.br/jspui/handle/1/30878
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
Brasil
Programa de Pós-Graduação em Engenharia de Produção e Sistemas
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
Brasil
Programa de Pós-Graduação em Engenharia de Produção e Sistemas
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498314508697600