Análise de discursos parlamentares na Câmara dos Deputados

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Santos, Gustavo Franklin Vieira dos
Orientador(a): Reis, Saulo Davi Soares e
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufc.br/handle/riufc/81906
Resumo: This work aims to analyze speeches delivered by Brazilian federal deputies using Natural Language Processing techniques and topic modeling. More than 900,000 speeches from the Chamber of Deputies were collected, covering the period from 1950 to 2024, and an exploratory analysis of this data was conducted. However, the topic modeling analysis focuses exclusively on the year 2001, in order to validate the proposed technique. The analysis employs models widely used in the literature, such as Latent Dirichlet Allocation (LDA), as well as more recent models like BERTopic, to identify thematic patterns and the evolution of topics debated over time. To achieve this, data was automatically collected via web scraping, and a series of textual preprocessing steps were applied, such as lemmatization and stopword removal. The modeling enabled not only the identification of recurring topics but also the correlation between historical events and the content of the speeches. This approach highlights the potential of computational methods for analyzing large volumes of textual data in a political context.
id UFC-7_a3ca58843d2d6ed788390c087ea9fda9
oai_identifier_str oai:repositorio.ufc.br:riufc/81906
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Santos, Gustavo Franklin Vieira dosReis, Saulo Davi Soares e2025-08-11T12:11:24Z2025-08-11T12:11:24Z2025SANTOS, G. F. V. Análise de discursos parlamentares na Câmara dos Deputados. Dissertação (Mestrado em Física) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2025.http://repositorio.ufc.br/handle/riufc/81906This work aims to analyze speeches delivered by Brazilian federal deputies using Natural Language Processing techniques and topic modeling. More than 900,000 speeches from the Chamber of Deputies were collected, covering the period from 1950 to 2024, and an exploratory analysis of this data was conducted. However, the topic modeling analysis focuses exclusively on the year 2001, in order to validate the proposed technique. The analysis employs models widely used in the literature, such as Latent Dirichlet Allocation (LDA), as well as more recent models like BERTopic, to identify thematic patterns and the evolution of topics debated over time. To achieve this, data was automatically collected via web scraping, and a series of textual preprocessing steps were applied, such as lemmatization and stopword removal. The modeling enabled not only the identification of recurring topics but also the correlation between historical events and the content of the speeches. This approach highlights the potential of computational methods for analyzing large volumes of textual data in a political context.Este trabalho tem como objetivo analisar discursos proferidos por deputados federais brasileiros, utilizando técnicas de Processamento de Linguagem Natural e modelagem de tópicos. Foram coletados mais de 900 mil discursos da Câmara dos Deputados, abrangendo o período de 1950 a 2024, realizando uma análise exploratória desses dados, entretanto, será feita a análise dos tópicos somente do ano de 2001, para que assim seja possível validar a técnica proposta. A análise emprega modelos amplamente utilizados na literatura, como o Latent Dirichlet Allocation (LDA), e modelos mais recentes, como o BERTopic, para identificar padrões temáticos e a evolução de assuntos debatidos ao longo do tempo. Para isso, realizou-se a coleta automatizada dos dados via web scraping e aplicou-se uma série de etapas de pré-processamento textual, como lematização e remoção de stop words. A modelagem permitiu não apenas a identificação de tópicos recorrentes, mas também a correlação entre eventos históricos e o conteúdo dos discursos. A abordagem destacou o potencial dos métodos computacionais para análise de grandes volumes de dados textuais no contexto político.SANTOS, G. F. V. Análise de discursos parlamentares na Câmara dos Deputados. Dissertação (Mestrado em Física) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2025.Análise de discursos parlamentares na Câmara dos Deputadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisAnálise de discursosAprendizado de máquinaProcessamento de linguagemCâmara dos DeputadosLatent DirichletSpeech analyzisMachine learningLanguage processingChamber of DeputiesLatent DirichletCNPQ::CIENCIAS EXATAS E DA TERRA::FISICA::FISICA DA MATERIA CONDENSADAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFC2025ORIGINAL2025_dis_gfvsantos.pdf2025_dis_gfvsantos.pdfapplication/pdf4838509http://repositorio.ufc.br/bitstream/riufc/81906/5/2025_dis_gfvsantos.pdf31cd13bf6f2aebbcd5bbbab08dd2a096MD55LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/81906/6/license.txt8a4605be74aa9ea9d79846c1fba20a33MD56riufc/819062025-08-11 09:11:25.112oai:repositorio.ufc.br:riufc/81906Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2025-08-11T12:11:25Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Análise de discursos parlamentares na Câmara dos Deputados
title Análise de discursos parlamentares na Câmara dos Deputados
spellingShingle Análise de discursos parlamentares na Câmara dos Deputados
Santos, Gustavo Franklin Vieira dos
CNPQ::CIENCIAS EXATAS E DA TERRA::FISICA::FISICA DA MATERIA CONDENSADA
Análise de discursos
Aprendizado de máquina
Processamento de linguagem
Câmara dos Deputados
Latent Dirichlet
Speech analyzis
Machine learning
Language processing
Chamber of Deputies
Latent Dirichlet
title_short Análise de discursos parlamentares na Câmara dos Deputados
title_full Análise de discursos parlamentares na Câmara dos Deputados
title_fullStr Análise de discursos parlamentares na Câmara dos Deputados
title_full_unstemmed Análise de discursos parlamentares na Câmara dos Deputados
title_sort Análise de discursos parlamentares na Câmara dos Deputados
author Santos, Gustavo Franklin Vieira dos
author_facet Santos, Gustavo Franklin Vieira dos
author_role author
dc.contributor.author.fl_str_mv Santos, Gustavo Franklin Vieira dos
dc.contributor.advisor1.fl_str_mv Reis, Saulo Davi Soares e
contributor_str_mv Reis, Saulo Davi Soares e
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::FISICA::FISICA DA MATERIA CONDENSADA
topic CNPQ::CIENCIAS EXATAS E DA TERRA::FISICA::FISICA DA MATERIA CONDENSADA
Análise de discursos
Aprendizado de máquina
Processamento de linguagem
Câmara dos Deputados
Latent Dirichlet
Speech analyzis
Machine learning
Language processing
Chamber of Deputies
Latent Dirichlet
dc.subject.ptbr.pt_BR.fl_str_mv Análise de discursos
Aprendizado de máquina
Processamento de linguagem
Câmara dos Deputados
Latent Dirichlet
dc.subject.en.pt_BR.fl_str_mv Speech analyzis
Machine learning
Language processing
Chamber of Deputies
Latent Dirichlet
description This work aims to analyze speeches delivered by Brazilian federal deputies using Natural Language Processing techniques and topic modeling. More than 900,000 speeches from the Chamber of Deputies were collected, covering the period from 1950 to 2024, and an exploratory analysis of this data was conducted. However, the topic modeling analysis focuses exclusively on the year 2001, in order to validate the proposed technique. The analysis employs models widely used in the literature, such as Latent Dirichlet Allocation (LDA), as well as more recent models like BERTopic, to identify thematic patterns and the evolution of topics debated over time. To achieve this, data was automatically collected via web scraping, and a series of textual preprocessing steps were applied, such as lemmatization and stopword removal. The modeling enabled not only the identification of recurring topics but also the correlation between historical events and the content of the speeches. This approach highlights the potential of computational methods for analyzing large volumes of textual data in a political context.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-08-11T12:11:24Z
dc.date.available.fl_str_mv 2025-08-11T12:11:24Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, G. F. V. Análise de discursos parlamentares na Câmara dos Deputados. Dissertação (Mestrado em Física) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2025.
dc.identifier.uri.fl_str_mv http://repositorio.ufc.br/handle/riufc/81906
identifier_str_mv SANTOS, G. F. V. Análise de discursos parlamentares na Câmara dos Deputados. Dissertação (Mestrado em Física) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2025.
url http://repositorio.ufc.br/handle/riufc/81906
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/81906/5/2025_dis_gfvsantos.pdf
http://repositorio.ufc.br/bitstream/riufc/81906/6/license.txt
bitstream.checksum.fl_str_mv 31cd13bf6f2aebbcd5bbbab08dd2a096
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793157053349888