Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por eng |
| Instituição de defesa: |
Universidade Presbiteriana Mackenzie
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Link de acesso: | https://dspace.mackenzie.br/handle/10899/41556 |
Resumo: | O cenário atual da sociedade brasileira é marcado por uma convergência de fenômenos como a infodemia, as bolhas de filtro e a pós-verdade, que têm intensificado a polarização política e dificultado o acesso da população a uma visão equilibrada dos fatos. Neste contexto, este trabalho de pesquisa investiga o desenvolvimento de um modelo de aprendizado de máquina para a classificação automática de viés político em textos do cenário político brasileiro, empregando técnicas avançadas de Processamento de Linguagem Natural (PLN). A metodologia fundamenta-se na utilização do modelo BERTimbau, pré-treinado para português brasileiro, para geração de embeddings textuais. O pipeline técnico parte da construção de uma base de dados inédita com 55.733 discursos parlamentares da Câmara dos Deputados, coletados via API REST. Os textos passam por um rigoroso pré-processamento antes da geração de embeddings contextuais. Múltiplos classificadores foram implementados e comparados, incluindo XGBoost (68,05%) e Naive Bayes (63%), com o modelo MLP (67,21%) sendo selecionado para um processo detalhado de otimização, que incluiu balanceamento de classes, tratamento de sobreajuste e validação cruzada em 5 partições. Validado em textos reais de portais partidários, o modelo demonstrou capacidade de generalização, embora mantendo uma taxa de erro consistente em torno de 30%. Os experimentos revelaram a importância crucial do pré-processamento e do balanceamento de classes para a redução de vieses no modelo, além de identificarem limitações significativas na classificação de textos que abordam temas sociais ou utilizam linguagem técnica/institucional. As principais contribuições do trabalho incluem a criação da base de dados inédita, a análise comparativa de diferentes abordagens metodológicas e a identificação detalhada de padrões de erro e limitações, abrindo caminhos para futuras pesquisas na análise automatizada de conteúdo político em português. |
| id |
UPM_63e461cf392fffc4d97efae86e7ec243 |
|---|---|
| oai_identifier_str |
oai:dspace.mackenzie.br:10899/41556 |
| network_acronym_str |
UPM |
| network_name_str |
Repositório Digital do Mackenzie |
| repository_id_str |
|
| spelling |
Cassola, Renato CecchettiSilva, Leandro Augusto da2025-11-12T19:58:39Z2025-08-19https://dspace.mackenzie.br/handle/10899/41556O cenário atual da sociedade brasileira é marcado por uma convergência de fenômenos como a infodemia, as bolhas de filtro e a pós-verdade, que têm intensificado a polarização política e dificultado o acesso da população a uma visão equilibrada dos fatos. Neste contexto, este trabalho de pesquisa investiga o desenvolvimento de um modelo de aprendizado de máquina para a classificação automática de viés político em textos do cenário político brasileiro, empregando técnicas avançadas de Processamento de Linguagem Natural (PLN). A metodologia fundamenta-se na utilização do modelo BERTimbau, pré-treinado para português brasileiro, para geração de embeddings textuais. O pipeline técnico parte da construção de uma base de dados inédita com 55.733 discursos parlamentares da Câmara dos Deputados, coletados via API REST. Os textos passam por um rigoroso pré-processamento antes da geração de embeddings contextuais. Múltiplos classificadores foram implementados e comparados, incluindo XGBoost (68,05%) e Naive Bayes (63%), com o modelo MLP (67,21%) sendo selecionado para um processo detalhado de otimização, que incluiu balanceamento de classes, tratamento de sobreajuste e validação cruzada em 5 partições. Validado em textos reais de portais partidários, o modelo demonstrou capacidade de generalização, embora mantendo uma taxa de erro consistente em torno de 30%. Os experimentos revelaram a importância crucial do pré-processamento e do balanceamento de classes para a redução de vieses no modelo, além de identificarem limitações significativas na classificação de textos que abordam temas sociais ou utilizam linguagem técnica/institucional. As principais contribuições do trabalho incluem a criação da base de dados inédita, a análise comparativa de diferentes abordagens metodológicas e a identificação detalhada de padrões de erro e limitações, abrindo caminhos para futuras pesquisas na análise automatizada de conteúdo político em português.porengUniversidade Presbiteriana MackenzieUPMBrasilviés políticoaprendizado de máquinaprocessamento de linguagem naturalBERTclassificação de textoredes neuraisembeddingsAplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccesshttp://lattes.cnpq.br/1396385111251741https://orcid.org/0000-0002-8671-3102http://lattes.cnpq.br/7586795482965919Araujo, Renata Mendes dehttp://lattes.cnpq.br/3589012014320121Rêgo, Thaís Gaudencio dohttp://lattes.cnpq.br/3166390632199101https://orcid.org/0000-0002-6608-4900Rêgo, Gabriel Gaudencio dohttp://lattes.cnpq.br/6963794372410513https://orcid.org/0000-0003-3304-4723The current landscape of Brazilian society is marked by a convergence of phenomena such as the infodemic, filter bubbles, and post-truth, which have intensified political po larization and hindered the public’s access to a balanced view of facts. In this context, this research investigates the development of a machine learning model for the automa tic classification of political bias in texts from the Brazilian political scene, employing advanced Natural Language Processing (NLP) techniques. The methodology is based on the use of the BERTimbau model, pre-trained for Brazilian Portuguese, to generate textual embeddings. The technical pipeline begins with the construction of a unique da tabase of 55,733 parliamentary speeches from the Chamber of Deputies, collected via a REST API. The texts undergo rigorous preprocessing before the generation of contextual embeddings. Multiple classifiers were implemented and compared, including XGBoost (68.05%) and Naive Bayes (63%), with the MLP model (67.21%) being selected for a detailed optimization process, which included class balancing, overfitting treatment, and 5-fold cross-validation. Validated on real texts from partisan portals, the model demons trated generalization capability, while maintaining a consistent error rate of around 30%. The experiments revealed the crucial importance of preprocessing and class balancing for reducing model bias, while also identifying significant limitations in classifying texts that address social issues or use technical/institutional language. The main contributions of this work include the creation of an unprecedented database, the comparative analysis of different methodological approaches, and the detailed identification of error patterns and limitations, opening paths for future research in the automated analysis of political content in Portuguese.political biasmachine learningnatural language processingBERTtext classificationneural networksembeddingsFaculdade de Computação e Informática (FCI)Computação AplicadaCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOORIGINALRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdfRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdfapplication/pdf1216301https://dspace.mackenzie.br/bitstreams/a9b4294f-109a-4511-ac14-330ebfa622a1/download594c50163c481578bf9628819936e97bMD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-82207https://dspace.mackenzie.br/bitstreams/6e9f4a0e-1caf-4cd2-a90e-5b18e6a53738/downloada092685f5fe02015fe6064807ee8feefMD52falseAnonymousREADTEXTRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdf.txtRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdf.txtExtracted texttext/plain103325https://dspace.mackenzie.br/bitstreams/9ae2b852-2852-4aa6-853b-697e06daa123/download2795bfe43da961794555f4a088dcdd17MD53falseAnonymousREADTHUMBNAILRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdf.jpgRENATO CECCHETTI CASSOLA_TCM - VERSÃO FINAL - protegido.pdf.jpgGenerated Thumbnailimage/jpeg4047https://dspace.mackenzie.br/bitstreams/9b77a731-8412-4c39-ba39-e223887086c8/downloada573849279da479c7799b69f6fb69496MD54falseAnonymousREAD10899/415562025-11-13T06:01:28.795036Zopen.accessoai:dspace.mackenzie.br:10899/41556https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772025-11-13T06:01:28Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBvIGFjZWl0ZSBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBzZXUgdHJhYmFsaG8gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KQWNlaXRhbmRvIGVzc2EgbGljZW7Dp2Egdm9jw6ogY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBvIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZG8gc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KQ29uY29yZGFyw6EgcXVlIHNldSB0cmFiYWxobyB0YW1iw6ltIHNlcsOhIHJlZ2lkbyBwZWxhIENyZWF0aXZlIENvbW1vbnMgcXVlIE7Dg08gcGVybWl0ZSBvIHVzbyBjb21lcmNpYWwgb3UgcXVhbHF1ZXIgYWx0ZXJhw6fDo28gZGEgb2JyYSBwb3IgdGVyY2Vpcm9zIGNvbmZvcm1lIGRlc2NyaXRvIGVtIDxhIGhyZWY9Imh0dHBzOi8vY3JlYXRpdmVjb21tb25zLm9yZy9saWNlbnNlcy9ieS1uYy1uZC80LjAvIiB0YXJnZXQ9Il9ibGFuayI+aHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC88L2E+LgpWb2PDqiBkZWNsYXJhIHF1ZSBzZXUgdHJhYmFsaG8gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEgdGFtYsOpbSBxdWUgbyBkZXDDs3NpdG8gZG8gc2V1IHRyYWJhbGhvIG7Do28sIHF1ZSBzZWphIGRlIHNldSBjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgpDYXNvIG8gc2V1IHRyYWJhbGhvIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2PDqiBuw6NvIHBvc3N1aSBhIHRpdHVsYXJpZGFkZSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHZvY8OqIGRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkbyBzZXUgdHJhYmFsaG8gb3JhIGRlcG9zaXRhZG8uCkNBU08gTyBUUkFCQUxITyBPUkEgREVQT1NJVEFETyBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyBPUkdBTklTTU8gUVVFIE7Dg08gU0VKQSBBIFVOSVZFUlNJREFERSBQUkVTQklURVJJQU5BIE1BQ0tFTlpJRSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCkEgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHNldSB0cmFiYWxobywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo= |
| dc.title.none.fl_str_mv |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| title |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| spellingShingle |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados Cassola, Renato Cecchetti viés político aprendizado de máquina processamento de linguagem natural BERT classificação de texto redes neurais embeddings |
| title_short |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| title_full |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| title_fullStr |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| title_full_unstemmed |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| title_sort |
Aplicação de redes neurais na classificação de viés político partidário nos discursos da Câmara dos deputados |
| author |
Cassola, Renato Cecchetti |
| author_facet |
Cassola, Renato Cecchetti |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Cassola, Renato Cecchetti |
| dc.contributor.advisor1.fl_str_mv |
Silva, Leandro Augusto da |
| contributor_str_mv |
Silva, Leandro Augusto da |
| dc.subject.por.fl_str_mv |
viés político aprendizado de máquina processamento de linguagem natural BERT classificação de texto redes neurais embeddings |
| topic |
viés político aprendizado de máquina processamento de linguagem natural BERT classificação de texto redes neurais embeddings |
| description |
O cenário atual da sociedade brasileira é marcado por uma convergência de fenômenos como a infodemia, as bolhas de filtro e a pós-verdade, que têm intensificado a polarização política e dificultado o acesso da população a uma visão equilibrada dos fatos. Neste contexto, este trabalho de pesquisa investiga o desenvolvimento de um modelo de aprendizado de máquina para a classificação automática de viés político em textos do cenário político brasileiro, empregando técnicas avançadas de Processamento de Linguagem Natural (PLN). A metodologia fundamenta-se na utilização do modelo BERTimbau, pré-treinado para português brasileiro, para geração de embeddings textuais. O pipeline técnico parte da construção de uma base de dados inédita com 55.733 discursos parlamentares da Câmara dos Deputados, coletados via API REST. Os textos passam por um rigoroso pré-processamento antes da geração de embeddings contextuais. Múltiplos classificadores foram implementados e comparados, incluindo XGBoost (68,05%) e Naive Bayes (63%), com o modelo MLP (67,21%) sendo selecionado para um processo detalhado de otimização, que incluiu balanceamento de classes, tratamento de sobreajuste e validação cruzada em 5 partições. Validado em textos reais de portais partidários, o modelo demonstrou capacidade de generalização, embora mantendo uma taxa de erro consistente em torno de 30%. Os experimentos revelaram a importância crucial do pré-processamento e do balanceamento de classes para a redução de vieses no modelo, além de identificarem limitações significativas na classificação de textos que abordam temas sociais ou utilizam linguagem técnica/institucional. As principais contribuições do trabalho incluem a criação da base de dados inédita, a análise comparativa de diferentes abordagens metodológicas e a identificação detalhada de padrões de erro e limitações, abrindo caminhos para futuras pesquisas na análise automatizada de conteúdo político em português. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-11-12T19:58:39Z |
| dc.date.issued.fl_str_mv |
2025-08-19 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://dspace.mackenzie.br/handle/10899/41556 |
| url |
https://dspace.mackenzie.br/handle/10899/41556 |
| dc.language.iso.fl_str_mv |
por eng |
| language |
por eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
| dc.publisher.initials.fl_str_mv |
UPM |
| dc.publisher.country.fl_str_mv |
Brasil |
| publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
| dc.source.none.fl_str_mv |
reponame:Repositório Digital do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
| instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
| instacron_str |
MACKENZIE |
| institution |
MACKENZIE |
| reponame_str |
Repositório Digital do Mackenzie |
| collection |
Repositório Digital do Mackenzie |
| bitstream.url.fl_str_mv |
https://dspace.mackenzie.br/bitstreams/a9b4294f-109a-4511-ac14-330ebfa622a1/download https://dspace.mackenzie.br/bitstreams/6e9f4a0e-1caf-4cd2-a90e-5b18e6a53738/download https://dspace.mackenzie.br/bitstreams/9ae2b852-2852-4aa6-853b-697e06daa123/download https://dspace.mackenzie.br/bitstreams/9b77a731-8412-4c39-ba39-e223887086c8/download |
| bitstream.checksum.fl_str_mv |
594c50163c481578bf9628819936e97b a092685f5fe02015fe6064807ee8feef 2795bfe43da961794555f4a088dcdd17 a573849279da479c7799b69f6fb69496 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE) |
| repository.mail.fl_str_mv |
repositorio@mackenzie.br||paola.damato@mackenzie.br |
| _version_ |
1854952100411211776 |