Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Cunha, Robson Ortz Oliveira
Orientador(a): Stern, Rafael Bassi lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/19866
Resumo: Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry.
id SCAR_d60cf512355a113a9a3e06219f7ad43e
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/19866
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Cunha, Robson Ortz OliveiraStern, Rafael Bassihttp://lattes.cnpq.br/7846211197320014http://lattes.cnpq.br/27383986673473312024-07-10T20:29:33Z2024-07-10T20:29:33Z2024-02-19CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866.https://repositorio.ufscar.br/handle/20.500.14289/19866Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry.Dada a crescente necessidade e importância da análise de dados textuais no ramo da inteligência artificial, modelos que possam compreender melhor a linguagem humana e lidar com dados não estruturados têm ganhado cada vez mais relevância. Neste trabalho, desenvolvemos um estudo sobre o Processo Hierárquico de Dirichlet (HDP) na modelagem de tópicos textuais, explorando seus aspectos práticos ao aplicá-lo em um conjunto de dados (\textit{corpus}) de processos jurídicos, compostos por três tipos de procedimentos distintos. Discorremos sobre as principais propriedades do HDP, sobre a ótica Bayesiana, assumindo que os dados sejam oriundos de uma distribuição de probabilidade Multinomial, baseados no modelo de representação textual de \textit{bag-of-words}, comumente utilizado em processamento de linguagem natural. Procedemos ainda com algumas técnicas de pré-processamento textual, que resultaram em documentos (dados) mais parcimoniosos, e com um estudo de simulação para verificar a performance do modelo. Ao fim do trabalho, apresentamos os resultados das aplicações realizadas e discutimos sobre a problemática da análise de dados em jurimetria.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessModelo não paramétrico BayesianoProcesso hierárquico de DirichletJurimetriaModelagem de tópicos textuaisNon-parametric Bayesian modelHierarchical Dirichlet processTopic modelingJurimetryCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICAModelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicosNonparametric Bayesian hierarchical model applied to topic modelinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTversao_final_dissertacao_robson_ortz.pdf.txtversao_final_dissertacao_robson_ortz.pdf.txtExtracted texttext/plain105035https://repositorio.ufscar.br/bitstreams/d2e44882-33e3-4f28-bfe8-f158eefa73b9/download13c091c2a0c617f95074e853663771e8MD53falseAnonymousREADTHUMBNAILversao_final_dissertacao_robson_ortz.pdf.jpgversao_final_dissertacao_robson_ortz.pdf.jpgGenerated Thumbnailimage/jpeg6771https://repositorio.ufscar.br/bitstreams/ecb51249-5907-4d11-a4fa-dc29856a0fd1/download1d02250300076fe604102ab262711839MD54falseAnonymousREADORIGINALversao_final_dissertacao_robson_ortz.pdfversao_final_dissertacao_robson_ortz.pdfVersão Final Dissertação de Mestradoapplication/pdf2168159https://repositorio.ufscar.br/bitstreams/2dd4408e-6027-47ad-933a-9360e5cfabee/download7566fe1e96bc018f1c90ca304f8dc32bMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/e2be4fa8-3820-4bda-a6e6-1d4ae4467f7b/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/198662025-02-06 02:11:58.612http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19866https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T05:11:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
dc.title.alternative.eng.fl_str_mv Nonparametric Bayesian hierarchical model applied to topic modeling
title Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
spellingShingle Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
Cunha, Robson Ortz Oliveira
Modelo não paramétrico Bayesiano
Processo hierárquico de Dirichlet
Jurimetria
Modelagem de tópicos textuais
Non-parametric Bayesian model
Hierarchical Dirichlet process
Topic modeling
Jurimetry
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
title_short Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
title_full Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
title_fullStr Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
title_full_unstemmed Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
title_sort Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
author Cunha, Robson Ortz Oliveira
author_facet Cunha, Robson Ortz Oliveira
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/2738398667347331
dc.contributor.author.fl_str_mv Cunha, Robson Ortz Oliveira
dc.contributor.advisor1.fl_str_mv Stern, Rafael Bassi
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7846211197320014
contributor_str_mv Stern, Rafael Bassi
dc.subject.por.fl_str_mv Modelo não paramétrico Bayesiano
Processo hierárquico de Dirichlet
Jurimetria
Modelagem de tópicos textuais
topic Modelo não paramétrico Bayesiano
Processo hierárquico de Dirichlet
Jurimetria
Modelagem de tópicos textuais
Non-parametric Bayesian model
Hierarchical Dirichlet process
Topic modeling
Jurimetry
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
dc.subject.eng.fl_str_mv Non-parametric Bayesian model
Hierarchical Dirichlet process
Topic modeling
Jurimetry
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
description Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-07-10T20:29:33Z
dc.date.available.fl_str_mv 2024-07-10T20:29:33Z
dc.date.issued.fl_str_mv 2024-02-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/19866
identifier_str_mv CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866.
url https://repositorio.ufscar.br/handle/20.500.14289/19866
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/d2e44882-33e3-4f28-bfe8-f158eefa73b9/download
https://repositorio.ufscar.br/bitstreams/ecb51249-5907-4d11-a4fa-dc29856a0fd1/download
https://repositorio.ufscar.br/bitstreams/2dd4408e-6027-47ad-933a-9360e5cfabee/download
https://repositorio.ufscar.br/bitstreams/e2be4fa8-3820-4bda-a6e6-1d4ae4467f7b/download
bitstream.checksum.fl_str_mv 13c091c2a0c617f95074e853663771e8
1d02250300076fe604102ab262711839
7566fe1e96bc018f1c90ca304f8dc32b
f337d95da1fce0a22c77480e5e9a7aec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688919110778880