Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/19866 |
Resumo: | Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry. |
| id |
SCAR_d60cf512355a113a9a3e06219f7ad43e |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/19866 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Cunha, Robson Ortz OliveiraStern, Rafael Bassihttp://lattes.cnpq.br/7846211197320014http://lattes.cnpq.br/27383986673473312024-07-10T20:29:33Z2024-07-10T20:29:33Z2024-02-19CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866.https://repositorio.ufscar.br/handle/20.500.14289/19866Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry.Dada a crescente necessidade e importância da análise de dados textuais no ramo da inteligência artificial, modelos que possam compreender melhor a linguagem humana e lidar com dados não estruturados têm ganhado cada vez mais relevância. Neste trabalho, desenvolvemos um estudo sobre o Processo Hierárquico de Dirichlet (HDP) na modelagem de tópicos textuais, explorando seus aspectos práticos ao aplicá-lo em um conjunto de dados (\textit{corpus}) de processos jurídicos, compostos por três tipos de procedimentos distintos. Discorremos sobre as principais propriedades do HDP, sobre a ótica Bayesiana, assumindo que os dados sejam oriundos de uma distribuição de probabilidade Multinomial, baseados no modelo de representação textual de \textit{bag-of-words}, comumente utilizado em processamento de linguagem natural. Procedemos ainda com algumas técnicas de pré-processamento textual, que resultaram em documentos (dados) mais parcimoniosos, e com um estudo de simulação para verificar a performance do modelo. Ao fim do trabalho, apresentamos os resultados das aplicações realizadas e discutimos sobre a problemática da análise de dados em jurimetria.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessModelo não paramétrico BayesianoProcesso hierárquico de DirichletJurimetriaModelagem de tópicos textuaisNon-parametric Bayesian modelHierarchical Dirichlet processTopic modelingJurimetryCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICAModelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicosNonparametric Bayesian hierarchical model applied to topic modelinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTversao_final_dissertacao_robson_ortz.pdf.txtversao_final_dissertacao_robson_ortz.pdf.txtExtracted texttext/plain105035https://repositorio.ufscar.br/bitstreams/d2e44882-33e3-4f28-bfe8-f158eefa73b9/download13c091c2a0c617f95074e853663771e8MD53falseAnonymousREADTHUMBNAILversao_final_dissertacao_robson_ortz.pdf.jpgversao_final_dissertacao_robson_ortz.pdf.jpgGenerated Thumbnailimage/jpeg6771https://repositorio.ufscar.br/bitstreams/ecb51249-5907-4d11-a4fa-dc29856a0fd1/download1d02250300076fe604102ab262711839MD54falseAnonymousREADORIGINALversao_final_dissertacao_robson_ortz.pdfversao_final_dissertacao_robson_ortz.pdfVersão Final Dissertação de Mestradoapplication/pdf2168159https://repositorio.ufscar.br/bitstreams/2dd4408e-6027-47ad-933a-9360e5cfabee/download7566fe1e96bc018f1c90ca304f8dc32bMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/e2be4fa8-3820-4bda-a6e6-1d4ae4467f7b/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/198662025-02-06 02:11:58.612http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19866https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T05:11:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| dc.title.alternative.eng.fl_str_mv |
Nonparametric Bayesian hierarchical model applied to topic modeling |
| title |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| spellingShingle |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos Cunha, Robson Ortz Oliveira Modelo não paramétrico Bayesiano Processo hierárquico de Dirichlet Jurimetria Modelagem de tópicos textuais Non-parametric Bayesian model Hierarchical Dirichlet process Topic modeling Jurimetry CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA |
| title_short |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| title_full |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| title_fullStr |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| title_full_unstemmed |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| title_sort |
Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos |
| author |
Cunha, Robson Ortz Oliveira |
| author_facet |
Cunha, Robson Ortz Oliveira |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/2738398667347331 |
| dc.contributor.author.fl_str_mv |
Cunha, Robson Ortz Oliveira |
| dc.contributor.advisor1.fl_str_mv |
Stern, Rafael Bassi |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7846211197320014 |
| contributor_str_mv |
Stern, Rafael Bassi |
| dc.subject.por.fl_str_mv |
Modelo não paramétrico Bayesiano Processo hierárquico de Dirichlet Jurimetria Modelagem de tópicos textuais |
| topic |
Modelo não paramétrico Bayesiano Processo hierárquico de Dirichlet Jurimetria Modelagem de tópicos textuais Non-parametric Bayesian model Hierarchical Dirichlet process Topic modeling Jurimetry CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA |
| dc.subject.eng.fl_str_mv |
Non-parametric Bayesian model Hierarchical Dirichlet process Topic modeling Jurimetry |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA |
| description |
Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (\textit{corpus}) of legal processes, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspective, assuming that the data comes from a Multinomial probability distribution, based on the \textit{bag-of-words} textual representation model, commonly used in natural language processing . We also proceeded with some textual pre-processing techniques, which resulted in more parsimonious documents (data), and with a simulation study to verify the model's performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry. |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-07-10T20:29:33Z |
| dc.date.available.fl_str_mv |
2024-07-10T20:29:33Z |
| dc.date.issued.fl_str_mv |
2024-02-19 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/19866 |
| identifier_str_mv |
CUNHA, Robson Ortz Oliveira. Modelo hierárquico Bayesiano não paramétrico aplicado em modelagem de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19866. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/19866 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/d2e44882-33e3-4f28-bfe8-f158eefa73b9/download https://repositorio.ufscar.br/bitstreams/ecb51249-5907-4d11-a4fa-dc29856a0fd1/download https://repositorio.ufscar.br/bitstreams/2dd4408e-6027-47ad-933a-9360e5cfabee/download https://repositorio.ufscar.br/bitstreams/e2be4fa8-3820-4bda-a6e6-1d4ae4467f7b/download |
| bitstream.checksum.fl_str_mv |
13c091c2a0c617f95074e853663771e8 1d02250300076fe604102ab262711839 7566fe1e96bc018f1c90ca304f8dc32b f337d95da1fce0a22c77480e5e9a7aec |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688919110778880 |