Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Sakiyama, Kenzo Miranda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/
Resumo: A grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.
id USP_858f85fbc7f6c1c5010fe9394b831066
oai_identifier_str oai:teses.usp.br:tde-18122023-153735
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico BrasileiroAutomated Keyphrase Generation for Brazilian Legal Information RetrievalAprendizado de máquinaAprendizado profundoDeep learningGeração de textoInformation retrievalMachine learningNatural language processingProcessamento de linguagem naturalRecuperação de informaçõesText generationA grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.The large quantity of legal processes in transit in Brazil highlights the slowness of the Brazilian judicial system. Therefore, there is a great need to develop ways to automate and improve existing processes. The recent advancements in Natural Language Processing (NLP) enable the application of state-of-the-art methods to automate tasks in different domains. Thus, in this work, we address the problem of automating the writing of keyphrases: a sequence of key terms present in documents used in courts throughout Brazil. For this, we proposed the use of a text-to-text framework based on generative Transformers. We evaluated several generative models (PTT5, mT5, OPT, and BLOOM) and compared their performances for the proposed task. PTT5 was chosen as the keyphrase generator, as it achieved a BLEU score of 37.54% on the test set, outperforming the other evaluated models by up to 24.6%. Finally, to assess the influence and quality of the generated keyphrases, we performed four experiments based on a real case of information retrieval in the legal domain. By using traditional information retrieval methods (TF-IDF and BM25); in combination with the original, generated keyphrases, or both; we observed statistically significant gains (p-value < 0.05) in all experiments.Biblioteca Digitais de Teses e Dissertações da USPNogueira, Rodrigo FrassettoRomero, Roseli Aparecida FrancelinSakiyama, Kenzo Miranda2023-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-12-18T17:46:02Zoai:teses.usp.br:tde-18122023-153735Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-18T17:46:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
Automated Keyphrase Generation for Brazilian Legal Information Retrieval
title Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
spellingShingle Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
Sakiyama, Kenzo Miranda
Aprendizado de máquina
Aprendizado profundo
Deep learning
Geração de texto
Information retrieval
Machine learning
Natural language processing
Processamento de linguagem natural
Recuperação de informações
Text generation
title_short Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
title_full Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
title_fullStr Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
title_full_unstemmed Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
title_sort Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro
author Sakiyama, Kenzo Miranda
author_facet Sakiyama, Kenzo Miranda
author_role author
dc.contributor.none.fl_str_mv Nogueira, Rodrigo Frassetto
Romero, Roseli Aparecida Francelin
dc.contributor.author.fl_str_mv Sakiyama, Kenzo Miranda
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado profundo
Deep learning
Geração de texto
Information retrieval
Machine learning
Natural language processing
Processamento de linguagem natural
Recuperação de informações
Text generation
topic Aprendizado de máquina
Aprendizado profundo
Deep learning
Geração de texto
Information retrieval
Machine learning
Natural language processing
Processamento de linguagem natural
Recuperação de informações
Text generation
description A grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258258606129152