Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Lima, Alexandre Gomes de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Brasil
UFRN
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufrn.br/handle/123456789/56540
Resumo: Legal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.
id UFRN_0c7dbb2f00edaf7f5e5b8a56a8dd5635
oai_identifier_str oai:repositorio.ufrn.br:123456789/56540
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadoresImproving legal rhetorical role labeling through additional data and efficient exploitation of transformer modelsComputaçãoCodificação de sentençasBERTJulgamentoClassificação de sentençasSentence encodingJudgmentSentence classificationCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOLegal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.Universidade Federal do Rio Grande do NorteBrasilUFRNPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOAranha, Eduardo Henrique da Silvahttps://orcid.org/0000-0001-7251-0008http://lattes.cnpq.br/4063478137671603http://lattes.cnpq.br/9520477461031645Silva, Ivanovitch Medeiros Dantas dahttps://orcid.org/0000-0002-0116-6489http://lattes.cnpq.br/3608440944832201Moreno, José GuillermoBezerra, Leonardo César TeonácioDkaki, TaoufiqLima, Alexandre Gomes de2023-12-20T20:16:46Z2023-12-20T20:16:46Z2023-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/56540info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2023-12-20T20:17:45Zoai:repositorio.ufrn.br:123456789/56540Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2023-12-20T20:17:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.none.fl_str_mv Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models
title Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
spellingShingle Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
Lima, Alexandre Gomes de
Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_fullStr Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full_unstemmed Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_sort Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
author Lima, Alexandre Gomes de
author_facet Lima, Alexandre Gomes de
author_role author
dc.contributor.none.fl_str_mv Aranha, Eduardo Henrique da Silva
https://orcid.org/0000-0001-7251-0008
http://lattes.cnpq.br/4063478137671603
http://lattes.cnpq.br/9520477461031645
Silva, Ivanovitch Medeiros Dantas da
https://orcid.org/0000-0002-0116-6489
http://lattes.cnpq.br/3608440944832201
Moreno, José Guillermo
Bezerra, Leonardo César Teonácio
Dkaki, Taoufiq
dc.contributor.author.fl_str_mv Lima, Alexandre Gomes de
dc.subject.por.fl_str_mv Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description Legal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-20T20:16:46Z
2023-12-20T20:16:46Z
2023-06-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
https://repositorio.ufrn.br/handle/123456789/56540
identifier_str_mv LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
url https://repositorio.ufrn.br/handle/123456789/56540
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
Brasil
UFRN
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
Brasil
UFRN
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv repositorio@bczm.ufrn.br
_version_ 1855758788761485312