Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1884/78717 |
Resumo: | Orientador: Luiz Eduardo S. Oliveira |
| id |
UFPR_1948b0937d70ab7bdecc16a96e21030c |
|---|---|
| oai_identifier_str |
oai:acervodigital.ufpr.br:1884/78717 |
| network_acronym_str |
UFPR |
| network_name_str |
Repositório Institucional da UFPR |
| repository_id_str |
|
| spelling |
Noguti, Mariana Yukari, 1987-Vellasques, Eduardo, 1979-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaOliveira, Luiz Eduardo Soares de, 1971-2022-10-24T15:31:28Z2022-10-24T15:31:28Z2022https://hdl.handle.net/1884/78717Orientador: Luiz Eduardo S. OliveiraCoorientador: Eduardo VellasquesDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 05/08/2022Inclui referênciasÁrea de concentração: Ciência da ComputaçãoResumo: O presente trabalho procura investigar a performance de técnicas de transfer learning em conjunto com técnicas de data augmentation e diferentes algoritmos de aprendizagem supervisionada e semi-supervisionada na classificação de textos da área legal em tópicos pré-definidos. A intenção é investigar as melhores técnicas capazes de otimizar a performance na aludida tarefa utilizando uma base de dados rotulados relativamente pequena e grandes quantidades de dados não rotulados. Mais especificamente, serão utilizados como teste dados de atendimentos ao público realizados pelo Ministério Público do Estado do Paraná (MPPR), com o objetivo de classificar as descrições dos atendimentos em um dos assuntos listados pela instituição e automatizar a tarefa no sistema de registros. Como os integrantes da instituição possuem diversas demandas, não é possível avaliar um grande volume de dados, de modo que a otimização de classificadores com utilização de poucos dados é uma tarefa relevante para o desenvolvimento do produto final. Além disso, considerando o vocabulário particular utilizado cotidianamente pelo MPPR, pretende-se avaliar o impacto da realização de fine-tuning em modelos de linguagem pré-existentes em português na performance do classificador. Para a presente pesquisa foi obtida uma base rotulada contendo 6.500 observações com o objetivo de classificar textos curtos em 50 diferentes assuntos relacionados às áreas de atuação do MPPR. Também foram disponibilizados grandes volumes de observações não rotuladas para compor uma base semi-supervisionada, bem como uma base contendo mais de um milhão de registros internos, utilizada no treinamento de diferentes modelos de linguagem. Os resultados da pesquisa demonstram que, no caso da aprendizagem supervisionada através de classificadores lineares como a Regressão Logística e o SVM e ensembles como o Gradient Boosting e Random Forest, a melhor performance é observada utilizando embeddings extraídos pela técnica word2vec quando comparado com o modelo BERT. Este último demonstra performance superior quando utiliza como vantagem a arquitetura do próprio modelo como classificador, tendo superado os modelos anteriores neste sentido. O melhor resultado obtido indica que o uso conjunto do modelo de linguagem BERT ajustado ao vocabulário jurídico, técnicas específicas de aprendizado semi-supervisionado e data augmentation obtém melhor performance quando comparado aos demais modelos, com obtenção de acurácia de 80,7% na predição de 50 classes.Abstract: This research seeks to investigate the performance of transfer learning techniques in conjunction with data augmentation and different supervised and semi-supervised learning algorithms in the classification of texts in the legal area on predefined topics. The intention is to investigate how the recent advances in Natural Language Processing (NLP) can contribute to tackle such type of problem (where amount of labelled data is low but there is a large volume of unlabelled/domain-specific data). More specifically, we will use the records of demands to the Public Prosecutor’s Office of the State of Paraná in order to classify the descriptions in one of the subjects listed by the institution and automate the task in the records system. Considering that the members of the institution have several demands, it is not possible to evaluate a large volume of data, so that the optimization of classifiers in low regime data is a relevant task for the development of the final product. In addition, considering the specificity of the vocabulary used by the MPPR, it is intended to assess the impact of fine-tuning pre-existing Portuguese language models on the classifier’s performance. For this investigation, a labeled dataset was obtained containing 6,500 observations in order to classify texts on 50 different categories related to the areas of activity of the MPPR. Large volumes of unlabeled observations were also made available to compose a semi-supervised dataset, as well as a dataset containing more than one million internal records, used in the training of different language models. Our results demonstrate that, in the case of supervised learning through linear classifiers such as Logistic Regression and SVM and boosted trees such as Gradient Boosting and Random Forest, better performance is observed using embeddings extracted by the word2vec technique when compared to the BERT model. The latter demonstrates superior performance when using the architecture of the model itself as a classifier to its advantage, having surpassed the previous models in this sense. The best result obtained indicates that the joint use of the BERT language model fine-tuned to the legal vocabulary, specific techniques of semi-supervised learning and data augmentation presents better performance when compared to all previous models, having obtained an accuracy of 80.7% in the prediction of 50 classes.1 recurso online : PDF.application/pdfAlgorítmosProcessamento da linguagem natural (Computação)Inteligência artificialCiência da ComputaçãoComparison of natural language processing algorithms applied to small supervised datasets in the legal domaininfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisengreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MARIANA YUKARI NOGUTI.pdfapplication/pdf1657928https://acervodigital.ufpr.br/bitstream/1884/78717/1/R%20-%20D%20-%20MARIANA%20YUKARI%20NOGUTI.pdff660a21f11eb488f99c3809ae11c1150MD51open access1884/787172022-10-24 12:31:28.486open accessoai:acervodigital.ufpr.br:1884/78717Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082022-10-24T15:31:28Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
| dc.title.pt_BR.fl_str_mv |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| title |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| spellingShingle |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain Noguti, Mariana Yukari, 1987- Algorítmos Processamento da linguagem natural (Computação) Inteligência artificial Ciência da Computação |
| title_short |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| title_full |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| title_fullStr |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| title_full_unstemmed |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| title_sort |
Comparison of natural language processing algorithms applied to small supervised datasets in the legal domain |
| author |
Noguti, Mariana Yukari, 1987- |
| author_facet |
Noguti, Mariana Yukari, 1987- |
| author_role |
author |
| dc.contributor.other.pt_BR.fl_str_mv |
Vellasques, Eduardo, 1979- Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
| dc.contributor.author.fl_str_mv |
Noguti, Mariana Yukari, 1987- |
| dc.contributor.advisor1.fl_str_mv |
Oliveira, Luiz Eduardo Soares de, 1971- |
| contributor_str_mv |
Oliveira, Luiz Eduardo Soares de, 1971- |
| dc.subject.por.fl_str_mv |
Algorítmos Processamento da linguagem natural (Computação) Inteligência artificial Ciência da Computação |
| topic |
Algorítmos Processamento da linguagem natural (Computação) Inteligência artificial Ciência da Computação |
| description |
Orientador: Luiz Eduardo S. Oliveira |
| publishDate |
2022 |
| dc.date.accessioned.fl_str_mv |
2022-10-24T15:31:28Z |
| dc.date.available.fl_str_mv |
2022-10-24T15:31:28Z |
| dc.date.issued.fl_str_mv |
2022 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/78717 |
| url |
https://hdl.handle.net/1884/78717 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
| instname_str |
Universidade Federal do Paraná (UFPR) |
| instacron_str |
UFPR |
| institution |
UFPR |
| reponame_str |
Repositório Institucional da UFPR |
| collection |
Repositório Institucional da UFPR |
| bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/78717/1/R%20-%20D%20-%20MARIANA%20YUKARI%20NOGUTI.pdf |
| bitstream.checksum.fl_str_mv |
f660a21f11eb488f99c3809ae11c1150 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
| repository.mail.fl_str_mv |
informacaodigital@ufpr.br |
| _version_ |
1847526171437170688 |