Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Freitas, Lucas Jose Gonçalves
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.unb.br/handle/10482/48841
Resumo: Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.
id UNB_ad986fd0d0ee7f8062a89616d8963340
oai_identifier_str oai:repositorio.unb.br:10482/48841
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceadosAgenda 2030Aprendizagem de máquinaDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.O Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade. Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados.The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such do cuments are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.Instituto de Ciências Exatas (IE)Departamento de Estatística (IE EST)Programa de Pós-Graduação em EstatísticaRodriques, Thaís Carvalho ValadaresFreitas, Lucas Jose Gonçalves2024-07-13T05:01:35Z2024-07-13T05:01:35Z2024-07-132023-02-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.http://repositorio.unb.br/handle/10482/48841porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-02-27T17:57:44Zoai:repositorio.unb.br:10482/48841Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-02-27T17:57:44Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
title Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
spellingShingle Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
Freitas, Lucas Jose Gonçalves
Agenda 2030
Aprendizagem de máquina
title_short Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
title_full Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
title_fullStr Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
title_full_unstemmed Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
title_sort Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
author Freitas, Lucas Jose Gonçalves
author_facet Freitas, Lucas Jose Gonçalves
author_role author
dc.contributor.none.fl_str_mv Rodriques, Thaís Carvalho Valadares
dc.contributor.author.fl_str_mv Freitas, Lucas Jose Gonçalves
dc.subject.por.fl_str_mv Agenda 2030
Aprendizagem de máquina
topic Agenda 2030
Aprendizagem de máquina
description Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023-02-09
2024-07-13T05:01:35Z
2024-07-13T05:01:35Z
2024-07-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.
http://repositorio.unb.br/handle/10482/48841
identifier_str_mv FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.
url http://repositorio.unb.br/handle/10482/48841
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083767191306240