Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.unb.br/handle/10482/48841 |
Resumo: | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023. |
| id |
UNB_ad986fd0d0ee7f8062a89616d8963340 |
|---|---|
| oai_identifier_str |
oai:repositorio.unb.br:10482/48841 |
| network_acronym_str |
UNB |
| network_name_str |
Repositório Institucional da UnB |
| repository_id_str |
|
| spelling |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceadosAgenda 2030Aprendizagem de máquinaDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.O Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade. Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados.The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such do cuments are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.Instituto de Ciências Exatas (IE)Departamento de Estatística (IE EST)Programa de Pós-Graduação em EstatísticaRodriques, Thaís Carvalho ValadaresFreitas, Lucas Jose Gonçalves2024-07-13T05:01:35Z2024-07-13T05:01:35Z2024-07-132023-02-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.http://repositorio.unb.br/handle/10482/48841porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-02-27T17:57:44Zoai:repositorio.unb.br:10482/48841Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-02-27T17:57:44Repositório Institucional da UnB - Universidade de Brasília (UnB)false |
| dc.title.none.fl_str_mv |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| title |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| spellingShingle |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados Freitas, Lucas Jose Gonçalves Agenda 2030 Aprendizagem de máquina |
| title_short |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| title_full |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| title_fullStr |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| title_full_unstemmed |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| title_sort |
Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados |
| author |
Freitas, Lucas Jose Gonçalves |
| author_facet |
Freitas, Lucas Jose Gonçalves |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Rodriques, Thaís Carvalho Valadares |
| dc.contributor.author.fl_str_mv |
Freitas, Lucas Jose Gonçalves |
| dc.subject.por.fl_str_mv |
Agenda 2030 Aprendizagem de máquina |
| topic |
Agenda 2030 Aprendizagem de máquina |
| description |
Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-02-09 2024-07-13T05:01:35Z 2024-07-13T05:01:35Z 2024-07-13 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023. http://repositorio.unb.br/handle/10482/48841 |
| identifier_str_mv |
FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023. |
| url |
http://repositorio.unb.br/handle/10482/48841 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
| instname_str |
Universidade de Brasília (UnB) |
| instacron_str |
UNB |
| institution |
UNB |
| reponame_str |
Repositório Institucional da UnB |
| collection |
Repositório Institucional da UnB |
| repository.name.fl_str_mv |
Repositório Institucional da UnB - Universidade de Brasília (UnB) |
| repository.mail.fl_str_mv |
repositorio@unb.br |
| _version_ |
1839083767191306240 |