Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais

Lemos, Rafael Bezerra Melo Sousa

Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Lemos, Rafael Bezerra Melo Sousa
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Linguagem de programação Investigação criminal Análise de dados
Link de acesso:	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025
Resumo:	Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua.

Metadados do item

id	UFOR_2b93d19d69dc0e953fa658c38ebcdde0
oai_identifier_str	oai::591025
network_acronym_str	UFOR
network_name_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminaisLinguagem de programaçãoInvestigação criminalAnálise de dadosEsta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua.This dissertation presents contributions to the field of digital criminal investigation. Through the use of a corpus of social media messages from cell phones seized in prisons, a Portuguese language model called BERT Sherlock was improved to help classify excerpts of conversations that could indicate criminal activity. The comparison between algorithms that use the BERT Sherlock model and traditional approaches demonstrates an advantage of the former over conventional methods. Furthermore, analyzes revealed that BERT Sherlock is capable of identifying suspicious messages that indicate illicit activities, including those that use slang and specific language unknown to investigators. These results provide evidence that the model is effective in identifying suspicious messages, taking into account the context in which they are used. The research therefore contributes to increasing the efficiency of crime analysts when dealing with social media messages in criminal investigations, especially those related to illicit activities. Key-words: Natural Language Processing, Classification of Informal Messages, BERTimbau Model Refinement, Language Model Training.A Dissertação foi enviada com autorização e certificação via CI 5540/25 em 04/02/2025.Nepomuceno, Napoleão VieiraPinheiro, Vladia Celia MonteiroFurtado, João José Vasco PeixotoSilveira, Francisca Raquel de VasconcelosUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaLemos, Rafael Bezerra Melo Sousa2024info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf61f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025https://uol.unifor.br/auth-sophia/exibicao/39829porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-02-25T14:36:36Zoai::591025Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br\|\|bib@unifor.bropendoar:2025-02-25T14:36:36Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
title	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
spellingShingle	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais Lemos, Rafael Bezerra Melo Sousa Linguagem de programação Investigação criminal Análise de dados
title_short	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
title_full	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
title_fullStr	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
title_full_unstemmed	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
title_sort	Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais
author	Lemos, Rafael Bezerra Melo Sousa
author_facet	Lemos, Rafael Bezerra Melo Sousa
author_role	author
dc.contributor.none.fl_str_mv	Nepomuceno, Napoleão Vieira Pinheiro, Vladia Celia Monteiro Furtado, João José Vasco Peixoto Silveira, Francisca Raquel de Vasconcelos Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv	Lemos, Rafael Bezerra Melo Sousa
dc.subject.por.fl_str_mv	Linguagem de programação Investigação criminal Análise de dados
topic	Linguagem de programação Investigação criminal Análise de dados
description	Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas. Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua.
publishDate	2024
dc.date.none.fl_str_mv	2024
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025
url	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591025
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://uol.unifor.br/auth-sophia/exibicao/39829
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 61f.
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR
instname_str	Universidade de Fortaleza (UNIFOR)
instacron_str	UNIFOR
institution	UNIFOR
reponame_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
collection	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv	bib@unifor.br\|\|bib@unifor.br
_version_	1846365346282340352

Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais

Registros relacionados